Tải bản đầy đủ (.docx) (75 trang)

XÂY DỰNG bộ NHẬN DẠNG TIẾNG nói tự ĐỘNG bền VỮNG với môi TRƯỜNG NHIỄU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.16 MB, 75 trang )

NHẬN XÉT CỦA GVHD
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
…………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………

Đà Nẵng, ngày tháng năm 2011
Kí tên
TS. Phạm Văn Tuấn
I
LỜI CAM ĐOAN NHẬN XÉT CỦA GVHD
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
LỜI CAM ĐOAN
Kính gửi: Hội đồng bảo vệ đồ án tốt nghiệp Khoa Điện tử - Viễn thông,
Trường Đại Học Bách Khoa Đà Nẵng.
Em tên là: Nguyễn Thị Bích Ngọc
Hiện đang học lớp 06DT4, Khoa Điện tử - Viễn thông, Trường Đại Học Bách Khoa
Đà Nẵng.
Em xin cam đoan nội dung của đồ án này không phải là bản sao chép của bất cứ đồ
án hoặc công trình đã có từ trước.


Đà Nẵng, tháng 6 năm
2011
Sinh viên thực hiện
Nguyễn Thị Bích Ngọc
II
LỜI CẢM ƠN
LỜI CẢM ƠN
Em xin chân thành cảm ơn thầy giáo, TS. Phạm Văn Tuấn đã hướng dẫn
chúng em tận tình, cung cấp tài liệu, cũng như tạo mọi điều kiện thuận lợi để em có
thể hoàn thành được đồ án này.
Em xin chân thành cảm ơn các thầy cô giáo trong khoa Điện tử - Viễn thông,
Trường Đại Học Bách Khoa Đà Nẵng đã truyền đạt những kiến thức bổ ích cho em
trong suốt thời gian học tại trường để em có đủ kiến thức để hoàn thành đồ án.
III
MỤC LỤC
MỤC LỤC
CÁC TỪ VIẾT TẮT………………….…………………………………………….… 1
LỜI MỞ ĐẦU…………… …………………………………………………………… 2
IV
CÁC TỪ VIẾT TẮT
CÁC TỪ VIẾT TẮT
AFE : Advanced Front-End
ASR : Automatic Speech Recognition
DCT : Discrete Cosine Transform
DSR : Distribution Speech Recognition
DTW : Dynamic Time Warping
ETSI : European Telecommunications Standards Institude
ETSI-Nest : ETSI noise estimation
FFT : Fast Fourier Transform
FSN : Finite State Network

HMM : Hidden Markov Model
HTK : Hidden Markov Model Toolkit
LPC : Linear Prediction Coded
MFCC : Mel-Frequency Cepstral Coefficient
ML : Maximum Likelihood
MMSE : Minimum Mean Square Error
SFE : Standard Front-End
SNR : Signal to Noise Ratio
SNR
pri
: Priori SNR
SNR
post
: Postiriori SNR
STSA : Short-time Spectral Amplitude
VAD : Voice Activity Detection
VQ : Vector Quantilization
WAC : Word Accuracy
WER : Word Error Rate
WRR : Word Recognition Rate
Trang 1
LỜI MỞ ĐÀU
LỜI MỞ ĐẦU
Việc thiết kế được một hệ thống máy móc có khả năng hiểu được ngôn ngữ
nói và đáp ứng đúng những yêu cầu của người nói là tham vọng của các nhà khoa
học và kĩ sư trong nhiều thập kỉ qua. Công cuộc xây dựng các hệ thống nhận dạng
tiếng nói tự động (ASR) bắt đầu từ những năm 30 của thế kỉ thứ 19 và tiếp tục phát
triển cho đến ngày nay. Hiện tại, các hệ thống nhận dạng tiếng nói được sử dụng
khá nhiều trong thực tế, đặc biệt là các ứng dụng đòi hỏi giao diện giữa máy móc và
người sử dụng. Các ứng dụng này rất đa dạng và xuất hiện trong nhiều lĩnh vực

khác nhau: Tự động xử lý cuộc gọi trong mạng điện thoại, quay số bằng giọng nói,
định tuyến cho cuộc gọi, tìm kiếm bằng giọng nói (ví dụ tìm các file podcast tương
ứng với từ được nói ra), nhập các số của thẻ tín dụng vào hệ thống, chuyển lời nói
thành văn bản (ví dụ ghi ra bảng điều trị trong y khoa), và nhiều ứng dụng khác.
Được sử dụng rộng rãi là vậy, nhưng hiệu suất các hệ thống ASR như trên lại
bị giảm rõ rệt ở các môi trường bất lợi, chẳng hạn như nhiễu,… Vì thế, việc nghiên
cứu xây dựng các bộ nhận dạng bền vững, có khả năng làm việc hiệu quả trong
những môi trường như vậy mang ý nghĩa rất lớn. Trên thực tế, có nhiều phương
pháp đã được đề xuất nhằm xây dựng bộ ASR bền vững như giảm nhiễu ở khối tiền
xử lý, thích nghi mô hình âm học, trích chọn thuộc tính âm học bền vững đối với
nhiễu, Trong đó, giảm nhiễu là phương pháp cho hiệu quả cao với các hệ thống
ASR. Vì vậy, chúng tôi chọn nghiên cứu về phương pháp giảm nhiễu với các thuật
toán dựa trên lý thuyết tối thiểu hóa bình phương độ lệch trung bình, ví dụ: bộ lọc
Wiener, MMSE-STSA, MMSE-MS,…, để đánh giá vai trò của việc giảm nhiễu
trong nâng cao hiệu suất nhận dạng và so sánh hiệu quả của từng thuật toán.
Nội dung của đồ án gồm 4 chương, trong đó chương 1 giới thiệu về hệ thống nhận
dạng tiếng nói tự động, chương 2 tóm tắt các quy trình xử lý trong khối Front-end
và trình bày nguyên lý của các thuật toán giảm nhiễu, chương 3 chú trọng vào lý
thuyết mô hình Markov ẩn (HMM) và cách giải quyết 3 bài toán của HMM. Cuối
Trang 2
LỜI MỞ ĐÀU
cùng, chương 4 là phần thực hiện nhận dạng tiếng nói dựa trên cơ sở dữ liệu thực và
đánh giả kết quả nhận dạng.
Đồ án được thực hiện bởi các sinh viên:
Đinh Hữu Trọng: Lý thuyết nhận dạng tiếng nói, tổng quan về các hệ thống
nhận dạng, Mô hình Markov ẩn và ứng dụng, Nhận dạng tiếng nói bằng phần
mềm HTK và đánh giá hiệu suất nhận dạng, Xây dựng giao diện mô phỏng và
chạy demo trên nền LINUX.
Nguyễn Thị Bích Ngọc: Lý thuyết nhận dạng tiếng nói, tổng quan về các hệ
thống nhận dạng, Mô hình Markov ẩn và ứng dụng, Khối Front-end và các

thuật toán giảm nhiễu để nâng cao hiệu suất nhận dạng, Tìm hiểu tiêu chuẩn
SFE, Nhận dạng tiếng nói bằng phần mềm HTK và đánh giá hiệu suất nhận
dạng.
Phạm Quốc Việt: Lý thuyết nhận dạng tiếng nói, tổng quan về các hệ thống
nhận dạng, Khối Front-end và các thuật toán giảm nhiễu để nâng cao hiệu suất
bộ nhận dạng, Tìm hiểu tiêu chuẩn AFE, Nhận dạng tiếng nói bằng phần mềm
HTK và đánh giá hiệu suất nhận dạng.
Trang 3
Chương 1: Lý thuyết nhận dạng tiếng nói
CHƯƠNG 1: LÝ THUYẾT VỀ NHẬN DẠNG TIẾNG NÓI
1.1. Giới thiệu chương
Phần đầu chương này sẽ tóm lược một cách khái quát các đặc tính, cơ chế tạo
thành tiếng nói đồng thời cũng đưa ra những giới thiệu sơ lược về hệ thống nhận
dạng tiếng nói, bao gồm cả lịch sử phát triển lẫn cấu trúc, nguyên lý hoạt động cũng
như ứng dụng của nó trong thực tế.
Phần tiếp theo của chương đi sâu vào phân tích thuật toán, nguyên tắc của một
số khối chức năng trong bộ nhận dạng. Phần này sẽ trang bị cho chúng ta những
kiến thức căn bản cần thiết để hiểu rõ hơn cách thức hoạt động của một bộ nhận
dạng.
1.2. Tiếng nói và các đặc tính cơ bản của tiếng nói
1.2.1. Cơ chế tạo thành tiếng nói
Tiếng nói được tạo thành từ các tín hiệu sóng âm phát ra từ miệng và mũi của
người nói, dưới sự hỗ trợ của một loạt các cơ quan trong cơ thể người, gồm:
- Phổi đóng vai trò như bơm không khí, tạo năng lượng hình thành âm.
- Các dây thanh âm: là hai cơ nhỏ ở trong cuống họng, có hai đầu dính
nhau, hai đầu kia dao động (thanh môn mở ra và đóng lại) với tần số cơ
bản (pitch/fundamental frequency) là F
0
.
- Thanh quản và vòm miệng: đóng vai trò giống một hốc cộng hưởng, tạo ra

sự phân biệt tần số khi tín hiệu dao động từ đôi dây thanh âm phát ra. Đáp
ứng tần số của hốc cộng hưởng này có nhiều đỉnh cộng hưởng khác nhau
được gọi là các formant, chứa các thành phần tần số quan trọng của tín
hiệu tiếng nói.
- Miệng: đóng vai trò phát tán âm thanh ra bên ngoài.
- Lưỡi: thay đổi để tạo ra tần số formant khác nhau.
Khi nói, dòng không khí đi từ phổi, qua thanh môn đến cổ họng, rồi thoát ra ở
miệng. Tùy thuộc vào cơ chế phát âm, tín hiệu tiếng nói có thể chia làm các loại:
Âm hữu thanh (voiced sounds), cụ thể là các nguyên âm và phụ âm hữu thanh
như /b/, /d/, /g/, /v/, /z/, /m/, /n/, /l/, /r/, được phát ra cùng với sự rung động của các
dây thanh âm. Ngược lại âm phát ra mà không có sự rung động của dây thanh gọi là
âm vô thanh (unvoiced), ví dụ /k/, /p/, /t/, /s/,
Trang 8
Chương 1: Lý thuyết nhận dạng tiếng nói
1.2.2. Các đặc tính của tiếng nói
- Dải tần của tín hiệu tiếng nói nằm trong khoảng từ 0 kHz đến 20 kHz, tuy
nhiên phần lớn công suất tín hiệu tập trung ở vùng từ 0.3kHz đến 3.4 kHz.
- Tần số trung tâm F
0
: Là tần số rung động của thanh môn, như vậy F
0
cũng
là tần số của các âm hữu thanh. F
0
thay đổi theo thanh điệu và phụ thuộc
giới tính, độ tuổi người nói. F
0
của nam giới trong khoảng 60-200 Hz, của
nữ giới và trẻ em cỡ 300Hz hoặc cao hơn.
- Tần số formant (còn gọi là peak): Các tần số tương ứng với tần số cộng

hưởng của dao động từ đôi dây thanh âm. Trong phổ tần số của tín hiệu
tiếng nói, formant chính là các đỉnh (biên độ lớn) biểu diễn các thành phần
tần số chủ chốt của tiếng nói, mang thông tin để nhận diện được âm. Vì
thế những đỉnh này và đường cong nối liền các đỉnh, còn gọi là đường bao
phổ, đóng vai trò rất quan trọng trong nhận dạng tiếng nói. Tần số formant
biến đổi trong một dải rộng phụ thuộc vào giới tính, độ tuổi người nói, và
vào từng âm vị.
1.2.3. Biểu diễn tín hiệu tiếng nói
- Trong một khoảng thời gian đủ ngắn (khoảng từ 5 đến 100ms), có thể xem tín hiệu
tiếng nói như một tín hiệu biến đổi chậm với các đặc tính hầu như không biến đổi.
Ngược lại, nếu xét trong khoảng thời gian dài (cỡ 1/5 giây trở lên) thì các đặc tính
của tiếng nói thay đổi tương ứng với các âm được nói. Ngoài ra, các âm khác nhau
thì biến đổi tín hiệu cũng diễn ra khác nhau. Ví dụ dưới đây là một minh họa [1]:
Trang 9
Chương 1: Lý thuyết nhận dạng tiếng nói
Hình 1.1. Dạng sóng của câu nói “It’s time”
Phần tín hiệu “S” trong khoảng 100ms ban đầu gần như không đổi tương ứng
với khoảng lặng nền (khi không có tiếng nói) và có biên độ rất nhỏ. Với tín hiệu
tiếng nói, phần khởi tạo thường được biểu diễn dưới dang các khoảng lặng như thế
này. Tiếp đến, phần tín hiệu kí hiệu là “U” biểu diễn cho các âm vô thanh như /s/, /t/
; kí hiệu “V” biểu diễn cho các âm hữu thanh như /i/, /m/, /e/ trong ví dụ.
- Cách thứ hai để mô tả đặc tính của tiếng nói: biểu diễn nó dưới dạng biên độ theo
tần số, còn gọi là phổ (spectrum). Để trực quan hơn, người ta sử dụng một loại biểu
đồ 3-D, tên gọi là giản đồ phổ (spectrogram) để biểu thị cường độ của tiếng nói theo
thời gian, tại các tần số khác nhau.
Trong giản đồ phổ, các âm hữu thanh tuần hoàn với tần số F
0
. Vì vậy phổ của
nguyên âm là phổ vạch, khoảng cách giữa các vạch bằng chính F
0

. Với các âm vô
thanh, phổ tín hiệu có dạng gần giống nhiễu trắng, năng lượng phân bố đều ở vùng
tần số cao. Phổ của các âm hữu thanh thường tập trung nhiều năng lượng hơn phổ
của các âm vô thanh.
Trang 10
Chương 1: Lý thuyết nhận dạng tiếng nói
1.3. Hệ thống nhận dạng tiếng nói
1.3.1. Nhận dạng tiếng nói là gì?
Nhận dạng tiếng nói là quá trình xử lý tiếng nói nhằm biến đổi tín hiệu tiếng
nói được ghi âm thành chuỗi các từ hoặc phiên âm của các từ một cách chính xác và
hiệu quả. Các từ này được đem so sánh với các từ đã được huấn luyện và lưu trữ
trong bộ nhớ trước đó để cho ra kết quả nhận dạng.
1.3.2. Lịch sử phát triển của các hệ thống nhận dạng tiếng nói
Công nghệ nhận dạng tiếng nói tự động (ASR) là một trong những thành tựu
lớn của mảng khoa học máy tính, liên quan trực tiếp đến nhiều môn học như phân
tích và xử lý tín hiệu, toán học thống kê, ứng dụng trong ngôn ngữ học và trí thông
minh nhân tạo. Công nghệ ASR cho phép con người, bằng lời nói, có thể giao tiếp
với máy móc để lấy thông tin hoặc yêu cầu máy thực hiện các công việc mong
muốn. Tuy nhiên, việc nhận dạng không hề đơn giản, nó phức tạp bởi những biến
thể của tiếng nói, ví dụ ngữ điệu, âm vực, điều kiện sức khỏe, giới tính, độ tuổi của
người nói. Hiệu suất của bộ nhận dạng phụ thuộc nhiều yếu tố như kích cỡ bộ từ
vựng, hệ thống là độc lập hay phụ thuộc người nói, là nhận dạng từ đơn hay tiếng
nói liên tục, Vì thế, việc nghiên cứu và xây dựng được những hệ thống như thế cần
một khoảng thời gian dài [2].
Những nghiên cứu về nhận dạng tiếng nói đã ra đời cách đây hơn 70 năm.
Trong khoảng thời gian đó, có ít nhất 4 thế hệ các phương thức tiếp cận và thực
hiện việc nhận dạng tiếng nói, gồm:
+ Thế hệ 1 - Từ những năm 1930 đến 1950: Sử dụng giải pháp ad hoc để
nhận dạng âm thanh, hoặc các từ đơn trong một bộ từ vựng nhỏ.
+ Thế hệ 2 - Từ những năm 1950 đến 1960: Sử dụng các phương pháp dựa

trên âm học, có tên gọi là acoustic-phonetic để nhận dạng các âm vị, âm tiết
hoặc các bộ từ vựng số.
+ Thế hệ 3 - Từ những năm 1960 đến 1980: Dùng phương pháp nhận dạng
mẫu để nhận dạng các chuỗi từ có liên kết hoặc riêng rẽ trong những bộ từ vựng
vừa và nhỏ, gồm: phân tích phổ bằng phương pháp mã hóa dự đoán tuyến tính
(LPC), dùng LPC để tính điểm tương đồng giữa 2 mẫu, các giải pháp lập trình động
Trang 11
Chương 1: Lý thuyết nhận dạng tiếng nói
để đồng chỉnh các mẫu với thời gian, sử dụng bảng mã vector lượng tử hóa (VQ) để
giảm dung lượng dữ liệu cũng như số lượng phép tính.
+ Thế hệ 4 - Những năm 1980 đến 2000: Dùng mô hình Markov ẩn để mô
hình hóa các đặc tính của tiếng nói, giải thuật forward-backward để huấn luyện,
thuật toán liên kết Viterbi để giải mã, dùng phương pháp tìm độ tương đồng cực đại
(ML) cũng như nhiều tiêu chuẩn khác để tối ưu hóa các mô hình thống kê, đưa ra
phương pháp dùng mạng nơron để ước lượng hàm mật độ xác suất có điều kiện,
dùng các thuật toán thích nghi để chỉnh sửa các thông số liên quan tới tín hiệu tiếng
nói hay mô hình thống kê nhằm tăng độ tương thích giữa mô hình với dữ liệu đưa
vào, nhờ đó tăng độ chính xác khi nhận dạng.
+ Hiện tại, thế hệ thứ 5 (từ những năm 2000 đến 2020) đang được phát triển
dựa trên nền tảng của các thế hệ đi trước. Đây là giai đoạn sử dụng các phương
pháp xử lý song song để tăng độ tin cậy cho việc nhận dạng, kết hợp dùng HMM
với phương pháp acoustic-phonetic để phát hiện và sửa những điểm bất hợp lí của
ngôn ngữ nói trong nhận dạng.
Ngoài ra, các nghiên cứu trong cả thương mại lẫn học thuật đều tập trung vào
việc giải quyết các vấn đề phức tạp như tăng độ mạnh của bộ nhận dạng trong môi
trường bị ảnh hưởng bởi nhiễu và tạp âm hoặc phải làm việc với một lượng lớn dữ
liệu đầu vào.
Thực tế, công nghệ trong các thế hệ này không phân biệt rạch ròi về mặt thời
gian mà mang tính chất kế thừa, thế hệ sau kế thừa và phát triển những thành tựu
của thế hệ trước nó. Việc phân chia các thế hệ chỉ để thấy rõ các đặc trưng cũng như

thành quả đạt được ở mỗi giai đoạn, thấy được công nghệ nhận dạng tiếng nói đã đi
được một đoạn đường dài và vẫn tiếp tục được phát triển, hoàn thiện.
Nhìn chung có thể tóm tắt các quá trình đó qua sơ đồ sau [2]:
Trang 12
Chương 1: Lý thuyết nhận dạng tiếng nói
Hình 1.2. Quá trình phát triển của hệ thống nhận dạng tiếng nói
1.3.3. Các nguyên tắc cơ bản trong nhận dạng tiếng nói
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:
• Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một
khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể
trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng
các đặc điểm này làm dữ liệu để nhận dạng tiếng nói.
• Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký
hiệu ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta
phiên âm phát âm thành dãy các ký hiệu ngữ âm.
• Nhận dạng tiếng nói là một quá trình nhận thức. Thông tin về ngữ nghĩa
(semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng
tiếng nói, nhất là khi thông tin về âm học là không rõ ràng.
1.3.4. Mô hình tổng quát của hệ thống nhận dạng tiếng nói
1.3.4.1. Cấu trúc của bộ nhận dạng
Cấu trúc của một bộ nhận dạng tiếng nói thường bao gồm các khối chức năng
được biểu diễn như ở hình 1.3. Các khối này được chia thành 2 khối lớn hơn: khối
Trang 13
Đầu ra
Tiếng nói
đưa vào
s[n], W

Mô hình âm học (HMM)
Từ điển

Mô hình ngôn ngữ (N-gram)
Đánh giá nhận dạng
Tìm và giải mã
Trích chọn đặc trưng
Tiền xử lý
Chương 1: Lý thuyết nhận dạng tiếng nói
front-end bao gồm có khối tiền xử lý và khối trích chọn đặc trưng, khối back-end là
phần còn lại, có chức năng chạy thuật toán tìm và giải mã để nhận dạng.
Hình 1.3. Sơ đồ của bộ nhận dạng tiếng nói
1.3.4.2. Khối tiền xử lý
Khối này nhận nhiệm vụ thu tín hiệu từ micro, lọc bỏ nhiễu và các thành phần
không mong muốn để lấy được thành phần tiếng nói chất lượng cao và không lẫn
tạp âm làm dữ liệu cho việc nhận dạng. Các thuật toán nén nhiễu đầu vào sẽ được
triển khai ở khối này, góp phần cải thiện hiệu suất nhận dạng trong môi trường có
nhiễu, đồng thời giúp hướng tới mục tiêu nhận dạng tiếng nói bền vững.
1.3.4.3. Trích chọn đặc trưng
Đúng như tên gọi, khối này làm nhiệm vụ rút trích ra các đặc trưng, các thông
tin quan trọng của tiếng nói để giảm bớt lượng dữ liệu không cần thiết, theo đó tiết
kiệm được bộ nhớ và thời gian xử lý. Có nhiều phương pháp được sử dụng cho việc
trích chọn, ví dụ LPC, MFCC, Tuy nhiên hiện nay MFCC có phần được sử dụng
phổ biến hơn và sẽ được trình bày kĩ hơn trong chương kế tiếp.
1.3.4.4. Mô hình âm học (Acoustic Model)
Tiếng nói thực chất chỉ là một chuỗi các âm. Não con người có xu hướng xếp
những chuỗi âm này thành các đơn vị ngữ âm, hay còn gọi là các âm vị. Từ các âm
vị, chúng ta có thể phân biệt các từ với nhau.
Mô hình âm học là loại mô hình thống kê, có thể ước lượng xác suất của một âm vị
cụ thể được phát âm trong một đoạn ghi âm. Những âm vị trên được đặc tả bởi các
vector đặc trưng MFCC. Giả sử chuỗi O gồm các vector MFCC chứa các thuộc tính
âm học thu được sau bước trích chọn đặc trưng được sử dụng làm đầu vào của khối
Trang 14

Chương 1: Lý thuyết nhận dạng tiếng nói
back-end. Ta cần phải ước lượng được xác suất của các thuộc tính âm học này, với
tập từ vựng W cho trước, mới có thể nhận dạng từ chính xác. Xác suất này gọi là
xác suất âm học P(O|W). Mô hình giúp ta tính toán một cách gần đúng P(O|W) gọi
là mô hình âm học.
Mô hình âm học đóng vai trò rất quan trọng trong việc tăng cường độ chính
xác cho bộ nhận dạng. Từ xưa đến nay, nhiều loại mô hình âm học đã ra đời, trong
số này có Mô hình Markov ẩn (HMM), mạng Nơron, Trong đó mô hình âm học
HMM, sẽ được lựa chọn để giới thiệu ở phần sau.
1.3.4.5. Từ điển (Word Lexicon)
Mỗi từ thường được cấu thành từ những đơn vị nhỏ hơn từ ví dụ điển hình
nhất ở đây là các âm tiết (phone), các âm tiết này được mô tả trong một bộ từ điển
(lexicon/ dictionary). Các âm tiết (phone) trong bộ từ điển này tương đương với các
âm tiết sử dụng trong các mô hình âm thanh đơn âm(monophone), nhị âm
(diphone), tam âm (triphone - mô hình triphone là mô hình trong đó xác suất âm vị
phụ thuộc vào các âm vị đứng trước và sau nó).
1.3.4.6. Mô hình ngôn ngữ (Language Model)
Mô hình ngôn ngữ gắn liền với xác suất xuất hiện của một chuỗi từ. Trong
nhận dạng tiếng nói, xây dựng mô hình ngôn ngữ đồng nghĩa với việc ước lượng
được chính xác P(W
i
), tức là xác suất để từ cần nhận dạng là W
i
.
Mô hình ngôn ngữ quan trọng đối với việc nhận dạng tiếng nói ở chỗ có thể
hạn chế được số lượng kết hợp giữa các từ trong ngôn ngữ nói. Nhờ đó, không gian
tìm kiếm sẽ giảm đáng kể nên tốc độ và độ chính xác của nhận dạng tăng lên nhiều,
đặc biệt khi ta phải làm việc với một lượng từ lớn. Phương pháp phổ biến nhất để
ước lượng P(W
i

) hiện nay là dùng mô hình ngôn ngữ thống kê N-grams được hiểu
như sau:
- Hàm phân bố xác suất P(W) của chuỗi từ W đại diện cho một mô hình ngôn
ngữ, mô tả tần số xuất hiện của chuỗi W trong một câu. Ví dụ, trong 100 câu
có một câu là “hello” thì P(hello) = 0.01, hoặc P(raey wen yppah)=0, vì W lúc
này là một chuỗi lạ và hoàn toàn không giống ngôn ngữ nói.
- P(W) được khai triển theo công thức sau:
P(W) = P(w
1
,

w
2
, ,w
N
) = P(w
1
)P(w
2
|w
1
) P(w
3
|w
1
,

w
2
) P(w

N
|w
1
,w
2
, ,w
N-2
,w
N-1
)=
Trang 15
Chương 1: Lý thuyết nhận dạng tiếng nói
= (1.1)
- Tuy nhiên, việc tính P
i
dựa trên chuỗi w
1
,

w
2
, ,w
i-1
xuất hiện trước đó rất khó
vì nguyên cả chuỗi này có thể chỉ xuất hiện duy nhất 1 lần, hoặc rất ít lần. Do
vậy, để giảm kích cỡ của chuỗi xuất hiện trước, khái niệm mô hình ngôn ngữ
thông kê N-grams ra đời. Nếu một từ xuất hiện phụ thuộc vào sự xuất hiện của
hai từ trước nó, ta có mô hình 3-grams, hay còn gọi là trigram P(w
i
|w

i-1
,w
i-2
).
Tương tự, ta có mô hình unigram P(w
i
) hoặc bigram P(w
i
|w
i-1
)
- Với mô hình bigram, vì xác suất xuất hiện từ sau chỉ phụ thuộc vào từ ngay
trước nó, nên để P(w
i
|w
i-1
) với i=1 có nghĩa, ta thêm kí tự <s> trước chuỗi. Để
tổng các P=1 theo lý thuyết xác suất, ta thêm kí tự </s> ở cuối chuỗi. Ví dụ
câu nói “happy new year” có P bằng:
P(happy new year)= P(happy|<s>)P(new|happy)P(year|new)P(</s>|year)
- Với mô hình trigram, P được ước lượng bằng số lần xuất hiện của cặp 2 từ
C(w
i-2
,w
i-1
) và 3 từ C(w
i-2
,w
i-1
,w

i
) theo công thức:
Không giống ngôn ngữ nói, N-grams không đặt nặng về vấn đề ngữ pháp. Cho
dù chuỗi từ cần nhận dạng có sai về mặt ngữ pháp thì vẫn có thể nhận được
một xác suất cao nếu N đủ nhỏ. Ngoài ra, ta có thể xem giá trị N như là bậc
của mô hình N-grams. Thuật ngữ này có liên quan tới mô hình Markov, và có
thể xem mô hình N-grams bậc N tương ứng với một mô hình Markov bậc N-1.
1.3.4.7. Khối tìm và giải mã
Khối này có nhiệm vụ tìm kiếm trong toàn bộ tập hợp các chuỗi từ hợp lệ
trong mô hình ngôn ngữ để đưa ra được từ giống nhất với từ đã nói ra. Trở ngại lớn
nhất ở đây là kích cỡ quá lớn của không gian tìm kiếm, nhất là với những bộ từ điển
đồ sộ, làm khối lượng tính toán tăng lên nhiều. Giải pháp cho vấn đề này là phương
pháp dùng mạng các trạng thái hữu hạn FSN (Finite State Network) và thuật toán
DTW để tính độ tương đồng cực đại giữa các từ một cách chính xác và dùng ít phép
tính nhất. Thuật toán DTW- mà đại diện điển hình nhất của nó là giải thuật Viterbi-
sẽ được trình bày cụ thể hơn ở phần dưới đây.
Trang 16
Chương 1: Lý thuyết nhận dạng tiếng nói
• Giới thiệu thuật toán DTW (Dynamic Time Warping)
- DTW là thuật toán được sử dụng để tính toán sự giống nhau giữa 2 chuỗi có đặc
tính biến đổi theo thời gian hoặc tốc độ. Ví dụ, DTW có thể phát hiện được sự
giống nhau giữa 2 mẫu tiếng nói, trong đó một mẫu được nói với tốc độ chậm, mẫu
còn lại có tốc độ nói nhanh hơn. Một trong những ứng dụng nổi tiếng nhất của
DTW là nhận dạng tiếng nói tự động, nhằm giải quyết sự khác nhau trong tốc độ
của mỗi người nói. Phương pháp này cho phép cân chỉnh hai tập hợp mẫu tín hiệu
tiếng nói (x
1
x
2
x

N
) và (y
1
y
2
y
N
) theo chiều thời gian để giảm bớt độ sai khác không
tuyến tính giữa 2 mẫu như hình minh họa dưới đây [3]:
Hình 1.4. So sánh trực tiếp giữa X={x
1,
x
2,…
x
N
} và Y={y
1,
y
2,….,
y
N
}.
Nhờ hiệu quả tìm kiếm của phương pháp này rất cao, nên nó được sử dụng
như một phần không thể thiếu trong mô hình Markov ẩn, dưới tên gọi “Thuật toán
giải mã Viterbi”, sẽ được đề cập tới ở phần sau.
• Mô tả thuật toán
Trang 17
Chương 1: Lý thuyết nhận dạng tiếng nói
- Có thể hiểu thuật toán này một cách đơn giản là tìm khoảng cách, hay sự khác biệt,
nhỏ nhất giữa 2 mẫu tiếng nói. Tương ứng với mỗi cặp (i, j) là khoảng cách d(i, j)

giữa hai vector x
i
và y
j
. Để tìm đường đi tối ưu giữa điểm khởi đầu (1, 1) và điểm
kết thúc (N, M), ta cần phải tính được khoảng cách tổng cộng D(N, M) ngắn nhất.
Nghĩa là liệt kê ra tất cả các D(N, M) có thể có và chọn giá trị nhỏ nhất.
- Nguyên lý lập trình DTW có thể làm giảm một lượng đáng kể các phép tính bằng
cách loại ra và không liệt kê các chuỗi không có khả năng trở thành chuỗi tối ưu.
Trên cùng một đường đi tối ưu, bước sau phải dựa trên kết quả của bước trước đó,
tức là khoảng cách D(i, j) phải thỏa mãn biểu thức :

(1.3)
Biểu thức trên chỉ ra rằng ta chỉ cần chú trọng đến bước chuyển dịch tốt nhất
cho mỗi cặp so sánh cho dù tổng cộng có đến M bước. Thực chất, thuật toán lập
trình động giải quyết các bài toán con của nó theo kiểu đệ quy, tính D(i-1,k) trước,
rồi dựa vào đó để tính giá trị tiếp theo D(i,j). Đường đi tối ưu được tìm bằng cách
dùng chính phép đệ quy này, xác định y
j
tương ứng với x
i
rồi lần lượt lưu các chỉ số
i, j vào ma trận B(i, j) trước khi cho ra kết quả cuối cùng.
- Thuận lợi của phương pháp lập trình động nằm ở chỗ mỗi khi một biểu thức con
được giải quyết, phần kết quả tính toán sẽ được lưu lại và các biểu thức tính sau đó
có thể sử dụng nó mà không cần phải tính lại. Điều này rất cần thiết cho các hệ
thống nhận dạng tiếng nói trong việc giảm khối lượng tính toán, cho phép xử lý một
khối lượng lớn dữ liệu và tiết kiệm thời gian xử lý .
• Các bước thực hiện thuật toán
- Bước 1: Khởi tạo

D(1,1) = d(1,1) , B(1,1) = 1
for j = 2,3, M tính D(1,j) = ∞
- Bước 2: Dò tìm
for i= 2, 3, , N {
for j= 1, 2, , M {


Trang 18
Chương 1: Lý thuyết nhận dạng tiếng nói
}
}
- Bước 3: Kết thúc
Khoảng cách ngắn nhất là D(N, M) và đường đi tối ưu nhất là (s
1
, s
2
, s
3
, , s
N
)
Với s
N
= M và s
i
= B(i+1, s
i+1
) , i = N-1, N-2, ,1
1.3.4.8. Đánh giá nhận dạng
Muốn tăng hiệu suất của bất kì một hệ thống nhận dạng tiếng nói nào, ta đều

cần phải tìm ra những phương thức đáng tin cậy để đánh giá hiệu quả của hệ thống
đó. Thông thường người ta dùng tỉ lệ lỗi từ (WER), tỉ lệ nhận dạng được từ (WRR)
và tỉ lệ từ chính xác (WAC) để đánh giá hiệu suất của bộ nhận dạng.
1.4. Ứng dụng của nhận dạng tiếng nói trong thực tế
- Trong chăm sóc sức khỏe: Thực hiện nhận dạng tiếng nói ở đầu hoặc đầu cuối
trong tiến trình xử lý các văn bản dùng cho y khoa, ví dụ đơn thuốc, bảng theo
dõi sức khỏe,
- Nhận dạng đầu vào: Khi người dùng ra lệnh cho bộ nhận dạng, từ cần nhận
dạng sẽ hiển thị ngay sau khi nói, người dùng có thể chỉnh sửa ngay trên văn
bản được hiển thị.
- Nhận dạng đầu cuối: Người dùng ra lệnh cho máy, âm thanh sau khi vào hệ
thống nhận dạng sẽ cho ra kết quả là một văn bản nháp. Văn bản này cùng với
file gốc của tiếng nói sẽ được bộ MT (bộ phiên âm đặc biệt cho y khoa) chỉnh
sửa và hoàn thiện.
- Trong quân đội:
+ Ứng dụng của nhận dạng tiếng nói trong máy bay chiến đấu hiệu suất
cao gồm: Thiết đặt các tần số vô tuyến, ra lệnh cho hệ thống không người lái,
thiết đặt các thông số tọa độ lái, điều khiển màn hình bay,
+ Trong các trực thăng: Điều khiển các kết nối vô tuyến, thiết đặt các hệ
thống dẫn đường, trong môi trường áp lực lớn và tiếng ồn cường độ cao.
- Huấn luyện các bộ điều khiển lưu lượng bay.
Trang 19
Chương 1: Lý thuyết nhận dạng tiếng nói
- Nhận dạng tiếng nói trong ô tô (ví dụ hệ thống SYNC của hãng Ford cho phép
gọi điện thoại, mở nhạc và điều khiển nhiều chức năng khác mà không cần
dùng tay)
- Trong kĩ thuật điện thoại và nhiều lĩnh vực khác, ví dụ các game điện tử điều
khiển bằng tiếng nói, biên dịch tự động, viễn tin (hệ thống điều khiển giao
thông), ra lệnh cho các thiết bị tự động trong nhà, trong điện thoại di động, sản
xuất rôbôt, dịch từ tiếng nói ra văn bản, hệ thống tương tác bằng tiếng nói,

điều khiển giao diện máy tính chỉ bằng lời nói,
Nhìn chung, các ứng dụng của hệ thống nhận dạng tiếng nói trong thực tế
ngày càng nhiều, càng phức tạp, yêu cầu độ chính xác càng cao, và con người chưa
bao giờ hết tham vọng trong việc phát triển và hoàn thiện các hệ thống này.
1.5. Kết luận chương
Qua chương này, chúng ta được trang bị những kiến thức cơ bản nhất về
phương thức hoạt động của một bộ nhận dạng tiếng nói. Hiểu được nhiệm vụ của
những khối chức năng cấu tạo nên bộ nhận dạng như: Tiền nhấn tín hiệu, trích chọn
đặc trưng, lượng tử hóa vector, mô hình thống kê N-grams, thuật toán DTW để áp
dụng cho bước tìm và giải mã, Những lý thuyết này, kết hợp với phần kiến thức
giới thiệu ở các chương tiếp theo sẽ cho ta cái nhìn tổng quát về cách thiết kế và
thực hiện một bộ nhận dạng.
Trang 20
Chương 2: Khối Front-end và các thuật toán giảm nhiễu để tăng hiệu suất bộ nhận dạng
CHƯƠNG 2: KHỐI FRONT-END VÀ CÁC THUẬT TOÁN GIẢM NHIỄU
ĐỂ TĂNG HIỆU SUẤT BỘ NHẬN DẠNG
2.1. Giới thiệu chương
Chương này sẽ giới thiệu các phương pháp xử lý tiếng nói trong khối front-
end của bộ nhận dạng tiếng nói tự động (ASR) nhằm mục đích xây dựng một bộ
nhận dạng tiếng nói bền vững trong môi trường nhiễu. Khối front-end được biết đến
như một khối có chức năng biến đổi tiếng nói thành các vector thuộc tính phù hợp
cho quá trình xử lý về sau. Tín hiệu trong khối front-end được xử lý càng hoàn hảo,
tỉ lệ nhận dạng chính xác sẽ càng tăng. Khối front-end bao gồm các khối nhỏ sau:
- Khối tiền xử lý: Các thuật toán giảm nhiễu được tích hợp trong khối này,
nhằm cải thiện chất lượng của tín hiệu trước khi đưa vào nhận dạng. Chương
này sẽ giới thiệu về một số thuật toán nén nhiễu thông dụng hiện nay như:
Thuật toán MMSE -STSA, Thuật toán Wiener.
- Khối trích chọn đặc trưng: có nhiệm vụ rút trích ra những đặc tính quan trọng
của tiếng nói để sử dụng trong quá trình nhận dạng, là một khâu không thể
thiếu trong bất kì một hệ thống nhận dạng tiếng nói nào. Có nhiều phương

pháp được sử dụng để rút trích đặc trưng và hiện nay, thuật toán MFCC được
chọn lựa nhiều bởi sự phổ biến cũng như tính hiệu quả của nó. Phương pháp
MFCC chủ yếu dựa trên cảm nhận âm của thính giác con người và được ETSI
sử dụng để xây dựng các tiêu chuẩn cho DSR – hay nhận dạng tiếng nói phân
tán - mà hai thuật toán SFE (Standard Front-end) và AFE (Advanced Front-
end) là hai ví dụ điển hình sẽ được giới thiệu trong mục kế tiếp.
2.2. Thuật toán Standard Front-end (ETSI DSR ES 201 108)
2.2.1. Giới thiệu
Vào tháng 2 năm 2000, nhóm ETSI STQ-Aurora (thường gọi tắt là Aurora) đã
cho ra đời chuẩn DSR đầu tiên, có số hiệu ETSI DSR ES 201 108 [4] với khối
front-end dựa trên phổ rời rạc Mel. Chuẩn DSR này xác định cách rút trích những
đặc trưng tiêu biểu của tiếng nói bằng kĩ thuật MFCC, sau nó nén và truyền chúng
đến khối xử lý back-end của bộ nhận dạng. Việc kiểm tra các thuật toán của chuẩn
Trang 21
Chuyển đổi A/D
Bù lệch DC
Phân khung
Lấy cửa sổ Hamming
Tiền nhấn
Biến đổi Fourier
Bộ lọc thang Mel
Biến đổi phi tuyến (LOG)
Biến đổi Cosine rời rạc
Tính Log của mức năng lượng E
Nén các đặc tính
Tín hiệu vào
Chia khung và định dạng dòng bit
Tín hiệu ra
Chương 2: Khối Front-end và các thuật toán giảm nhiễu để tăng hiệu suất bộ nhận dạng
này được thực hiện và đánh giá thông qua cơ sở dữ liệu Aurora, với nhiều ngôn ngữ

nói như tiếng Đức, tiếng Tây Ban Nha, tiếng Ý, Đây là chuẩn DSR đầu tiên được
ETSI đề xuất, và tuy hoạt động tốt với tiếng nói ‘sạch’, không méo, ở những nơi có
nhiễu nền rất thấp, SFE lại bộc lộ điểm yếu khi được áp dụng ở những môi trường
bị tác động mạnh bởi nhiễu. Vì thế, thay vì dừng lại ở chuẩn này, ETSI dùng SFE
như nền tảng để xây dựng các tiêu chuẩn tốt hơn, cải tiến hơn sau này.
2.2.2. Mô tả thuật toán Standard front-end
2.2.2.1. Sơ đồ khối
Khối front-end gồm có các khâu tiền xử lý, trích chọn đặc trưng, chia khung
và định dạng dòng bit được mô tả chi tiết từng bước trong sơ đồ khối dưới đây:
2.2.2.2. Chuyển đổi A/D
Nhiệm vụ: chuyển tín hiệu tiếng nói từ dạng tương tự sang tín hiệu số. Tốc
độc lấy mẫu đầu ra của khối này có thể là 8Khz hoặc 11Khz hoặc 16Khz.
2.2.2.3. Bù lệch DC
Trang 22
Chương 2: Khối Front-end và các thuật toán giảm nhiễu để tăng hiệu suất bộ nhận dạng
Trước khi phân khung, tín hiệu tiếng nói vào s
in
được đưa qua bộ lọc dải triệt
(notch filter) để loại bỏ thành phần lệch DC, tín hiệu ra s
of
được cho bởi công thức
sau:
s
of
(n)= s
in
(n)- s
in
(n-1)+0.999 s
of

(n-1) (2.1)
2.2.2.4. Phân khung
Tín hiệu s
of
sẽ được chia ra các khung N mẫu chồng nhau với độ dài
25ms/khung nếu tốc độ lấy mẫu là 8Khz hoặc 11Khz, 23.27ms/khung nếu lấy mẫu
ở tốc độ 16Khz. Độ dịch khung là 10ms , tương ứng với M mẫu . Quan hệ giữa giá
trị của độ dài khung và độ dịch khung được trình bày rõ ở bảng dưới:
Tốc độ lấy mẫu (Khz) f
s3
= 16 f
s2
= 11 f
s1
= 8
Chiều dài khung N (mẫu) 400 256 200
Độ dịch khung M (mẫu) 160 110 80
2.2.2.5. Tính Log mức năng lượng
Thực hiện tính logarit mức năng của mỗi khung:
(2.2)
Trong đó, N là số mẫu của khung và s
of
là tín hiệu đi vào khối Log.
2.2.2.6. Tiền nhấn
Khâu trích chọn đặc trưng bắt đầu bằng cách sử dụng một bộ lọc thông cao để
thực hiện ‘tiền nhấn’. Thông thường, tín hiệu tiếng nói có xu hướng nằm ở dải
thông thấp, vì thế mục đích của bộ lọc thông cao ở đây là cân bằng phổ cho tín hiệu:
s
pe
(n)= s

of
(n) – 0.97s
of
(n-1) (2.3)
trong đó s
pe
và s
of
lần lượt là tín hiệu ra và vào của khối tiền nhấn.
2.2.2.7. Lấy cửa sổ Hamming
Giả sử s
w
và s
pe
lần lượt là tín hiệu vào vào ra của khối này, quan hệ giữa
chúng được biểu diễn như sau:
(2.4)
Với N là số mẫu trong một khung và 1 ≤ n ≤ N
Khoảng thời gian lấy cửa sổ Hamming thay đổi tùy thuật toán trích chọn đặc trưng,
nhưng thông thường nằm trong dải 10 ms đến 50 ms, và theo chuẩn ETSI Aurora,
giá trị này là 25ms. Trong khoảng thời gian này, tín hiệu tiếng nói coi như ổn định
Trang 23
Chương 2: Khối Front-end và các thuật toán giảm nhiễu để tăng hiệu suất bộ nhận dạng
không đổi. Tiếp đến các cửa sổ Hamming sẽ được dịch đi S mẫu trong 10ms để cho
ra các khung cửa sổ mới với tốc độ 100 khung/s.
2.2.2.8. Biến đổi Fourier
Trong miền thời gian, mỗi khung N mẫu sẽ được độn thêm nhiều mẫu 0 để mở
rộng khung ra thành 256 mẫu (nếu tốc độ lấy mẫu 8 và 11 Khz), hoặc 512 mẫu (nếu
là 16 Khz). Sau đó phép biến đổi FFT sẽ được thực hiện cho mỗi khung để tính phổ
biên độ của tín hiệu.

(2.5)
Trong đó s
w
(n) là tín hiệu vào của khối, FFTL là chiều dài của khung (256 hoặc 512
mẫu), bin
k
là giá trị tuyệt đối của vector phức đầu ra, và k = 0, 1, , FFTL-1.
Ngoài ra, do tính đối xứng của kết quả, chỉ có các giá trị bin
0,1, FFTL/2
là được sử dụng
ở các bước tính toán tiếp theo.
2.2.2.9. Bộ lọc thang Mel
Các thành phần tần số thấp của phổ biên độ sẽ được bỏ qua. Băng tần hữu
dụng nằm trong dải từ 64 Hz đến một nửa giá trị thực sự của tần số lấu mẫu. Băng
tần này được chia ra thành 23 kênh có khoảng cách đều nhau trong miền tần số mel.
Mỗi kênh có một cửa sổ tần số hình tam giác và các kênh liên tiếp sẽ có một nửa
chồng lên nhau. Tần số bắt đầu của dàn lọc (filter bank) là f
start
=64 Hz. Tần số trung
tâm của các kênh theo chỉ số bin của FFT (hay cbin
i
đối với kênh thứ i) được tính
như sau:
với i = 1,2, ,23 (2.7)
(2.8)
Trong đó round( ) nghĩa là làm tròn thành số nguyên gần đó nhất.
Đầu ra của bộ lọc Mel là tổng trọng số của tất cả các giá trị phổ biên độ FFT (bin
i
)
trong mỗi băng:


(2.9)
Với k= 1,2, ,23 và
Trang 24
Chương 2: Khối Front-end và các thuật toán giảm nhiễu để tăng hiệu suất bộ nhận dạng

2.2.2.10. Biến đổi phi tuyến
fi= ln(fbank
i
) với i=1,2, ,23
Mục đích của khối là giảm độ nhạy của các mức năng lượng với những âm có âm
lượng quá bé hoặc quá lớn. Nếu không có khối tính logarit này, độ chính xác nhận
dạng sẽ giảm đi đáng kể.
2.2.2.11. Biến đổi cosine rời rạc (DCT)
Bước cuối cùng của việc trích chọn các vector đặc trưng là tính biến đổi
cosine rời rạc cho các mức năng lượng kênh dàn lọc đã qua bước tính logarit. Kết
quả của bước này là 13 hệ số phổ (cepstral) :
với 0 ≤ i ≤ 12 (2.10)
Phép biến đổi DCT trên nhằm phục vụ 2 mục đích:
- Thứ nhất, quá trình biến đổi tín hiệu tiếng nói từ đầu cho đến trước bước này đã
phân tách tín hiệu theo kiểu: các hệ số bậc thấp thể hiện các dải âm biến đổi
chậm (vocal tract), còn các hệ số bậc cao biểu diễn các thành phần âm biến đổi
nhanh. Do đó, để tạo vector MFCC cuối cùng, vector đầu ra của khối DCT bị
cắt bớt chỉ còn 13 hệ số bậc thấp (từ C
0
đến C
12
)
- Thứ hai, phép DCT có vai trò ‘phản tương quan’ các phần tử của vector đặc
tính. Nguyên nhân là do các vector biểu diễn năng lượng dải lọc tiềm tàng các

thành phần tương quan do những đặc thù của tiếng nói cũng như sự chồng lấn
của các bộ lọc. Nhờ vậy, DCT giúp tránh tính toán phức tạp khi mô hình hóa
các vector đặc tính bằng mô hình Markov ẩn sau này.
Đầu ra của khối trích chọn đặc trưng là vector đặc trưng gồm có 14 hệ số: hệ số
logE và 13 hệ số phổ cepstral. Hệ số C
0
thường dư ra nếu hệ số logE được sử dụng.
Do đó, tùy vào từng ứng dụng cụ thể mà C
0
hay logE được dùng cho khối back-end
về sau.
2.2.2.12. Nén các đặc tính
- Đầu vào:
Các thông số đầu vào của khối này chính là 13 hệ số của phổ Mel cùng với hệ số
logE, được định dạng theo kiểu:
Trang 25

×