Nhận dạng tiếng nói và ứng dụng tích hợp với các phầnmềm máy tính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.72 MB, 102 trang )

Website: Email : Tel (: 0918.775.368
LỜI NÓI ĐẦU
Nhằm rèn luyện kỹ năng tổng hợp các kiến thức đã học, tính tự chủ, tinh thần
trách nhiệm trong công việc, khả năng làm việc độc lập tạo ra bản thiết kế cho một
đề tài hoàn chỉnh, mỗi sinh viên trước khi tốt nghiệp đều được nhận một đề tài tốt
nghiệp do giáo viên hướng dẫn giao cho hoặc tự lựa chọn. Tham gia thực hiện đồ án
một cách nghiêm túc sẽ giúp sinh viên tiếp cận với các phương pháp giải quyết một
bài toán thực tế.
Tôi chọn đề tài: “Nhận dạng tiếng nói và ứng dụng tích hợp với các phần
mềm máy tính” làm đồ án của mình nhằm đạt các mục tiêu chính sau:
• Tìm hiểu về lĩnh vực xử lý tiếng nói;
• Nghiên cứu và tìm hiểu về ứng dụng nhận dạng tiếng nói;
• Xây dựng chương trình nhận dạng tiếng nói theo thời gian thực;
• Xây dựng chương trình tích hợp với các phần mềm máy tính.
Xử lí tiếng nói là lĩnh vực rộng đã và đang từng bước được nghiên cứu và thử
nghiệm trong thực tế. Nhờ sự nỗ lực của bản thân cùng sự giúp đỡ của gia đình,
thầy cô và bạn bè tôi đã thực hiện các nội dung của đồ án theo đúng yêu cầu.
Sau thời gian nghiên cứu, tìm hiểu và thực hiện, tôi xin trình bày bản báo cáo
tổng hợp những lý thuyết liên quan và chương trình Demo nhận dạng tiếng nói và
chương trình tích hợp với Excel.
Trước tiên tôi xin gửi lời cảm ơn tới cha mẹ và những người thân đã luôn động
viên và tạo điều kiện tốt nhất cho tôi học tập. Tôi cũng xin gửi lời cảm ơn tới các
thầy cô giáo trong khoa Công nghệ thông tin I nói riêng và Học viện Công nghệ
Bưu chính Viễn thông nói chung đã giúp đỡ, dìu dắt tôi trong những năm tháng học
tập tại trường. Đặc biệt, tôi xin chân thành cảm ơn thầy giáo Ts.Nguyễn Quang
Hoan người đã trực tiếp hướng dẫn trong thời gian tôi thực hiện đồ án tốt nghiệp.
1
Website: Email : Tel (: 0918.775.368
MỤC LỤC
Trang
LỜI NÓI ĐẦU 1

MỤC LỤC 2
DANH MỤC HÌNH VẼ 4
CÁC THUẬT NGỮ VIẾT TẮT 5
MỞ ĐẦU 6
CHƯƠNG 1 :TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 8
1.1GIỚI THIỆU VỀ XỬ LÝ TIẾNG NÓI 8
1.2NHẬN DẠNG TIẾNG NÓI 9
1.2.1Khái niệm về nhận dạng tiếng nói 9
1.2.2Phân loại các hệ thống nhận dạng tiếng nói 11
1.2.3Các phương pháp nhận dạng tiếng nói 12
CHƯƠNG 2 :QUÁ TRÌNH TIỀN XỬ LÝ TIẾNG NÓI 18
2.1PHÁT HIỆN TIẾNG NÓI 18
2.1.1Năng lượng ngắn hạn 18
2.1.2Tốc độ đi qua điểm không 19
2.1.3Lượng thông tin 19
2.1.4Giải thuật phát hiện tiếng nói 20
2.2PHÂN TÍCH MÃ HÓA DỰ ĐOÁN TUYẾN TÍNH (LPC) 21
2.2.1Mô hình LPC 21
2.2.2Các công thức phân tích LPC 22
2.2.3Phân tích tự tương quan 24
2.2.4Bộ xử lý LPC trong hệ thống nhận dạng tiếng nói 26
2.3PHÂN TÍCH CEPSTRAL THÔNG QUA THANG ĐỘ MEL (MFCC) 31
2.3.1Mô hình tính toán các hệ số MFCC 31
2.3.2Quá trình tiền xử lý tín hiệu 31
2.4LƯỢNG TỬ HÓA VECTOR 35
2.4.1Tập vector huấn luyện 35
2.4.2Khoảng cách giữa hai vector 35
2.4.3Nhân của một tập vector 36
2.4.4Phân cụm các vector 36
2

Website: Email : Tel (: 0918.775.368
CHƯƠNG 3 :MÔ HÌNH MARKOV ẨN 40
3.1CÁC QUÁ TRÌNH MARKOV RỜI RẠC 40
3.2MÔ HÌNH MARKOV ẨN 42
3.2.1Khái niệm 42
3.2.2Thành phần của mô hình Markov ẩn 44
3.2.3Ba bài toán cơ bản của mô hình Markov ẩn 46
3.2.4Các loại mô hình Markov ẩn 54
3.2.5Những vấn đề cần thực hiện đối với mô hình Markov ẩn 55
CHƯƠNG 4 :TÍCH HỢP VỚI PHẦN MỀM MÁY TÍNH 63
4.1GIỚI THIỆU 63
4.2TRAO ĐỔI DỮ LIỆU VỚI OFFICE XP 63
4.2.1Kết nối theo hướng Add-in 63
4.2.2Kết nối theo hướng Automation 65
4.3MÔ HÌNH ĐỐI TƯỢNG CỦA EXCEL 66
4.4ĐỌC GHI DỮ LIỆU VÀO BẢNG TÍNH EXCEL 68
CHƯƠNG 5 :THIẾT KẾ CHƯƠNG TRÌNH 70
5.1XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI 70
5.1.1Thu âm 71
5.1.2Phát hiện tiếng nói 76
5.1.3Trích chọn đặc trưng 81
5.1.4Tạo codebook 83
5.1.5Lượng tử hóa Vector 85
5.1.6Huấn luyện mô hình 87
5.1.7Tính xác suất và quyết định 89
5.2TÍCH HỢP VỚI EXCEL 91
CHƯƠNG 6 :XÂY DỰNG CHƯƠNG TRÌNH VÀ THỬ NGHIỆM 92
6.1GIỚI THIỆU CHƯƠNG TRÌNH 92
6.1.1Giao diện chính của chương trình ứng dụng 92
6.1.2Một số chức năng chính của chương trình 93

6.2KẾT QUẢ THỬ NGHIỆM 96
6.2.1Kiểm tra lần thứ nhất 96
6.2.2Kiểm tra lần thứ hai 97
6.2.3Kiểm tra lần thứ ba 98
KẾT LUẬN 100
TÀI LIỆU THAM KHẢO 102
3
Nhận dạng tiếng nói và… Danh mục hình vẽ
DANH MỤC HÌNH VẼ
4
Nhận dạng tiếng nói và… Các thuật ngữ viết tắt
CÁC THUẬT NGỮ VIẾT TẮT
Viết tắt Viết đầy đủ Dịch nghĩa
ASR Automatic Speech Recognition Nhận dạng tiếng nói tự động
CWT Continuos Wavelet Transform Biến đổi Wavelet liên tục
DCT Discrete Cosin Transform Biến đổi Cosin rời rạc
DFT Discrete Fourier Transform Biến đổi Fourier rời rạc
FFT Fast Fourier Transform Biến đổi Fourier nhanh
FIR Finite Impulse Response Bộ lọc đáp ứng xung hữu hạn
HMM Hide Markov Model Mô hình Markov ẩn
IDFT Inverse Discrete Fourier Transform Biến đổi Fourier rời rạc ngược
LCT Local Cosin Transform Biến đổi Cosin cục bộ
LPC Linear Prediction Coding Mã dự đoán tuyến tính
MCI Media Control Interface Giao diện điều khiển truyền thông
MFCC Mel Frequency Cepstral Coefficients Hệ số phân tích phổ tần Mel
PC Personal Computer Máy tính cá nhân
ROT Running Object Table Bảng chương trình đang chạy
TTS Text To Speech Chuyển văn bản thành tiếng nói
STE Short Time Energy Năng lượng ngắn hạn
STFS Short Time Fourier Transform Biến đổi Fourier ngắn hạn

WFT Windowed Fourier Transform Biến đổi Fourier cửa sổ
ZCR Zero Crossing Rate Tỉ lệ vượt quá điểm không
5
Nhận dạng tiếng nói và… Mở đầu
MỞ ĐẦU
Trong thời đại công nghệ thông tin hiện nay, khi việc giao tiếp giữa người với
máy, máy với máy… luôn luôn là vấn đề được quan tâm thì việc trao đổi thông tin
bằng tiếng nói có một vai trò quan trọng. Máy tính ra đời đã giúp con người giải
quyết công việc nhanh gọn và hiệu quả hơn. Tuy nhiên, các máy tính ngày nay chỉ
nhận thông tin từ con người qua các thiết bị như: bàn phím, chuột, bút, Mặc dù tốc
độ xử lý của máy tính ngày càng được cải thiện đáng kể song tốc độ tạo lập thông
tin của các thiết bị này vẫn còn thấp. Con người mong muốn máy tính ngày càng
mạnh hơn, thông minh hơn và một trong số các yêu cầu đó là máy tính trong tương
lai phải tương tác với người sử dụng bằng tiếng nói tự nhiên. Đây sẽ là một bước
tiến lớn nhằm nâng cao sức mạnh của máy tính, đồng thời cũng tăng tốc độ truyền
đạt thông tin giữa máy tính và con người.
Xử lý tiếng nói trở thành một trong những lĩnh vực quan trọng trong xu hướng
phát triển công nghệ của xã hội hiện nay. Đặc biệt, khi công nghệ thông tin ngày
càng phát triển thì các ứng dụng của xử lý tiếng nói ngày càng trở lên cấp thiết.
Mục đích của những nghiên cứu trong lĩnh vực xử lý tiếng nói là làm cho việc
tương tác giữa người và máy ngày càng hiệu quả và tự nhiên hơn.
Hiện nay trên thế giới các công nghệ xử lý tiếng nói đã phát triển, các hệ thống
ứng dụng xử lý tiếng nói đã được sử dụng ở nhiều nơi, độ chính xác của các hệ
thống này ngày càng được cải thiện. Các ứng dụng của lĩnh vực xử lý tiếng nói rất
phổ biến: nhận dạng tiếng nói, tổng hợp tiếng nói, xác thực người nói qua giọng nói
và các thành tựu của chúng được áp dụng vào nhiều lĩnh vực trong thực tế.
Ở Việt Nam vì nhiều lí do khác nhau nên xử lý tiếng nói còn chưa phát triển,
chưa có nhiều kết quả được công bố, đồng thời các ứng dụng của xử lý tiếng nói
chưa nhiều, tài liệu về xử lý tiếng nói viết bằng tiếng Việt chưa phổ biến.
Lĩnh vực xử lý tiếng nói đã và đang tiếp tục được nghiên cứu, phát triển và các

ứng dụng của nó ngày càng trở nên phổ biến và quan trọng. Vì vậy xử lý tiếng nói
và các ứng dụng của nó đã trở thành đề tài được nhiều nhà nghiên cứu cũng như học
sinh, sinh viên nghiên cứu và phát triển.
Đồ án tốt nghiệp của tôi tập trung nghiên cứu ứng dụng nhận dạng tiếng nói
trong thực tế, từ đó xây dựng một ứng dụng nhận dạng cụ thể (nhận dạng các con
Nhận dạng tiếng nói và… Mở đầu
số) và ứng dụng nhận dạng tiếng nói vào một số phần mềm máy tính (ban đầu là
nhập dữ liệu vào bảng tính Excel).
Nội dung đồ án của tôi gồm các chương như sau:
Chương 1: Tổng quan về nhận dạng tiếng nói
Chương này giới thiệu tổng quan về xử lý tiếng nói, tập trung giới thiệu tổng
quan về nhận dạng tiếng nói và các phương pháp nhận dạng đã được áp dụng
trong thực tế.
Chương 2: Quá trình tiền xử lý tiếng nói
Chương này tập trung trình bày cơ sở lý thuyết của các thuật toán trong khâu
tiền xử lý tiếng nói bao gồm: giải thuật phát hiện tiếng nói, hai phương pháp
trích chọn đặc trưng LPC và MFCC; những lý thuyết cơ bản về lượng tử hóa
vector, những thành phần cần thiết để thực hiện lượng tử hóa vector .
Chương 3: Mô hình Markov ẩn (HMM)
Chương này tập trung nói về lý thuyết mô hình Markov ẩn, những vấn đề cần
phải thực hiện khi cài đặt mô hình Markov ẩn trong ứng dụng nhận dạng
tiếng nói.
Chương 4: Tích hợp với phần mềm máy tính
Nội dung của chương này tập chung giới thiệu các phương pháp kết nối với
bộ Office XP. Giới thiệu về mô hình đối tượng của Excel và việc trao đổi dữ
liệu với Excel.
Chương 5: Thiết kế chương trình
Chương này tập trung vào công việc thiết kế của đồ án bao gồm các bước
thiết kế và các thuật toán được cài đặt trong chương trình.
Chương 6: Xây dựng chương trình và thử nghiệm

Nội dung của chương sẽ giới thiệu về chương trình đã xây dựng cùng với
một số kết quả được thống kê khi chạy thử nghiệm chương trình.
Nội dung cụ thể từng chương sẽ lần lượt được trình bày trong các phần tiếp
theo của đồ án.
Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói
CHƯƠNG 1 : TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI
1.1 GIỚI THIỆU VỀ XỬ LÝ TIẾNG NÓI
Xử lý tiếng nói ngày nay đang là vấn đề được quan tâm nghiên cứu nhiều bởi
khả năng ứng dụng trong nhiều lĩnh vực như: Công nghệ thông tin, Viễn thông, tự
động hóa (chế tạo người máy có khả năng tương tác với con người) qua đó giúp
quá trình tương tác giữa người với máy trở nên hiệu quả và tự nhiên hơn.
Quá trình xử lý tín hiệu tiếng nói là quá trình thu nhận, lưu trữ và truyền tín
hiệu. Quá trình nhận dạng, tổng hợp tiếng nói hay xác thực người nói thông qua
giọng nói là các ví dụ điển hình của quá trình xử lý tín hiệu tiếng nói.
Mục đích của xử lý tiếng nói:
• Thực hiện xử lý, mã hoá một cách có hiệu quả tín hiệu tiếng nói để truyền
và lưu trữ tiếng nói.
• Tổng hợp và nhận dạng tiếng nói tới giao tiếp người-máy bằng tiếng nói
dựa vào các thông tin của quá trình tiền xử lý…
Chúng ta có thể mô hình hóa cho bài toán xử lý tiếng nói như sau:
Hình 1-1 Mô hình bài toán xử lý tiếng nói.
Thông tin đầu vào là tín hiệu tiếng nói do con người phát ra dưới dạng tương
tự, sau đó tín hiệu này được số hóa (rời rạc, lượng tử và mã hóa dạng nhị phân).
Quá trình tiền xử lý tiếng nói tiến hành xử lý tín hiệu tiếng nói cho kết quả là các
tham số của tín hiệu tiếng nói (Các hệ số MFCC và LPC). Các tham số này trở
thành đầu vào đối với tất cả các ứng dụng của xử lý tiếng nói.
Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói
Như vậy tất cả các ứng dụng của xử lý tiếng nói đều cần phải dựa trên các kết
quả của quá trình tiền xử lý. Kết quả của quá trình này góp phần quyết định tính
chính xác và hiệu quả của các ứng dụng.

1.2 NHẬN DẠNG TIẾNG NÓI
1.2.1 Khái niệm về nhận dạng tiếng nói
Nhận dạng tiếng nói tự động là một kỹ thuật nhằm làm cho máy “hiểu” được
tiếng nói của con người. Thực chất đây là một quá trình biến tín hiệu tiếng nói do
người phát ra thành tín hiệu số sau đó sử dụng một số giải thuật để đối chiếu giữa
tín hiệu thu được với các dữ liệu tham chiếu để xác định xem tín hiệu thu được
tương ứng với dữ liệu tham chiếu nào trong bộ tham chiếu (từ điển nhận dạng). Kết
quả của việc nhận dạng sau đó có thể được sử dụng trong các ứng dụng khác như
nhập số liệu, soạn thảo văn bản bằng lời nói, điều khiển tự động…
Mục tiêu của hầu hết các chương trình nhận dạng tiếng nói là kết quả nhận
dạng đạt đến độ chính xác 100% mà không phụ thuộc vào một điều kiện nào cả.
Tuy nhiên tất cả các nghiên cứu gần đây chỉ cho độ chính xác đến khoảng trên 90%
trong một số điều kiện cụ thể nào đó còn những chương trình nhận dạng mà không
có điều kiện giới hạn gì thì độ chính xác chỉ đạt không quá 87%.
Các chương trình nhận dạng tiếng nói tự động hiện nay khá nhiều và hết sức
đa dạng. Tuy nhiên chúng ta cũng có thể dựa vào một số đặc điểm để phân chúng
thành một số dạng chủ yếu như:
1. Nhận dạng các từ phát âm rời rạc/liên tục:
Trong các chương trình nhận dạng các từ phát âm rời rạc yêu cầu người nói phải
dừng một khoảng trước khi nói từ tiếp theo. Còn hệ thống nhận dạng các từ phát
âm liên tục không yêu cầu điều kiện này:
2. Nhận dạng tiếng nói độc lập/phụ thuộc người nói
Đối với hệ thống nhận dạng phụ thuộc người nói đòi hỏi tiếng người nói phải
có trong cơ sở dữ liệu của hệ thống còn hệ thống nhận dạng không phụ thuộc
người nói thì người nói không nhất thiết phải có mẫu trước khi nhận dạng trong
cơ sở dữ liệu.
3. Nhận dạng với tử điển cỡ nhỏ/vừa/lớn:
Hiệu năng của một hệ thống nhận dạng với từ điển cỡ nhỏ thường cao hơn hiệu
năng của các hệ thống nhận dạng có từ điển cỡ vừa và lớn.
Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói

4. Nhận dạng trong môi trường nhiễu cao/thấp:
Hiệu năng của các hệ thống nhận dạng không nhiễu sẽ cao hơn hiệu năng của
các hệ thống nhận dạng có nhiễu.
Dưới đây là hình biểu diễn các phần tử cơ bản của một hệ thống nhận dạng
tiếng nói.
Hình 1-2 Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói
Tín hiệu tiếng nói sau khi được số hóa sẽ phân thành các khung có độ dài
khoảng từ 10 đến 45ms qua bước phân tích và xác định các đặc tính sẽ cho ta một
dãy các vector đặc tính của tiếng nói. Các vector này sau đó sẽ được sử dụng để tìm
kiếm các từ giống nhất trong từ điển dựa trên một số điều kiện ràng buộc nào đó về
mặt âm thanh, ngữ nghĩa, từ vựng…
Do tính chất của tiếng nói phụ thuộc vào nhiều yếu tố nên việc thu nhận, phân
tích các đặc trưng của tiếng nói là việc không dễ dàng. Ở đây, chúng ta có thể nêu ra
một số yếu tố khó khăn cho bài toán nhận dạng tiếng nói:
• Khi phát âm, người nói thường nói nhanh chậm khác nhau.
• Các từ được nói thường dài ngắn khác nhau.
• Một người cùng nói một từ nhưng ở hai lần phát âm khác nhau thì
cho kết quả phân tích khác nhau.
Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói
• Mỗi người có một chất giọng riêng được thể hiện thông qua độ cao của
âm, độ to của âm, cường độ âm và âm sắc
• Những yếu tố như nhiễu của môi trường, nhiễu của thiết bị thu…
1.2.2 Phân loại các hệ thống nhận dạng tiếng nói
Nhận dạng tiếng nói được chia thành hai nhóm dựa trên mục đích sử dụng:
• Nhóm được sử dụng với mục đích điều khiển thiết bị thông qua giọng nói.
• Nhóm sử dụng nhằm xử lý từ tiếng nói sang văn bản.
Phân loại các hệ thống nhận dạng tiếng nói sẽ giúp chúng ta có một cái nhìn
trực quan hơn về bài toán. Các hệ thống nhận dạng được phân loại như hình vẽ 1.4
dưới đây.
Hình 1-3 Sơ đồ phân loại các hệ thống nhận dạng tiếng nói

Hiện nay, khả năng nhận dạng tiếng nói chưa thực sự đáp ứng được các yêu
cầu của thực tế, song trong những năm gần đây những hệ thống nhận dạng tiếng nói
đã có bước phát triển đáng kể. Trong một giới hạn nào đó thì bên cạnh bàn phím và
con chuột, những phần mềm nhận dạng tiếng nói đã đóng vai trò như một bộ phận
nhập dữ liệu vào các PC và một số thao tác điều khiển PC mà người dùng đòi hỏi.
Như vậy, ta thấy được nhận dạng tiếng nói là lĩnh vực nghiên cứu quan trọng
để phát triển và đưa các ứng dụng tự động vào nhiều ngành. Ngoài các yếu tố về
công nghệ nhận dạng tiếng nói, thì do tiếng nói của mỗi dân tộc có những đặc thù
Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói
riêng, đòi hỏi việc phân tích và tìm ra công nghệ phù hợp. Ở Việt Nam việc tìm
nghiên cứu và phát triển các hệ thống nhận dạng tiếng nói còn đang ở bước đầu với
rất ít các kết quả được công bố.
1.2.3 Các phương pháp nhận dạng tiếng nói
Như đã đề cập trong phần trên, hiện nay có ba phương pháp chủ yếu được sử
dụng trong nhận dạng tiếng nói là:
1. Phương pháp nhận dạng mẫu
2. Phương pháp âm học-ngữ âm học
3. Phương pháp ứng dụng trí tuệ nhân tạo
1.2.3.1 Phương pháp âm học ngữ âm học
Hướng tiếp cận âm học và ngữ âm học dựa trên lý thuyết về âm học-ngữ âm
học. Theo lý thuyết này thì trong bất kỳ một ngôn ngữ nào cũng luôn tồn tại một số
hữu hạn các đơn vị ngữ âm phân biệt và những đơn vị ngữ âm đó được đặc trưng
bởi các thuộc tính vốn có trong tín hiệu tiếng nói, hoặc trong phổ của nó thông qua
thời gian.
Một hệ thống nhận dạng tiếng nói theo phương pháp âm học – ngữ âm học có
thể mô tả bằng sơ đồ sau [9]:
Hình 1-4 Hệ thống nhận dạng tiếng nói theo phương pháp âm học-ngữ âm học
Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói
Nguyên lý hoạt động của hệ thống này như sau:
1. Bước đầu tiên:Tín hiệu tiếng nói sau khi số hoá được đưa qua một bộ

“đo” các đặc trưng của tiếng nói, mục đích là nhằm biểu diễn xấp xỉ các
đặc tính của tiếng nói thay đổi theo thời gian. Bước này là cần thiết cho
hầu hết các hệ thống nhận dạng theo các hướng tiếp cận khác nhau.
2. Bươc thứ hai: Là bước tách các đặc tính của tiếng nói nhằm biến đổi các
số đo phổ tín hiệu thành một tập các đặc trưng mô tả các đặc tính âm học
của các đơn vị ngữ âm khác nhau. Các đặc trưng đó có thể là: Tính chất
âm mũi, âm xát, vị trí các formant…
3. Bước thứ ba: Là bước phân đoạn và gán nhãn. Ở bước này hệ thống nhận
dạng cố gắng tìm các vùng âm thanh ổn định và gán cho mỗi vùng này
một nhãn phù hợp với đặc tính của đơn vị ngữ âm. Đối với một hệ thống
nhận dạng theo hướng âm học ngữ âm học thì bước này là tâm điểm và
khó thực hiên nhất. Do đó có rất nhiều chiến lược đã được sử dụng để
giới hạn phạm vi của các điểm phân đoạn và xác xuất gán nhãn.
4. Bước cuối cùng: Từ các khối ngữ âm thu được sau bước phân đoạn và
gán nhãn, người ta dựa vào một số nguyên tắc lựa chọn để kết hợp các
khối ngữ âm này thành các từ, câu nhận dạng.
Có rất nhiều vấn đề đối với một hệ thống nhận dạng tiếng nói theo hướng âm
học ngữ - ngữ âm học những vấn đề này bằng nhiều cách khác nhau nó ảnh hưởng
tới hiệu quả của một hệ thống nhận dạng theo hướng này. Những vấn đề đó là:
• Cần có sự hiểu biết về các đặc tính âm học của các đơn vị ngữ âm. Sự
hiểu biết này không thể đầy đủ cho tất cả nhưng đối với một số trường
hợp đơn giản thì có thể cho kết quả tốt.
• Sự chọn lựa các đặc trưng dựa của tiếng nói hầu hết tùy thuộc vào một
khía cạnh cụ thể mà ta quan tâm. Chúng được chọn theo trực giác không
tối ưu và đầy đủ ý nghĩa.
• Việc thiết kế của các hệ thống phân lớp âm thanh cũng không tối ưu và
hầu hết nó đều dựa trên cây nhị phân quyết định…
• Không có một thủ tục tự động lựa chọn ngưỡng chính xác để làm căn cứ
cho việc gán nhãn. Trên thực tế không có một phương pháp lý tưởng để
gán nhãn cho tập huấn luyện.

Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói
Từ đó, hướng tiếp cận âm học - ngữ âm học muốn áp dụng được vào thực tế
cần phải có thêm nhiều nghiên cứu nữa.
1.2.3.2 Phương pháp nhận dạng mẫu
Phương pháp nhận dạng mẫu sử dụng trực tiếp mẫu tiếng nói mà không cần
phải xác định các đặc trưng hay phân đoạn một cách rõ ràng. Trong hầu hết các hệ
thống, nhận dạng mẫu bao gồm hai bước.
• Bước đầu tiên: là bước huấn luyện.Ở bước này dựa trên nhiều phiên bản
khác nhau của mẫu cần nhận dạng hệ thống tạo ra các mẫu tham chiếu
dùng để so sánh với mẫu cần nhận dạng ở bước sau.
• Bước thứ hai: là bước nhận dạng. Ở bước này mẫu cần nhận dạng được so
sánh với các mẫu tham chiếu để xác định xem nó “giống” mẫu tham chiếu
nào nhất. Mẫu tham chiếu giống nó nhất chính là kết quả nhận dạng.
Tư tưởng của phương pháp này là nếu như có đủ các phiên bản khác nhau của
mẫu cần nhận dạng thì thông qua bước huấn luyện hệ thống có thể xác định một
cách chính các đặc trưng của mẫu. Việc xác định các đặc trưng thông qua bước
huân luyện được gọi là phân lớp mẫu. Hiện nay, có hai phương pháp nhận dạng
mẫu được sử dụng rỗng rãi đó là mô hình Markov ẩn và mạng Neural. Sơ đồ khối
của một hệ thống nhận dạng mẫu như sau [9]:
Hình 1.3 Hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu
Những bước cần thực hiện đối với một hệ thống nhận dạng mẫu là:
1. Trích chọn các đặc trưng: Ở bước này dựa trên một số biện pháp phân
tích để xác định các đặc trưng của các mẫu. Đối với các hệ thống nhận
Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói
dạng tiếng nói có hai phương pháp cơ bản là phương pháp phân tích hệ số
phổ theo thang độ Mel (MFCC) và phương pháp phân tích mã hóa dự
đoán tuyến tính (LPC).
2. Huấn luyện mẫu: Ở bước này, hệ thống dựa trên các đặc trưng của các
mẫu trong cùng một lớp được tạo ra ở bước trước để tạo nên các mẫu
tham chiếu của hệ thống. Ví dụ trong hệ thống nhận dạng từ, để xây dựng

nên một từ tham chiếu chúng ta phải thu từ đó lặp đi lặp lại nhiều lần, sau
đó trích chọn các đặc trưng của những từ này nhằm tạo một từ tham chiếu
cho hệ thống.
3. Phân lớp mẫu: Trong bước này, mẫu cần nhận dạng được so sánh với các
mẫu tham chiếu. Ở đây, cần một thủ tục để tính khoảng cách cục bộ, và
quy chuẩn thời gian giữa các mẫu.
4. Quyết định logic: Sau bước phân lớp mẫu ta có được điểm đánh giá sự
“giống” nhau giữa mẫu cần nhận dạng và mẫu tham chiếu. Những thông
số điểm này sẽ được sử dụng để đưa ra quyết định là mẫu nào “giống”
với mẫu cần nhận dạng nhất.
Đặc điểm của một hệ thống nhận dạng mẫu:
• Hiệu năng của hệ thống rất nhạy cảm với số mẫu dữ liệu có trong tập huấn
luyện. Thông thường, khi mà số mẫu có trong tập huấn luyện càng nhiều
thì hiệu năng nhận của hệ thống càng cao.
• Mẫu tham chiếu rất nhạy cảm với môi trường thu âm và đặc tính của
đường truyền do đặc tính phổ của tiếng nói chịu tác động của đường
truyền và nhiễu nền.
• Không cần có những hiểu biết đặc biệt về ngôn ngữ chính vì vậy hệ thống
này ít phụ thuộc vào kích thước từ điển, cú pháp và ngữ nghĩa.
Khối lượng tính toán trong thủ tục huấn luyện hoặc nhận dạng tỷ lệ tuyến tính
với số mẫu dùng huấn luyện hoặc nhận dạng.
1.2.3.3 Phương pháp ứng dụng trí tuệ nhân tạo
Phương pháp này là sự lai tạo của của hai phương pháp trên với mục đích khai
thác tối đa ưu điểm của từng phương pháp. Phương pháp này điều chỉnh thủ tục
nhận dạng theo cách mà con người sử dụng trí tuệ của mình trong việc quan sát,
phân tích và cuối cùng đưa ra một quyết định dựa trên các thông số đặc trưng về âm
học. Những kỹ thuật thường được sử dụng cùng với các phương pháp này là:
Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói
• Sử dụng hệ chuyên gia để phân đoạn và gán nhãn do đó bước chủ yếu và
khó nhất được thực hiện đơn giản hơn so với một hệ thống nhận dạng chỉ

dựa vào hướng tiếp cận âm học - ngữ âm học thuần tuý.
• Sử dụng mạng neural để học mối quan hệ giữa các đơn vị ngữ âm và tất cả
các đầu vào đã nhận biết (bao gồm âm học, ngôn ngữ học, cú pháp, ngữ
nghĩa…), sau đó sử dụng mạng này để nhận dạng.
Mục đích của việc sử dụng hệ chuyên gia là nhằm tận dụng các nguồn kiến
thức của con người vào hệ thống nhận dạng. Các nguồn kiến thức đó bao gồm:
1. Kiến thức về âm học : Nhằm để phân tích phổ và xác định đặc tính âm
học của các mẫu tiếng nói đầu vào.
2. Kiến thức về từ vựng : Sử dụng để kết hợp các khối ngữ âm thành các từ
cần nhận dạng.
3. Kiến thức về cú pháp : Nhằm kết hợp các từ thành các câu cần nhận dạng.
4. Kiến thức về ngữ nghĩa : Nhằm xác định tính logic của các câu đã được
nhận dạng.
Sự kết hợp các nguồn kiến thức phụ thuộc vào hệ chuyên gia mà hệ thống
nhận dạng sử dụng.
Có nhiều cách khác nhau để có thể kết hợp các nguồn kiến thức. Cách thông
dụng nhất là xử lý từ dưới lên, trong đó các tiến trình ở mức thấp nhất (như trích
chọn đặc trưng, giải mã ngữ nghĩa) được đặt trên các tiến trình cao hơn (như giải
mã từ vựng, mô hình ngôn ngữ) theo một tiến trình tuần tự nhằm giảm việc xử lý
trong mỗi tầng xuống mức nhỏ nhất có thể. Sơ đồ khối của phương pháp này như
sau [9]:
Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói
Hình 1-5 Tích hợp tri thức trong nhận dạng tiếng nói theo hướng từ dưới lên
Chương này đã giới thiệu một cách tổng quan về xử lý tiếng nói và nhận dạng
tiếng nói cùng các phương pháp nhận dạng đã được sử dụng. Nhận dạng tiếng nói là
một ứng dụng quan trọng của xử lý tiếng nói đã được đưa vào nhiều lĩnh vực của
đời sống. Một hệ thống nhận dạng bao gồm nhiều khâu và chi tiết từng khâu sẽ
được trình bày chi tiết trong các chương sau.
Nhận dạng tiếng nói và… Chương 2: Quá trình tiền xử lý tiếng nói
CHƯƠNG 2 : QUÁ TRÌNH TIỀN XỬ LÝ TIẾNG NÓI

Trong các hệ thống phát triển ứng dụng của xử lý tiếng nói (nhận dạng, tổng
hợp tiếng nói, xác thực người nói) có một bộ phận không thể thiếu là quá trình tiền
xử lý tiếng nói. Nhiệm vụ chính của quá trình này:
• Phát hiện tiếng nói từ tín hiệu âm thanh thu nhận được
• Tiến hành phân tích và trích chọn đặc trưng của tiếng nói để loại bỏ những
thông tin dư thừa chỉ giữ lại những thông tin cần thiết nhất của tiếng nói.
Các giải thuật cụ thể trong quá trình tiền xử lý sẽ được trình bày sau đây.
2.1 PHÁT HIỆN TIẾNG NÓI
Một khâu mà bất cứ một hệ thống nhận dạng tiếng nói nào cũng cần phải có là
khâu phát hiện tiếng nói [8]. Ở khâu này ta thực hiện công việc phân tách tín hiệu
tiếng nói với thành phần khác.
Một trong những nhân tố quan trọng nhất trong các giải thuật phát hiện tiếng
nói là chọn tham số sử dụng để tách tín hiệu tiếng nói với các tín hiệu khác. Có ba
tham số thường được dùng nhất hiện nay trong các giải thuật phát hiện tiếng nói:
Năng lượng ngắn hạn, tốc độ đi qua điểm không, lượng thông tin.
2.1.1 Năng lượng ngắn hạn
Giả sử ta có tín hiệu tiếng nói x(n), khung mà ta cần nghiên cứu bắt đầu từ
mẫu thứ n và có N mẫu trong khung đó khi đó hàm năng lượng ngắn hạn của tín
hiệu tiếng nói được tính như sau:
[ ]
∑
−+
=
−=
1
2
)()(
Nm
mn
m

mnWnxE
(2.1)
trong đó
)(nW
là một hàm cửa sổ. Dạng thường sử dụng là cửa sổ hình chữ
nhật có dạng như sau :



≥
<≤
=
Nn
Nn
nW
0
01
)(
(2.2)
Một của sổ có độ rộng lớn tương đương một bộ lọc thông thấp băng hẹp, muốn
năng lượng ngắn hạn phản ánh được biên độ ngắn hạn của tín hiệu thì phải dùng
cửa sổ nhỏ.
Nhận dạng tiếng nói và… Chương 2: Quá trình tiền xử lý tiếng nói
Muốn năng lượng ngắn hạn thay đổi kịp tốc độ biến đổi của các âm trong tiếng
nói chúng ta phải dùng cửa sổ nhỏ, nhưng nếu quá nhỏ thì năng lượng ngắn hạn
không phản ánh được năng lượng trung bình của tín hiệu.
2.1.2 Tốc độ đi qua điểm không
Tham số thứ hai là tốc độ đi qua điểm không của tín hiệu tiếng nói. Tốc độ đi
qua điểm không là thông tin về tấn số tiếng nói, đặc biệt là tín hiệu băng hẹp. Nếu tỉ
lệ này lớn thì tần số của tín hiệu tiếng nói lớn. Tham số này được tính như sau:

∑
=
+−++=
N
i
n
inxinxZ
0
|))(sgn())1(sgn(|
(2.3)
với sgn(x(n)) được định nghĩa như sau:



<−
≥
=
0x(n)
0x(n)
nx
1
1
))(sgn(
(2.4)
2.1.3 Lượng thông tin
Gần đây trong một số hệ thống nhận dạng tiếng nói người ta có sử dụng tham
số Entropy của tín hiệu tiếng nói trong việc phát hiện điểm đầu/cuối của tiếng nói.
Việc áp dụng tham số này đã đem lại một hiệu quả nhất định dưới đây là cách tính
tham số này. Để tính được Entropy của một khung tín hiệu tiếng nói ta cần thực
hiện ba bước sau:

2.1.3.1 Tính FFT
Tín hiệu tiếng nói từ miền thời gian được chuyển sang miền tần số bằng cách
thực hiện phép biến đổi Fourier. Công thức tính như sau:
∑
∞
−∞=
−
=
n
nj
enxX
ω
ω
)()(
(2.5)
2.1.3.2 Mật độ xác suất của phổ năng lượng
Hàm mật độ phân bố xác suất phổ năng lượng của tín hiệu được tính như sau:
,
)(
)(
1
∑
=
=
M
k
k
i
i
fs

fs
p
i=1… M (2.6)
trong đó:
s(f
i
) là phổ năng lượng của thành phần tần số f
i
M là số điểm tính FFT.
Nhận dạng tiếng nói và… Chương 2: Quá trình tiền xử lý tiếng nói
Trước khi tính tiếp bước ba có một số thủ thuật được sử dụng nhằm tăng tính
phân tách của hàm phân bố xác suất giữa tín hiệu tiếng nói và tín hiệu khác.
Hzf Hzf fs
iii
3750,2500)( ≥≤=
(2.7)
9.00 ≥=
ii
p p
(2.8)
2.1.3.3 Tính Entropy
Sau khi tính được hàm phân bố xác suất của phổ năng lượng ta tính Entropy
của tín hiệu theo công thức.
∑
=
−=
M
j
jji
ppH

1
)log(
(2.9)
2.1.4 Giải thuật phát hiện tiếng nói
Trước khi tiến hành viết một giải thuật để phát hiện tiếng nói, chúng ta cần
phải quyết định:
• Sử dụng tham số nào
• Ngưỡng cho tham số đó là bao nhiêu
Dưới đây là một giải thuật phát hiện tiếng nói sử dụng kết hợp hai tham số là
năng lượng ngắn hạn và tốc độ đi qua điểm không. Sử dụng giải thuật này ta có thể
xác định ngưỡng một cách tự động.
1. Khởi tạo: Coi 100ms đầu tiên của tín hiệu thu được là khoảng lặng.
 Tính giá trị trung bình
IZC
và độ lêch chuẩn
δ
của tham số tốc độ đi
qua điểm không.
 Tính ngưỡng tốc độ đi qua điểm không IZCT theo công thức sau:
)*2,min(
δ
+= IZCIFTIZCT
 Tính năng lượng cho từng khung
 Tính ngưỡng năng lượng ITL và ITU theo trình tự sau:
ITL*5ITU
I2)min(I1,ITL
IMN*4I2
IMNIMN)-(IMX*0.03I1
SIL_LEN0,1, ,n min(E(n))IMN nEIMX
=

=
=
+=
=== )),(max(
Nhận dạng tiếng nói và… Chương 2: Quá trình tiền xử lý tiếng nói
2. Tìm khung có năng lượng lớn hơn ITL đánh dấu nó như là điểm có thể
bắt đầu tiếng nói, gọi nó là s.
3. Nếu khung sau s có năng lượng lớn hơn ITL thì nó sẽ là khung bắt đầu
tiếng nói. Còn nếu có năng lượng nhỏ hơn ITL thì phải tìm lại s.
4. Tìm khung có năng lượng nhỏ hơn ITU, khung này là khung kết thúc
tiếng nói.
5. Kết quả phát hiện tiếng nói ở các bước trên có thể chưa chính xác, cần
phải điều chỉnh chúng theo cách sau:
 Từ khung bắt đầu tiếng nói ta tìm ngược về phía trước 250ms. Đếm số
khung có tốc độ đi qua điểm không vượt quá ngưỡng IZCT. Nếu có từ
3 khung trở lên thì dich chuyển vị trí bắt đầu về khung có tốc độ đi
qua điểm không vượt quá IZCT gần s nhất. Ngược lại s vẫn giữ
nguyên vị trí.
 Thực hiện tương tự đối với điểm kết thúc tiếng nói.
Giải thuật này đã được cài đặt trong chương trình và nó cho kết quá khá tốt với
tham số IFT chọn là 25/độ dài của frame.
2.2 PHÂN TÍCH MÃ HÓA DỰ ĐOÁN TUYẾN TÍNH (LPC)
Lý thuyết về mã hoá dự đoán tuyến tính đã được nghiên cứu trong nhiều
năm qua và nó đã chứng tỏ được những ưu điểm của mình khi áp dụng trong lĩnh
vực xử lý tiếng nói. Phần này sẽ mô tả những kiến thức cơ bản để có thể ứng dụng
nó trong lĩnh vực xử lý tiếng nói [6].
2.2.1 Mô hình LPC
Ý tưởng cơ bản của mô hình LPC là một mẫu tín hiệu tiếng nói ở thời điểm n,
)(ns
có thể xấp xỉ như là tổ hợp tuyến tính của p mẫu trước đó, về mặt toán học ta

có công thức sau:
s(n)
≈
a
1
s(n
−
1) + a
2
s(n
−
2) + … + a
p
s(n
−
p) (2.10)
ở đó
)(ns
là tín hiệu tiếng nói ở thời điểm n, còn các hệ số a
i
được coi là các
hằng số đối với mỗi khung tiếng nói. Chúng ta có thể chuyển công thức xấp xỉ trên
thành biểu thức với việc thêm vào các trọng số kích thích Gu(n) như sau:
s(n) = a
1
s(n
−
1) + a
2
s(n

−
2) + … + a
p
s(n
−
p) + Gu(n) (2.11)
Nhận dạng tiếng nói và… Chương 2: Quá trình tiền xử lý tiếng nói
Trong đó u(n) là kích thích được chuẩn hóa và G là trọng số kích thích (Gain).
Thực hiện phép biến đổi Z cho 2 vế của đẳng thức (2.11) ta có:
)(
1
)()( zGU
p
i
zS
i
z
i
azS +
∑
=
−
=
(2.12)
Suy ra hàm truyền đạt :
( )
)(
1
1
1

)(
)(
1
zA
za
zGU
zS
zH
p
i
i
i
=
−
==
∑
=
−
(2.13)
Hình 2.1 dưới đây minh họa cho biểu thức (2.13), trong đó nguồn kích thích
chuẩn hóa u(n) được nhân với trọng số kích thích G, và đóng vai trò là đầu vào cho
hệ thống toàn điểm cực
)(
1
)(
zA
zH =
để tạo ra tín hiệu tiếng nói s(n).
u(n)
1/A(z)

G
x(n)
Hình 2-6 Mô hình dự đoán tuyến tính của tiếng nói
2.2.2 Các công thức phân tích LPC
Nếu coi ước lượng của tín hiệu tiếng nói ở thời điểm n như là tổ hợp tuyến tính
của p mẫu trong quá khứ thì ta có công thức sau:
∑
=
−=
p
k
k
knsans
1
)()(
~
(2.14)
trong đó
)(
~
ns
được gọi là ước lượng của
)(ns
Khi đó sai số dự đoán e(n) được định nghĩa là :
∑
=
−−=−=
p
k
k

knsansnsnsne
1
)()()(
~
)()(
(2.15)
và hàm truyền đạt sai số là :
∑
=
−
−==
p
k
k
k
za
zS
zE
zA
1
1
)(
)(
)(
(2.16)
Nhận dạng tiếng nói và… Chương 2: Quá trình tiền xử lý tiếng nói
Vấn đề cơ bản của phân tích dự đoán tuyến tính là phải xác định trực tiếp từ
tín hiệu tiếng nói một tập các hệ số dự đoán {a
k
} sao cho các thuộc tính phổ của bộ

lọc số ở hình 2.1 phù hợp với các thuộc tính phổ tương ứng của dạng sóng tiếng nói
trong cửa sổ phân tích. Do đặc tính phổ của tiếng nói thay đổi theo thời gian như đã
đề cập ở trên nên các hệ số dự đoán tại thời điểm n phải được đánh giá trên một
đoạn tín hiệu tiếng nói ngắn xung quanh thời điểm n. Bởi vậy, cách tiếp cận cơ bản
là tìm ra một tập các hệ số dự đoán mà tập hệ số này làm tối thiểu hóa sai số bình
phương trung bình trên một đoạn ngắn của tín hiệu.
Để thiết lập các phương trình xác định tập hệ số dự đoán, ta định nghĩa tín hiệu
tiếng nói trong thời gian ngắn và sai số tại thời điểm n như sau :
s
n
(m) = s(n+m) (2.17)
e
n
(m) = e(n+m) (2.18)
Sai số bình phương trung bình của tín hiệu tại thời điểm n sẽ có công thức như
sau :
[ ]
2
1
2
2
)()()(
~
)()(
∑ ∑∑ ∑







−−=−==
=m
p
k
nkn
m m
nnnn
kmsamsmsmsmeE
(2.19)
Nếu tối thiểu hóa E
n
bằng cách chọn các hệ số a
k
thích hợp thì đạo hàm riêng
của E
n
ứng với mỗi hệ số a
k
(k = 1, 2, , p) sẽ bằng 0, tức là :
pk
a
E
k
n
,,2,1,0 ==
∂
∂
(2.20)
Suy ra :

∑∑ ∑
−−=−
= m
nn
m
p
k
knn
kmsimsamsims )()(
ˆ
)()(
1
(2.21)
Kí hiệu hàm hiệp biến :
∑
−−=
m
nnn
kmsimski )()(),(
φ
(2.22)
Đẳng thức (2.21) được viết dưới dạng rút gọn như sau:
∑
=
=
p
k
nkn
kiai
1

),(
ˆ
)0,(
θφ
(2.23)
Công thức này mô tả một hệ p phương trình p ẩn số. Còn sai số bình phương
trung bình
n
E
ˆ
sẽ được biểu diễn dưới dạng sau :
Nhận dạng tiếng nói và… Chương 2: Quá trình tiền xử lý tiếng nói

∑
∑ ∑ ∑
=
=
−=
−−=
p
k
nkn
m
p
k m
nnknn
ka
kmsmsamsE
1
1

2
),0(
ˆ
)0,0(
)()(
ˆ
)(
ˆ
φφ
(2.24)
Ta thấy sai số bình phương trung bình bao gồm một số hạng cố định (
)0,0(
n
φ
)
và các số hạng phụ thuộc vào các hệ số tiên đoán.
Để xác định các hệ số dự đoán tối ưu (
k
a
ˆ
) bằng cách giải phương trình (2.23)
chúng ta phải tính
),( ki
n
θ
với 1
≤
i
≤
p và 0

≤
k
≤
p, rồi sau đó giải một hệ p phương
trình tuyến tính. Trên thực tế, phương pháp để giải hệ phương trình này phụ thuộc
rất nhiều vào khoảng m sử dụng trong xác định đoạn tín hiệu tiếng nói phân tích và
vùng trên đó sai số bình phương trung bình được tính. Có 2 phương pháp phân tích
LPC dựa trên việc xác định khoảng này, đó là phương pháp tự tương quan
(Autocorrelation Method) và phương pháp hiệp biến (Covariance Method). Trong
các hệ thống nhận dạng tiếng nói trên thực tế người ta thường chỉ sử dụng phương
pháp phân tích tự tương quan nên bản báo cáo này chỉ trình bày nội dụng của
phương pháp này.
2.2.3 Phân tích tự tương quan
Một cách định nghĩa giới hạn của m trong các tổng đơn giản và dễ thực hiện là
cho rằng các đoạn tiếng nói s
n
(m) là bằng 0 ở bên ngoài khoảng 0
≤
m
≤
N-1. Điều này
tương đương với việc nhân tín hiệu tiếng nói s(m+n) với một cửa sổ có độ dài hữu
hạn w(m), cửa sổ này bằng 0 ở bên ngoài khoảng 0
≤
m
≤
N-1. Như vậy mẫu tiếng nói
có thể được biểu diễn như sau :




−≤≤+
=
kh¸c hîptr êng c¸c trong
víi
0
10)().(
)(
Nmmwnms
ms
n
(2.25)
Vì s
n
(m) = 0
∀
m<0 nên với m<0 thì e
n
(m) = 0, nghĩa là không có sai số dự
đoán. Hơn nữa, với m>N-1+p cũng không có sai số dự đoán bởi vì s
n
(m) = 0 ∀
m>N-1. Tuy nhiên, trong vùng từ m=0 tới m=p-1 tín hiệu tiếng nói đã qua cửa sổ
s
n
(m) được dự đoán từ các mẫu trước đó, một vài trong số chúng ngẫu nhiên bằng 0.
Vì vậy, có khả năng lớn là sai số dự đoán tồn tại trong vùng này. Hơn nữa, trong
vùng từ m=N-1 đến m=N-1+p khả năng xảy ra sai số dự đoán cũng khá lớn bởi vì
tín hiệu tiếng nói bằng 0 được dự đoán từ một vài mẫu tín hiệu tiếng nói khác 0
trước đó. Do vậy chúng ta sẽ thấy ảnh hưởng này lớn tại hai biên. Mục đích việc sử

Nhận dạng tiếng nói và… Chương 2: Quá trình tiền xử lý tiếng nói
dụng cửa sổ trong phương trình (2.25) là ghi lại tín hiệu gần m=0 và gần m=N-1 để
tối thiểu hóa sai số tại các biên của đoạn cần phân tích.
Với việc sử dụng tín hiệu có trọng số ở phương trình (2.25), sai số bình
phương trung bình trở thành :
∑
+−
=
=
pN
m
nn
meE
1
0
2
)(
(2.26)
Và
),( ki
n
θ
có thể được biểu diễn như sau:
∑
+−
=
≤≤≤≤−−=
pN
m
nnn

kmsimski
1
0
)()(),( pk0 p,i1 víi
θ
(2.27)
Hay :
∑
−−−
=
≤≤≤≤−+=
)(1
0
)()(),(
kiN
m
nnn
kimsmski pk0 p,i1 víi
θ
(2.28)
Vì phương trình (2.28) chỉ là một hàm của i-k nên hàm hiệp biến
),( ki
n
θ
trở
thành hàm tự tương quan đơn giản:
∑
−−−
=
−+=−=

)(1
0
)()()(),(
kiN
m
nnnn
kimsmskirki
θ
(2.29)
Vì hàm tự tương quan là đối xứng, r
n
(-k) = r
n
(k) nên các phương trình LPC có
thể biểu diễn như sau:
( )
piirakir
n
p
k
kn
≤≤=−
∑
=
1),(
ˆ
1
(2.30)
Biểu diễn dưới dạng ma trận:













=



























−−
−
−
)(

)2(
)1(
ˆ

ˆ
ˆ
)0( )2()1(

)2( )0()1(
)1( )1()0(
2
1
pr
r
r
a
a

a
rprpr
prrr
prrr
n
n
n
p
nnn
nnn
nnn
(2.31)
Ma trận các giá trị tương quan là một ma trận Toeplitz (ma trận đối xứng có
các phần tử trên đường chéo chính bằng nhau) nên phương trình (2.31) có thể được
giải quyết hiệu quả bởi một số thuật toán nổi tiếng. Một trong số đó là giải thuật
Durbin.
Giải thuật Durbin là giải thuật sử dụng truy hồi được phát biểu như sau:
( )
)0(
0
rE =
(2.32)

Trích đoạn

6.1.1Giao diện chính của chương trình ứng dụng

Nhận dạng tiếng nói và ứng dụng tích hợp với các phầnmềm máy tính

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về