Tải bản đầy đủ (.pdf) (118 trang)

NGHIÊN cứu về NHẬN DẠNG TIẾNG nói và xây DỰNG PHẦN mềm DEMO NHẬN DẠNG TIẾNG nói TIẾNG VIỆT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.85 MB, 118 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH



KHOÁ LUẬN TỐT NGHIỆP

NGHIÊN CỨU VỀ NHẬN DẠNG
TIẾNG NÓI VÀ XÂY DỰNG PHẦN MỀM DEMO
NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT

Giảng viên hướng dẫn : TS. VŨ ĐỨC LUNG
Nhóm sinh viên thực hiện: HOÀNG LINH – NGUYỄN HỮU NHẬT
Lớp
: CNTN02
Khoá :
2007-2011

TP. Hồ Chí Minh, tháng 07 năm 2011


MỞ ĐẦU
Tiếng nói là phương tiện giao tiếp cơ bản nhất của con người, sử dụng lời nói là
một cách diễn đạt đơn giản và hiệu quả nhất. Đã từ lâu, con người luôn mơ ước đến
các hệ thống máy điều khiển tự động có thể giao tiếp bằng tiếng nói tự nhiên của con
người. Ngày nay, cùng với sự phát triển của khoa học kỹ thuật và công nghệ, đặc biệt
trong lĩnh vực tin học. Các hệ thống máy tự động đã dần thay thế con người trong
nhiều công việc. Nhu cầu giao tiếp với thiết bị máy bằng tiếng nói là rất cần thiết, đó là
phương thức giao tiếp văn minh và tự nhiên nhất.


Vấn đề nghiên cứu các phương pháp nhận dạng tiếng nói đã và đang thu hút rất
nhiều sự đầu tư và nghiên cứu của các nhà khoa học trên khắp thế giới. Ý tưởng về xây
dựng các hệ thống nhận dạng tiếng nói đã có từ những năm 50 của thế kỷ 20 và đến
nay đã đạt được nhiều kết quả đáng kể. Trên thế giới đã có rất nhiều hệ thống nhận
dạng tiếng nói tiếng Anh đã và đang được ứng dụng rất hiệu quả như: Via Voice của
IBM, Spoken Toolkit của CSLU (Central of Spoken Laguage Under-standing), Speech
Recognition Engine của Microsoft, Hidden Markov Model toolkit của đại học
Cambridge, CMU Sphinx của đại học Carnegie Mellon,… ngoài ra, một số hệ thống
nhận dạng tiến nói tiếng Pháp, Đức, Trung Quốc,.. cũng khá phát triển. Đối với nước
ta, nhận dạng tiếng nói vẫn là một lĩnh vực khá mới mẻ. Đến nay tuy đã có nhiều
nghiên cứu về nhận dạng tiếng nói tiếng Việt và đã đạt được một số thành tựu, nhưng
nhìn chung vẫn chưa đạt được kết quả cần thiết để có thể tạo ra các sản phẩm mang
tính ứng dụng cao.
Khóa luận này nghiên cứu thử những ý tưởng cơ bản và các phương pháp được sử
dụng trong nhận dạng tiếng nói và xây dựng một chương trình demo nhận dạng tiếng
nói tiếng Việt sử dụng mô hình Markov ẩn dựa trên nền tảng CMUSphinx4 của đại học
Carnegie Mellon.
Trong thời gian hạn chế với mức độ phức tạp của vấn đề nhận dạng tiếng nói tiếng
Việt, khóa luận này chỉ là bước nghiên cứu ban đầu cho nhận dạng tiếng nói tiếng Việt,
hệ thống nhận dạng tiếng nói tiếng Việt không thể dừng ở bộ từ vừng nhỏ. Tuy nhiên
đề tài hoàn toàn có khả năng mở rộng với việc triển khai áp dụng mô hình cho bộ từ
vựng lớn hơn, bộ dữ liệu huấn luyện tốt hơn để có thể đạt đến hệ thống nhận dạng
tiếng nói giải quyết được các vấn đề của nhận dạng tiếng nói tiếng Việt.

Khóa luận bao gồm 5 chương với nội dung chính như sau:
Chương 1: Tổng quan về tiếng nói và nhận dạng tiếng nói. Trong đó giới thiệu sơ
i


lược về nguồn gốc của tiếng nói, các khái niệm cơ bản và các hướng nghiên cứu trong

nhận dạng tiếng nói.
Chương 2: Trình bày một số kiến thức cơ bản về xử lý tiếng nói, bao gồm các cơ
sở xử lý tín hiệu số, biểu diễn tiếng nói trên ảnh phổ và phương pháp rút trích đặc
trưng tiếng nói bằng phương pháp MFCC (Mel-scale Frequency Cepstral Coefficient)
và LPC (Linear Predictive Coding).
Chương 3: Tiếp cận phương pháp nhận dạng tiếng nói dựa trên mô hình Markov
ẩn bao gồm khái niệm, sử dụng thực tế và một số hạn chế của nó. Bên cạnh đó cũng đề
cập đến 2 mô hình quan trọng xây dựng nên bộ ngôn ngữ cho hệ thống nhận dạng là
mô hình âm học và mô hình ngôn ngữ.
Chương 4: Giới thiệu về công cụ hỗ trợ nghiên cứu nhận dạng tiếng nói CMU
Sphinx4 của đại học Carnegie Mellon, các thành phần trong kiến trúc của nó để có
được cái nhìn tổng quan về một hệ thống nhận dạng tiếng nói, đồng thời hỗ trợ cho
việc xây dựng chương trình demo nhận dạng tiếng nói.
Chương 5: Thực hiện một chương trình demo nhận dạng tiếng nói tiếng Việt sử
dụng công cụ Sphinx, trong đó mô tả quá trình xây dựng mô hình ngôn ngữ và huấn
luyện mô hình âm học cho chương trình nhận dạng.
Phụ lục: Bảng phiên âm phiên âm tiếng Việt mức âm vị theo dạng ASCII dựa trên
bảng mẫu tự phiên âm quốc tế IPA (International Phonetic Alphabet) được sử dụng
trong chương trình.

ii


LỜI CẢM ƠN
Đầu tiên, chúng em xin bày tỏ lòng biết ơn chân thành đến thầy Vũ Đức Lung,
người đã tận tình hướng dẫn, tạo mọi điều kiện thuận lợi để chúng em hoàn thành tốt
khóa luận tốt nghiệp này. Thầy đã định hướng cho chúng em từ cách đặt vấn đề,
phương pháp nghiên cứu khoa học, cho đến những công việc cụ thể nhất.
Chúng em cũng rất biết ơn sự dạy dỗ và giúp đỡ tận tình của tất cả quí thầy cô tại
trường Đại học Công Nghệ Thông Tin, đặc biệt là quí thầy cô trong khoa Khoa Học

Máy Tính. Tất cả các kiến thức mà nhà trường và quí thầy cô đã truyền đạt là hành
trang to lớn đối với chúng em trên con đường học tập, làm việc và nghiên cứu sau này.
Cuối cùng xin gửi lời cảm ơn sâu sắc đến gia đình, các anh chị, bạn bè, những
người luôn sát cánh động viên chúng em trên bước đường học tập và trong cuộc sống.

Chúng em xin được tri ơn tất cả.
Thành phố Hồ Chí Minh, tháng 07 năm 2011
Nhóm sinh viên:
Hoàng Linh - Nguyễn Hữu Nhật

iii


NHẬN XÉT
(Của giảng viên hướng dẫn)
………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………

……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
…………………………

iv


NHẬN XÉT
(Của giảng viên phản biện)
………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………

……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
…………………………

v


MỤC LỤC
MỞ ĐẦU ..................................................................................................................... I
LỜI CẢM ƠN .......................................................................................................... III
NHẬN XÉT ............................................................................................................. IV
MỤC LỤC ............................................................................................................... VI

DANH MỤC CÁC BẢNG ......................................................................................... X
DANH MỤC CÁC HÌNH........................................................................................ XI
CHƯƠNG 1:TỔNG QUAN ....................................................................................... 1
1.1.SƠ LƯỢC VỀ TIẾNG NÓI: .................................................................................. 1
1.1.1Nguồn gốc của tiếng nói: ................................................................................ 1
1.1.2.Cơ chế phát âm và cảm nhận âm của con người:............................................. 2
1.1.2.1.Cơ quan phát âm: ................................................................................. 2
1.1.2.2.Cơ quan thính giác của con người:........................................................ 3
1.1.3.Quá trình phát sinh và hiểu tiếng nói. Các thành phần tương ứng trong máy
tính: .............................................................................................................................. 4
1.2.TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI: .................................................... 5
1.2.1.Phân loại nhận dạng tiếng nói: ........................................................................ 6
1.2.1.1.Nhận dạng từ liên tục và nhận dạng từ tách biệt:................................... 6
1.2.1.2.Nhận dạng phụ thuộc người nói và độc lập người nói: .......................... 6
1.2.2.Các hướng nghiên cứu: ................................................................................... 7
1.2.2.1.Hướng ngữ âm học: .............................................................................. 7
1.2.2.2.Hướng kết hợp mẫu: ............................................................................. 8
1.2.2.3.Hướng thông minh nhân tạo: ................................................................ 8
1.2.3.Hệ thống nhận dạng tiếng nói tự động: ........................................................... 8
1.2.4.Bộ máy nhận dạng tiếng nói : ......................................................................... 9
CHƯƠNG 2:XỬ LÝ TIẾNG NÓI ........................................................................... 11
2.1.CƠ SỞ XỬ LÝ TÍN HIỆU SỐ: ............................................................................ 11
2.1.1.Các hệ thống và tín hiệu số: .......................................................................... 11
2.1.1.1.Các tín hiệu dạng sin: ......................................................................... 11
2.1.1.2.Hệ thống số: ....................................................................................... 13
2.1.2.Phép biến đổi tần số liên tục: ........................................................................ 13
2.1.2.1.Biến đổi Fourier: ................................................................................ 13
2.1.2.2.Biến đổi Z: ......................................................................................... 16
2.1.2.3.Quan hệ giữa biến đổi Fourier và biến đổi Z ....................................... 18
2.1.3.Phép biến đổi tần số rời rạc:.......................................................................... 19

2.1.3.1.Biến đổi Fourier rời rạc (Discrete Fourier Transform – DFT): ............ 19
2.1.3.2.Biến đổi Fourier nhanh: ...................................................................... 20
2.1.3.3.Biến đổi Cosine rời rạc: ...................................................................... 22
2.1.4.Các bộ lọc số và các cửa sổ: ......................................................................... 23
vi


2.1.4.1.Bộ lọc lý tưởng thông thấp: ................................................................ 23
2.1.4.2.Các phương pháp cửa sổ: .................................................................... 24
2.1.4.3.Bộ lọc FIR và IIR: .............................................................................. 25
2.1.5.Xác suất và quá trình ngẫu nhiên: ................................................................. 26
2.1.5.1.Cơ sở xác suất: ................................................................................... 26
2.1.5.2.Biến ngẫu nhiên:................................................................................. 27
2.2.BIỂU DIỄN TÍN HIỆU TIẾNG NÓI ................................................................... 28
2.2.1.Biến đổi Fourier thời gian ngắn: ................................................................... 29
2.2.2.Phân tích Fourier thời gian ngắn: .................................................................. 30
2.3.RÚT TRÍCH ĐẶC TRƯNG TIẾNG NÓI: ........................................................... 32
2.3.1.Trích đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient) : ........... 33
2.3.1.1.Tiền nhấn (Pre-emphasis): .................................................................. 33
2.3.1.2.Cửa sổ hóa (Windowing): ................................................................... 34
2.3.1.3.Biến đổi Fourier nhanh (Fast Fourier Transform – FFT): .................... 34
2.3.1.4.Lọc qua bộ lọc Mel-scale :.................................................................. 34
2.3.1.5.Tính log năng lượng phổ: ................................................................... 35
2.3.1.6.Biến đổi Cosine rời rạc: ...................................................................... 35
2.3.2.Phương pháp mã hóa dự báo tuyến tính LPC (Linear Predictive Coding): .... 36
2.3.2.1.Phân tích tự tương quan: ..................................................................... 37
2.3.2.2.Phân tích LPC: ................................................................................... 37
2.3.2.3.Phân tích cepstral: .............................................................................. 38
2.3.2.4.Đặt trọng số cho các hệ số cepstral: .................................................... 38
CHƯƠNG 3:NHẬN DẠNG TIẾNG NÓI ............................................................... 40

3.1.MÔ HÌNH MARKOV ẨN: ................................................................................. 40
3.1.1.Chuỗi Markov: ............................................................................................. 40
3.1.2.Định nghĩa mô hình Markov ẩn: ................................................................... 43
3.1.2.1.Lập trình động và DTW: ..................................................................... 45
3.1.2.2.Đánh giá HMM – Thuật toán tiến: ...................................................... 47
3.1.2.3.Giải mã HMM – Thuật toán Viterbi: ................................................... 48
3.1.2.4.Ước lượng các tham biến HMM – Thuật toán Baum-Welch: .............. 49
3.1.3.Vấn đề thực tế trong sử dụng các HMM: ...................................................... 52
3.1.3.1.Ước lượng ban đầu: ............................................................................ 52
3.1.3.2.Cấu trúc liên kết mô hình: .................................................................. 52
3.1.3.3.Tiêu chí huấn luyện: ........................................................................... 53
3.1.3.4.Phép nội suy loại bỏ: .......................................................................... 54
3.1.3.5.Tối ưu toán tử: .................................................................................... 54
3.1.3.6.Biểu diển xác suất: ............................................................................. 55
3.1.4.Những hạn chế của HMM: ........................................................................... 56
3.1.4.1.Mô phỏng khoảng thời gian tồn tại: .................................................... 57
3.1.4.2.Giả định bậc đầu tiên: ......................................................................... 58
3.1.4.3.Giả định độc lập có điều kiện: ............................................................ 59
3.2.MỘT SỐ VẤN ĐỀ TRÊN MÔ HÌNH ÂM HỌC: ................................................. 59
vii


3.2.1.Lựa chọn đơn vị thích hợp cho mô hình âm học: .......................................... 60
3.2.1.1.So sánh các đơn vị khác nhau: ............................................................ 61
3.2.1.2.Lựa chọn đơn vị huấn luyện cho tiếng Việt: ........................................ 62
3.2.2.Đánh giá đặc trưng âm học: .......................................................................... 62
3.2.2.1.Lựa chọn các phân phối đầu ra HMM:................................................ 62
3.2.2.2.Huấn luyện tiếng nói rời rạc so với liên tục: ....................................... 64
3.2.3.Phương pháp tính toán lỗi: ............................................................................ 67
3.3.MÔ HÌNH NGÔN NGỮ: .................................................................................... 68

3.3.1.Lý thuyết ngôn ngữ hình thức: ...................................................................... 68
3.3.1.1.Hệ thống cấp bậc Chomsky: ............................................................... 69
3.3.1.2.Phân tích cú pháp đồ thị cho ngữ pháp ngữ cảnh tự do (CFG-context
free grammars): .......................................................................................................... 70
3.3.2.Mô hình ngôn ngữ Stochastic: ...................................................................... 72
3.3.2.1.Xác suất ngữ pháp ngữ cảnh tự do (CFG): .......................................... 73
3.3.2.2.Mô hình ngôn ngữ n-gram: ................................................................. 75
3.3.3.Độ phức tạp của các mô hình ngôn ngữ: ....................................................... 76
CHƯƠNG 4:CÔNG CỤ HỖ TRỢ NHẬN DẠNG TIẾNG NÓI PHINX4 ............. 77
4.1.GIỚI THIỆU VỀ SPHINX4 FRAMEWORK: ..................................................... 77
4.2.KIẾN TRÚC SPHINX4: ..................................................................................... 78
4.2.1.Bộ ngoại vi - FrontEnd: ................................................................................ 79
4.2.2.Bộ ngôn ngữ - Linguist: ................................................................................ 81
4.2.2.1.Mô hình ngôn ngữ: ............................................................................. 81
4.2.2.2.Từ điển: .............................................................................................. 82
4.2.2.3.Mô hình âm học: ................................................................................ 82
4.2.2.4.Đồ thị tìm kiếm - SearchGraph: .......................................................... 83
4.2.3.Bộ giải mã - Decoder: ................................................................................... 85
4.3.QUẢN LÝ CẤU HÌNH SPHINX: ....................................................................... 86
CHƯƠNG 5:XÂY DỰNG CHƯƠNG TRÌNH DEMO NHẬN DẠNG TIẾNG NÓI
................................................................................................................................... 88
5.1.XÂY DỰNG BỘ NGÔN NGỮ CHO CHƯƠNG TRÌNH NHẬN DẠNG: ............ 89
5.1.1.Xây dựng bộ từ điển: .................................................................................... 89
5.1.2.Xây dựng mô hình ngôn ngữ thống kê sử dụng CMUclmtk: ......................... 90
5.1.2.1.Chuẩn bị một tập tin văn bản sẽ dùng để phát sinh mô hình ngôn ngữ: ...
....................................................................................................................... 90
5.1.2.2.Phát sinh bộ từ vựng: .......................................................................... 91
5.1.2.3.Phát sinh mô hình ngôn ngữ theo định dạng arpa: ............................... 91
5.1.3.Xây dựng mô hình âm học: ........................................................................... 92
5.1.3.1.Chuẩn bị dữ liệu: ................................................................................ 93

5.1.3.2.Cấu hình huấn luyện: .......................................................................... 94
5.1.3.3.Thực thi huấn luyện: ........................................................................... 95
5.2.KẾT QUẢ HUẤN LUYỆN: ................................................................................ 96
viii


KẾT LUẬN ............................................................................................................... 98
PHỤ LỤC ................................................................................................................. 99
TÀI LIỆU THAM KHẢO ...................................................................................... 104

ix


DANH MỤC CÁC BẢNG
Bảng 2.1: Các tính chất của biến đổi Fourier .............................................................. 16
Bảng 2.2: Các tính chất của biến đổi Z ....................................................................... 18
Bảng 2.3: Tính chất của DFT đối với dãy tuần hoàn có chu kỳ N ............................... 20
Bảng 3.1 Hệ thống cấp bậc Chomsky và máy tương ứng cho phép ngôn ngữ. ........... 70
Bảng 4.1 Các thẻ định dạng trong tập tin cấu hình ...................................................... 87
Bảng 5.1 Thông số cấu hình ....................................................................................... 95

x


DANH MỤC CÁC HÌNH
Hình 1.1 Tín hiệu tiếng nói .......................................................................................... 1
Hình 1.2 Bộ máy phát âm ............................................................................................ 2
Hình 1.3 Cấu tạo cơ quan thính giác. ........................................................................... 3
Hình 1.4 Sự phát sinh và sự hiểu tiếng nói. Các thành phần tương ứng trong máy tính 4
Hình 1.5 Hệ thống nhận dạng tiếng nói ........................................................................ 9

Hình 2.1 Tín hiệu analog và tín hiệu số tương ứng ..................................................... 11
Hình 2.2 Đường hình sin với chu kỳ 25 mẫu .............................................................. 12
Hình 2.3 Biểu diễn tổng của hai đường sin cùng tần số .............................................. 12
Hình 2.4 Sơ đồ khối của một hệ thống kỹ thuật số ..................................................... 13
Hình 2.5 Đồ thị hàm X(e jω) ....................................................................................... 13
Hình 2.6 Biểu diễn theo phần thực phần ảo ................................................................ 17
Hình 2.7 Biểu diễn Z trên mặt phẳng phức ................................................................. 17
Hình 2.8 Vòng tròn đơn vị ......................................................................................... 17
Hình 2.9 Thực hiện biến đổi z trên vòng tròn đơn vị .................................................. 19
Hình 2.10 FFT 8 điểm, cơ số 2, phân chia theo tần số ................................................ 22
Hình 2.11 Hàm sinc ................................................................................................... 23
Hình 2.12 Biểu diễn AR(ejω) ....................................................................................... 24
Hình 2.13 Hàm phân phối .......................................................................................... 27
Hình 2.14 Dạng sóng với ảnh phổ băng rộng tương ứng. ........................................... 29
Hình 2.15 Phổ thời gian ngắn của tiếng nói giọng nam .............................................. 31
Hình 2.16 Chuyển đổi giữa giá trị năng lượng log (trên trục x) sang thang xám (trục
y)Năng lượng log lớn tương ứng với màu xám đậm hơn ............................................ 32
Hình 2.17 Sơ đồ rút trích đặc trưng tổng quát ............................................................ 32
Hình 2.18 Các bước tính đặc trưng MFCC ................................................................. 33
Hình 2.19 Đồ thị biểu diễn mối quan hệ giữa Mel và Hz............................................ 35
Hình 2.20 Sơ đồ bộ xử lý LPC rút trích đặc trưng tiếng nói ....................................... 37
Hình 3.1 Minh họa mô hình Markov .......................................................................... 40
Hình 3.2 So sánh trực tiếp giữa hai mẫu tiếng nói ...................................................... 46
Hình 3.3 Quá trình tính toán lưới tiến cho HMM của Dow Jones Industrial ............... 48
Hình 3.4 Quá trình tính toán lưới Viterbi cho HMM của Dow Jones Industrial ......... 49
Hình 3.5 Mối quan hệ αt-1 & αt và βt & βt+1 trong thuật toán tiến-lùi ........................... 50
Hình 3.6 Sự minh họa các phép toán yêu cầu cho việc tính toán của γt(i, j). ............... 51
Hình 3.7 Mô hình Markov ẩn điển hình được dùng cho mô hình âm vị. ..................... 53
Hình 3.8 Một HMM chuẩn (a) và thời gian tồn tại quá trình HMM tương ứng (b) nơi
mà các sự tự chuyển đổi được đổi chỗ với phân phối xác suất quy trình cho mỗi trạng

thái. ........................................................................................................................... 57
Hình 3.9 Tỉ lệ lỗi từ giữa các mô hình ........................................................................ 64
Hình 3.10 Cấu trúc của một mô hình từ rời rạc .......................................................... 66
Hình 3.11 Mô hình Markov ẩn toàn câu tổng hợp ...................................................... 67
Hình 3.12 Một biểu diễn cây của một câu và ngữ pháp tương ứng của nó. ................ 69
Hình 3.13 Xác suất bên trong được tính toán một cách đệ quy như tổng của tất cả các
xi


dẫn suất. .................................................................................................................... 74
Hình 3.14 định nghĩa xác suất bên ngoài ................................................................... 74
Hình 4.1 Kiến trúc tổng quát của Sphinx ................................................................... 78
Hình 4.2 Quá trình trích đặc trưng của bộ ngoại vi dùng MFCC ................................ 80
Hình 4.3 Chuỗi các DataProcessor ............................................................................. 80
Hình 4.4 Một ví dụ đồ thị tìm kiếm ............................................................................ 84
Hình 5.1 Chương trình demo ..................................................................................... 88
Hình 5.2 Sơ đồ quá trình tạo mô hình ngôn ngữ bằng công cụ CMUclmk.................. 90

xii


NHẬN DẠNG TIẾNG NÓI

GVHD: TS. VŨ ĐỨC LUNG

CHƯƠNG 1:
1.1.

TỔNG QUAN


SƠ LƯỢC VỀ TIẾNG NÓI:

Tiếng nói là một hiện tượng phức tạp. Con người ít khi hiểu làm thế nào để tạo ra
và nhận biết được tiếng nói. Sự nhận thức mơ hồ thường ví là tiếng nói được xây dựng
bởi từ lời nói, và mỗi từ bao gồm các đơn âm. Trên thực tế là rất khác biệt. Tiếng nói là
một quá trình động không có các thành phần khác biệt một cách rõ ràng. Sẽ luôn rất
hữu ích khi lấy một trình biên tập âm thanh và xem xét kỹ sự ghi âm của tiếng nói và
lắng nghe nó. Sau đây là ví dụ sự ghi âm tiếng nói trong một trình biên dịch âm thanh.

Hình 1.1 Tín hiệu tiếng nói
Các mô tả hiện nay về tiếng nói đều đề cập đến một vài cấp độ theo xác suất. Có
nghĩa là không có biên giới rạch ròi giữa các đơn vị, hay giữa các từ tiếng nói. Ứng
dụng chuyển tiếng nói thành văn bản và các ứng dụng khác của xử lý tiếng nói đều
không đạt chính xác 100%. Và điều đó đã tạo ra rất nhiều vấn đề chỉ riêng đối với công
nghệ tiếng nói.
1.1.1.

Nguồn gốc của tiếng nói:

Âm thanh của lời nói cũng như âm thanh trong thế giới tự nhiên xung quanh ta, về
bản chất đều là những sóng âm được lan truyền trong một môi trường nhất định
(thường là không khí). Khi chúng ta nói dây thanh trong hầu bị chấn động, tạo nên
những sóng âm, sóng truyền trong không khí đến màng nhĩ – một màng mỏng rất nhạy
cảm của tai ta – làm cho màng nhĩ cũng dao động, các dây thần kinh của màng nhĩ sẽ
nhận được cảm giác âm khi tần số dao động của sóng đạt đến một độ lớn nhất định. Tai
con người chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến khoảng
20000Hz. Những dao động trong miền tần số này gọi là dao động âm hay âm thanh, và
các sóng tương ứng gọi là sóng âm. Những sóng có tần số nhỏ hơn 16Hz gọi là sóng hạ
âm, những sóng có tần số lớn hơn 20000 Hz gọi là sóng siêu âm, con người không cảm
nhận được (ví dụ loài dơi có thể nghe được tiếng siêu âm). Sóng âm, sóng siêu âm và

hạ âm không chỉ truyền trong không khí mà còn có thể lan truyền tốt ở những môi

NHÓM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT

Trang 1


NHẬN DẠNG TIẾNG NÓI

GVHD: TS. VŨ ĐỨC LUNG

trường rắn, lỏng, do đó cũng được sử dụng rất nhiều trong các thiết bị máy móc hiện
nay.
1.1.2.

Cơ chế phát âm và cảm nhận âm của con người:

1.1.2.1. Cơ quan phát âm:

Hình 1.2 Bộ máy phát âm
(1) Khoang mũi, (2) Vòm miệng cứng, (3) Ổ răng, (4) Vòm miệng mềm, (5)-(6)-(8)
Lưỡi, (7) Lưỡi gà, (9) Họng, (10) Nắp thanh quản, (11)-(12) Dây thanh âm, (13)
Thanh quản, (14) Thực quản, (15) Khí quản.
Quá trình phát âm của người: khi nói, phổi chứa đầy không khí. Lượng không khí
này sẽ được đẩy qua khí quản và thanh môn (glottis). Luồng không khí qua thanh môn
sẽ kích thích dây thanh âm dao động tạo ra sự phát âm. Âm thanh này được truyền ra
ngoài qua khoang miệng và khoang mũi. Các khoang này có tác dụng như bộ lọc làm
suy hao một vài tần số trong khi cho các tần số khác đi qua.
Phân loại tiếng nói:
- Âm hữu thanh: Được tạo ra khi dây thanh âm căng lên và rung khi áp suất không

khí tăng lên, làm cho thanh môn mở ra rồi đóng lại khi luồng không khí đi qua. Bộ
phận phát âm hoạt động giống như hộp cộng hưởng, khuyếch đại những thành phần hài
này và làm suy giảm những thành phần hài khác để tạo ra âm hữu thanh. Mức độ rung
của dây thanh âm tùy thuộc vào áp suất không khí ở phổi và sức căng của dây thanh
âm. Người nói có thể điều khiển 2 yếu tố trên để thay đổi chu kì cơ bản (được gọi là
pitch) của âm thanh. Ở người đàn ông, tần số cơ bản khoảng từ 50÷250 Hz, trong khi ở
phụ nữ là thường vào khoảng 120÷500 Hz.
NHÓM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT

Trang 2


NHẬN DẠNG TIẾNG NÓI

GVHD: TS. VŨ ĐỨC LUNG

- Âm vô thanh: Được tạo ra khi dây thanh âm không rung. Có hai loại âm vô thanh
cơ bản: âm xát và âm bật hơi.


Đối với âm xát, ví dụ khi nói ‚s‛, ‚x‛, một số điểm trên bộ phận phát âm bị co
lại khi luồng không khí đi ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu
nhiên. Bởi vì những điểm co thường ở phía trước miệng, cộng hưởng của bộ
phận phát âm có ảnh hưởng nhỏ đến đặc tính của âm xát.



Đối với âm bật hơi, như khi ta nói ‘h’ trong ‘hùng’, hỗn loạn xảy ra ở gần thanh
môn khi dây thanh âm bị giữ nhẹ một phần. Trường hợp này, cộng hưởng của
bộ phận phát âm sẽ biến đổi phổ của nhiễu ngẫu nhiên. Hiệu ứng này có thể

nghe rõ khi nói thì thầm.

Ngoài hai loại âm cơ bản ở trên, còn có một loại âm trung gian vừa mang tính chất
nguyên âm, vừa mang tính chất phụ âm, được gọi là bán nguyên âm hay bán phụ âm.
Ví dụ như âm ‘i’ và ‘u’ trong những từ ‘ai’, ‘âu’.
1.1.2.2. Cơ quan thính giác của con người:

Hình 1.3 Cấu tạo cơ quan thính giác.
(1) vành tai, (2) xương, (3) xương búa, (4) xương đe, (5) cửa sổ oval, (6) các ống
bán nguyệt, (7)thần kinh thính giác, (8) ốc tai, (9) cửa sổ vòng, (10) xương bàn đạp,
(11) màng nhĩ, (12) ống tai
Cơ chế nghe: Khi ta nghe một sóng âm thuần tuý tức âm đơn (sóng sine), những
điểm khác nhau trên màng đáy sẽ rung động theo tần số của âm đơn đi vào tai. Điểm
lệch lớn nhất trên màng đáy phụ thuộc tần số âm đơn. Tần số càng cao tạo ra điểm lệch
lớn nhất ở phía đáy và tần số thấp tạo ra điểm lệch lớn nhất phía đỉnh. Như vậy màng
đáy đóng vai trò phân tích tần số tín hiệu vào phức tạp, bằng cách tách những tần số
khác nhau ở những điểm khác nhau dọc theo chiều dài của nó. Mỗi điểm như vậy có
thể xem là một bộ lọc thông dải có tần số trung tâm và băng thông xác định. Những
NHÓM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT

Trang 3


NHẬN DẠNG TIẾNG NÓI

GVHD: TS. VŨ ĐỨC LUNG

đáp ứng này không đối xứng quanh tần số trung tâm, vùng tần số cao có tốc độ suy
giảm dốc hơn nhiều so với vùng tần số thấp. Vị trí của độ lệch cực đại dọc theo màng
nhày biến thiên phi tuyến theo tần số (theo hàm logarit).

Những nghiên cứu chỉ ra rằng ngưỡng nghe của một âm đơn tăng lên khi có sự
hiện diện của những âm đơn lân cận khác (âm mặt nạ) và chỉ có băng tần hẹp xung
quanh âm đơn mới tham gia vào hiệu ứng mặ nạ, băng tần này thường gọi là băng tần
tới hạn. Giá trị của băng tần tới hạn phụ thuộc vào tần số của âm đơn cần thử. Với âm
đơn 100Hz, băng tần tới hạn xấp xỉ 90Hz, với âm đơn 5kHz là xấp xỉ 1kHz.
1.1.3. Quá trình phát sinh và hiểu tiếng nói. Các thành phần tương ứng
trong máy tính:
Ngôn ngữ nói được dùng để truyền đạt thông tin từ người nói đến người nghe. Phát
sinh tiếng nói và cảm nhận lời nói là hai thành phần quan trọng trong chuỗi tiếng nói.
Tiếng nói bắt đầu với một suy nghĩ và ý định giao tiếp trong não bộ, kích hoạt các cơ
chuyển động để sản sinh ra tiếng nói. Người nghe cảm nhận được nó bằng một hệ
thống thính giác, chuyển nó thành các tín hiệu thần kinh mà có thể hiểu được. Người
nói liên tục giám sát và điều chỉnh các cơ quan phát âm bằng cách đón nhận các phản
hồi từ tiếng nói của chính người đó.
Xét các thành phần tổng quát trong giao tiếp tiếng nói biểu diễn trong hình 1.4, cơ
cấu của sự tương tác lời nói được tạo thành từ nhiều yếu tố riêng biệt.

Hình 1.4 Sự phát sinh và sự hiểu tiếng nói. Các thành phần tương ứng trong máy
tính
Quá trình phát sinh tiếng nói bắt đầu với thông điệp ngữ nghĩa trong não người
NHÓM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT

Trang 4


NHẬN DẠNG TIẾNG NÓI

GVHD: TS. VŨ ĐỨC LUNG

được truyền đến người nghe thông qua tiếng nói. Thành phần tương tự trong máy tính

để xây dựng các thông điệp là các ngữ nghĩa ứng dụng tạo ra các khái niệm được diễn
đạt. Sau khi thông điệp được tạo ra, bước tiếp theo là chuyển các thông điệp này thành
một chuỗi các từ. Mỗi từ bao gồm một chuỗi các âm vị tương ứng với cách phát âm
của các từ. Mỗi câu cũng chứa một mẫu ngôn điệu biểu thị khoảng thời gian của mỗi
âm vị, ngữ điệu của câu và độ lớn của âm thanh. Mỗi khi hệ thống ngôn ngữ hoàn
thành việc ánh xạ, người nói thực hiện một chuỗi các tín hiệu thần kinh. Các mệnh
lệnh thần kinh thực hiện các ánh xạ cơ điều khiển các dây thanh âm, môi, hàm, lưỡi và
vòm miệng mềm, từ đó phát sinh ra chuỗi âm thanh là đầu ra cuỗi cùng.
Quá trình hiểu tiếng nói làm việc ngược lại. Đầu tiên tín hiệu được truyền đến ốc
tai nằm ở tai trong để thực hiện các phân tích tần số như một một dãy bộ lọc. Một quá
trình dẫn truyền thần kinh diễn ra sau đó và chuyển đổi tín hiệu phổ sang các tín hiệu
hoạt động trên dây thần kinh thính giác, tương ứng với một thành phần rút trích đặc
trưng. Hiện tại vẫn chưa rõ làm thế nào hoạt động thần kinh được ánh xạ vào hệ thống
ngôn ngữ và làm cách nào sự hiểu thông điệp được thực hiện trong não bộ.
Các tín hiệu tiếng nói được tổng hợp từ các mẫu âm thanh analog đóng vai trò như
là cơ sở cho một biểu diễn tượng trưng, rời rạc trong ngôn ngữ nói - các âm vị, các âm
tiết và các từ. Việc sản sinh và phiên dịch các âm thanh này được chi phối bởi cú pháp
và ngữ nghĩa của ngôn ngữ nói.
1.2.

TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI:

Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp
(classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được
học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là
các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì công việc
nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận
dạng với các mẫu đã được học và lưu trữ trong bộ nhớ. Khó khăn cơ bản của nhận
dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa
tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học

khác nhau. Xác định những thông tin biến thiên nào của tiếng nói là có ích và những
thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng. Đây là một
nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó
khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần
thiết trong nhận dạng tiếng nói.
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:
- Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung
NHÓM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT

Trang 5


NHẬN DẠNG TIẾNG NÓI

GVHD: TS. VŨ ĐỨC LUNG

thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các đặc
điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu
để nhận dạng tiếng nói.
- Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu
ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát âm
thành dãy các ký hiệu ngữ âm.
- Nhận dạng tiếng nói là một quá trình nhận thức. Thông tin về ngữ nghĩa
(semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói,
nhất là khi thông tin về âm học là không rõ ràng.
Các cách tiếp cận nhận dạng tiếng nói bằng thống kê bao gồm: sử dụng mô hình
Markov ẩn, mạng nơ-ron, sử dụng cơ sở tri thức, v.v..
1.2.1.

Phân loại nhận dạng tiếng nói:


1.2.1.1. Nhận dạng từ liên tục và nhận dạng từ tách biệt:
Nhận dạng liên tục tức là nhận dạng tiếng nói được phát liên tục trong một chuỗi
tín hiệu, chẳng hạn như một câu nói, một mệnh lệnh hoặc một đoạn văn được đọc bởi
người dùng. Các hệ thống loại này rất phức tạp, nó phức tạp ở chỗ các từ được phát
liên tục khó xử lý kịp (nếu cần thời gian thực), hoặc khó tách ra nếu như người nói liên
tục không có khoảng nghỉ (thông thường rất hay xảy ra trong thực tế). Kết quả tách từ
ảnh hưởng rất lớn đến các bước sau, cần xử lý thật tốt trong quá trình này.
Ngược lại, đối với mô hình nhận dạng từng từ, mỗi từ cần nhận dạng được phát âm
một cách rời rạc, có các khoảng nghỉ trước và sau khi phát âm một từ. Mô hình loại
này dĩ nhiên đơn giản hơn mô hình nhận dạng liên tục, đồng thời cũng có những ứng
dụng thực tiễn như trong các hệ thống điều khiển bằng lời nói, quay số bằng giọng
nói..., với độ chính xác khá cao, tuy nhiên khó áp dụng rộng rãi đối với mô hình trên.
1.2.1.2. Nhận dạng phụ thuộc người nói và độc lập người nói:
Đối với nhận dạng phụ thuộc người nói thì mỗi một hệ nhận dạng chỉ phục vụ
được cho một người, và nó sẽ không hiểu người khác nói gì nếu như chưa được huấn
luyện lại từ đầu. Do đó, hệ thống nhận dạng người nói khó được chấp nhận rộng rãi vì
không phải ai cũng đủ khả năng kiến thức và nhất là kiên nhẫn để huấn luyện hệ thống.
Ngược lại, hệ thống nhận dạng độc lập người nói thì lý tưởng hơn, ứng dụng rộng
rãi hơn, đáp ứng được hầu hết các yêu cầu đề ra. Nhưng không may là hệ thống lý
tưởng như vậy gặp một số vấn đề, nhất là độ chính xác của hệ thống.

NHÓM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT

Trang 6


NHẬN DẠNG TIẾNG NÓI

GVHD: TS. VŨ ĐỨC LUNG


Trong thực tế, mỗi người có một giọng nói khác nhau, thậm chí ngay cùng một
người cũng có giọng nói khác nhau ở những thời điểm khác nhau. Điều này ảnh hưởng
rất lớn đến việc nhận dạng, nó làm giảm độ chính xác của hệ thống nhận dạng xuống
nhiều lần. Do đó để khắc phục khuyết điểm này, hệ thống nhận dạng độc lập người nói
cần được thiết kế phức tạp hơn, đòi hỏi lượng dữ liệu huấn luyện lớn hơn nhiều lần (dữ
liệu được thhu từ nhiều giọng khác nhau của nhiều người). Nhưng điều này cũng
không cải thiện được bao nhiêu chất lượng nhận dạng. Do đó, trong thực tế có một
cách giải quyết là bán độc lập người nói. Phương pháp này thực hiện bằng cách thu
mẫu một số lượng lớn các giọng nói khác biệt nhau. Khi sử dụng, hệ thống sẽ được
điều chỉnh cho phù hợp với giọng của người dùng, bằng cách nó học thêm một vài câu
có chứa các từ cần thiết (người dùng trước khi sử dụng hệ thống cần phải qua một quá
trình ngắn huấn luyện hệ thống).
Nhận dạng độc lập người nói khó hơn rất nhiều so với nhận dạng phụ thuộc người
nói. Cùng một từ, một người, dù có cố gắng phát âm cho thật giống đi nữa thì cũng có
sự khác biệt. Đối với bộ não con người, một hệ thống hoàn hảo, thì sự khác biệt đó có
thể được bỏ qua do ngữ cảnh, và do có phần xử lý làm mờ đi của não. Nhưng đối với
máy tính thì rất khó xây dựng được một mô hình giải quyết cho tất cả các trường hợp
khác biệt đó.
1.2.2.

Các hướng nghiên cứu:

Nói chung ta có thể xếp các phương pháp nhận dạng tiếng nói theo một trong ba
nhóm sau:
1.2.2.1. Hướng ngữ âm học:
Các nghiên cứu ban đầu dựa vào việc tìm âm tiếng nói và gán nhãn (label) cho các
âm này. Đây là cơ sở của âm học ngữ âm với giả thuyết tồn tại một số hữu hạn các đơn
vị ngữ âm khác nhau có thể phân biệt được trong ngôn ngữ nói với các đặc điểm được
mô tả bằng các đặc tính âm học hiện diện rõ ràng trong tín hiệu tiếng nói. Mặc dù các

đặc tính âm học của các đơn vị ngữ âm có thể thay đổi theo người nói hoặc theo các
âm lân cận, hướng nghiên cứu âm học ngữ âm giả sử rằng các qui luật chi phối sự thay
đổi là không phức tạp (straightforward) và có thể cho máy học dễ dàng.
Bước đầu tiên trong hướng âm học ngữ âm là phân đoạn và gán nhãn, trong đó tín
hiệu tiếng nói được phân ra thành các vùng âm học ổn định, mỗi vùng được gán bởi
một hoặc nhiều ký hiệu ngữ âm tạo thành một chuỗi âm vị mô tả tiếng nói.
Bước thứ hai là cố gắng xác định một từ có nghĩa (hoặc một chuỗi các từ) từ chuỗi
ký hiệu âm vị được tạo ra trong bước đầu tiên. Trong quá trình này, các giới hạn ngôn
ngữ học, (ví dụ từ vựng, ngữ cảnh và các qui luật ngữ nghĩa) được áp dụng để truy
NHÓM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT

Trang 7


NHẬN DẠNG TIẾNG NÓI

GVHD: TS. VŨ ĐỨC LUNG

xuất bộ từ vựng vào tên chuỗi âm vị. Hướng này không được sử dụng rộng rãi trong
các ứng dụng thường.
1.2.2.2. Hướng kết hợp mẫu:
Hướng kết hợp mẫu (còn là đối so sánh mẫu) gồm hai bước chính là huấn luyện
mẫu (pattern training) và so sánh mẫu (pattern comparision). Đặc tính chủ yếu của
hướng này là sử dụng các cơ cấu toán học rõ ràng và thiết lập sự biễu diễn thích hợp
các mẫu tiếng nói cho việc so sánh chính xác các mẫu huấn luyện nghiêm chỉnh. Tiếng
nói có thể được biễu diễn ở dạng mẫu tiếng nói hoặc một mô hình thống kê, có thể
được áp dụng cho một âm, một từ hoặc một nhóm từ. Trong giai đoạn so sánh mẫu, có
một sự so sánh trực tiếp giữa tiếng nói chưa biết (cần nhận dạng với mỗi mẫu được học
trong giai đoạn huấn luyện để xác định đặc tính của mẫu chưa biết dựa theo chất lượng
của việc phối hợp mẫu). Hướng kết hợp mẫu trở thành phương pháp nhận dạng rất phổ

biến trong những năm 90.
1.2.2.3. Hướng thông minh nhân tạo:
Hướng thông minh nhân tạo cố gắng máy móc hoá hoạt động nhận dạng theo cách
con người áp dụng trí khôn trong việc hình dung, phân tích và đánh giá tiếng nói dưạ
trên một tập hợp các tính chất âm học đo được. Trong số các kỹ thuật được sử dụng
trong hướng này có việc sử dụng một hệ thống chuyên gia trong đó tích hợp âm vị, từ
vựng, cú pháp, ngữ nghĩa và ngay cả kiến thức thực tế cho việc phân đoạn, gán nhãn
và sử dụng các công cụ như mạng trí tuệ nhân tạo cho việc học các quan hệ giữa các sự
kiện âm vị. Trọng tâm hướng này chủ yếu là sự hiểu biết kiến thức và tích hợp các
nguồn kiến thức. Phương pháp này chưa được sử dụng rộng rãi trong các hệ thống
thương mại.
1.2.3.

Hệ thống nhận dạng tiếng nói tự động:

Nhận dạng tiếng nói tự động (Automatic Speech Recognition - ASR): có nghĩa là
chuyển đổi tự động tiếng nói thành chữ viết hoặc thành một trong các chức năng của
thiết bị.
Một hệ thống nhận dạng tiếng nói tự động gồm có các thành phần sau:
 Rút trích đặc trưng tiếng nói: biến đổi tín hiệu âm thanh thành chuỗi các vector
đặc trưng. Ngoài ra, quá trình này còn giải quyết vấn đề dò tìm điểm cuối (phân biệt
trong chuỗi âm thu được đâu là tiếng nói đâu là độ ồn nền) và lọc nhiễu.
 Phân lớp và nhận dạng: Thực chất đây là quá trình nhận dạng dựa trên mô hình
âm thanh, từ điển phát âm và mô hình ngôn ngữ của hệ thống. Mô hình ngôn ngữ ở
đây thực chất chỉ biểu diển một ngữ pháp nào đó, nó có thể ứng với một ngôn ngữ cụ
NHÓM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT

Trang 8



NHẬN DẠNG TIẾNG NÓI

GVHD: TS. VŨ ĐỨC LUNG

thể hoặc đơn giản chỉ gói gọn trong phạm vi ứng dụng của hệ thống, điều này góp phần
giảm thiểu phạm vi nhận dạng của tiếng đó trong một vài từ chứ không phải toàn bộ từ
vựng.
 Giải mã: Quá trình này quá trình này có thể chỉ đơn giản là xuất ra chuỗi văn bản
nhận dạng được hoặc là một quá trình phân tích chuỗi nhận được ứng với tác vụ gì và
thực hiện tác vụ đó.

Hình 1.5 Hệ thống nhận dạng tiếng nói
1.2.4.

Bộ máy nhận dạng tiếng nói :

Các bộ máynhận dạng tiếng nói (Speech Recognition Engine - SRE) được tạo nên
bởi các thành phần:
- Mô hình ngôn ngữ (language model) hoặc bộ ngữ pháp (grammar):
Mô hình ngôn ngữ chứa một danh sách rất lớn các từ và xác suất xuất hiện trong
một chuỗi được cho. Chúng thường được sử dụng trong các ứng dụng đọc chính tả.
Bộ ngữ pháp là một tập tin nhỏ chứa các các tập các kết hợp xác định trước của
các từ. Bộ ngữ pháp được dùng trong các IVR (Interactive Voice Response) hay các
ứng dụng ra lệnh điều khiển desktop.
Mỗi từ trong một mô hình ngôn ngữ hay bộ ngữ pháp có một danh sách kết hợp
của các âm vị (phoneme) (tương ứng với các thanh âm rời rạc tạo nên một từ).
- Mô hình âm học (acoustic model): Chứa một biểu diễn thống kê các thanh âm
riêng biệt tạo nên mỗi từ trong mô hình ngôn ngữ hay bộ ngữ pháp. Mỗi âm thanh
riêng biệt tướng ứng với một âm vị.
- Bộ giải mã (decoder): Chương trình phần mềm lấy các âm thanh được đọc bởi

một người dùng và tìm kiếm trong mô hình âm học cho âm thanh tương ứng. Khi tìm
NHÓM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT

Trang 9


NHẬN DẠNG TIẾNG NÓI

GVHD: TS. VŨ ĐỨC LUNG

thấy, bộ giải mã xác định âm vị tương ứng với âm thanh. Nó theo dấu các âm vị tìm
được cho tới khi gặp một khoảng ngắt trong tiếng của người dùng. Sau đó nó trong tìm
tập tin mô hình ngôn ngữ hay bộ ngữ pháp các chuỗi âm vị tương đương. Nếu tìm thấy
dữ liệu phù hợp, nó trả về nội dung của từ hay cụn từ tương ứng cho chương trình gọi.

NHÓM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT

Trang 10


NHẬN DẠNG TIẾNG NÓI

GVHD: TS. VŨ ĐỨC LUNG

CHƯƠNG 2:

2.1.

XỬ LÝ TIẾNG NÓI


CƠ SỞ XỬ LÝ TÍN HIỆU SỐ:

Để tiện cho việc xử lý tín hiệu tiếng nói, người ta biểu diễn chúng theo toán học
dưới dạng các hàm của một biến liên tục t, đại diện cho thời gian.
Định nghĩa một tín hiệu analog xa(t) dưới dạng hàm biến đổi liên tục theo thời
gian: Nếu ta lấy mẫu tín hiệu x với một khoảng thời gian lấy mẫu T (tức là t = nT), ta
có thể xác định một tín hiệu thời gian rời rạc x(n) = xa(nt). Hơn nữa ta có thể xác định
tần số Fs như Fs = 1/T, nghịch đảo của khoảng thời gian lấy mẫu T. Ví dụ, đối với tỷ lệ
lấy mẫu Fs = 8kHz, khoảng thời gian lấy mẫu tương ứng là 125ms.

Hình 2.1 Tín hiệu analog và tín hiệu số tương ứng
Xử lý tín hiệu số (Digital Signal Processing – DSP) đề cập đến các phương pháp
áp dụng chuỗi các số x(n) trong máy tính kỹ thuật số.
2.1.1.

Các hệ thống và tín hiệu số:

Phần này bắt đầu với các tín hiệu sin và chỉ ra chúng là các tín hiệu cơ bản cho các
hệ thống tuyến tính. Sau đó giới thiệu khái niệm phép cuộn và các hệ thống bất biến
tuyến tính.
2.1.1.1. Các tín hiệu dạng sin:
Một trong những tín hiệu quan trọng là sóng dạng sin hay đường hình sin:
( ) =

cos(

+

)


(2.1)

Trong đó A0 là biên độ của đường sin, ω0 là tần số góc, và φ0 là pha.
Đơn vị đo góc là radian, do đó tần số góc ω0 liên hệ với tần số f0 bởi công thức ω0
= 2π f0 và 0 ≤ f0 ≤ 1
NHÓM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT

Trang 11


NHẬN DẠNG TIẾNG NÓI

GVHD: TS. VŨ ĐỨC LUNG

Tín hiệu này tuần hoàn với chu kỳ T0 = 1/ f0.

Hình 2.2 Đường hình sin với chu kỳ 25 mẫu
Đường hình sin đóng vai trò quan trọng vì các tín hiệu tiếng nói có thể được phân
tách thành các tổng của các đường sin. Tổng của 2 đường sin x0[n] và x1[n] có cùng tần
số góc ω0 nhưng khác biên độ A0, A1, và pha φ0, φ1 là một đường sin khác có cùng tần
số nhưng khác biên độ A và pha φ.
Đường hình sin ở công thức (2.1) được diễn đạt theo phần thực của hàm số mũ
phức tương ứng như sau:
[ ]=

cos(

+

(


) = Re

)

(2.2)

j = √−1

Trong đó

Do đó tổng của hai tín hiệu hàm mũ phức là:
(
(

)

+

(

)

=

(

+

)=


)

=
(2.3)

Lấy phần thực của 2 vế ta có:
cos(

+

)+

cos(

) = cos(

+

+ )

(2.4)

Hình 2.3 Biểu diễn tổng của hai đường sin cùng tần số
Để tính A và φ , ta có các công thức:
=

+

+ 2A


cos(



)

NHÓM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT

(2.5)
Trang 12


×