Tải bản đầy đủ (.doc) (119 trang)

Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.96 MB, 119 trang )

Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
MỤC LỤC
MỤC LỤC 1
DANH MỤC HÌNH 3
DANH MỤC BẢNG BIỂU 5
CÁC TỪ VIẾT TẮT 6
CHƯƠNG 1 MỞ ĐẦU 8
1.1 GIỚI THIỆU 9
1.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC 9
1.2.1 Tình hình ngoài nước: 9
1.2.2 Tình hình trong nước: 10
1.2.3 Khảo sát hiện trạng 11
1.3 MỤC TIÊU CỦA ĐỀ TÀI 15
1.4 PHẠM VI CỦA ĐỀ TÀI 15
1.5 ĐIỂM MỚI NỔI BẬC CỦA ĐỀ TÀI 15
1.6 PHÂN TÍCH ƯU NHƯỢC ĐIỂM CỦA HÌNH THỨC GIAO TIẾP BẰNG GIỌNG NÓI 16
1.7 NỘI DUNG ĐỀ TÀI : 16
CHƯƠNG 2 NGHIÊN CỨU LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI 18
2.1 NHẬN DẠNG TIẾNG NÓI 18
2.1.1 Bài toán nhận dạng tiếng nói 18
2.1.2 Bài toán nhận dạng tiếng nói tiếng việt trên môi trường mạng Viễn Thông 22
2.2 RÚT TRÍCH ĐẶC TRƯNG TIẾNG NÓI 23
2.2.1 Giới Thiệu 23
2.2.2 Nghiên cứu cách thức rút trích đặc trưng tiếng nói 25
2.3 MÔ HÌNH MARKOV ẨN 33
2.3.1 Chuỗi Markov 33
2.3.2 Mô hình Markov ẩn HMM- (HIDDEN MARKOV MODELS ) 33
Giới thiệu 33
Ba bài toán của mô hình HMM 34
Bài toán 1: Tính toán khả suất (computing Likelihood): 34
Bài toán 2: Tìm chuỗi trạng thái ẩn ( Decoding) : 37


Bài toán 3: Huấn luyện ( learning) 40
2.4 KỸ THUẬT THÍCH ỨNG TIẾNG NÓI 42
2.4.1 Phương pháp thích ứng mô hình 43
Phương pháp MAP (Maximum a Posteriori): 43
Phương pháp MLLR (Maximum Likelihood Linear Regression) : 44
2.4.2 Thuật ngữ liên quan đến thích ứng mô hình 44
2.4.3 Kỹ thuật thích ứng tiếng nói MLLR (maximum likelihood linear regression) 46
Cơ bản về MLLR 46
Toán học bổ trợ cho phương pháp MLLR – Hồi qui tuyến tính 46
Phép biến đổi vector trung bình trong mô hình GMM 47
2.5 MÃ HÓA TIẾNG NÓI TRÊN ĐƯỜNG TRUYỀN MẠNG VIỄN THÔNG 48
CHƯƠNG 3 BỘ CÔNG CỤ NHẬN DẠNG TIẾNG NÓI HTK 51
3.1 GIỚI THIỆU 52
3.2 KIẾN TRÚC HTK 53
3.3 PHÂN TÍCH CÔNG CỤ QUAN TRỌNG HTK 56
3.3.1 Xử lý rút trích đặc trưng âm thanh tiếng nói 56
1
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
3.3.2 Ước lượng tham số cho mô hình ngữ âm 57
3.3.3 Mô hình ngôn ngữ trong HTK 57
3.4 HUẤN LUYỆN HTK 59
CHƯƠNG 4 XÂY DỰNG TỔNG ĐÀI NHẬN DẠNG YÊU CẦU BẰNG
GIỌNG NÓI 60
4.1 MÔ TẢ BÀI TOÁN 61
4.2 CÁC THÀNH PHẦN HỆ THỐNG NHẬN DẠNG YÊU CẦU BẰNG GIỌNG NÓI 61
4.2.1 Sơ đồ Khối tổng quát hoạt động của tổng đài 62
Khối giao tiếp PSTN : 62
Khối giao tiếp VOIP : 63
Khối Tương tác Thoại IVR ( Interactive voice response ) : 63
Khối Nhận dạng tiếng nói ( Speech – To – Text ) : 64

Khối truy vấn thông tin kết quả : 64
4.3 NGHIÊN CỨU XÂY DỰNG CẤU HÌNH TỔNG ĐÀI GOLDEN SONG 64
4.3.1 Giới thiệu tổng đài Asterisk 64
4.3.2 Kiến trúc tổ chức Asterisk 66
4.3.3 Xây dựng hệ thống tương tác thoại IVR 69
4.4 THIẾT LẬP DIALPLAN CHO ỨNG DỤNG 71
4.5 NGHIÊN CỨU THIẾT KẾ MODULE GIAO TIẾP GIỮA TỔNG ĐÀI VỚI MẠNG PSTN, DI
ĐỘNG, WIFI 72
4.5.1 Cấu hình với luồng truyền dẫn số E1 72
4.5.2 Cấu hình giao tiếp với hệ thống IPCC của Viễn thông Tp. Hồ Chí Minh 75
Trình bày cấu hình phía IPCC 75
Cấu hình phía tổng đài nhận dạng tiếng nói 77
4.6 HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT 78
4.6.1 Nhiệm của các khối chức năng trong hệ thống nhận dạng: 78
4.6.2 Chi tiết cấu hình và mã nguồn các phân hệ trong hệ thống 80
Mô hình ngữ âm (theo phụ lục 1) 80
Mô hình ngôn ngữ (theo phu lục 4) 80
Khối hệ thống IVR tiếp nhận, xử lý và trả kết quả (theo phu lục 2) 80
Khối nhận dạng tiếng nói (chi tiết theo phụ lục 3) 80
CHƯƠNG 5 ĐÁNH GIÁ KẾT QUẢ CỦA ĐỀ TÀI 81
5.1 XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ SỐ TIẾNG NÓI TIẾNG VIỆT 82
5.2 MÔ TẢ DỮ LIỆU 83
5.3 KẾT QUẢ NHẬN DẠNG OFFLINE 84
5.4 KẾT QUẢ NHẬN DẠNG ONLINE 85
5.5 ĐÁNH GIÁ KẾT QUẢ 86
5.6 KẾT QUẢ CỦA ĐỀ TÀI 87
5.7 ĐÁNH GIÁ MỘT SỐ CÔNG CỤ SỬ DỤNG TRONG ĐỀ TÀI 87
CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 89
6.1 KẾT LUẬN 89
6.2 HƯỚNG PHÁT TRIỂN 90

TÀI LIỆU THAM KHẢO 92
PHỤ LỤC 1 – HUẤN LUYỆN HTK 94
PHỤ LỤC 2 – CẤU HÌNH DIALPLAN HỆ THỐNG NHẬN DẠNG 102
PHỤ LỤC 3 – MODULE NHẬN DẠNG TIẾNG NÓI 104
PHỤ LỤC 4 – MÔ HÌNH NGÔN NGỮ GRAMMAR 115
2
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
DANH MỤC HÌNH
Hình 2.1: Các lĩnh vực về nhận dạng tiếng nói 19
Hình 2.2 : Phân loại mô hình Markov ẩn 21
Hình 2.3: Khối chức năng của hệ thống nhận dạng tiếng nói 21
Hình 2.4: Nhận dạng tiếng nói trên mạng viễn thông 23
Hình 2.5: Tổng đài nhận dạng tiếng nói voice server 23
Hinh 2.6: Ví dụ về tính tách biệt của 2 đặc trưng khác nhau 25
Hình 2.7: Các bước rút trích đặc trưng MFCC 26
Hình 2.8: Tín hiệu wave trước và sau khi lọc thông cao 26
Hình 2.9: Cơ chế chia frame 27
Hình 2.10: Tín hiệu trước và sau khi nhân với cửa sổ Hamming 28
Hình 2.11: Tương quan giữa tọa độ Descartes và tọa độ cực 29
Hình 2.12: Tương quan giữa tần số mel và tần số tuyến tính 23
Hình 2.13: Mel filter banks trên miền mel và miền tần số 31
Hình 2.14: Mel filter banks trên miền tần số tuyến tính 31
Hình 2.15 : Minh họa thuật toán forward [3] 36
Hình 2.16: Minh họa thuật toán backward [3] 37
Hình 2.17: Mô hình thích ứng tiếng nói [32] 42
3
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
Hình 2.18: Mô hình thích ứng Incremental 45
Hình 2.19: Mô hình thích ứng Batch 45
Hình 2.20: Thích ứng trên vector trung bình [32] 46

Hình 2.21: Nhận dạng tiếng nói với hướng tiếp cận NSR 49
Hình 2.22 : Nhận dạng tiếng nói với hướng tiếp cận DSR 49
Hình 3.1: Nhận dạng tiếng nói với công cụ HTK 52
Hình 3.2: Kiến trúc bộ công cụ HTK 53
Hình 3.3 : Các công đoạn xây dựng bộ nhận dạng tiếng nói HTK 54
Hình 3.4: xử lý mã hóa tiếng nói 57
Hình 3.5: mô tả các bước huấn luyện với công cụ HTK 59
Hình 4.1: Sơ đồ tổng quát tổng đài nhận dạng yêu cầu bằng giọng nói 61
Hình 4.2: Sơ đồ khối hệ thống nhận dạng yêu cầu bằng giọng nói 62
Hình 4.3: Thiết bị trung kế số E1 giao tiếp với mạng PSTN 63
Hình 4.4 : Thiết bị đầu cuối IP Phone 63
Hình 4.5: Sơ đồ tổng quát tổng đài Asterisk 65
Hình 4.6: Kiến trúc Asterisk 67
Hình 4.7: Hệ Thống IVR 69
Hình 4.8: Kế hoạch dialplan cho hệ thống 71
Hình 4.9: Kết nối trung kế E1 đến nhà cung cấp 72
4
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
Hình 4.10: Sơ đồ kết nối giao tiếp giữa IPCC và tổng đài nhận dạng tiếng nói. .75
Hình 4.11: Minh họa các khối chính trong hệ thống nhận dạng tiếng nói 78
DANH MỤC BẢNG BIỂU
Bảng 2.1 : Các chuẩn mã hóa tín hiệu âm thanh 50
Bảng 5.1 Tổ chức dữ liệu nhận dạng 84
Bảng 5.2 Bảng chi tiết kết quả test nhận dạng 86
5
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
CÁC TỪ VIẾT TẮT
Ký hiệu Thuật ngữ Tạm dịch

-

PSTN Public switched telephone network Mạng chuyển mạch công
cộng
VOIP Voice over Internet Protocol Thoại trên giao thức Internet
ASR Automatic Speaker Recognition Nhận dạng người nói tự động
ANN Artificial Neural Network Mạng Nơ ron nhân tạo
- Speech To Text Chuyển thoại sang văn bản
HMM Hidden Markov Mode Mô hình Markov ẩn
PBX Private branch exchange Tổng đài nội bộ
- Asterisk Tổng đài chuyển mạch mềm
- H.323 Giao thức truyền thoại
IAX Inter-Asterisk eXchange Giao thức thoại của Asterisk
TDM Time-division multiplexing Ghép kênh phân chia thời
gian
T1, E1 - Trung kế số
ISDN Integrated Services Digital NetworkMạng đa dịch vụ
Dialplan - Kế hoạch đánh số điện thoại
6
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
- Client-softphone Phần mềm Điện thoại
GMM Gaussian Mixture Model Mô hình hợp Gauss
IVR Interactive voice response tương tác thoại
- Identification Định danh
SIP Session Initiation Protocol Giao thức VOIP
FXO Foreign Exchange Office Đầu cuối thoại văn phòng
MFCC Mel-Frequency Cepstral -
Coefficients
DTMF Dual-tone multi-frequency Tín hiệu đa tần
- 30B+2D 30 kênh thoại, 2 báo hiệu
- Speaker Người nói
PCM Pulse-code modulation Điều chế xung mã

HTK Hidden Markov Model Toolkit Công cụ nhận dạng tiếng nói
PDF Probability Density Function Hàm phân bố mật độ xác suất
SGMM Subspace Gaussians Mixture Model
SI Speaker Independent Độc lập người nói
SD Speaker Dependent Phục thuộc người nói
WCR Word Correct Rate Tỉ lệ chính xác từ
7
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
CHƯƠNG 1 MỞ ĐẦU
8
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
1.1 GIỚI THIỆU
Hệ thống nhận dạng tiếng nói tự động(automatic Speech Recognition - ASR)
chuyển đổi tiếng nói dạng âm thành thành văn bản text(Speech-To-Text) là bài
toán khó được phát triển từ những thập niên 50 của thế kỷ trước, qua thời gian có
nhiều phương pháp đã được áp dụng để cải thiện kết quả nhận dạng, đến thời
điểm hiện tại công nghệ áp dụng giải quyết bài toán nhận dạng được sử dụng phổ
biến là sử dụng phương pháp rút trích đặt trưng MFCC và mô hình HMM[10].
Trong đề tài nghiên cứu này nhóm tác giả tập trung vào nghiên cứu công
nghệ nhận dạng tiếng nói, bao gồm các lý thuyết liên quan như phương thức rút
trích đặc trưng, cách xây dựng mô hình ngữ âm và mô hình ngôn ngữ từ đó ứng
dụng vào việc xây dựng hệ thống tổng đài nhận dạng chữ số tiếng nói tiếng việt
trên môi trường mạng viễn thông (nhận diện yêu cầu của khách hàng bằng giọng
nói thay vì nhấn phím thông thường).
Thử nghiệm trên hệ thống tổng đài nghe nhạc Golden Song (Nghe nhạc
qua tổng đài) bằng hình thức yêu cầu những bản nhạc cần nghe bằng giọng nói,
bước đầu sẽ nhận dạng yêu cầu bằng chữ số tiếng nói tiếng việt.
1.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC
1.2.1 Tình hình ngoài nước:
Hình 1.1 : Sơ đồ nhận dạng tiếng nói cơ bản trên mạng viễn thông

Trãi qua hơn 70 năm công nghệ nhận dạng luôn được các nhà nghiên cứu
phát triển, cải thiến chất lượng bởi đây là hình thức giao tiếp thân thuộc hàng
ngày của con người, không phải là để thay thế hoàn toàn các hình thức giao tiếp
khác mà là một hình thức bổ trợ gần gủi quen thuộc hơn đối với con người. vào
những thập niên 50 của thế kỷ trước công nghệ nhận dạng đã phát triển triển
nhưng chủ yếu tập trung vào ngữ âm, do kỹ thuật máy tính và xử lý tín hiệu số
9
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
còn hạn chế nên chỉ tập trung khai thác đặc trưng phổ cộng hưởng của các
nguyên âm tiêu biểu như hệ thống nhận dạng ký số rời rạc của Bell-lab(1952)
[12,p.8] , Trong thập niên 60 phương pháp nhận dạng tiếng nói dựa trên qui
hoạch động theo thời gian(Dynamic Time Wraping-DTW)[12,p1] là ý tưởng của
tác giả người nga vintsyuk, nhưng đến năm 1980 mới được thế giới biết đến.
Trong những năm 70 phương pháp mã hóa dự báo tuyến tính(Linear Predictive
coding - LPC) của Bell-lab đây là phương pháp làm tiền đề cho việc áp dụng các
tham số phổ LPC vào hệ thống nhận dạng tiếng nói tự động. Trong những thập
niên 80, 90 phát triển chính được kể đến là mô hình HMM(Hidden Markov
Model) và mô hình ngôn ngữ (language model - LM), ứng dụng sphinx cũng
được phát triển trong giai đoạn này, từ đó đến nay có nhiều thay đổi cải tiến
nhưng cũng dựa vào nền tảng chính trong giai đoạn này. HMM được phát triển
và ứng dụng tại viện nghiên cứu quốc phòng Mỹ và IBM[12,p3], vài năm sau đó
được giới thiệu rộng rãi ra thế giới.
Ngày nay việc ứng dụng tiếng nói đang ngày càng phát triển, có nhiều ứng
dụng đi vào thực tiễn như hệ thống trả lời thông tin tự động cho các chuyến bay
(Air Travel Information Service – ATIS), Hệ thống phát lại các bản tin, Hệ thống
Siri trên Iphone, google search… Tuy nhiên, Ở Việt Nam chưa có hệ thống
thương mại áp dụng vào thực tiễn.
Một số sản phẩm của nước ngoài về nhận dạng tiếng nói Tiếng Việt như :
Nuance (Dragon Dictation và Dragon Search), google search các sản phẩm này
được nhận dạng trên hệ thiết bị Smartphone, chưa có sản phẩm nhận dạng tiếng

việt trên mạng viễn thông.
1.2.2 Tình hình trong nước:
Tại Việt Nam, có 2 nhóm nghiên cứu chính về bài toán nhận dạng tiếng
nói liên tục với bộ từ vựng lớn (Large vocabulary Continuous Speech
Recognition -LVCSR). Nhóm đầu tiên thuộc Viện Công nghệ Thông tin do
10
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
PGS.Lương Chi Mai đứng đầu, với phương pháp ANN và công cụ CSLU [13]
được sử dụng.
Nhóm thứ hai thuộc trường Đại học Khoa học Tự nhiên thành phố Hồ Chí
Minh do PGS. Vũ Hải Quân đứng đầu, với phương pháp HMM và công cụ
HTK được sử dụng, các nghiên cứu của nhóm tập trung vào bài toán truy vấn
thông tin tiếng Việt, nhận dạng tiếng nói, hệ thống giao tiếp giữa người và máy,
tìm kiếm bằng giọng nói, Phòng trí tuệ nhân tạo trường đại học KHTN TP.Hồ
Chí Minh đã thực hiện thành công công nghệ nhận dạng tiếng nói tiếng việt trên
iPhone đó là phần mềm iSago, đây là tiền đề cho việc nghiên cứu vào thực tiễn
công nghệ nhận dạng tiếng nói tiếng việt trên môi trường mạng Viễn thông.
Trung tâm sở hữu trí tuệ và chuyển giao công nghệ ĐHQG TPHCM
chuẩn bị chuyển giao phần mềm tìm kiếm sử dụng công nghệ nhận dạng tiếng
nói cho một tập đoàn Viễn thông (báo Đất Việt, 12/04/2012)
Do đó việc nghiên cứu công nghệ nhận dạng tiếng nói để áp dụng vào các
dịch vụ của VNPT là điều cấp thiết, mở ra hướng phát triển công nghệ nhận dạng
tiếng nói vào thực tiễn tại VNPT TPHCM cũng như cho toàn VNPT.
Một số sản phẩm trong nước về nhận dạng tiếng nói Tiếng Việt có thể ứng
dụng thực tế như: iSago, VIS của trường Đại học KHTN TP.HCM.
1.2.3 Khảo sát hiện trạng
Hiện nay VNPT TP.Hồ Chí Minh là đơn vị cung cấp các dịch vụ thông tin
cho khách hàng bao gồm các nhóm dịch vụ như:
1. Thông tin hằng ngày: Hộp thư thông tin hằng ngày, thể thao, kinh tế :


- 80111141 Tin thể thao trong nước và quốc tế
- 80111108 Tỷ giá hối đoái và giá vàng
- 80111102 Kết quả xổ số
- 80111101 Dự báo thời tiết
- 80111142 Điểm báo
- 80111888 Thông tin nóng hàng ngày
- 80111172 Hướng dẫn mua sắm
11
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
- 80111152 Giới thiệu sản phẩm khuyến mãi
- 80111167 Thông tin hội chợ triển lãm
- 80111168 Lãi suất ngân hàng
2. Thông tin giải trí văn hoá và nghệ thuật :
- 80111999 Tặng nhạc tự động qua điện thoại - Goldensongs
- 80111998 Nghe quà tặng - Goldensongs
- 80111143 Nhạc Việt Nam
- 80111843 Ca khúc Việt Nam theo yêu cầu
- 80111853 Ca khúc Việt Nam theo yêu cầu
- 80111863 Ca khúc Việt Nam theo yêu cầu
- 80111873 Ca khúc Việt Nam theo yêu cầu
- 80111176 Ca khúc và nhạc trong phim
- 80111103 Nhạc Quốc tế
- 80111803 Ca khúc Quốc tế theo yêu cầu
- 80111130 Ca nhạc thiếu nhi
- 80111153 Nhạc không lời
- 80111104 Truyện ngắn chọn lọc
- 80111154 Truyện dài
- 80111105 Cải lương
- 80111106 Hài kịch
- 80111145 Thắng cảnh

- 80111161 Tour Du lịch
- 80111162 Đọc lời bài hát
- 80111146 Giải trí (sân khấu và phim)
- 80111148 Giới thiệu phim
- 80111164 Giới thiệu ngôi sao nghệ thuật Việt Nam và Thế giới
- 80111171 Trò chuyện với chị Thủy Tiên
- 80111129 Góc tâm hồn
- 80111109 Chương trình phát thanh
- 80111110 Chương trình truyền hình
3. Hộp thư đài phát thanh
- 80111155 Làn sóng xanh
- 80111163 Từ Album đến Album
- 80111165 Topten FM 99.9MHz
- 80111173 Ca khúc bất hủ
- 80111174 Ca khúc Tiếng Hoa
- 80111175 Quà tặng âm nhạc FM 99.9
- 80111855 Nốt nhạc Thứ 7
- 80111865 MTV
- 80111875 Quà tặng nửa đêm và Thứ 7
4. Thông tin Giáo Dục và KHKT
- 108600 Tin nóng Tuyển sinh
12
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
- 108601 Kết quả học tập
- 80111144 Chương trình dạy tiếng Anh (THCS)
- 80111147 Nội trợ và ẩm thực
- 80111150 Lịch sử và danh nhân Việt Nam - Thế giới
- 80111151 Ý nghĩa các ngày lễ hội
- 80111160 Phần mềm và địa chỉ Internet
5. Tra cứu thông tin

- 80111080 Danh bạ điện thoại tự động
- 80111107 Cự ly TPHCM và Hà Nội đi các tỉnh
- 80111140 Hướng dẫn báo thức tự động
- 80111288 Danh mục hộp thư thông tin
- 80111111 Các dịch vụ của Trung Tâm Khai Thác Dịch Vụ
6. Hộp thư giới tính
- 80111149 Khám phá trẻ ( cuộc sống muôn màu )
- 80111158 Dành cho phụ nữ
- 80111159 Dành cho đàn ông
- 80111177 Thì thầm vợ chồng
- 80111178 Giáo dục giới tính
- 80111179 Thế giới tình yêu
- 80111157 Chuyện hai người
- 80111166 Thì thầm bên gối
- 80111169 Giáo dục giới tính
7. Thông tin Sức khỏe và Thẩm mỹ :
- 80111100 Trả lời y học
- 80111156 Chăm sóc sắc đẹp
- 80111170 Giáo dục giới tính
- 80111181 Bệnh về tim mạch
- 80111182 Bệnh về tiết niệu, tiểu đường
- 80111183 Bệnh về tiêu hóa
- 80111184 Bệnh về Cơ, Xương, Khớp
- 80111185 Bệnh về Tai, Mũi, Họng, Mắt
- 80111186 Bệnh Truyền nhiễm
- 80111187 Bệnh Thần kinh, Tâm thần
- 80111188 Thời sự y học - Thuốc & dụng cụ y khoa
- 80111189 Giáo dục con cái
- 80111190 Thai nghén, sinh đẻ & bệnh phụ nữ
- 80111191 Bệnh về phổi, Hen suyễn

- 80111192 Bệnh về da - Các bệnh lây truyền qua đường tình dục
- 80111193 Sắc đẹp thẩm mỹ
- 80111194 Bướu - Ung thư - Bệnh về máu
- 80111195 Sơ cấp cứu tai nạn và ngộ độc
- 80111196 Bệnh trẻ em - Chủng ngừa
13
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
- 80111197 Đông dược
- 80111198 Dinh dưỡng
- 80111199 AIDS - Ma túy và các chất gây nghiện
- 80111180 Hộp thư y học báo Người Lao Động
8. Truyện thiếu nhi
- 19001511 Giải trí thiếu nhi
- 80111112 Kể chuyện cổ tích
- 80111113 Kể chuyện cổ tích
- 80111114 Kể chuyện cổ tích
- 80111115 Kể chuyện cổ tích
- 80111116 Kể chuyện cổ tích
- 80111117 Kể chuyện cổ tích
- 80111118 Kể chuyện cổ tích
- 80111119 Kể chuyện cổ tích
- 80111120 Kể chuyện cổ tích
- 80111122 Kể chuyện cổ tích
- 80111123 Kể chuyện cổ tích
- 80111124 Kể chuyện cổ tích
- 80111126 Kể chuyện cổ tích
- 80111128 Kể chuyện cổ tích
- 80111137 Kể chuyện cổ tích
- 80111121 Kể chuyện cổ tích Grimm
- 80111125 Kể chuyện cổ tích 1001 đêm

- 80111127 Kể chuyện Harry Porter
- 80111131 Kể chuyện Doremon
- 80111132 Kể chuyện Doremon
- 80111133 Kể chuyện Doremon
- 80111134 Kể chuyện Doremon
- 80111135 Kể chuyện Doremon
- 80111136 Kể chuyện Doremon
- 80111139 Kể chuyện Thần Đồng Đất Việt
- 80111138 Kể chuyện Tâm hồn cao thượng
Các hộp thư thông tin dịch vụ liệt kê trên khi khách hàng gọi vào để nghe và
yêu cầu các chuyên mục thì theo hình thức nhấn phím thông thường. đề tài này
mở ra hướng tiếp cận mới thay vì nhấn phím thì yêu cầu bằng giọng nói, đối với
những khách hàng sử dụng điện thoại di động thì hình thức này rất thuận tiện và
hợp lý khi giao tiếp.
14
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
Hiện nay VTTP cung cấp rất nhiều hộp thư thông tin, có một số hộp thư
thông tin có thể ứng dụng công nghệ nhận dạng tiếng nói để tối ưu, đáp ứng yêu
cầu của khách hàng một cách tiện lợi.
Đáng giá kết quả kinh doanh hộp thư thông tin trong năm 2012 như sau:
doanh thu khoảng 3,2 tỉ, chi phí 1,8 tỉ, chênh lệch thu chi 1,4 tỉ hiệu quả đem lại
43%. Như vậy việc đầu tư vào phát triển dịch vụ với hình thức mới có thể tăng
thêm doanh thu cho VTTP.
Qua phân tích hiện trạng trên cho thấy ý nghĩa khi thực hiện đề tài, mở ra
hướng phát triển mới cho hộp thư thông tin.
1.3 MỤC TIÊU CỦA ĐỀ TÀI
Mục tiêu của đề tài là nghiên cứu công nghệ nhận dạng tiếng nói ứng
dụng xây dựng tổng đài truy vấn thông tin tự động trên mạng viễn thông với tập
từ vựng là chữ số tiếng nói tiếng việt, nhận dạng độc lập người nói, theo phương
pháp từ tách biệt(nhận dạng từng từ), cho kết quả thực nghiệm với độ chính xác

từ trên 90%.
1.4 PHẠM VI CỦA ĐỀ TÀI
Đề tài tập trung ứng dụng được công nghệ nhận dạng tiếng nói vào bài
toán nhận dạng tiếng nói tiếng việt trên mạng viễn thông, một hệ thống cung cấp
truy vấn thông tin tự động bằng giọng nói, khách hàng yêu cầu thông tin bằng
giọng nói song song với phương pháp nhấn phím truyền thống. Tổng đài nhận
dạng tiếng nói độc lập người nói, tách biệt từ(nhận dạng từ đơn), với tập từ vựng
chữ số tiếng nói Tiếng việt. Ứng dụng thử nghiệm xây dựng tổng đài nghe nhạc
truy vấn thông tin bằng giọng nói.
1.5 ĐIỂM MỚI NỔI BẬC CỦA ĐỀ TÀI
Hiện nay trên thị trường chưa có sản phẩm nhận dạng tiếng nói tiếng việt
trên mạng viễn thông.
15
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
Đề tài mở ra hướng phát triển trong lĩnh vực ứng dụng công nghệ nhận
dạng tiếng nói để truy vấn thông tin tự động trên thị trường viễn thông của Việt
Nam.
Nhiều ứng dụng, dịch vụ truy vấn thông tin tự động bằng giọng nói sẽ
được phát triển dựa trên kết quả nghiên cứu của đề tài này.
Đây là hình thức giao tiếp quen thuộc với người sử dụng, là hình thức mới
bổ trợ cho hình thức truy vấn thông tin theo cách truyền thống là nhấn phím.
Đem đến cho khách hàng một sự trãi nghiệm mới, một sự lựa chọn hình
thức truy vấn thông tin mới.
1.6 PHÂN TÍCH ƯU NHƯỢC ĐIỂM CỦA HÌNH THỨC GIAO TIẾP
BẰNG GIỌNG NÓI
Ưu điểm: Dịch vụ hướng đến tất cả các đối tượng người sử dụng bởi đây
là hình thức bổ trợ chứ không phải là hình thức thay thế, một hình thức giao tiếp
quen thuộc với người sử dụng, đem đến cho khách hàng một sự trãi nghiệm mới,
một sự lựa chọn hình thức truy vấn thông tin mới. từ đó nâng cao sự quan tâm
của khách hàng đến các dịch vụ giao tiếp trả lời tự động của VNPT.

Nhược điểm: người dùng chưa quen với hình thức giao tiếp mới, khó sử
dụng trong môi trường nhiễu xung quanh nhiều.
1.7 NỘI DUNG ĐỀ TÀI :
Đề tài trình bày gồm 5 chương:
 Chương 1 Mở Đầu: trình bày tổng quan về đề tài, xác định mục tiêu
những vấn đề cần giải quyết, phạm vi thực hiện của đề tài, đưa ra phương
pháp giải quyết và chỉ ra điểm nổi bậc của đề tài.
 Chương 2 Cơ sở lý thuyết: nghiên cứu lý thuyết về hệ thống nhận dạng
tiếng nói, phương pháp rút trích đặt trưng, mô hình markov ẩn, thích ứng
16
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
tiếng nói, các loại codec trên mạng viễn thông, tập trung trình bày các
khái niệm, thuật toán liên quan trong việc phát triển đề tài nhận dạng chữ
số tiếng nói tiếng việt trên mạng viễn thông.
 Chương 3 Tìm hiểu ứng dụng công nghệ HTK vào bài toán nhận dạng
tiếng nói: tìm hiểu bộ công cụ huấn luyện HTK, thu âm dữ liệu âm thanh,
tiến hành huấn luyện trên HTK, ứng dụng kết quả vào bài toán nhận dạng
trên mạng viễn thông.
 Chương 4 Xây dựng tổng đài nhận dạng yêu cầu nghe nhạc bằng giọng
nói: tìm hiểu và xây dựng hoàn chỉnh tổng đài VOIP trên Asterisk, cấu
hình chức năng giao tiếp với mạng viễn thông, xây dựng và tích hợp
module nhận dạng tiếng nói vào tổng đài, cấu hình module nhận dạng qua
Dialplan của tổng đài.
 Chương 5 Đánh giá kết quả đạt được của đề tài: mô tả dữ liệu huấn luyện,
kiểm tra kết quả nhận dạng trên tổng đài, đánh giá kết quả nhận dạng.
 Chương 6 Kết luận và Hướng phát triển.
17
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
CHƯƠNG 2 NGHIÊN CỨU LÝ THUYẾT
NHẬN DẠNG TIẾNG NÓI

2.1 NHẬN DẠNG TIẾNG NÓI
2.1.1 Bài toán nhận dạng tiếng nói
Bài toán nhận dạng tiếng nói bao gồm: nhận dạng lời nói (speech
recognition), nhận dạng người nói (speaker recognition), nhận dạng ngôn ngữ nói
(language recognition), nhận dạng giới tính (Sex recognition)… Trong bài toán
nhận dạng lời nói lại bao gồm 2 loại là nhận dạng độc lập người nói (Speaker
18
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
Independent) và nhận dạng phụ thuộc người nói (Speaker Dependent). Trong đề
tài này thực hiện nhận dạng độc lập người nói.
Hệ thống nhận dạng độc lập người nói là hệ thống cho phép nhận dạng
được nhiều giọng nói khác nhau, nhiều cách phát âm khác nhau trên cùng một
ngôn ngữ, do vậy hệ thống nhận dạng độc lập người nói cần một lượng lớn dữ
liệu huấn luyện để có thể nhận dạng được tiếng nói của nhiều người khác nhau.
Tổng quát nhất nhận dạng tiếng nói là quá trình chuyển đổi ngôn ngữ
tiếng nói thành văn bản ( speech to text ) [9], nhận dạng tiếng nói ứng dụng rất
nhiều trong cuộc sống như điều khiển giao tiếp với máy tính, quay số tự động,
19
Tiếng nói
Nhận dạng
lời nói
Nhận dạng
người nói
Nhận dạng
ngôn ngữ
Xử lý tiếng
nói
Nhận dạng
Miền
Thời gian

Miền
Tần số
Tổng hợp
tiếng nói

Nhận dạng
giới tính
Nhận dạng
độc lập
người nói
Nhận dạng
phụ thuộc
người nói
Hình 2.1: Các lĩnh vực về nhận dạng tiếng nói.
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
truy vấn hỏi đáp trực tiếp tự động qua điện thoại [10]… đây là cách giao tiếp
thân thiện giữa người và máy.
Mục tiêu (giả thuyết) chính của đề tài là áp dụng lý thuyết nền tảng mô
hình Markov ẩn hợp Gauss, áp dụng vào bài toán nhận dạng chữ số tiếng nói
tiếng việt trên môi trường mạng viễn thông, từ đó xây dựng hệ thống tổng đài
nhận dạng yêu cầu bằng giọng nói.
Lý thuyết nền tảng mô hình Markov ẩn phân loại theo hàm mật độ xác
suất của các tín hiệu quan sát, mô hình Markov ẩn (HMM) gồm 2 loại: HMM rời
rạc và HMM liên tục. Trong trường hợp hàm mật độ xác suất là hàm Gauss, ta có
mô hình Markov ẩn đơn Gauss (Gaussian HMM), mô hình Markov ẩn hợp Gauss
(MGHMM) là một dạng của HMM liên tục, trong đó hàm mật độ xác suất của
các vector quan sát là hợp các hàm Gauss (GMM).
Hệ thống nhận dạng tiếng nói tự động tổng quát như hình vẽ dưới đây:
20
Bộ phân loại

Gauss
HMM
Gaussian
Model
Gaussian
Mixture
Model

HMM
rời rạc
HMM
liên tục
Gaussian
HMM
Mixture of
Gaussians HMM
Hình 2.2 : Phân loại mô hình Markov ẩn.
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
Hình 2.3: Khối chức năng của hệ thống nhận dạng tiếng nói
Đặc trưng tiếng nói: Tiếng nói được biến đổi thành các vector đặc trưng,
phương pháp rút trích đặc trưng phổ biến hiện nay là MFCC (Mel-frequency
cepstral coefficients).
Mô hình ngữ âm: sử dụng mô hình HMM, biểu diễn tri thức cho tín hiệu
ngữ âm, âm vị…ánh xạ tiếng nói đến nhãn tương ứng.
Mô hình ngôn ngữ: liên quan đến việc biểu diễn tri thức của các từ, chuỗi
từ, hình thành nên câu. Mô hình ngôn ngữ canh chỉnh lại kết quả nhận dạng để
cho kết quả chính xác hơn.
Thuật toán tìm kiếm: chọn lựa chuỗi từ ứng với tín hiệu ngữ âm, cho kết
quả nhận dạng tốt nhất có thể.
Tiếng nói cần nhận dạng sẽ được rút trích đặc trưng, những đặc trưng này

là dữ liệu đầu vào cho thuật toán tìm kiếm, dựa vào mô hình ngữ âm và mô hình
ngôn ngữ thuật toán tìm kiếm sẽ trả về kết quả nhận dạng tối ưu nhất.
Gọi O là dữ liệu tiếng nói cần nhận dạng, W là một chuỗi từ thuộc tập từ
vựng cho trước. Nếu P(W/O) là xác suất chuỗi từ W dựa vào dữ liệu tiếng nói
quan sát O của người nói, thì chuỗi từ cần nhận dạng được tính bằng công thức:
(2-1)
21
[ ]
)/(maxarg
ˆ
OWPw
W
=
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
Công thức Bayes được biểu diễn:
)(
)()/(
)/(
OP
WPWOP
OWP
=
(2-2)
P(O) là hằng không ảnh hưởng đến kết quả nhận dạng nên ta có:
)()/()/( WPWOPOWP
=
trong đó P(W) là mô hình ngôn ngữ và P(O|W)
là mô hình ngữ âm sử dụng mô hình Markov ẩn hợp Gauss.
Công thức tìm chuỗi từ cần nhận dạng (1-1) trở thành:
(2-3)

2.1.2 Bài toán nhận dạng tiếng nói tiếng việt trên môi trường mạng Viễn
Thông
Đề tài nghiên cứu là giải quyết bài toán nhận dạng tiếng nói tiếng việt trên
môi trường mạng viễn thông.
Tiếng nói từ đầu cuối điện thoại truyền đi trên mạng viễn thông đến tổng
đài nhận dạng tiếng nói Voice Server, tại đây tiếng nói sẽ được nhận dạng và
chuyển thành văn bản (Speech - To - Text) [7].

Hình 2.4: Nhận dạng tiếng nói trên mạng viễn thông
Quá trình chuyển đổi tiếng nói thành văn bản được thực hiện bởi bộ nhận
dạng tiếng nói tự động ASR (Automatic Speech Recognition).
Đề tài nghiên cứu xây dựng tổng đài nhận dạng chữ số tiếng nói tiếng việt
trên môi trường mạng viễn thông (voice server), tiếng nói từ đầu cuối điện thoại
sẽ được mã hóa và truyền đi trên môi trường mạng viễn thông, đến tổng đài nhận
22
[ ]
)()/(maxarg
ˆ
WPWOPw
W
=
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
dạng, tín hiệu tiếng nói sẽ được giải mã, rút trích đặc trưng và tiến hành nhận
dạng trả về kết quả.
Hình 2.5: Tổng đài nhận dạng tiếng nói voice server
2.2 RÚT TRÍCH ĐẶC TRƯNG TIẾNG NÓI
2.2.1 Giới Thiệu
Rút trích đặc trưng được hiểu như là một quá trình biến đổi từ vector có
kích thước lớn sang vector có kích thước nhỏ hơn. Như vậy, về mặt hình thức,
rút trích đặc trưng có thể được định nghĩa như một ánh xạ f:

f : R
N
→ R
d
, trong đó d << N.
Thông thường, để các mô hình người nói có khả năng mô hình hóa tốt, số
lượng các vector huấn luyện phải đủ lớn. Như vậy, việc giảm kích thước của
từng vector huấn luyện thông qua bước rút trích đặc trưng sẽ giúp làm giảm độ
phức tạp tính toán của bước huấn luyện và nhận dạng.
Đối với bài toán nhận dạng người nói, một đặc trưng được cho là tốt cần
phải có các tính chất sau:
- Sai biệt giữa các vectors đặc trưng của những người nói khác nhau phải
lớn.
- Sai biệt giữa các vectors đặc trưng của cùng một người nói phải nhỏ.
23
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
- Kháng nhiễu tốt.
- Phân biệt được giả mạo tốt.
- Độc lập với các đặc trưng khác.
Hai tính chất đầu đòi hỏi đặc trưng phải mang tính tách biệt càng nhiều càng
tốt. Một ví dụ minh họa thể hiện trong hình 2.6 cho thấy tính tách biệt của 2 đặc
trưng khác nhau. Dễ dàng thấy được đặc trưng 2 tốt hơn hẳn đặc trưng 1 trong
việc phân biệt giữa những người nói.
Hinh 2.6: Ví dụ về tính tách biệt của 2 đặc trưng khác nhau.
Một đặc trưng được gọi là tốt cũng cần phải có tính kháng nhiễu và phân
biệt giả mạo tốt (đặc tính thứ 3 và thứ 4). Cuối cùng, nếu một hệ thống sử dụng
nhiều hơn 1 đặc trưng, thì các đặc trưng này phải độc lập với nhau (tính chất 5);
việc sử dụng các đặc trưng phụ thuộc lẫn nhau thường không đem lại kết quả tốt.
Một đặc trưng lý tưởng (có tất cả 5 tính chất tốt nêu trên) thường không
tồn tại trong thực tế. Trong lĩnh vực nhận dạng người nói, các đặc trưng thường

được sử dụng là MFCC (Mel-Frequency Cepstral Coefficients), LSP (Line
Spectral Pairs)… Đề tài này chỉ tập trung vào đặc trưng MFCC cho bài toán nhận
dạng tiếng nói.
24
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
2.2.2 Nghiên cứu cách thức rút trích đặc trưng tiếng nói
Hình 2.7 thể hiện các bước rút trích đặc trưng MFCC. Tín hiệu thô sẽ trải
qua các bước xử lý chính: chia frame, biến đổi Fourier, áp dụng các Mel filter-
banks, lấy log và biến đổi cosin rời rạc.
Hình 2.7: Các bước rút trích đặc trưng MFCC.
Chia frame (enframing)
25
Voice
Signal
Voice
Frames
Power
Spectrum
FFTChia Frames
Hamming
Window
Apply Mel Filter Banks
Lấy logDCT
MFCC
Vectors

×