LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành cảm ơn thầy giáo TS. Phùng Trung
Nghĩa, người đã trực tiếp hướng dẫn em hoàn thành luận văn. Với những lời
chỉ dẫn, những tài liệu, sự tận tình hướng dẫn và những lời động viên của thầy
đã giúp em vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này.
Em cũng xin cảm ơn quý thầy cô giảng dạy chương trình cao học
chuyên ngành "Khoa học máy tính” tại trường ĐH Công nghệ thông tin và
truyền thông đã truyền dạy những kiến thức quý báu, những kiến thức này rất
hữu ích và giúp em nhiều khi thực hiện nghiên cứu.
Cuối cùng, em xin gửi lời cảm ơn tới gia đình và bạn bè đã luôn ủng hộ động
viên giúp đỡ em trong suốt những năm học vừa qua.
Em xin chân thành cảm ơn!
Thái Nguyên, ngày 10 tháng 05 năm 2016
Học viên
Trần Thị Tuyết
LỜI CAM ĐOAN
Tên tôi là: Trần Thị Tuyết
Sinh ngày: 20/05/1987
Học viên lớp cao học K13A - Trường Đại học Công nghệ thông tin và
và Truyền thông - ĐHTN.
Em xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá
nhân, được thực hiện dưới sự hướng dẫn khoa học của thầy giáo TS. Phùng
Trung Nghĩa.
Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn
này trung thực và chưa từng được công bố dưới bất cứ hình thức nào.
Em xin chịu trách nhiệm về nghiên cứu của mình.
Học viên
Trần Thị Tuyết
i
MỤC LỤC
LỜI CẢM ƠN
LỜI CAM ĐOAN
MỤC LỤC ...................................................................................................... i
DANH MỤC BẢNG ..................................................................................... iii
DANH MỤC HÌNH ...................................................................................... iv
DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU ............................................... vi
MỞ ĐẦU ....................................................................................................... 1
CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ NHẬN DẠNG NGƯỜI
NÓI TRONG TIẾNG NÓI ............................................................................. 4
1.1. Tổng quan về tiếng nói .................................................................. 4
1.2. Tổng quan về lý thuyết nhận dạng tiếng nói.................................... 6
1.3. Thông tin người nói trong tiếng nói ................................................ 8
1.4. Vấn đề nhận dạng và xác minh người nói qua giọng nói ................. 9
1.4.1. Phân loại nhận dạng và xác thực người nói dựa vào chức năng của
bài toán ................................................................................................... 9
1.4.2. Phân loại nhận dạng và xác thực người nói dựa theo từ khóa ............. 11
1.5. Đặc trưng tiếng nói liên quan đến thông tin người nói ................... 13
1.5.1. Rút trích đặc trưng...................................................................... 13
1.5.2. Đặc trưng biên độ ....................................................................... 14
1.5.3. Đặc trưng cao độ......................................................................... 15
1.5.4. Đặc trưng phổ ............................................................................. 16
CHƯƠNG II: MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP TRONG NHẬN
DẠNG NGƯỜI NÓI QUA GIỌNG NÓI ..................................................... 20
2.1. Kỹ thuật so khớp mẫu trực tiếp .................................................... 20
2.1.1. Phương pháp so sánh mẫu trực tiếp cổ điển dùng giải thuật thời
gian động (Dynamic time warping - DTW) .......................................... 20
ii
2.1.2. Phương pháp phân lớp dùng lượng tử hóa vector (Vector
Quantization - VQ) ............................................................................... 23
2.2. Phương pháp sử dụng mô hình pha trộn Gaussian ......................... 30
2.2.1. Đặc tả mô hình............................................................................ 30
2.2.2 Ước lượng tham số mô hình GMM .............................................. 33
2.2.3. Mô hình hóa người nói không phụ thuộc văn bản với mô hình
Gaussian Mixture Model - GMM ......................................................... 34
2.2.4. Huấn luyện với mô hình Gaussian Mixture Model - GMM ......... 35
2.2.5. Nhận dạng với mô hình Gaussian Mixture Model - GMM .......... 36
2.3. Phân lớp bằng mô hình GMM-HMM............................................ 37
2.3.1. Giới thiệu .................................................................................... 37
2.3.2. Đặc tả mô hình GMM-HMM ...................................................... 39
2.3.3. GMM-HMM và bài toán định danh người nói ............................ 40
CHƯƠNG III: ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP NHẬN
DẠNG NGƯỜI NÓI DÙNG VQ VÀ MÔ HÌNH GMM .............................. 44
3.1. Lựa chọn cơ sở dữ liệu ................................................................. 44
3.1.1. Phạm vi của các cơ sở dữ liệu ATR ............................................ 44
3.1.2. Thu thập dữ liệu tiếng nói trong ATR ......................................... 46
3.1.3. Gán nhãn trong ATR................................................................... 48
3.2. Cài đặt các phương pháp trên MATLAB ...................................... 51
3.2.1. Cài đặt phương pháp VQ ............................................................ 51
3.2.2. Cài đặt phương pháp GMM ........................................................ 53
3.3. Kết quả của các phương pháp ....................................................... 56
3.4. Đánh giá các kết quả .................................................................... 56
KẾT LUẬN.................................................................................................. 57
TÀI LIỆU THAM KHẢO ............................................................................ 58
iii
DANH MỤC BẢNG
Bảng 1.1: Một số giá trị của tần số cơ bản ứng với giới tính và độ tuổi ........ 15
Bảng 3.1: Thống kê các thông số của cơ sở dữ liệu ...................................... 45
Bảng 3.2: Các lớp phiên âm ......................................................................... 48
Bảng 3.3: Các ký hiệu âm thanh – âm cho lớp thứ 2 ..................................... 49
iv
DANH MỤC HÌNH
Hình 1.1: Các ứng dụng xử lý tiếng nói .......................................................... 6
Hình 1.2: Sơ đồ nhận dạng tổng quát.............................................................. 7
Hình 1.4: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm................... 9
Hình 1.5: Mô hình chung nhận dạng người nói............................................ 10
Hình 1.6: Bài toán định danh người nói ....................................................... 10
Hình 1.7: Bài toán xác thực người nói .......................................................... 11
Hình 1.8: Phân loại bài toán nhận dạng người nói theo từ khóa .................... 12
Hình 1.9: Sơ đồ rút trích vector đặc trưng tổng quát .................................... 13
Hình 1.10: Sơ đồ rút trích đặc trưng chi tiết ................................................... 14
Hình 1.11: Đặc trưng cao độ ........................................................................ 16
Hình 1.12: Đặc trưng phổ và đường bao phổ đặc trưng cho cơ quan phát âm17
Hình 1.13: Đồ thị biểu diễn mối quan hệ giữa Mel và Hz ............................ 18
Hình 1.14: Các bước trích chọn đặc trưng ................................................... 18
Hình 1.15: Bộ lọc trên thang Mel ................................................................. 19
Hình 1.16: Bộ lọc trên tần số thật................................................................. 19
Hình 1.17: Minh họa các bước biến đổi MFCC ........................................... 19
Hình 2.1: Hai chuỗi dữ liệu trong DTW theo thời gian ................................. 21
Hình 2.2: Giãn tín hiệu có độ dài khác nhau: tín hiệu màu đỏ đã được giãn để
có độ dài tương ứng với tín hiệu màu xanh................................................... 22
Hình 2.3: Khoảng cách Euclidean tính cho 2 mẫu tiếng nói đã giãn để có độ
dài bằng nhau ............................................................................................... 22
Hình 2.4a: Huấn luyện.................................................................................. 24
Hình 2.4b: Nhận dạng .................................................................................. 25
Hình 2.5: Hàm mật độ Gauss........................................................................ 30
Hình 2.6: Mô hình GMM. ............................................................................ 31
Hình 2.7: Hàm mật độ của GMM có 3 phân phối Gauss............................... 32
v
Hình 2.8: HMM với 3 trạng thái và trọng số chuyển trạng thái.................... 37
Hình 2.9: Nhận dạng người nói dùng HMM ................................................. 38
Hình 2.10: Mô hình GMM-HMM 3 trạng thái. ............................................. 39
Hình 3.1: Sơ đồ khối hệ thống thu thập dữ liệu ............................................ 45
Hình 3.2: Một ví dụ về kết quả phiên âm đa tầng. ........................................ 50
Hình 3.3: Thuật toán huấn luyện VQ ............................................................ 52
Hình 3.4: Thuật toán nhận dạng VQ ............................................................. 53
Hình 3.5: Thuật toán huấn luyện GMM ........................................................ 54
Hình 3.6: Thuật toán nhận dạng GMM ......................................................... 55
vi
DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU
Ký tự
Ý nghĩa
F0
Tần số dao động cơ bản
MFCC
Hệ số Cepstral tần số Mel
IDFT
Phép biến đổi Fourier ngược
DCT
Phép biến đổi cosin rời rạc
GMM
Mô hình Gaussian hỗn hợp
VQ
Kỹ thuật lượng tử hóa vector
FFT
Phép biến đổi Fourier nhanh
1
MỞ ĐẦU
1. Lý do chọn đề tài
Tiếng nói là phương tiện giao tiếp cơ bản của con người. Vì vậy tiếng
nói cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống
truyền thông. Tín hiệu tiếng nói mang nhiều thông tin, như thông tin ngôn
ngữ, thông tin về người nói, thông tin về sắc thái tình cảm khi nói,…
Hầu hết các hệ thống xử lý và nhận dạng tiếng nói truyền thống tập
trung vào xử lý các thông tin ngôn ngữ để đảm bảo nhận dạng được nội dung
ngôn ngữ hay ngữ nghĩa được nói [5], [11]. Tuy nhiên để các ứng dụng xử lý
tiếng nói trong máy tính có thể được áp dụng rộng rãi trong thực tế, một trong
những vấn đề quan trọng cần đảm bảo là khả năng nhận dạng và xác minh
người nói [2], [12].
Trên thế giới đã có nhiều nghiên cứu về nhận dạng người nói qua giọng
nói [12], [14]. Tại Việt Nam cũng có một số nghiên cứu ban đầu, đặc biệt là
một số nghiên cứu tại Viện Công nghệ thông tin [3] và Viện nghiên cứu
MICA – Đại học Bách Khoa Hà Nội [1], [2]. Tuy nhiên ở Việt Nam vẫn chưa
có nhiều các nghiên cứu đánh giá một cách tổng hợp các phương pháp nhận
dạng người nói phổ biến. Đặc biệt, hai phương pháp nhận dạng người nói hiện
đại dùng phép lượng tử hóa vector – VQ và mô hình pha trộn Gaussian GMM [10], [12], [13] lại chưa được nghiên cứu nhiều tại Việt Nam. Vì vậy,
luận văn này nghiên cứu một số phương pháp nhận dạng người nói bằng
giọng nói, tập trung vào hai phương pháp dùng phép lượng tử hóa vector và
mô hình pha trộn Gaussian, đánh giá thực nghiệm các phương pháp, và đưa ra
những khuyến nghị.
2
2. Mục tiêu của đề tài
Luận văn nghiên cứu một số phương pháp nhận dạng người nói qua
giọng nói bao gồm:
- Một số phương pháp truyền thống dùng so sánh mẫu trực tiếp với giải
thuật thời gian động – DTW;
- Phương pháp phân lớp dùng lượng tử hóa vector – VQ;
- Phương pháp sử dụng mô hình pha trộn Gaussian – GMM.
Sau đó đánh giá thực nghiệm các phương pháp dùng lượng tử hóa
vector và dùng mô hình pha trộn Gaussian GMM với cơ sở dữ liệu tiếng nói
đa người nói, và đưa ra những khuyến nghị.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là các phương pháp nhận dạng
người nói bằng giọng nói. Đây là đối tượng nghiên cứu được nhiều nhà
nghiên cứu trên thế giới quan tâm trong thời gian gần đây.
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng
nói và thông tin người nói trong tiếng nói, một số phương pháp nhận dạng
người nói, bao gồm phương pháp so sánh mẫu trực tiếp dùng giải thuật thời
gian động [9], phương pháp phân lớp dùng lượng tử hóa vector [14], và đặc
biệt tập trung vào phương pháp sử dụng mô hình pha trộn Gaussian [10], [12],
[13]. Luận văn cũng nghiên cứu đánh giá thực nghiệm các phương pháp để
đưa ra các khuyến nghị.
4. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới [1-15] để phân tích, đánh giá về các phương pháp biến đổi thông
tin người nói trong tiếng nói.
3
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng
sẽ nghiên cứu thực nghiệm một số phương pháp nhận dạng người nói qua
giọng nói.
5. Ý nghĩa khoa học và thực tiễn
Như đã trình bày trong phần 1, nghiên cứu về thông tin người nói trong
tiếng nói và các phương pháp nhận dạng người nói qua giọng nói có vai trò
quan trọng trong các hệ thống xử lý thông tin và truyền thông hiện đại. Đây
không phải vấn đề nghiên cứu mới trên thế giới nhưng còn khá mới mẻ ở Việt
Nam. Đặc biệt, nghiên cứu tổng hợp về các phương pháp nhận dạng người nói
qua giọng nói dùng phép lượng tử hóa vector - VQ và mô hình Gaussian GMM chưa được nghiên cứu nhiều ở Việt Nam. Do vậy vấn đề nghiên cứu
trong luận văn có ý nghĩa khoa học và thực tiễn.
4
CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ NHẬN DẠNG NGƯỜI
NÓI TRONG TIẾNG NÓI
1.1. Tổng quan về tiếng nói
Âm thanh của lời nói cũng như âm thanh trong thế giới tự nhiên xung
quanh ta, về bản chất đều là những sóng âm được lan truyền trong một môi
trường nhất định (thường là không khí). Khi nói dây thanh trong hầu bị chấn
động, tạo nên những sóng âm, sóng truyền trong không khí đến màng nhĩ –
một màng mỏng rất nhạy cảm của tai ta, làm cho màng nhĩ cũng dao động,
các dây thần kinh màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động
của sóng đạt đến một độ lớn nhất định. Tai con người chỉ cảm thụ được
những dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz. Những dao
động trong miền tần số này gọi là dao động âm hay âm thanh, và các sóng
tương ứng gọi là sóng âm. Những sóng có tần số nhỏ hơn 16Hz gọi là sóng hạ
âm, những sóng có tần số lớn hơn 20000Hz gọi là sóng siêu âm nhưng con
người không cảm nhận được. Sóng âm, sóng siêu âm, sóng hạ âm không chỉ
lan truyền trong không khí mà còn có thể lan truyền tốt ở những môi trường
như rắn, lỏng, do đó cũng được sử dụng rất nhiều trong các thiết bị hiện đại.
Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con
người. Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng
nói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình
tiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương
tiện giao tiếp cơ bản nhất. Kể từ khi máy tính và các ứng dụng của máy tính
được nghiên cứu và ứng dụng rộng rãi, người ta cố gắng để máy tính không
chỉ có thể xử lý nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay
thế con người. Một trong các tiêu chí quan trọng để đánh giá độ thông minh
của máy tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người
5
trong đó có tiếng nói. Do vậy, trong khoảng một thập kỷ lại đây, lĩnh vực xử
lý ngôn ngữ tự nhiên và tiếng nói đã được nghiên cứu rất rộng rãi trên thế giới.
Xử lý tiếng nói được hiểu là các thao tác, kỹ thuật xử lý trên máy tính
nhằm mục đích đưa tiếng nói vào máy tính, xử lý theo yêu cầu và phát lại cho
con người. Yêu cầu xử lý ở đây phụ thuộc vào từng ứng dụng cụ thể như
trong hình 1.1. Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệu quả trên
các hệ thống viễn thông truyền với khoảng cách rất xa, người ta cần nghiên
cứu và xây dựng các giải thuật mã hóa nén tiếng nói. Để xây dựng các ứng
dụng nhận dạng tiếng nói, người ta cần nghiên cứu và xây dựng các giải thuật
trích đặc trưng tiếng nói và huấn luyện tiếng nói.
Nhận dạng tiếng nói là một lĩnh vực nghiên cứu thu hút được sự quan
tâm nghiên cứu của nhiều nhà khoa học. Thuật ngữ “nhận dạng tiếng nói”
thông thường hay được xem là nhận dạng cái gì được nói trong một ngôn ngữ
cụ thể. Ví dụ nhận dạng tiếng Việt tức là biến đổi một câu nói tiếng Việt
thành văn bản tiếng Việt xem cái gì thực sự đã được nói ra. Tương tự với các
ngôn ngữ khác như tiếng Anh, tiếng Thái, tiếng Mandarin, Cantonese,… Tuy
nhiên bản thân tín hiệu tiếng nói còn có thể mang nhiều thông tin hơn là nội
dung cái gì đã được nói. Tiếng nói có thể mang thông tin ai nói, nói bằng
ngôn ngữ gì, nói với sắc thái tình cảm như thế nào,… Và do vậy thuật ngữ
“nhận dạng tiếng nói” cần được hiểu như là một lĩnh vực nhận dạng tín hiệu
tiếng nói nói chung với các ứng dụng cụ thể như nhận dạng tiếng nói tiếng
Anh, tiếng Việt,… nhận dạng người nói, nhận dạng ngôn ngữ nói,…
Bài toán nhận dạng người nói mới được nghiên cứu nhiều trong thời gian
gần đây. Nhận dạng người nói có nhiều ứng dụng trong công tác điều tra,
giám định tội phạm, xác thực người dùng, giao dịch ngân hàng,… Về cơ bản,
nhận dạng người nói và nhận dạng tiếng nói nói chung có những điểm chung
6
giống nhau về quá trình xử lý tín hiệu tiếng nói, học mẫu và phân lớp, nhận
dạng và so khớp mẫu.
Hình 1.1: Các ứng dụng xử lý tiếng nói
1.2. Tổng quan về lý thuyết nhận dạng tiếng nói
Nhận dạng là một quá trình quan sát đối tượng cần nhận dạng, ghi nhận
lại những đặc trưng của đối tượng, phân lớp đối tượng và có sử dụng khả
năng phán đoán suy luận để phân biệt đối tượng đó với đối tượng khác (trong
một tập gần như vô hạn đối tượng).
Trong khi đó, nhận dạng tự động – nhận dạng bằng công cụ máy vi tính
chỉ đơn giản là quá trình phân biệt tín hiệu này với tín hiệu khác (trong một
tập hữu hạn các tín hiệu), quá trình này được thực hiện theo các bước trong sơ
đồ tổng quát sau (như trong hình 1.2).
7
Hình 1.2: Sơ đồ nhận dạng tổng quát
- Thu nhận tín hiệu và trích đặc trưng: thu nhận tín hiệu cần nhận dạng,
khử nhiễu, lọc tín hiệu (tiền xử lý) và rút ra các đặc trưng của tín hiệu.
- Học mẫu: phân lớp các nhóm vector đặc trưng của từng nhóm tín hiệu
(bằng các thuật giải Heristic, bằng cách sử dụng mạng Neural, bằng các thuật
toán K-means, Batchelor - Wilkins,…). Quá trình này tạo ra các lớp tín hiệu,
mỗi lớp đặc trưng cho từng nhóm tín hiệu.
- Nhận dạng, so khớp mẫu: tìm mối liên hệ giữa tín hiệu cần nhận dạng
và các lớp tín hiệu được tạo ra ở bước trước (bằng cách thông qua quy tắc
người láng giềng gần nhất chẳng hạn). Nếu như tín hiệu đó so khớp nhất (và
mức độ so khớp thỏa mãn một ngưỡng nào đó) ứng với một lớp tín hiệu nào
thì hệ thống nhận dạng xác định tín hiệu đó thuộc vào nhóm tín hiệu đó với
một tỉ lệ nhất định gọi là độ chính xác của hệ thống nhận dạng (tỉ lệ này dĩ
nhiên là càng cao càng tốt).
8
1.3. Thông tin người nói trong tiếng nói
Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý
các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [11].
Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp
dụng rộng rãi trong thực tế, các đặc trưng phi ngôn ngữ của tiếng nói cũng đã
được quan tâm nghiên cứu trong thời gian gần đây [6]. Một trong những vấn
đề quan trọng cần đảm bảo là thông tin về người nói, bao gồm cả các thông
tin chung về người nói như giới tính, độ tuổi,… đến các thông tin chi tiết như
thông tin nhận danh chính xác người nói. Có nhiều yếu tố ảnh hưởng đến
thông tin người nói trong tiếng nói như hình dạng, cấu trúc cơ quan phát âm
(đặc trưng sinh học), thói quen, cách thức phát âm,..
Con người có thể phân biệt được thông tin người nói một cách dễ dàng
do khả năng của cơ quan thính giác tuy nhiên để máy tính có thể phân biệt
thông tin người nói, thông tin người nói cần phải được mô hình hóa và việc
phân biệt, định danh, biến đổi cần phải được thực hiện thông qua các tham số
vector đặc trưng được tính toán từ tín hiệu tiếng nói.
Hình 1.3: Người nói khác nhau có cơ quan phát âm và cách phát âm khác
nhau dẫn tới tiếng nói khác nhau
9
Hình 1.4: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm
1.4. Vấn đề nhận dạng và xác minh người nói qua giọng nói
Tiếng nói tự nhiên ngoài thông tin ngữ nghĩa mà người nói cần truyền
đạt (thông tin có thể ghi dưới dạng chữ viết) còn chứa các thông tin như trạng
thái tình cảm khi nói, hay những thông tin riêng của giọng nói…
1.4.1. Phân loại nhận dạng và xác thực người nói dựa vào chức
năng của bài toán
Dựa vào chức năng của bài toán nhận dạng người nói nói chung mô tả
trong hình 1.5 người ta chia bài toán nhận dạng người nói thành hai bài toán:
bài toán định danh người nói (speaker identification) và bài toán xác thực
người nói (speaker verification).
10
Hình 1.5: Mô hình chung nhận dạng người nói
Định danh người nói (speaker identification): Kiểm tra xem người cần
kiểm tra là ai hay là không có trong hệ thống.
Hình 1.6: Bài toán định danh người nói
Xác thực người nói (speaker verification): Xác minh liệu người đang
nói có đúng là người mà máy tính đã được biết trước hay không. Đây cũng là
bài toán được nghiên cứu trong luận văn này.
11
Hình 1.7: Bài toán xác thực người nói
1.4.2. Phân loại nhận dạng và xác thực người nói dựa theo từ khóa
Dựa theo phương pháp thì bài toán nhận dạng được chia thành hai bài
toán: bài toán nhận dạng người nói phụ thuộc vào từ khóa (text-dependent
speaker recognition) và bài toán nhận dạng người nói không phụ thuộc vào từ
khóa (text-independent speaker recognition).
Nhận dạng người nói phụ thuộc vào từ khóa (text-dependent speaker
recognition): nhận dạng người nói dựa trên sự kết hợp giữa đặc trưng người
nói với nội dung nói.
- Đây là kỹ thuật nhận dạng người nói có khả năng ứng dụng rất lớn,
như đăng nhập vào các hệ thống an ninh bằng mật khẩu tiếng nói hay truy cập
bằng tiếng nói vào hệ thống giao dịch ngân hàng trên mạng điện thoại thông
qua mã số cá nhân (số PIN…).
- Do biết trước được nội dung tiếng nói khi huấn luyện và nhận dạng
nên độ chính xác là khá cao trong khi thời gian huấn luyện và nhận dạng lại
giảm nhiều so với nhận dạng không phụ thuộc vào từ khóa.
- Tuy nhiên, kỹ thuật này không có sự thay đổi trong mật khẩu nên hệ
thống dễ bị tấn công bởi những kẻ giả mạo bằng cách ghi âm lại mật khẩu. Để
khắc phục vấn đề này, nhiều hệ thống đã thay đổi cụm từ mật khẩu. Ví dụ
trong trường hợp cụm từ là các số, hệ thống sẽ sinh ra một cụm từ mật khẩu là
một dãy số ngẫu nhiên nào đó và thông báo nó mỗi khi có người đăng nhập
vào hệ thống.
12
Nhận dạng người nói không phụ thuộc vào từ khóa (text-independent
speaker recognition): nhận dạng người nói chỉ dựa vào đặc trưng của người
nói.
- Kỹ thuật này được áp dụng rộng rãi, đáp ứng được hầu hết các yêu
cầu đề ra. Nhưng trong thực tế cùng một người cũng có giọng nói khác nhau ở
những thời điểm khác nhau. Điều này làm ảnh hưởng rất lớn đến việc nhận
dạng, nó làm cho độ chính xác của hệ thống nhận dạng giảm xuống.
- Để khắc phục hạn chế của kỹ thuật này thì hệ thống nhận dạng không
phụ thuộc vào từ khóa cần được thiết kế phức tạp hơn, đòi hỏi lượng dữ liệu
huấn luyện nhiều hơn. Nhưng với phương pháp này thì không khắc phục được
nhiều. Do đó trong thực tế vấn đề này được khắc phục bằng cách là bán độc
lập người nói. Tức là phương pháp này thực hiện bằng cách thu một lượng lớn
các mẫu giọng nói khác nhau. Khi sử dụng hệ thống sẽ được điều chỉnh cho
phù hợp với giọng nói của người dùng, bằng cách nó học thêm một số câu có
chứa các từ cần thiết (người dùng trước khi sử dụng hệ thống cần phải qua
quá trình huấn luyện hệ thống).
Nhận dạng người nói
Nhận dạng người nói
Phụ thuộc
từ khóa
Không phụ
thuộc từ
khóa
Xác minh người nói
Phụ thuộc
từ khóa
Không phụ
thuộc từ
khóa
Hình 1.8: Phân loại bài toán nhận dạng người nói theo từ khóa
13
1.5. Đặc trưng tiếng nói liên quan đến thông tin người nói
1.5.1. Rút trích đặc trưng
Đối với một hệ nhận dạng tiếng nói, việc rút trích vector đặc trưng của
tiếng nói là công việc thiết yếu. Điều này giúp giảm thiểu số lượng dữ liệu
trong việc huấn luyện và nhận dạng, dẫn đến khối lượng công việc tính
toán giảm đáng kể.
Hình 1.9: Sơ đồ rút trích vector đặc trưng tổng quát
Bên cạnh đó, việc rút trích đặc trưng còn làm rõ sự khác biệt của
tiếng này so với tiếng khác, làm mờ đi sự khác biệt của cùng hai lần phát
âm khác nhau của cùng một tiếng. Hình 1.9 minh họa các bước xử lý trong
việc rút trích vector đặc trưng tiếng nói.
14
Hình 1.10: Sơ đồ rút trích đặc trưng chi tiết
1.5.2. Đặc trưng biên độ
Có hai cách biểu diễn đặc trưng biên độ thông qua cường độ âm I hoặc
năng lượng âm E.
Đối với tai con người, giá trị tuyệt đối của cường độ âm I không quan
trọng bằng giá trị tỉ đối của I so với một giá trị I0 nào đó chọn làm chuẩn.
Người ta định nghĩa mức cường độ âm L: L(B) = lg(I/I0).
Đơn vị mức cường độ âm là Ben (kí hiệu : B). Mức cường độ âm bằng
1,2,3,4 B... có nghĩa là cường độ âm I lớn gấp 10, 10^2, 10^3, 10^4... cường
độ âm chuẩn I0.
Trong thực tế người ta thường dùng đơn vị dB, bằng 1/10 ben. L(dB)=
10lg(I/I0). Khi L= 1dB, thì I lớn gấp 1.26 lần I0. Đó là mức cường độ âm nhỏ
nhất mà tai ta có thể phân biệt được.
Năng lượng tín hiệu được thể hiện thông qua mức độ, số lượng tín
hiệu có trong một đơn vị thời gian. Năng lượng của tín hiệu tiếng nói là
một đặc trưng vật lý của tín hiệu, được dùng như là tham số trong vector
15
đặc trưng trong nhận dạng tiếng nói, và còn được để dò tìm khoảng lặng
trong tín hiệu tiếng nói. Tính toán năng lượng tín hiệu thường dựa trên sự
phân khung và lấy cửa sổ, bằng cách lấy tổng các bình phương chuỗi tín
hiệu X(n) trong cửa sổ tín hiệu. Đặc trưng năng lượng ở đây được tính bằng
cách lấy log năng lượng tín hiệu.
1.5.3. Đặc trưng cao độ
Cao độ (pitch): là độ "cao", "thấp" của âm thanh có quan hệ chặt chẽ
với tần số dao động. Tần số dao động càng lớn thì âm thanh càng "cao" và
ngược lại. Với âm thanh thực là tổ hợp của nhiều tần số thì tần số dao động ở
đây là tần số cơ bản F0.
Tần số cơ bản F0 đóng một vai trò quan trọng trong xử lý tiếng nói. Từ
tần số cơ bản, ta có thể có những phân biệt tiếng nói theo cả các đặc điểm
ngôn ngữ như thanh điệu của ngôn ngữ có thanh điệu và phi ngôn ngữ như
sắc thái, ngữ điệu, giọng người nói. Thông thường F0 của trẻ em cao hơn của
người lớn tuổi, của phụ nữ cao hơn của đàn ông.
Bảng 1.1: Một số giá trị của tần số cơ bản ứng với giới tính và độ tuổi
Giá trị tần số cơ bản
Người nói
80 – 200 Hz
Nam giới
150 – 450 Hz
Phụ nữ
200 – 600 Hz
Trẻ em
Trong tiếng nói, đặc biệt là các ngôn ngữ châu Âu, trường độ (duration)
là đặc tính quan trọng của âm vị, âm tiết liên quan đến ngữ nghĩa của âm vị,
âm tiết. Với tiếng Việt, trường độ không mang ngữ nghĩa nhưng trường độ lại
16
đặc trưng cho một số yếu tố phi ngôn ngữ như người nói, cảm xúc ngữ điệu
khi nói,…
Hình 1.11: Đặc trưng cao độ
Đặc trưng trường độ đơn giản là độ dài của đơn vị tiếng nói tính bằng
giây hoặc bằng số lượng khung tiếng nói.
Các kết quả nghiên cứu cho thấy để thay đổi tốc độ nói không thể thay
đổi tuyến tính trường độ mà cần thay đổi đồng bộ trường độ và cao độ theo
giải thuật Pitch-Synchronous Modification [8].
1.5.4. Đặc trưng phổ
Phổ âm thanh là tính chất vật lý ảnh hưởng chủ yếu đến sự nhận thức
âm sắc âm thanh, trong đó âm sắc là phẩm chất hay màu sắc của tiếng nói hay
âm thanh. Âm sắc giúp phân biệt những loại nguồn âm khác nhau như người
nói khác nhau hay các loại nhạc cụ khác nhau. Ví dụ, âm sắc có thể giúp phân
biệt một kèn Saxophone và một kèn trumpet trong một nhóm chơi nhạc Jazz,
ngay cả khi cả hai loại nhạc cụ này đang chơi những nốt nhạc có cùng cường
độ và cao độ.
Phổ âm thanh ảnh hưởng chính bởi cấu trúc bộ máy cộng hưởng âm
thanh, với tiếng nói đó là bộ máy dẫn âm và phát âm vocal tract. Khi phân
tích tín hiệu âm thanh, người ta có thể dùng phổ âm thanh thời gian ngắn hoặc
dùng phiên bản tối giản đường bao phổ hình 1.11.
17
Hình 1.12: Đặc trưng phổ và đường bao phổ đặc trưng cho cơ quan phát âm
Có nhiều phương pháp tính toán các hệ số biểu diễn đường bao phổ,
trong đó phương pháp phổ biến nhất là phương pháp MFCC.
Các nghiên cứu cho ta thấy rằng hệ thống thính giác của con
người thu nhận âm thanh với độ lớn các tần số âm thanh không theo
thang tuyến tính. Do đó, các thang âm thanh đã ra đời cho phù hợp với sự
tiếp nhận của thính giác con người.
Các thang được xây dựng bằng thực nghiệm, cho nên người ta xây
dựng các công thức để xấp xỉ sự chuyển đổi này. Trong các thang và công
thức dạng đó thì đặc trưng MFCC sử dụng thang Mel. Thang Mel được thể
hiện thông qua đồ thị sau: