Tải bản đầy đủ (.pdf) (68 trang)

(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.55 MB, 68 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN
THÔNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

HỌC VIÊN: Trần Thị Tuyết
Lớp: cao học k13a
Ngƣời hƣớng dẫn: Phùng Trung Nghĩa

Đề tài: NGHIÊN

CỨU PHƢƠNG PHÁP NHẬN DẠNG

NGƢỜI NÓI SỬ DỤNG KĨ THUẬT PHA TRỘN
GAUSSIAN

Thái Nguyên, 2016

Số hóa bởi Trung tâm Học liệu – ĐHTN




LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành cảm ơn thầy giáo TS. Phùng Trung
Nghĩa, ngƣời đã trực tiếp hƣớng dẫn em hoàn thành luận văn. Với những lời
chỉ dẫn, những tài liệu, sự tận tình hƣớng dẫn và những lời động viên của thầy
đã giúp em vƣợt qua nhiều khó khăn trong quá trình thực hiện luận văn này.
Em cũng xin cảm ơn quý thầy cô giảng dạy chƣơng trình cao học
chuyên ngành "Khoa học máy tính” tại trƣờng ĐH Công nghệ thông tin và


truyền thông đã truyền dạy những kiến thức quý báu, những kiến thức này rất
hữu ích và giúp em nhiều khi thực hiện nghiên cứu.
Cuối cùng, em xin gửi lời cảm ơn tới gia đình và bạn bè đã luôn ủng hộ động
viên giúp đỡ em trong suốt những năm học vừa qua.
Em xin chân thành cảm ơn!
Thái Nguyên, ngày 10 tháng 05 năm 2016
Học viên

Trần Thị Tuyết

Số hóa bởi Trung tâm Học liệu – ĐHTN




LỜI CAM ĐOAN
Tên tôi là: Trần Thị Tuyết
Sinh ngày: 20/05/1987
Học viên lớp cao học K13A - Trƣờng Đại học Công nghệ thông tin và
và Truyền thông - ĐHTN.
Em xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá
nhân, đƣợc thực hiện dƣới sự hƣớng dẫn khoa học của thầy giáo TS. Phùng
Trung Nghĩa.
Các số liệu, những kết luận nghiên cứu đƣợc trình bày trong luận văn
này trung thực và chƣa từng đƣợc công bố dƣới bất cứ hình thức nào.
Em xin chịu trách nhiệm về nghiên cứu của mình.
Học viên

Trần Thị Tuyết


Số hóa bởi Trung tâm Học liệu – ĐHTN




i

MỤC LỤC
LỜI CẢM ƠN
LỜI CAM ĐOAN
MỤC LỤC ...................................................................................................... i
DANH MỤC BẢNG ..................................................................................... iii
DANH MỤC HÌNH ...................................................................................... iv
DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU ............................................... vi
MỞ ĐẦU ....................................................................................................... 1
CHƢƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ NHẬN DẠNG NGƢỜI
NÓI TRONG TIẾNG NÓI ............................................................................. 4
1.1. Tổng quan về tiếng nói .................................................................. 4
1.2. Tổng quan về lý thuyết nhận dạng tiếng nói .................................... 6
1.3. Thông tin ngƣời nói trong tiếng nói ................................................ 8
1.4. Vấn đề nhận dạng và xác minh ngƣời nói qua giọng nói .................. 9
1.4.1. Phân loại nhận dạng và xác thực ngƣời nói dựa vào chức năng của
bài toán ................................................................................................... 9
1.4.2. Phân loại nhận dạng và xác thực ngƣời nói dựa theo từ khóa ............. 11
1.5. Đặc trƣng tiếng nói liên quan đến thông tin ngƣời nói ................... 13
1.5.1. Rút trích đặc trƣng ...................................................................... 13
1.5.2. Đặc trƣng biên độ ....................................................................... 14
1.5.3. Đặc trƣng cao độ......................................................................... 15
1.5.4. Đặc trƣng phổ ............................................................................. 16
CHƢƠNG II: MỘT SỐ PHƢƠNG PHÁP PHÂN LỚP TRONG NHẬN

DẠNG NGƢỜI NÓI QUA GIỌNG NÓI ..................................................... 20
2.1. Kỹ thuật so khớp mẫu trực tiếp .................................................... 20
2.1.1. Phƣơng pháp so sánh mẫu trực tiếp cổ điển dùng giải thuật thời
gian động (Dynamic time warping - DTW) .......................................... 20


ii
2.1.2. Phƣơng pháp phân lớp dùng lƣợng tử hóa vector (Vector
Quantization - VQ) ............................................................................... 23
2.2. Phƣơng pháp sử dụng mô hình pha trộn Gaussian ......................... 30
2.2.1. Đặc tả mô hình............................................................................ 30
2.2.2 Ƣớc lƣợng tham số mô hình GMM .............................................. 33
2.2.3. Mô hình hóa ngƣời nói không phụ thuộc văn bản với mô hình
Gaussian Mixture Model - GMM ......................................................... 34
2.2.4. Huấn luyện với mô hình Gaussian Mixture Model - GMM ......... 35
2.2.5. Nhận dạng với mô hình Gaussian Mixture Model - GMM .......... 36
2.3. Phân lớp bằng mô hình GMM-HMM ............................................ 37
2.3.1. Giới thiệu .................................................................................... 37
2.3.2. Đặc tả mô hình GMM-HMM ...................................................... 39
2.3.3. GMM-HMM và bài toán định danh ngƣời nói ............................ 40
CHƢƠNG III: ĐÁNH GIÁ THỰC NGHIỆM PHƢƠNG PHÁP NHẬN
DẠNG NGƢỜI NÓI DÙNG VQ VÀ MÔ HÌNH GMM .............................. 44
3.1. Lựa chọn cơ sở dữ liệu ................................................................. 44
3.1.1. Phạm vi của các cơ sở dữ liệu ATR ............................................ 44
3.1.2. Thu thập dữ liệu tiếng nói trong ATR ......................................... 46
3.1.3. Gán nhãn trong ATR .................................................................. 48
3.2. Cài đặt các phƣơng pháp trên MATLAB ...................................... 51
3.2.1. Cài đặt phƣơng pháp VQ ............................................................ 51
3.2.2. Cài đặt phƣơng pháp GMM ........................................................ 53
3.3. Kết quả của các phƣơng pháp ....................................................... 56

3.4. Đánh giá các kết quả .................................................................... 56
KẾT LUẬN .................................................................................................. 57
TÀI LIỆU THAM KHẢO ............................................................................ 58


iii

DANH MỤC BẢNG
Bảng 1.1: Một số giá trị của tần số cơ bản ứng với giới tính và độ tuổi ........ 15
Bảng 3.1: Thống kê các thông số của cơ sở dữ liệu ...................................... 45
Bảng 3.2: Các lớp phiên âm ......................................................................... 48
Bảng 3.3: Các ký hiệu âm thanh – âm cho lớp thứ 2 ..................................... 49


iv

DANH MỤC HÌNH
Hình 1.1: Các ứng dụng xử lý tiếng nói .......................................................... 6
Hình 1.2: Sơ đồ nhận dạng tổng quát .............................................................. 7
Hình 1.4: Đặc trƣng phổ formant đặc trƣng cho cơ quan phát âm ................... 9
Hình 1.5: Mô hình chung nhận dạng ngƣời nói............................................ 10
Hình 1.6: Bài toán định danh ngƣời nói ....................................................... 10
Hình 1.7: Bài toán xác thực ngƣời nói .......................................................... 11
Hình 1.8: Phân loại bài toán nhận dạng ngƣời nói theo từ khóa .................... 12
Hình 1.9: Sơ đồ rút trích vector đặc trƣng tổng quát .................................... 13
Hình 1.10: Sơ đồ rút trích đặc trƣng chi tiết ................................................... 14
Hình 1.11: Đặc trƣng cao độ ........................................................................ 16
Hình 1.12: Đặc trƣng phổ và đƣờng bao phổ đặc trƣng cho cơ quan phát âm17
Hình 1.13: Đồ thị biểu diễn mối quan hệ giữa Mel và Hz ............................ 18
Hình 1.14: Các bƣớc trích chọn đặc trƣng ................................................... 18

Hình 1.15: Bộ lọc trên thang Mel................................................................. 19
Hình 1.16: Bộ lọc trên tần số thật ................................................................. 19
Hình 1.17: Minh họa các bƣớc biến đổi MFCC ........................................... 19
Hình 2.1: Hai chuỗi dữ liệu trong DTW theo thời gian ................................. 21
Hình 2.2: Giãn tín hiệu có độ dài khác nhau: tín hiệu màu đỏ đã đƣợc giãn để
có độ dài tƣơng ứng với tín hiệu màu xanh................................................... 22
Hình 2.3: Khoảng cách Euclidean tính cho 2 mẫu tiếng nói đã giãn để có độ
dài bằng nhau ............................................................................................... 22
Hình 2.4a: Huấn luyện.................................................................................. 24
Hình 2.4b: Nhận dạng .................................................................................. 25
Hình 2.5: Hàm mật độ Gauss........................................................................ 30
Hình 2.6: Mô hình GMM. ............................................................................ 31
Hình 2.7: Hàm mật độ của GMM có 3 phân phối Gauss............................... 32


v
Hình 2.8: HMM với 3 trạng thái và trọng số chuyển trạng thái.................... 37
Hình 2.9: Nhận dạng ngƣời nói dùng HMM ................................................. 38
Hình 2.10: Mô hình GMM-HMM 3 trạng thái. ............................................. 39
Hình 3.1: Sơ đồ khối hệ thống thu thập dữ liệu ............................................ 45
Hình 3.2: Một ví dụ về kết quả phiên âm đa tầng. ........................................ 50
Hình 3.3: Thuật toán huấn luyện VQ ............................................................ 52
Hình 3.4: Thuật toán nhận dạng VQ ............................................................. 53
Hình 3.5: Thuật toán huấn luyện GMM ........................................................ 54
Hình 3.6: Thuật toán nhận dạng GMM ......................................................... 55


vi
DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU
Ký tự


Ý nghĩa

F0

Tần số dao động cơ bản

MFCC

Hệ số Cepstral tần số Mel

IDFT

Phép biến đổi Fourier ngƣợc

DCT

Phép biến đổi cosin rời rạc

GMM

Mô hình Gaussian hỗn hợp

VQ

Kỹ thuật lƣợng tử hóa vector

FFT

Phép biến đổi Fourier nhanh



1

MỞ ĐẦU
1. Lý do chọn đề tài
Tiếng nói là phƣơng tiện giao tiếp cơ bản của con ngƣời. Vì vậy tiếng
nói cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống
truyền thông. Tín hiệu tiếng nói mang nhiều thông tin, nhƣ thông tin ngôn
ngữ, thông tin về ngƣời nói, thông tin về sắc thái tình cảm khi nói,…
Hầu hết các hệ thống xử lý và nhận dạng tiếng nói truyền thống tập
trung vào xử lý các thông tin ngôn ngữ để đảm bảo nhận dạng đƣợc nội dung
ngôn ngữ hay ngữ nghĩa đƣợc nói [5], [11]. Tuy nhiên để các ứng dụng xử lý
tiếng nói trong máy tính có thể đƣợc áp dụng rộng rãi trong thực tế, một trong
những vấn đề quan trọng cần đảm bảo là khả năng nhận dạng và xác minh
ngƣời nói [2], [12].
Trên thế giới đã có nhiều nghiên cứu về nhận dạng ngƣời nói qua giọng
nói [12], [14]. Tại Việt Nam cũng có một số nghiên cứu ban đầu, đặc biệt là
một số nghiên cứu tại Viện Công nghệ thông tin [3] và Viện nghiên cứu
MICA – Đại học Bách Khoa Hà Nội [1], [2]. Tuy nhiên ở Việt Nam vẫn chƣa
có nhiều các nghiên cứu đánh giá một cách tổng hợp các phƣơng pháp nhận
dạng ngƣời nói phổ biến. Đặc biệt, hai phƣơng pháp nhận dạng ngƣời nói hiện
đại dùng phép lƣợng tử hóa vector – VQ và mô hình pha trộn Gaussian GMM [10], [12], [13] lại chƣa đƣợc nghiên cứu nhiều tại Việt Nam. Vì vậy,
luận văn này nghiên cứu một số phƣơng pháp nhận dạng ngƣời nói bằng
giọng nói, tập trung vào hai phƣơng pháp dùng phép lƣợng tử hóa vector và
mô hình pha trộn Gaussian, đánh giá thực nghiệm các phƣơng pháp, và đƣa ra
những khuyến nghị.


2


2. Mục tiêu của đề tài
Luận văn nghiên cứu một số phƣơng pháp nhận dạng ngƣời nói qua
giọng nói bao gồm:
- Một số phƣơng pháp truyền thống dùng so sánh mẫu trực tiếp với giải
thuật thời gian động – DTW;
- Phƣơng pháp phân lớp dùng lƣợng tử hóa vector – VQ;
- Phƣơng pháp sử dụng mô hình pha trộn Gaussian – GMM.
Sau đó đánh giá thực nghiệm các phƣơng pháp dùng lƣợng tử hóa
vector và dùng mô hình pha trộn Gaussian GMM với cơ sở dữ liệu tiếng nói
đa ngƣời nói, và đƣa ra những khuyến nghị.
3. Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu của luận văn là các phƣơng pháp nhận dạng
ngƣời nói bằng giọng nói. Đây là đối tƣợng nghiên cứu đƣợc nhiều nhà
nghiên cứu trên thế giới quan tâm trong thời gian gần đây.
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng
nói và thông tin ngƣời nói trong tiếng nói, một số phƣơng pháp nhận dạng
ngƣời nói, bao gồm phƣơng pháp so sánh mẫu trực tiếp dùng giải thuật thời
gian động [9], phƣơng pháp phân lớp dùng lƣợng tử hóa vector [14], và đặc
biệt tập trung vào phƣơng pháp sử dụng mô hình pha trộn Gaussian [10], [12],
[13]. Luận văn cũng nghiên cứu đánh giá thực nghiệm các phƣơng pháp để
đƣa ra các khuyến nghị.
4. Phƣơng pháp nghiên cứu
Phƣơng pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới [1-15] để phân tích, đánh giá về các phƣơng pháp biến đổi thông
tin ngƣời nói trong tiếng nói.


3


Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng
sẽ nghiên cứu thực nghiệm một số phƣơng pháp nhận dạng ngƣời nói qua
giọng nói.
5. Ý nghĩa khoa học và thực tiễn
Nhƣ đã trình bày trong phần 1, nghiên cứu về thông tin ngƣời nói trong
tiếng nói và các phƣơng pháp nhận dạng ngƣời nói qua giọng nói có vai trò
quan trọng trong các hệ thống xử lý thông tin và truyền thông hiện đại. Đây
không phải vấn đề nghiên cứu mới trên thế giới nhƣng còn khá mới mẻ ở Việt
Nam. Đặc biệt, nghiên cứu tổng hợp về các phƣơng pháp nhận dạng ngƣời nói
qua giọng nói dùng phép lƣợng tử hóa vector - VQ và mô hình Gaussian GMM chƣa đƣợc nghiên cứu nhiều ở Việt Nam. Do vậy vấn đề nghiên cứu
trong luận văn có ý nghĩa khoa học và thực tiễn.


4

CHƢƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ NHẬN DẠNG NGƢỜI
NÓI TRONG TIẾNG NÓI
1.1. Tổng quan về tiếng nói
Âm thanh của lời nói cũng nhƣ âm thanh trong thế giới tự nhiên xung
quanh ta, về bản chất đều là những sóng âm đƣợc lan truyền trong một môi
trƣờng nhất định (thƣờng là không khí). Khi nói dây thanh trong hầu bị chấn
động, tạo nên những sóng âm, sóng truyền trong không khí đến màng nhĩ –
một màng mỏng rất nhạy cảm của tai ta, làm cho màng nhĩ cũng dao động,
các dây thần kinh màng nhĩ sẽ nhận đƣợc cảm giác âm khi tần số dao động
của sóng đạt đến một độ lớn nhất định. Tai con ngƣời chỉ cảm thụ đƣợc
những dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz. Những dao
động trong miền tần số này gọi là dao động âm hay âm thanh, và các sóng
tƣơng ứng gọi là sóng âm. Những sóng có tần số nhỏ hơn 16Hz gọi là sóng hạ
âm, những sóng có tần số lớn hơn 20000Hz gọi là sóng siêu âm nhƣng con
ngƣời không cảm nhận đƣợc. Sóng âm, sóng siêu âm, sóng hạ âm không chỉ

lan truyền trong không khí mà còn có thể lan truyền tốt ở những môi trƣờng
nhƣ rắn, lỏng, do đó cũng đƣợc sử dụng rất nhiều trong các thiết bị hiện đại.
Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con
ngƣời. Từ khi lịch sử con ngƣời hình thành, con ngƣời đã biết sử dụng tiếng
nói làm phƣơng tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình
tiến hóa và phát triển của loài ngƣời, tiếng nói vẫn luôn giữ vai trò là phƣơng
tiện giao tiếp cơ bản nhất. Kể từ khi máy tính và các ứng dụng của máy tính
đƣợc nghiên cứu và ứng dụng rộng rãi, ngƣời ta cố gắng để máy tính không
chỉ có thể xử lý nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay
thế con ngƣời. Một trong các tiêu chí quan trọng để đánh giá độ thông minh
của máy tính chính là khả năng hiểu đƣợc ngôn ngữ tự nhiên của con ngƣời


5

trong đó có tiếng nói. Do vậy, trong khoảng một thập kỷ lại đây, lĩnh vực xử
lý ngôn ngữ tự nhiên và tiếng nói đã đƣợc nghiên cứu rất rộng rãi trên thế giới.
Xử lý tiếng nói đƣợc hiểu là các thao tác, kỹ thuật xử lý trên máy tính
nhằm mục đích đƣa tiếng nói vào máy tính, xử lý theo yêu cầu và phát lại cho
con ngƣời. Yêu cầu xử lý ở đây phụ thuộc vào từng ứng dụng cụ thể nhƣ
trong hình 1.1. Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệu quả trên
các hệ thống viễn thông truyền với khoảng cách rất xa, ngƣời ta cần nghiên
cứu và xây dựng các giải thuật mã hóa nén tiếng nói. Để xây dựng các ứng
dụng nhận dạng tiếng nói, ngƣời ta cần nghiên cứu và xây dựng các giải thuật
trích đặc trƣng tiếng nói và huấn luyện tiếng nói.
Nhận dạng tiếng nói là một lĩnh vực nghiên cứu thu hút đƣợc sự quan
tâm nghiên cứu của nhiều nhà khoa học. Thuật ngữ “nhận dạng tiếng nói”
thông thƣờng hay đƣợc xem là nhận dạng cái gì đƣợc nói trong một ngôn ngữ
cụ thể. Ví dụ nhận dạng tiếng Việt tức là biến đổi một câu nói tiếng Việt
thành văn bản tiếng Việt xem cái gì thực sự đã đƣợc nói ra. Tƣơng tự với các

ngôn ngữ khác nhƣ tiếng Anh, tiếng Thái, tiếng Mandarin, Cantonese,… Tuy
nhiên bản thân tín hiệu tiếng nói còn có thể mang nhiều thông tin hơn là nội
dung cái gì đã đƣợc nói. Tiếng nói có thể mang thông tin ai nói, nói bằng
ngôn ngữ gì, nói với sắc thái tình cảm nhƣ thế nào,… Và do vậy thuật ngữ
“nhận dạng tiếng nói” cần đƣợc hiểu nhƣ là một lĩnh vực nhận dạng tín hiệu
tiếng nói nói chung với các ứng dụng cụ thể nhƣ nhận dạng tiếng nói tiếng
Anh, tiếng Việt,… nhận dạng ngƣời nói, nhận dạng ngôn ngữ nói,…
Bài toán nhận dạng ngƣời nói mới đƣợc nghiên cứu nhiều trong thời gian
gần đây. Nhận dạng ngƣời nói có nhiều ứng dụng trong công tác điều tra,
giám định tội phạm, xác thực ngƣời dùng, giao dịch ngân hàng,… Về cơ bản,
nhận dạng ngƣời nói và nhận dạng tiếng nói nói chung có những điểm chung


6

giống nhau về quá trình xử lý tín hiệu tiếng nói, học mẫu và phân lớp, nhận
dạng và so khớp mẫu.

Hình 1.1: Các ứng dụng xử lý tiếng nói
1.2. Tổng quan về lý thuyết nhận dạng tiếng nói
Nhận dạng là một quá trình quan sát đối tƣợng cần nhận dạng, ghi nhận
lại những đặc trƣng của đối tƣợng, phân lớp đối tƣợng và có sử dụng khả
năng phán đoán suy luận để phân biệt đối tƣợng đó với đối tƣợng khác (trong
một tập gần nhƣ vô hạn đối tƣợng).
Trong khi đó, nhận dạng tự động – nhận dạng bằng công cụ máy vi tính
chỉ đơn giản là quá trình phân biệt tín hiệu này với tín hiệu khác (trong một
tập hữu hạn các tín hiệu), quá trình này đƣợc thực hiện theo các bƣớc trong sơ
đồ tổng quát sau (nhƣ trong hình 1.2).



7

Hình 1.2: Sơ đồ nhận dạng tổng quát
- Thu nhận tín hiệu và trích đặc trƣng: thu nhận tín hiệu cần nhận dạng,
khử nhiễu, lọc tín hiệu (tiền xử lý) và rút ra các đặc trƣng của tín hiệu.
- Học mẫu: phân lớp các nhóm vector đặc trƣng của từng nhóm tín hiệu
(bằng các thuật giải Heristic, bằng cách sử dụng mạng Neural, bằng các thuật
toán K-means, Batchelor - Wilkins,…). Quá trình này tạo ra các lớp tín hiệu,
mỗi lớp đặc trƣng cho từng nhóm tín hiệu.
- Nhận dạng, so khớp mẫu: tìm mối liên hệ giữa tín hiệu cần nhận dạng
và các lớp tín hiệu đƣợc tạo ra ở bƣớc trƣớc (bằng cách thông qua quy tắc
ngƣời láng giềng gần nhất chẳng hạn). Nếu nhƣ tín hiệu đó so khớp nhất (và
mức độ so khớp thỏa mãn một ngƣỡng nào đó) ứng với một lớp tín hiệu nào
thì hệ thống nhận dạng xác định tín hiệu đó thuộc vào nhóm tín hiệu đó với
một tỉ lệ nhất định gọi là độ chính xác của hệ thống nhận dạng (tỉ lệ này dĩ
nhiên là càng cao càng tốt).


8

1.3. Thông tin ngƣời nói trong tiếng nói
Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý
các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu đƣợc [11].
Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể đƣợc áp
dụng rộng rãi trong thực tế, các đặc trƣng phi ngôn ngữ của tiếng nói cũng đã
đƣợc quan tâm nghiên cứu trong thời gian gần đây [6]. Một trong những vấn
đề quan trọng cần đảm bảo là thông tin về ngƣời nói, bao gồm cả các thông
tin chung về ngƣời nói nhƣ giới tính, độ tuổi,… đến các thông tin chi tiết nhƣ
thông tin nhận danh chính xác ngƣời nói. Có nhiều yếu tố ảnh hƣởng đến
thông tin ngƣời nói trong tiếng nói nhƣ hình dạng, cấu trúc cơ quan phát âm

(đặc trƣng sinh học), thói quen, cách thức phát âm,..
Con ngƣời có thể phân biệt đƣợc thông tin ngƣời nói một cách dễ dàng
do khả năng của cơ quan thính giác tuy nhiên để máy tính có thể phân biệt
thông tin ngƣời nói, thông tin ngƣời nói cần phải đƣợc mô hình hóa và việc
phân biệt, định danh, biến đổi cần phải đƣợc thực hiện thông qua các tham số
vector đặc trƣng đƣợc tính toán từ tín hiệu tiếng nói.

Hình 1.3: Người nói khác nhau có cơ quan phát âm và cách phát âm khác
nhau dẫn tới tiếng nói khác nhau


9

Hình 1.4: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm
1.4. Vấn đề nhận dạng và xác minh ngƣời nói qua giọng nói
Tiếng nói tự nhiên ngoài thông tin ngữ nghĩa mà ngƣời nói cần truyền
đạt (thông tin có thể ghi dƣới dạng chữ viết) còn chứa các thông tin nhƣ trạng
thái tình cảm khi nói, hay những thông tin riêng của giọng nói…
1.4.1. Phân loại nhận dạng và xác thực ngƣời nói dựa vào chức
năng của bài toán
Dựa vào chức năng của bài toán nhận dạng ngƣời nói nói chung mô tả
trong hình 1.5 ngƣời ta chia bài toán nhận dạng ngƣời nói thành hai bài toán:
bài toán định danh ngƣời nói (speaker identification) và bài toán xác thực
ngƣời nói (speaker verification).


10

Hình 1.5: Mô hình chung nhận dạng người nói
Định danh ngƣời nói (speaker identification): Kiểm tra xem ngƣời cần

kiểm tra là ai hay là không có trong hệ thống.

Hình 1.6: Bài toán định danh người nói
Xác thực ngƣời nói (speaker verification): Xác minh liệu ngƣời đang
nói có đúng là ngƣời mà máy tính đã đƣợc biết trƣớc hay không. Đây cũng là
bài toán đƣợc nghiên cứu trong luận văn này.


11

Hình 1.7: Bài toán xác thực người nói
1.4.2. Phân loại nhận dạng và xác thực ngƣời nói dựa theo từ khóa
Dựa theo phƣơng pháp thì bài toán nhận dạng đƣợc chia thành hai bài
toán: bài toán nhận dạng ngƣời nói phụ thuộc vào từ khóa (text-dependent
speaker recognition) và bài toán nhận dạng ngƣời nói không phụ thuộc vào từ
khóa (text-independent speaker recognition).
Nhận dạng ngƣời nói phụ thuộc vào từ khóa (text-dependent speaker
recognition): nhận dạng ngƣời nói dựa trên sự kết hợp giữa đặc trƣng ngƣời
nói với nội dung nói.
- Đây là kỹ thuật nhận dạng ngƣời nói có khả năng ứng dụng rất lớn,
nhƣ đăng nhập vào các hệ thống an ninh bằng mật khẩu tiếng nói hay truy cập
bằng tiếng nói vào hệ thống giao dịch ngân hàng trên mạng điện thoại thông
qua mã số cá nhân (số PIN…).
- Do biết trƣớc đƣợc nội dung tiếng nói khi huấn luyện và nhận dạng
nên độ chính xác là khá cao trong khi thời gian huấn luyện và nhận dạng lại
giảm nhiều so với nhận dạng không phụ thuộc vào từ khóa.
- Tuy nhiên, kỹ thuật này không có sự thay đổi trong mật khẩu nên hệ
thống dễ bị tấn công bởi những kẻ giả mạo bằng cách ghi âm lại mật khẩu. Để
khắc phục vấn đề này, nhiều hệ thống đã thay đổi cụm từ mật khẩu. Ví dụ
trong trƣờng hợp cụm từ là các số, hệ thống sẽ sinh ra một cụm từ mật khẩu là

một dãy số ngẫu nhiên nào đó và thông báo nó mỗi khi có ngƣời đăng nhập
vào hệ thống.


12

Nhận dạng ngƣời nói không phụ thuộc vào từ khóa (text-independent
speaker recognition): nhận dạng ngƣời nói chỉ dựa vào đặc trƣng của ngƣời
nói.
- Kỹ thuật này đƣợc áp dụng rộng rãi, đáp ứng đƣợc hầu hết các yêu
cầu đề ra. Nhƣng trong thực tế cùng một ngƣời cũng có giọng nói khác nhau ở
những thời điểm khác nhau. Điều này làm ảnh hƣởng rất lớn đến việc nhận
dạng, nó làm cho độ chính xác của hệ thống nhận dạng giảm xuống.
- Để khắc phục hạn chế của kỹ thuật này thì hệ thống nhận dạng không
phụ thuộc vào từ khóa cần đƣợc thiết kế phức tạp hơn, đòi hỏi lƣợng dữ liệu
huấn luyện nhiều hơn. Nhƣng với phƣơng pháp này thì không khắc phục đƣợc
nhiều. Do đó trong thực tế vấn đề này đƣợc khắc phục bằng cách là bán độc
lập ngƣời nói. Tức là phƣơng pháp này thực hiện bằng cách thu một lƣợng lớn
các mẫu giọng nói khác nhau. Khi sử dụng hệ thống sẽ đƣợc điều chỉnh cho
phù hợp với giọng nói của ngƣời dùng, bằng cách nó học thêm một số câu có
chứa các từ cần thiết (ngƣời dùng trƣớc khi sử dụng hệ thống cần phải qua
quá trình huấn luyện hệ thống).
Nhận dạng ngƣời nói

Nhận dạng ngƣời nói

Phụ thuộc
từ khóa

Không phụ

thuộc từ
khóa

Xác minh ngƣời nói

Phụ thuộc
từ khóa

Không phụ
thuộc từ
khóa

Hình 1.8: Phân loại bài toán nhận dạng người nói theo từ khóa


13

1.5. Đặc trƣng tiếng nói liên quan đến thông tin ngƣời nói
1.5.1. Rút trích đặc trƣng
Đối với một hệ nhận dạng tiếng nói, việc rút trích vector đặc trƣng của
tiếng nói là công việc thiết yếu. Điều này giúp giảm thiểu số lƣợng dữ liệu
trong việc huấn luyện và nhận dạng, dẫn đến khối lƣợng công việc tính
toán giảm đáng kể.

Hình 1.9: Sơ đồ rút trích vector đặc trưng tổng quát
Bên cạnh đó, việc rút trích đặc trƣng còn làm rõ sự khác biệt của
tiếng này so với tiếng khác, làm mờ đi sự khác biệt của cùng hai lần phát
âm khác nhau của cùng một tiếng. Hình 1.9 minh họa các bƣớc xử lý trong
việc rút trích vector đặc trƣng tiếng nói.



14

Hình 1.10: Sơ đồ rút trích đặc trưng chi tiết
1.5.2. Đặc trƣng biên độ
Có hai cách biểu diễn đặc trƣng biên độ thông qua cƣờng độ âm I hoặc
năng lƣợng âm E.
Đối với tai con ngƣời, giá trị tuyệt đối của cƣờng độ âm I không quan
trọng bằng giá trị tỉ đối của I so với một giá trị I0 nào đó chọn làm chuẩn.
Ngƣời ta định nghĩa mức cƣờng độ âm L: L(B) = lg(I/I0).
Đơn vị mức cƣờng độ âm là Ben (kí hiệu : B). Mức cƣờng độ âm bằng
1,2,3,4 B... có nghĩa là cƣờng độ âm I lớn gấp 10, 10^2, 10^3, 10^4... cƣờng
độ âm chuẩn I0.
Trong thực tế ngƣời ta thƣờng dùng đơn vị dB, bằng 1/10 ben. L(dB)=
10lg(I/I0). Khi L= 1dB, thì I lớn gấp 1.26 lần I0. Đó là mức cƣờng độ âm nhỏ
nhất mà tai ta có thể phân biệt đƣợc.
Năng lƣợng tín hiệu đƣợc thể hiện thông qua mức độ, số lƣợng tín
hiệu có trong một đơn vị thời gian. Năng lƣợng của tín hiệu tiếng nói là
một đặc trƣng vật lý của tín hiệu, đƣợc dùng nhƣ là tham số trong vector


15

đặc trƣng trong nhận dạng tiếng nói, và còn đƣợc để dò tìm khoảng lặng
trong tín hiệu tiếng nói. Tính toán năng lƣợng tín hiệu thƣờng dựa trên sự
phân khung và lấy cửa sổ, bằng cách lấy tổng các bình phƣơng chuỗi tín
hiệu X(n) trong cửa sổ tín hiệu. Đặc trƣng năng lƣợng ở đây đƣợc tính bằng
cách lấy log năng lƣợng tín hiệu.
1.5.3. Đặc trƣng cao độ
Cao độ (pitch): là độ "cao", "thấp" của âm thanh có quan hệ chặt chẽ

với tần số dao động. Tần số dao động càng lớn thì âm thanh càng "cao" và
ngƣợc lại. Với âm thanh thực là tổ hợp của nhiều tần số thì tần số dao động ở
đây là tần số cơ bản F0.
Tần số cơ bản F0 đóng một vai trò quan trọng trong xử lý tiếng nói. Từ
tần số cơ bản, ta có thể có những phân biệt tiếng nói theo cả các đặc điểm
ngôn ngữ nhƣ thanh điệu của ngôn ngữ có thanh điệu và phi ngôn ngữ nhƣ
sắc thái, ngữ điệu, giọng ngƣời nói. Thông thƣờng F0 của trẻ em cao hơn của
ngƣời lớn tuổi, của phụ nữ cao hơn của đàn ông.
Bảng 1.1: Một số giá trị của tần số cơ bản ứng với giới tính và độ tuổi
Giá trị tần số cơ bản

Ngƣời nói

80 – 200 Hz

Nam giới

150 – 450 Hz

Phụ nữ

200 – 600 Hz

Trẻ em

Trong tiếng nói, đặc biệt là các ngôn ngữ châu Âu, trƣờng độ (duration)
là đặc tính quan trọng của âm vị, âm tiết liên quan đến ngữ nghĩa của âm vị,
âm tiết. Với tiếng Việt, trƣờng độ không mang ngữ nghĩa nhƣng trƣờng độ lại



16

đặc trƣng cho một số yếu tố phi ngôn ngữ nhƣ ngƣời nói, cảm xúc ngữ điệu
khi nói,…

Hình 1.11: Đặc trưng cao độ
Đặc trƣng trƣờng độ đơn giản là độ dài của đơn vị tiếng nói tính bằng
giây hoặc bằng số lƣợng khung tiếng nói.
Các kết quả nghiên cứu cho thấy để thay đổi tốc độ nói không thể thay
đổi tuyến tính trƣờng độ mà cần thay đổi đồng bộ trƣờng độ và cao độ theo
giải thuật Pitch-Synchronous Modification [8].
1.5.4. Đặc trƣng phổ
Phổ âm thanh là tính chất vật lý ảnh hƣởng chủ yếu đến sự nhận thức
âm sắc âm thanh, trong đó âm sắc là phẩm chất hay màu sắc của tiếng nói hay
âm thanh. Âm sắc giúp phân biệt những loại nguồn âm khác nhau nhƣ ngƣời
nói khác nhau hay các loại nhạc cụ khác nhau. Ví dụ, âm sắc có thể giúp phân
biệt một kèn Saxophone và một kèn trumpet trong một nhóm chơi nhạc Jazz,
ngay cả khi cả hai loại nhạc cụ này đang chơi những nốt nhạc có cùng cƣờng
độ và cao độ.
Phổ âm thanh ảnh hƣởng chính bởi cấu trúc bộ máy cộng hƣởng âm
thanh, với tiếng nói đó là bộ máy dẫn âm và phát âm vocal tract. Khi phân
tích tín hiệu âm thanh, ngƣời ta có thể dùng phổ âm thanh thời gian ngắn hoặc
dùng phiên bản tối giản đƣờng bao phổ hình 1.11.


×