Tải bản đầy đủ (.pdf) (68 trang)

Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn gaussian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.82 MB, 68 trang )

..

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN
THƠNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

HỌC VIÊN: Trần Thị Tuyết
Lớp: cao học k13a
Ngƣời hƣớng dẫn: Phùng Trung Nghĩa

Đề tài: NGHIÊN

CỨU PHƢƠNG PHÁP NHẬN DẠNG

NGƢỜI NÓI SỬ DỤNG KĨ THUẬT PHA TRỘN
GAUSSIAN

Thái Nguyên, 2016

Số hóa bởi Trung tâm Học liệu – ĐHTN




LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành cảm ơn thầy giáo TS. Phùng Trung
Nghĩa, ngƣời đã trực tiếp hƣớng dẫn em hoàn thành luận văn. Với những lời
chỉ dẫn, những tài liệu, sự tận tình hƣớng dẫn và những lời động viên của thầy
đã giúp em vƣợt qua nhiều khó khăn trong q trình thực hiện luận văn này.


Em cũng xin cảm ơn quý thầy cô giảng dạy chƣơng trình cao học
chun ngành "Khoa học máy tính” tại trƣờng ĐH Công nghệ thông tin và
truyền thông đã truyền dạy những kiến thức quý báu, những kiến thức này rất
hữu ích và giúp em nhiều khi thực hiện nghiên cứu.
Cuối cùng, em xin gửi lời cảm ơn tới gia đình và bạn bè đã ln ủng hộ động
viên giúp đỡ em trong suốt những năm học vừa qua.
Em xin chân thành cảm ơn!
Thái Nguyên, ngày 10 tháng 05 năm 2016
Học viên

Trần Thị Tuyết

Số hóa bởi Trung tâm Học liệu – ĐHTN




LỜI CAM ĐOAN
Tên tôi là: Trần Thị Tuyết
Sinh ngày: 20/05/1987
Học viên lớp cao học K13A - Trƣờng Đại học Công nghệ thông tin và
và Truyền thông - ĐHTN.
Em xin cam đoan: Luận văn này là cơng trình nghiên cứu thực sự của cá
nhân, đƣợc thực hiện dƣới sự hƣớng dẫn khoa học của thầy giáo TS. Phùng
Trung Nghĩa.
Các số liệu, những kết luận nghiên cứu đƣợc trình bày trong luận văn
này trung thực và chƣa từng đƣợc công bố dƣới bất cứ hình thức nào.
Em xin chịu trách nhiệm về nghiên cứu của mình.
Học viên


Trần Thị Tuyết

Số hóa bởi Trung tâm Học liệu – ĐHTN




i

MỤC LỤC
LỜI CẢM ƠN
LỜI CAM ĐOAN
MỤC LỤC ...................................................................................................... i
DANH MỤC BẢNG ..................................................................................... iii
DANH MỤC HÌNH ...................................................................................... iv
DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU ............................................... vi
MỞ ĐẦU ....................................................................................................... 1
CHƢƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ NHẬN DẠNG NGƢỜI
NÓI TRONG TIẾNG NĨI ............................................................................. 4
1.1. Tổng quan về tiếng nói .................................................................. 4
1.2. Tổng quan về lý thuyết nhận dạng tiếng nói .................................... 6
1.3. Thơng tin ngƣời nói trong tiếng nói ................................................ 8
1.4. Vấn đề nhận dạng và xác minh ngƣời nói qua giọng nói .................. 9
1.4.1. Phân loại nhận dạng và xác thực ngƣời nói dựa vào chức năng của
bài tốn ................................................................................................... 9
1.4.2. Phân loại nhận dạng và xác thực ngƣời nói dựa theo từ khóa ............. 11
1.5. Đặc trƣng tiếng nói liên quan đến thơng tin ngƣời nói ................... 13
1.5.1. Rút trích đặc trƣng ...................................................................... 13
1.5.2. Đặc trƣng biên độ ....................................................................... 14
1.5.3. Đặc trƣng cao độ......................................................................... 15

1.5.4. Đặc trƣng phổ ............................................................................. 16
CHƢƠNG II: MỘT SỐ PHƢƠNG PHÁP PHÂN LỚP TRONG NHẬN
DẠNG NGƢỜI NÓI QUA GIỌNG NÓI ..................................................... 20
2.1. Kỹ thuật so khớp mẫu trực tiếp .................................................... 20
2.1.1. Phƣơng pháp so sánh mẫu trực tiếp cổ điển dùng giải thuật thời
gian động (Dynamic time warping - DTW) .......................................... 20


ii
2.1.2. Phƣơng pháp phân lớp dùng lƣợng tử hóa vector (Vector
Quantization - VQ) ............................................................................... 23
2.2. Phƣơng pháp sử dụng mô hình pha trộn Gaussian ......................... 30
2.2.1. Đặc tả mơ hình............................................................................ 30
2.2.2 Ƣớc lƣợng tham số mơ hình GMM .............................................. 33
2.2.3. Mơ hình hóa ngƣời nói khơng phụ thuộc văn bản với mơ hình
Gaussian Mixture Model - GMM ......................................................... 34
2.2.4. Huấn luyện với mơ hình Gaussian Mixture Model - GMM ......... 35
2.2.5. Nhận dạng với mơ hình Gaussian Mixture Model - GMM .......... 36
2.3. Phân lớp bằng mơ hình GMM-HMM ............................................ 37
2.3.1. Giới thiệu .................................................................................... 37
2.3.2. Đặc tả mơ hình GMM-HMM ...................................................... 39
2.3.3. GMM-HMM và bài tốn định danh ngƣời nói ............................ 40
CHƢƠNG III: ĐÁNH GIÁ THỰC NGHIỆM PHƢƠNG PHÁP NHẬN
DẠNG NGƢỜI NĨI DÙNG VQ VÀ MƠ HÌNH GMM .............................. 44
3.1. Lựa chọn cơ sở dữ liệu ................................................................. 44
3.1.1. Phạm vi của các cơ sở dữ liệu ATR ............................................ 44
3.1.2. Thu thập dữ liệu tiếng nói trong ATR ......................................... 46
3.1.3. Gán nhãn trong ATR .................................................................. 48
3.2. Cài đặt các phƣơng pháp trên MATLAB ...................................... 51
3.2.1. Cài đặt phƣơng pháp VQ ............................................................ 51

3.2.2. Cài đặt phƣơng pháp GMM ........................................................ 53
3.3. Kết quả của các phƣơng pháp ....................................................... 56
3.4. Đánh giá các kết quả .................................................................... 56
KẾT LUẬN .................................................................................................. 57
TÀI LIỆU THAM KHẢO ............................................................................ 58


iii

DANH MỤC BẢNG
Bảng 1.1: Một số giá trị của tần số cơ bản ứng với giới tính và độ tuổi ........ 15
Bảng 3.1: Thống kê các thông số của cơ sở dữ liệu ...................................... 45
Bảng 3.2: Các lớp phiên âm ......................................................................... 48
Bảng 3.3: Các ký hiệu âm thanh – âm cho lớp thứ 2 ..................................... 49


iv

DANH MỤC HÌNH
Hình 1.1: Các ứng dụng xử lý tiếng nói .......................................................... 6
Hình 1.2: Sơ đồ nhận dạng tổng qt .............................................................. 7
Hình 1.4: Đặc trƣng phổ formant đặc trƣng cho cơ quan phát âm ................... 9
Hình 1.5: Mơ hình chung nhận dạng ngƣời nói............................................ 10
Hình 1.6: Bài tốn định danh ngƣời nói ....................................................... 10
Hình 1.7: Bài tốn xác thực ngƣời nói .......................................................... 11
Hình 1.8: Phân loại bài tốn nhận dạng ngƣời nói theo từ khóa .................... 12
Hình 1.9: Sơ đồ rút trích vector đặc trƣng tổng qt .................................... 13
Hình 1.10: Sơ đồ rút trích đặc trƣng chi tiết ................................................... 14
Hình 1.11: Đặc trƣng cao độ ........................................................................ 16
Hình 1.12: Đặc trƣng phổ và đƣờng bao phổ đặc trƣng cho cơ quan phát âm17

Hình 1.13: Đồ thị biểu diễn mối quan hệ giữa Mel và Hz ............................ 18
Hình 1.14: Các bƣớc trích chọn đặc trƣng ................................................... 18
Hình 1.15: Bộ lọc trên thang Mel................................................................. 19
Hình 1.16: Bộ lọc trên tần số thật ................................................................. 19
Hình 1.17: Minh họa các bƣớc biến đổi MFCC ........................................... 19
Hình 2.1: Hai chuỗi dữ liệu trong DTW theo thời gian ................................. 21
Hình 2.2: Giãn tín hiệu có độ dài khác nhau: tín hiệu màu đỏ đã đƣợc giãn để
có độ dài tƣơng ứng với tín hiệu màu xanh................................................... 22
Hình 2.3: Khoảng cách Euclidean tính cho 2 mẫu tiếng nói đã giãn để có độ
dài bằng nhau ............................................................................................... 22
Hình 2.4a: Huấn luyện.................................................................................. 24
Hình 2.4b: Nhận dạng .................................................................................. 25
Hình 2.5: Hàm mật độ Gauss........................................................................ 30
Hình 2.6: Mơ hình GMM. ............................................................................ 31
Hình 2.7: Hàm mật độ của GMM có 3 phân phối Gauss............................... 32


v
Hình 2.8: HMM với 3 trạng thái và trọng số chuyển trạng thái.................... 37
Hình 2.9: Nhận dạng ngƣời nói dùng HMM ................................................. 38
Hình 2.10: Mơ hình GMM-HMM 3 trạng thái. ............................................. 39
Hình 3.1: Sơ đồ khối hệ thống thu thập dữ liệu ............................................ 45
Hình 3.2: Một ví dụ về kết quả phiên âm đa tầng. ........................................ 50
Hình 3.3: Thuật tốn huấn luyện VQ ............................................................ 52
Hình 3.4: Thuật tốn nhận dạng VQ ............................................................. 53
Hình 3.5: Thuật tốn huấn luyện GMM ........................................................ 54
Hình 3.6: Thuật tốn nhận dạng GMM ......................................................... 55


vi

DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU
Ký tự

Ý nghĩa

F0

Tần số dao động cơ bản

MFCC

Hệ số Cepstral tần số Mel

IDFT

Phép biến đổi Fourier ngƣợc

DCT

Phép biến đổi cosin rời rạc

GMM

Mơ hình Gaussian hỗn hợp

VQ

Kỹ thuật lƣợng tử hóa vector

FFT


Phép biến đổi Fourier nhanh


1

MỞ ĐẦU
1. Lý do chọn đề tài
Tiếng nói là phƣơng tiện giao tiếp cơ bản của con ngƣời. Vì vậy tiếng
nói cũng là loại hình thơng tin cơ bản và phổ biến nhất trong các hệ thống
truyền thơng. Tín hiệu tiếng nói mang nhiều thơng tin, nhƣ thơng tin ngơn
ngữ, thơng tin về ngƣời nói, thơng tin về sắc thái tình cảm khi nói,…
Hầu hết các hệ thống xử lý và nhận dạng tiếng nói truyền thống tập
trung vào xử lý các thông tin ngôn ngữ để đảm bảo nhận dạng đƣợc nội dung
ngơn ngữ hay ngữ nghĩa đƣợc nói [5], [11]. Tuy nhiên để các ứng dụng xử lý
tiếng nói trong máy tính có thể đƣợc áp dụng rộng rãi trong thực tế, một trong
những vấn đề quan trọng cần đảm bảo là khả năng nhận dạng và xác minh
ngƣời nói [2], [12].
Trên thế giới đã có nhiều nghiên cứu về nhận dạng ngƣời nói qua giọng
nói [12], [14]. Tại Việt Nam cũng có một số nghiên cứu ban đầu, đặc biệt là
một số nghiên cứu tại Viện Công nghệ thông tin [3] và Viện nghiên cứu
MICA – Đại học Bách Khoa Hà Nội [1], [2]. Tuy nhiên ở Việt Nam vẫn chƣa
có nhiều các nghiên cứu đánh giá một cách tổng hợp các phƣơng pháp nhận
dạng ngƣời nói phổ biến. Đặc biệt, hai phƣơng pháp nhận dạng ngƣời nói hiện
đại dùng phép lƣợng tử hóa vector – VQ và mơ hình pha trộn Gaussian GMM [10], [12], [13] lại chƣa đƣợc nghiên cứu nhiều tại Việt Nam. Vì vậy,
luận văn này nghiên cứu một số phƣơng pháp nhận dạng ngƣời nói bằng
giọng nói, tập trung vào hai phƣơng pháp dùng phép lƣợng tử hóa vector và
mơ hình pha trộn Gaussian, đánh giá thực nghiệm các phƣơng pháp, và đƣa ra
những khuyến nghị.



2

2. Mục tiêu của đề tài
Luận văn nghiên cứu một số phƣơng pháp nhận dạng ngƣời nói qua
giọng nói bao gồm:
- Một số phƣơng pháp truyền thống dùng so sánh mẫu trực tiếp với giải
thuật thời gian động – DTW;
- Phƣơng pháp phân lớp dùng lƣợng tử hóa vector – VQ;
- Phƣơng pháp sử dụng mơ hình pha trộn Gaussian – GMM.
Sau đó đánh giá thực nghiệm các phƣơng pháp dùng lƣợng tử hóa
vector và dùng mơ hình pha trộn Gaussian GMM với cơ sở dữ liệu tiếng nói
đa ngƣời nói, và đƣa ra những khuyến nghị.
3. Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu của luận văn là các phƣơng pháp nhận dạng
ngƣời nói bằng giọng nói. Đây là đối tƣợng nghiên cứu đƣợc nhiều nhà
nghiên cứu trên thế giới quan tâm trong thời gian gần đây.
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng
nói và thơng tin ngƣời nói trong tiếng nói, một số phƣơng pháp nhận dạng
ngƣời nói, bao gồm phƣơng pháp so sánh mẫu trực tiếp dùng giải thuật thời
gian động [9], phƣơng pháp phân lớp dùng lƣợng tử hóa vector [14], và đặc
biệt tập trung vào phƣơng pháp sử dụng mơ hình pha trộn Gaussian [10], [12],
[13]. Luận văn cũng nghiên cứu đánh giá thực nghiệm các phƣơng pháp để
đƣa ra các khuyến nghị.
4. Phƣơng pháp nghiên cứu
Phƣơng pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới [1-15] để phân tích, đánh giá về các phƣơng pháp biến đổi thơng
tin ngƣời nói trong tiếng nói.



3

Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng
sẽ nghiên cứu thực nghiệm một số phƣơng pháp nhận dạng ngƣời nói qua
giọng nói.
5. Ý nghĩa khoa học và thực tiễn
Nhƣ đã trình bày trong phần 1, nghiên cứu về thơng tin ngƣời nói trong
tiếng nói và các phƣơng pháp nhận dạng ngƣời nói qua giọng nói có vai trị
quan trọng trong các hệ thống xử lý thông tin và truyền thông hiện đại. Đây
không phải vấn đề nghiên cứu mới trên thế giới nhƣng còn khá mới mẻ ở Việt
Nam. Đặc biệt, nghiên cứu tổng hợp về các phƣơng pháp nhận dạng ngƣời nói
qua giọng nói dùng phép lƣợng tử hóa vector - VQ và mơ hình Gaussian GMM chƣa đƣợc nghiên cứu nhiều ở Việt Nam. Do vậy vấn đề nghiên cứu
trong luận văn có ý nghĩa khoa học và thực tiễn.


4

CHƢƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ NHẬN DẠNG NGƢỜI
NĨI TRONG TIẾNG NĨI
1.1. Tổng quan về tiếng nói
Âm thanh của lời nói cũng nhƣ âm thanh trong thế giới tự nhiên xung
quanh ta, về bản chất đều là những sóng âm đƣợc lan truyền trong một mơi
trƣờng nhất định (thƣờng là khơng khí). Khi nói dây thanh trong hầu bị chấn
động, tạo nên những sóng âm, sóng truyền trong khơng khí đến màng nhĩ –
một màng mỏng rất nhạy cảm của tai ta, làm cho màng nhĩ cũng dao động,
các dây thần kinh màng nhĩ sẽ nhận đƣợc cảm giác âm khi tần số dao động
của sóng đạt đến một độ lớn nhất định. Tai con ngƣời chỉ cảm thụ đƣợc
những dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz. Những dao
động trong miền tần số này gọi là dao động âm hay âm thanh, và các sóng
tƣơng ứng gọi là sóng âm. Những sóng có tần số nhỏ hơn 16Hz gọi là sóng hạ

âm, những sóng có tần số lớn hơn 20000Hz gọi là sóng siêu âm nhƣng con
ngƣời khơng cảm nhận đƣợc. Sóng âm, sóng siêu âm, sóng hạ âm khơng chỉ
lan truyền trong khơng khí mà cịn có thể lan truyền tốt ở những mơi trƣờng
nhƣ rắn, lỏng, do đó cũng đƣợc sử dụng rất nhiều trong các thiết bị hiện đại.
Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con
ngƣời. Từ khi lịch sử con ngƣời hình thành, con ngƣời đã biết sử dụng tiếng
nói làm phƣơng tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình
tiến hóa và phát triển của lồi ngƣời, tiếng nói vẫn ln giữ vai trị là phƣơng
tiện giao tiếp cơ bản nhất. Kể từ khi máy tính và các ứng dụng của máy tính
đƣợc nghiên cứu và ứng dụng rộng rãi, ngƣời ta cố gắng để máy tính khơng
chỉ có thể xử lý nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay
thế con ngƣời. Một trong các tiêu chí quan trọng để đánh giá độ thơng minh
của máy tính chính là khả năng hiểu đƣợc ngơn ngữ tự nhiên của con ngƣời


5

trong đó có tiếng nói. Do vậy, trong khoảng một thập kỷ lại đây, lĩnh vực xử
lý ngôn ngữ tự nhiên và tiếng nói đã đƣợc nghiên cứu rất rộng rãi trên thế giới.
Xử lý tiếng nói đƣợc hiểu là các thao tác, kỹ thuật xử lý trên máy tính
nhằm mục đích đƣa tiếng nói vào máy tính, xử lý theo yêu cầu và phát lại cho
con ngƣời. Yêu cầu xử lý ở đây phụ thuộc vào từng ứng dụng cụ thể nhƣ
trong hình 1.1. Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệu quả trên
các hệ thống viễn thông truyền với khoảng cách rất xa, ngƣời ta cần nghiên
cứu và xây dựng các giải thuật mã hóa nén tiếng nói. Để xây dựng các ứng
dụng nhận dạng tiếng nói, ngƣời ta cần nghiên cứu và xây dựng các giải thuật
trích đặc trƣng tiếng nói và huấn luyện tiếng nói.
Nhận dạng tiếng nói là một lĩnh vực nghiên cứu thu hút đƣợc sự quan
tâm nghiên cứu của nhiều nhà khoa học. Thuật ngữ “nhận dạng tiếng nói”
thơng thƣờng hay đƣợc xem là nhận dạng cái gì đƣợc nói trong một ngơn ngữ

cụ thể. Ví dụ nhận dạng tiếng Việt tức là biến đổi một câu nói tiếng Việt
thành văn bản tiếng Việt xem cái gì thực sự đã đƣợc nói ra. Tƣơng tự với các
ngơn ngữ khác nhƣ tiếng Anh, tiếng Thái, tiếng Mandarin, Cantonese,… Tuy
nhiên bản thân tín hiệu tiếng nói cịn có thể mang nhiều thơng tin hơn là nội
dung cái gì đã đƣợc nói. Tiếng nói có thể mang thơng tin ai nói, nói bằng
ngơn ngữ gì, nói với sắc thái tình cảm nhƣ thế nào,… Và do vậy thuật ngữ
“nhận dạng tiếng nói” cần đƣợc hiểu nhƣ là một lĩnh vực nhận dạng tín hiệu
tiếng nói nói chung với các ứng dụng cụ thể nhƣ nhận dạng tiếng nói tiếng
Anh, tiếng Việt,… nhận dạng ngƣời nói, nhận dạng ngơn ngữ nói,…
Bài tốn nhận dạng ngƣời nói mới đƣợc nghiên cứu nhiều trong thời gian
gần đây. Nhận dạng ngƣời nói có nhiều ứng dụng trong công tác điều tra,
giám định tội phạm, xác thực ngƣời dùng, giao dịch ngân hàng,… Về cơ bản,
nhận dạng ngƣời nói và nhận dạng tiếng nói nói chung có những điểm chung


6

giống nhau về q trình xử lý tín hiệu tiếng nói, học mẫu và phân lớp, nhận
dạng và so khớp mẫu.

Hình 1.1: Các ứng dụng xử lý tiếng nói
1.2. Tổng quan về lý thuyết nhận dạng tiếng nói
Nhận dạng là một quá trình quan sát đối tƣợng cần nhận dạng, ghi nhận
lại những đặc trƣng của đối tƣợng, phân lớp đối tƣợng và có sử dụng khả
năng phán đốn suy luận để phân biệt đối tƣợng đó với đối tƣợng khác (trong
một tập gần nhƣ vô hạn đối tƣợng).
Trong khi đó, nhận dạng tự động – nhận dạng bằng cơng cụ máy vi tính
chỉ đơn giản là q trình phân biệt tín hiệu này với tín hiệu khác (trong một
tập hữu hạn các tín hiệu), q trình này đƣợc thực hiện theo các bƣớc trong sơ
đồ tổng quát sau (nhƣ trong hình 1.2).



7

Hình 1.2: Sơ đồ nhận dạng tổng quát
- Thu nhận tín hiệu và trích đặc trƣng: thu nhận tín hiệu cần nhận dạng,
khử nhiễu, lọc tín hiệu (tiền xử lý) và rút ra các đặc trƣng của tín hiệu.
- Học mẫu: phân lớp các nhóm vector đặc trƣng của từng nhóm tín hiệu
(bằng các thuật giải Heristic, bằng cách sử dụng mạng Neural, bằng các thuật
toán K-means, Batchelor - Wilkins,…). Q trình này tạo ra các lớp tín hiệu,
mỗi lớp đặc trƣng cho từng nhóm tín hiệu.
- Nhận dạng, so khớp mẫu: tìm mối liên hệ giữa tín hiệu cần nhận dạng
và các lớp tín hiệu đƣợc tạo ra ở bƣớc trƣớc (bằng cách thông qua quy tắc
ngƣời láng giềng gần nhất chẳng hạn). Nếu nhƣ tín hiệu đó so khớp nhất (và
mức độ so khớp thỏa mãn một ngƣỡng nào đó) ứng với một lớp tín hiệu nào
thì hệ thống nhận dạng xác định tín hiệu đó thuộc vào nhóm tín hiệu đó với
một tỉ lệ nhất định gọi là độ chính xác của hệ thống nhận dạng (tỉ lệ này dĩ
nhiên là càng cao càng tốt).


8

1.3. Thơng tin ngƣời nói trong tiếng nói
Hầu hết các hệ thống xử lý tiếng nói truyền thơng tập trung vào xử lý
các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu đƣợc [11].
Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể đƣợc áp
dụng rộng rãi trong thực tế, các đặc trƣng phi ngơn ngữ của tiếng nói cũng đã
đƣợc quan tâm nghiên cứu trong thời gian gần đây [6]. Một trong những vấn
đề quan trọng cần đảm bảo là thơng tin về ngƣời nói, bao gồm cả các thơng
tin chung về ngƣời nói nhƣ giới tính, độ tuổi,… đến các thông tin chi tiết nhƣ

thông tin nhận danh chính xác ngƣời nói. Có nhiều yếu tố ảnh hƣởng đến
thơng tin ngƣời nói trong tiếng nói nhƣ hình dạng, cấu trúc cơ quan phát âm
(đặc trƣng sinh học), thói quen, cách thức phát âm,..
Con ngƣời có thể phân biệt đƣợc thơng tin ngƣời nói một cách dễ dàng
do khả năng của cơ quan thính giác tuy nhiên để máy tính có thể phân biệt
thơng tin ngƣời nói, thơng tin ngƣời nói cần phải đƣợc mơ hình hóa và việc
phân biệt, định danh, biến đổi cần phải đƣợc thực hiện thơng qua các tham số
vector đặc trƣng đƣợc tính tốn từ tín hiệu tiếng nói.

Hình 1.3: Người nói khác nhau có cơ quan phát âm và cách phát âm khác
nhau dẫn tới tiếng nói khác nhau


9

Hình 1.4: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm
1.4. Vấn đề nhận dạng và xác minh ngƣời nói qua giọng nói
Tiếng nói tự nhiên ngồi thơng tin ngữ nghĩa mà ngƣời nói cần truyền
đạt (thơng tin có thể ghi dƣới dạng chữ viết) cịn chứa các thơng tin nhƣ trạng
thái tình cảm khi nói, hay những thơng tin riêng của giọng nói…
1.4.1. Phân loại nhận dạng và xác thực ngƣời nói dựa vào chức
năng của bài toán
Dựa vào chức năng của bài toán nhận dạng ngƣời nói nói chung mơ tả
trong hình 1.5 ngƣời ta chia bài tốn nhận dạng ngƣời nói thành hai bài tốn:
bài tốn định danh ngƣời nói (speaker identification) và bài tốn xác thực
ngƣời nói (speaker verification).


10


Hình 1.5: Mơ hình chung nhận dạng người nói
Định danh ngƣời nói (speaker identification): Kiểm tra xem ngƣời cần
kiểm tra là ai hay là khơng có trong hệ thống.

Hình 1.6: Bài tốn định danh người nói
Xác thực ngƣời nói (speaker verification): Xác minh liệu ngƣời đang
nói có đúng là ngƣời mà máy tính đã đƣợc biết trƣớc hay khơng. Đây cũng là
bài toán đƣợc nghiên cứu trong luận văn này.


11

Hình 1.7: Bài tốn xác thực người nói
1.4.2. Phân loại nhận dạng và xác thực ngƣời nói dựa theo từ khóa
Dựa theo phƣơng pháp thì bài tốn nhận dạng đƣợc chia thành hai bài
tốn: bài tốn nhận dạng ngƣời nói phụ thuộc vào từ khóa (text-dependent
speaker recognition) và bài tốn nhận dạng ngƣời nói khơng phụ thuộc vào từ
khóa (text-independent speaker recognition).
Nhận dạng ngƣời nói phụ thuộc vào từ khóa (text-dependent speaker
recognition): nhận dạng ngƣời nói dựa trên sự kết hợp giữa đặc trƣng ngƣời
nói với nội dung nói.
- Đây là kỹ thuật nhận dạng ngƣời nói có khả năng ứng dụng rất lớn,
nhƣ đăng nhập vào các hệ thống an ninh bằng mật khẩu tiếng nói hay truy cập
bằng tiếng nói vào hệ thống giao dịch ngân hàng trên mạng điện thoại thông
qua mã số cá nhân (số PIN…).
- Do biết trƣớc đƣợc nội dung tiếng nói khi huấn luyện và nhận dạng
nên độ chính xác là khá cao trong khi thời gian huấn luyện và nhận dạng lại
giảm nhiều so với nhận dạng không phụ thuộc vào từ khóa.
- Tuy nhiên, kỹ thuật này khơng có sự thay đổi trong mật khẩu nên hệ
thống dễ bị tấn công bởi những kẻ giả mạo bằng cách ghi âm lại mật khẩu. Để

khắc phục vấn đề này, nhiều hệ thống đã thay đổi cụm từ mật khẩu. Ví dụ
trong trƣờng hợp cụm từ là các số, hệ thống sẽ sinh ra một cụm từ mật khẩu là
một dãy số ngẫu nhiên nào đó và thơng báo nó mỗi khi có ngƣời đăng nhập
vào hệ thống.


12

Nhận dạng ngƣời nói khơng phụ thuộc vào từ khóa (text-independent
speaker recognition): nhận dạng ngƣời nói chỉ dựa vào đặc trƣng của ngƣời
nói.
- Kỹ thuật này đƣợc áp dụng rộng rãi, đáp ứng đƣợc hầu hết các yêu
cầu đề ra. Nhƣng trong thực tế cùng một ngƣời cũng có giọng nói khác nhau ở
những thời điểm khác nhau. Điều này làm ảnh hƣởng rất lớn đến việc nhận
dạng, nó làm cho độ chính xác của hệ thống nhận dạng giảm xuống.
- Để khắc phục hạn chế của kỹ thuật này thì hệ thống nhận dạng khơng
phụ thuộc vào từ khóa cần đƣợc thiết kế phức tạp hơn, đòi hỏi lƣợng dữ liệu
huấn luyện nhiều hơn. Nhƣng với phƣơng pháp này thì khơng khắc phục đƣợc
nhiều. Do đó trong thực tế vấn đề này đƣợc khắc phục bằng cách là bán độc
lập ngƣời nói. Tức là phƣơng pháp này thực hiện bằng cách thu một lƣợng lớn
các mẫu giọng nói khác nhau. Khi sử dụng hệ thống sẽ đƣợc điều chỉnh cho
phù hợp với giọng nói của ngƣời dùng, bằng cách nó học thêm một số câu có
chứa các từ cần thiết (ngƣời dùng trƣớc khi sử dụng hệ thống cần phải qua
q trình huấn luyện hệ thống).
Nhận dạng ngƣời nói

Nhận dạng ngƣời nói

Phụ thuộc
từ khóa


Khơng phụ
thuộc từ
khóa

Xác minh ngƣời nói

Phụ thuộc
từ khóa

Khơng phụ
thuộc từ
khóa

Hình 1.8: Phân loại bài tốn nhận dạng người nói theo từ khóa


13

1.5. Đặc trƣng tiếng nói liên quan đến thơng tin ngƣời nói
1.5.1. Rút trích đặc trƣng
Đối với một hệ nhận dạng tiếng nói, việc rút trích vector đặc trƣng của
tiếng nói là cơng việc thiết yếu. Điều này giúp giảm thiểu số lƣợng dữ liệu
trong việc huấn luyện và nhận dạng, dẫn đến khối lƣợng cơng việc tính
tốn giảm đáng kể.

Hình 1.9: Sơ đồ rút trích vector đặc trưng tổng qt
Bên cạnh đó, việc rút trích đặc trƣng cịn làm rõ sự khác biệt của
tiếng này so với tiếng khác, làm mờ đi sự khác biệt của cùng hai lần phát
âm khác nhau của cùng một tiếng. Hình 1.9 minh họa các bƣớc xử lý trong

việc rút trích vector đặc trƣng tiếng nói.


14

Hình 1.10: Sơ đồ rút trích đặc trưng chi tiết
1.5.2. Đặc trƣng biên độ
Có hai cách biểu diễn đặc trƣng biên độ thông qua cƣờng độ âm I hoặc
năng lƣợng âm E.
Đối với tai con ngƣời, giá trị tuyệt đối của cƣờng độ âm I không quan
trọng bằng giá trị tỉ đối của I so với một giá trị I0 nào đó chọn làm chuẩn.
Ngƣời ta định nghĩa mức cƣờng độ âm L: L(B) = lg(I/I0).
Đơn vị mức cƣờng độ âm là Ben (kí hiệu : B). Mức cƣờng độ âm bằng
1,2,3,4 B... có nghĩa là cƣờng độ âm I lớn gấp 10, 10^2, 10^3, 10^4... cƣờng
độ âm chuẩn I0.
Trong thực tế ngƣời ta thƣờng dùng đơn vị dB, bằng 1/10 ben. L(dB)=
10lg(I/I0). Khi L= 1dB, thì I lớn gấp 1.26 lần I0. Đó là mức cƣờng độ âm nhỏ
nhất mà tai ta có thể phân biệt đƣợc.
Năng lƣợng tín hiệu đƣợc thể hiện thông qua mức độ, số lƣợng tín
hiệu có trong một đơn vị thời gian. Năng lƣợng của tín hiệu tiếng nói là
một đặc trƣng vật lý của tín hiệu, đƣợc dùng nhƣ là tham số trong vector


15

đặc trƣng trong nhận dạng tiếng nói, và cịn đƣợc để dị tìm khoảng lặng
trong tín hiệu tiếng nói. Tính tốn năng lƣợng tín hiệu thƣờng dựa trên sự
phân khung và lấy cửa sổ, bằng cách lấy tổng các bình phƣơng chuỗi tín
hiệu X(n) trong cửa sổ tín hiệu. Đặc trƣng năng lƣợng ở đây đƣợc tính bằng
cách lấy log năng lƣợng tín hiệu.

1.5.3. Đặc trƣng cao độ
Cao độ (pitch): là độ "cao", "thấp" của âm thanh có quan hệ chặt chẽ
với tần số dao động. Tần số dao động càng lớn thì âm thanh càng "cao" và
ngƣợc lại. Với âm thanh thực là tổ hợp của nhiều tần số thì tần số dao động ở
đây là tần số cơ bản F0.
Tần số cơ bản F0 đóng một vai trị quan trọng trong xử lý tiếng nói. Từ
tần số cơ bản, ta có thể có những phân biệt tiếng nói theo cả các đặc điểm
ngôn ngữ nhƣ thanh điệu của ngơn ngữ có thanh điệu và phi ngơn ngữ nhƣ
sắc thái, ngữ điệu, giọng ngƣời nói. Thơng thƣờng F0 của trẻ em cao hơn của
ngƣời lớn tuổi, của phụ nữ cao hơn của đàn ông.
Bảng 1.1: Một số giá trị của tần số cơ bản ứng với giới tính và độ tuổi
Giá trị tần số cơ bản

Ngƣời nói

80 – 200 Hz

Nam giới

150 – 450 Hz

Phụ nữ

200 – 600 Hz

Trẻ em

Trong tiếng nói, đặc biệt là các ngơn ngữ châu Âu, trƣờng độ (duration)
là đặc tính quan trọng của âm vị, âm tiết liên quan đến ngữ nghĩa của âm vị,
âm tiết. Với tiếng Việt, trƣờng độ không mang ngữ nghĩa nhƣng trƣờng độ lại



16

đặc trƣng cho một số yếu tố phi ngôn ngữ nhƣ ngƣời nói, cảm xúc ngữ điệu
khi nói,…

Hình 1.11: Đặc trưng cao độ
Đặc trƣng trƣờng độ đơn giản là độ dài của đơn vị tiếng nói tính bằng
giây hoặc bằng số lƣợng khung tiếng nói.
Các kết quả nghiên cứu cho thấy để thay đổi tốc độ nói khơng thể thay
đổi tuyến tính trƣờng độ mà cần thay đổi đồng bộ trƣờng độ và cao độ theo
giải thuật Pitch-Synchronous Modification [8].
1.5.4. Đặc trƣng phổ
Phổ âm thanh là tính chất vật lý ảnh hƣởng chủ yếu đến sự nhận thức
âm sắc âm thanh, trong đó âm sắc là phẩm chất hay màu sắc của tiếng nói hay
âm thanh. Âm sắc giúp phân biệt những loại nguồn âm khác nhau nhƣ ngƣời
nói khác nhau hay các loại nhạc cụ khác nhau. Ví dụ, âm sắc có thể giúp phân
biệt một kèn Saxophone và một kèn trumpet trong một nhóm chơi nhạc Jazz,
ngay cả khi cả hai loại nhạc cụ này đang chơi những nốt nhạc có cùng cƣờng
độ và cao độ.
Phổ âm thanh ảnh hƣởng chính bởi cấu trúc bộ máy cộng hƣởng âm
thanh, với tiếng nói đó là bộ máy dẫn âm và phát âm vocal tract. Khi phân
tích tín hiệu âm thanh, ngƣời ta có thể dùng phổ âm thanh thời gian ngắn hoặc
dùng phiên bản tối giản đƣờng bao phổ hình 1.11.


×