Tải bản đầy đủ (.doc) (70 trang)

TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (917.69 KB, 70 trang )

Mục lục
Trang
Trang phụ bìa…………………………………………………………………...
Nhiệm vụ đề tài………………………………………………………………...
Mục lục…………………………………………………………………………
Danh mục các ký hiệu, các ký tự viết tắt……………………………………….
Danh mục các bảng…………………………………………………………….
Danh mục các hình vẽ, đồ thị…………………………………………………..
Mở đầu………………………………………………………………………...1
Chương 1 TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI.............................4
1.1. Các lĩnh vực của xử lý tiếng nói.............................................................4
1.2. Nhận dạng người nói..............................................................................5
1.2.1. Cơ sở lý thuyết của nhận dạng người nói........................................5
1.2.2. Phân loại bài tốn nhận dạng người nói..........................................6
1.2.3. Các ứng dụng của bài tốn nhận dạng người nói............................9
1.3. Xác thực người nói khơng phụ thuộc vào từ khóa...............................11
1.3.1. Giới thiệu chung............................................................................11
1.3.2. Các thành phần của một hệ thống xác thực người nói khơng phụ
vào từ khóa..............................................................................................11
1.3.3. Các giai đoạn xử lý của một hệ thống xác thực người nói khơng
phụ thuộc vào từ khóa.............................................................................12
Chương 2 TRÍCH CHỌN ĐẶC TRƯNG NGƯỜI NĨI.................................14
2.1. Đặc điểm vật lý, âm học của tiếng nói.................................................14
2.1.1. Đặc điểm vật lý của tiếng nói........................................................14
2.1.2. Đặc điểm âm học của tiếng nói.....................................................17
2.2. Tiền xử lý tín hiệu tiếng nói.................................................................22
2.2.1. Chuyển từ tín hiệu tương tự sang tín hiệu số.................................22
2.2.2. Chuẩn hóa biên độ.........................................................................25
2.2.3. Biến đổi Fourier.............................................................................26
2.2.4. Lọc nhiễu.......................................................................................27
2.2.5. Làm rõ tín hiệu..............................................................................27


2.3. Trích chọn đặc trưng người nói............................................................28
2.3.1. Mục đích của trích chọn đặc trưng................................................28


2.3.2. Phân loại đặc trưng........................................................................29
2.3.3. Trích chọn đặc trưng MFCC..........................................................29
Chương 3 CÁC MƠ HÌNH ỨNG DỤNG XÁC THỰC NGƯỜI NĨI KHƠNG
PHỤ THUỘC VÀO TỪ KHĨA......................................................................38
3.1. Phân loại các mơ hình..........................................................................39
3.1.1. Mơ hình mẫu (Template Modeling)..............................................39
3.1.2. Mơ hình thống kê (Statistical Modeling).......................................39
3.2. Mơ hình lượng tử hóa vector (Vector Quantization- VQ)....................40
3.2.1. Khái niệm phép lượng tử hóa........................................................40
3.2.2. Độ biến dạng.................................................................................42
3.2.3. Tính chất........................................................................................42
3.2.4. Thiết kế codebook theo phương pháp LBG (Linde, Buzo, and
Gray)........................................................................................................43
3.3. Mơ hình hỗn hợp Gauss.......................................................................46
3.3.1. Bài tốn ước lượng mật độ............................................................46
3.3.2. Thuật tốn EM (Expectation Maximization).................................47
3.4. Xây dựng mơ hình người nói...............................................................48
3.4.1. Giới thiệu chung............................................................................48
3.4.2. Sử dụng mơ hình VQ.....................................................................49
3.4.3. Sử dụng GMM...............................................................................51
3.5. So khớp.................................................................................................51
3.5.1. Giới thiệu chung............................................................................51
3.5.2. Phương pháp VQ...........................................................................52
3.5.3. Phương pháp GMM.......................................................................53
3.6. Tạo quyết định......................................................................................53
Chương 4 CẤU HÌNH HỆ THỐNG VÀ KẾT QUẢ THỬ NGHIỆM............56

4.1. Cấu trúc tổng quát của hệ thống...........................................................56
4.1.1. Module trích chọn đặc trưng MFCC.............................................56
4.1.2. Module huấn luyện........................................................................57
4.1.3. Module xác thực............................................................................57
4.2. Dữ liệu tiếng nói...................................................................................57
4.3. Tỷ lệ lỗi (Error rate).............................................................................58
4.4. Kết quả thực nghiệm............................................................................58
4.4.1. Số các hệ số MFCC.......................................................................58
4.4.2. Mơ hình VQ và GMM...................................................................59
4.4.3. Thời gian huấn luyện.....................................................................59


4.4.4. Số các cụm của mơ hình VQ.........................................................59
4.4.5. Số cụm của mơ hình GMM...........................................................60
Kết luận và kiến nghị………………………………………………………...61
Tài liệu tham khảo…………………………………………………………...63
Phụ lục………………………………………………………………………….


DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
DCT
DFT
EM
FFT
GMM
LBG
VQ

Biến đổi Cosin rời rạc (Discrete Cosin Transform)
Biến đổi Fourier rời rạc (Discrete Fourier Transform)

Thuật toán ước lượng hợp lý cực đại (Expectation Maximization)
Biến đổi Fourier nhanh (Fast Fourier Transform)
Mơ hình hỗn hợp Gauss (Gaussian Mixture Model)
Thuật toán gom cụm của Linde, Buzo và Gray
Lượng tử hóa vector (Vector Quantization)


DANH MỤC CÁC BẢNG
Bảng 2.1.Một số giá trị của tần số cơ bản ứng với giới tính và tuổi...............21
Bảng 2.2.Bảng ước lượng tính DFT và FFT một chiều..................................27
Bảng 4.1.Tỷ lệ lỗi với số các hệ số MFCC khác nhau....................................58
Bảng 4.2.Tỷ lệ lỗi với hai mơ hình VQ và GMM...........................................59
Bảng 4.3.Tỷ lệ lỗi với thời gian huấn luyện khác nhau..................................59
Bảng 4.4.Tỷ lệ lỗi với số cụm khác nhau trong mơ hình VQ..........................60
Bảng 4.5.Tỷ lệ lỗi với số cụm khác nhau trong GMM...................................60


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1.Bài tốn định danh người nói.............................................................6
Hình 1.2.Bài tốn xác thực người nói...............................................................7
Hình 1.3.Chứng thực giao dịch.........................................................................9
Hình 1.4.Điều khiển truy nhập hệ thống.........................................................10
Hình 1.5.Nhận dạng tội phạm.........................................................................10
Hình 1.6.Tư vấn bán hàng...............................................................................11
Hình 1.7.Các thành phần của một hệ thống xác thực người nói khơng phụ
thuộc vào từ khóa............................................................................................11
Hình 1.8.Các giai đoạn của một hệ thống xác thực người nói khơng phụ thuộc
vào từ khóa 12
Hình 2.1.Sơ đồ quá trình sản xuất và thu nhận tiếng nói của con người.........15
Hình 2.2.Đồ thị theo các formant F1, F2 cho mười nguyên âm được thực hiện

với nhiều đối tượng người nói khác nhau.......................................................19
Hình 2.3.Ví dụ về lấy mẫu tín hiệu trên miền thời gian..................................23
Hình 2.4.Các giai đoạn của bài tốn xác thực người nói................................28
Hình 2.5.Đồ thị biểu diễn mối quan hệ giữa Mel và Hz.................................30
Hình 2.6.Sơ đồ khối của xử lý MFCC’s..........................................................31
Hình 2.7.Khung 30ms với tần số lấy mẫu FS = 8000Hz cho 240 mẫu...........32
Hình 2.8.Độn 0 vào khung tiếng nói...............................................................34
Hình 2.9.Biến đổi FFT cơ số 4 của khung tiếng nói đã được độn 0...............34
Hình 2.10.Các bộ lọc mel-scale tam giác........................................................35
Hình 3.1.Các thành phần trong một hệ thống xác thực người nói..................39
Hình 3.2.Ví dụ VQ một chiều.........................................................................40
Hình 3.3.Ví dụ VQ 2 chiều..............................................................................41
Hình 3.4.Các thành phần của một hệ thống xác thực người nói.....................49
Hình 3.5.Các ví dụ xây dựng codebook dựa trên đặc trưng MFCC................50
Hình 3.6.Ví dụ xây dựng mơ hình người nói sử dụng GMM..........................51
Hình 3.7.Giai đoạn so khớp mẫu.....................................................................51
Hình 3.8.Minh họa hình ảnh so khớp mẫu của mơ hình VQ...........................52
Hình 3.9.Giai đoạn tạo quyết định..................................................................53
Hình 3.10.Vấn đề xảy ra khi khơng dùng score chuẩn hóa.............................54
Hình 4.1.Các thành phần của một hệ thống xác thực người nói.....................56


1

TĨM TẮT NỘI DUNG
Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tín
hiệu, và các phương pháp xử lý những tín hiệu này. Xử lý tiếng nói có nhiều
lĩnh vực nghiên cứu: nhận dạng tiếng nói, nhận dạng người nói, mã hóa tiếng
nói, tổng hợp tiếng nói, phân tích giọng nói,..
Nhận dạng người nói là một lĩnh vực nghiên cứu của xử lý tiếng nói.

Mục đích của nhận dạng người nói là để nhận ra người nói là ai hoặc là xác
minh liệu người đang nói có đúng là người mà máy tính đã được biết trước
hay khơng (tính xác thật của giọng nói). Nhận dạng người nói có nhiều ứng
dụng: thanh tốn thẻ tín dụng qua điện thoại; đăng nhập vào các hệ thống an
ninh, máy tính bằng tiếng nói; giám định tư pháp tiếng nói… Chính vì vậy
hiện nay trên thế giới lĩnh vực nhận dạng người nói nhận được rất nhiều sự
quan tâm, nghiên cứu. Tuy nhiên hiện nay ở Việt Nam mới có rất ít cơng trình
nghiên cứu về vấn đề này.
Mục tiêu của đề tài tập trung nghiên cứu bài tốn xác thực người nói
khơng phụ thuộc vào từ khóa – một bài tốn trong lĩnh vực nhận dạng người
nói. Mục đích của bài tốn xác thực người nói khơng phụ thuộc vào từ khóa là
xác minh liệu người đang nói có đúng là người mà máy tính đã được biết
trước hay khơng (tính xác thật của giọng nói) nhưng khơng phụ thuộc vào nội
dung người nói.
Cấu trúc của đề tài gồm: phần mở đầu; chương 1, 2, 3, 4; phần kết luận
và kiến nghị; tài liệu tham khảo.
Nội dung chính của đề tài:
- Chương 1 nghiên cứu tổng quan về bài tốn nhận dạng người nói:
 Cơ sở khoa học của nhận dạng người nói, phân loại bài tốn nhận
dạng người nói, các ứng dụng của nhận dạng người nói.
 Giới thiệu tổng quan bài tốn xác thực người nói khơng phụ


2

thuộc vào từ khóa, các thành phần của một hệ thống xác thực
người nói, các giai đoạn hoạt động của một hệ thống xác thực
người nói khơng phụ thuộc vào từ khóa.
- Chương 2 nghiên cứu phương pháp trích chọn đặc trưng người nói:
cả trong giai đoạn huấn luyện và giai đoạn kiểm thử của một hệ

thống xác thực người nói khơng phụ thuộc vào từ khóa đều phải trải
qua bước trích chọn đặc trưng người nói, đây sẽ là nội dung nghiên
cứu chính của chương 2:
 Đặc tính vật lý, âm học của tiếng nói: nghiên cứu các đặc tính
này sẽ là cơ sở cho việc xác định các đặc trưng người nói.
 Tiền xử lý tín hiệu tiếng nói: tín hiệu tiếng nói sau khi được thu
và trước khi trích chọn đặc trưng, phải được tiến hành tiền xử lý.
Mục đích của việc tiền xử lý tín hiệu tiếng nói là để loại bỏ
nhiễu, chuẩn hóa biên độ, làm rõ tín hiệu…
 Trích chọn đặc trưng người nói: mục đích của việc trích chọn
đặc trưng người nói, phân loại các đặc trưng người nói, trình bày
chi tiết các bước trích chọn đặc trưng MFCC- đặc trưng được lựa
chọn sử dụng chủ yếu cho các hệ thống nhận dạng người nói.
- Chương 3 nghiên cứu về các mơ hình ứng dụng xác thực người nói
khơng phụ thuộc vào từ khóa: sau bước trích chọn đặc trưng đã
được trình bày ở chương hai, bước tiếp theo của các hệ thống xác
thực người nói khơng phụ thuộc vào từ khóa đối với giai đoạn huấn
luyện là bước xây dựng mơ hình người nói, trong giai đoạn xác thực
là bước so khớp và đưa ra quyết định:
 Phân loại các mơ hình: phân loại các mơ hình thường được sử
dụng trong nhận dạng người nói và chọn mơ hình sử dụng cho
bài tốn xác thực người nói khơng phụ thuộc vào từ khóa.


3

 Mơ hình lượng tử hóa vector (Vector Quantization): khái niệm
VQ, tính chất VQ, thiết kế codebook theo thuật tốn LBG. Đây
là cơ sở lý thuyết quan trọng cho việc ứng dụng mơ hình VQ
trong xác thực người nói khơng phụ thuộc vào từ khóa.

 Mơ hình hỗn hợp Gauss (Gaussian Mixture Model): khái niệm
GMM, thuật toán EM. Đây là cơ sở lý thuyết quan trọng cho việc
ứng dụng GMM xác thực người nói khơng phụ thuộc vào từ
khóa.
 Mơ hình hóa người nói: cách sử dụng phương pháp VQ và GMM
để mơ hình hóa người nói.
 So khớp mẫu: đưa ra phương pháp so khớp mẫu trong giai đoạn
kiểm thử ứng với từng mơ hình hóa người nói VQ hay GMM.
- Chương 4 trình bày về cấu hình hệ thống và kết quả thử nghiệm:
 Cấu trúc tổng quát của một hệ thống xác thực người nói.
 Dữ liệu tiếng nói: trình bày cách thu thập dữ liệu tiếng nói để
phục vụ cho hệ thống.
 Tần số lỗi: trình bày cách đánh giá mức độ gây lỗi của một hệ
thống xác thực người nói.
 Kết quả thực nghiệm: trình bày kết quả thực nghiệm được tiến
hành với nhiều tiêu chí khác nhau.


4

Chương 1
TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NĨI
Chương một trình bày các nội dung chính:
- Các lĩnh vực nghiên cứu của xử lý tiếng nói.
- Trình bày tổng quan về bài tốn nhận dạng người nói, đây là một
lĩnh vực nghiên cứu của xử lý tiếng nói: cơ sở lý thuyết của nhận
dạng người nói, phân loại các bài tốn nhận dạng người nói, cũng
như các ứng dụng điển hình của nhận dạng người nói.
- Trình bày tổng quan về bài tốn xác thực người nói khơng phụ thuộc
vào từ khóa - vấn đề chính được nghiên cứu trong đề tài này: các

thành phần của một hệ thống xác thực người nói khơng phụ thuộc
vào từ khóa, các giai đoạn của một hệ thống xác thực người nói
khơng phụ thuộc vào từ khóa.
1.1. Các lĩnh vực của xử lý tiếng nói
Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tín
hiệu, và các phương pháp xử lý những tín hiệu này.
Xử lý tiếng nói có thể được chia thành các lĩnh vực sau:
- Nhận dạng tiếng nói: phân tích và xử lý về mặt nội dung ngơn ngữ
của tín hiệu tiếng nói. Mục đích là để chuyển nội dung nói thành tín
hiệu đầu vào của máy tính, giúp cho máy tính có thể xử lý và tương
tác được với người nói.
- Nhận dạng người nói: mục đích là để nhận ra người nói là ai hoặc là
xác minh liệu người đang nói có đúng là người mà máy tính đã được
biết trước hay khơng (tính xác thật của giọng nói).
- Tăng chất lượng tiếng nói: nhằm tăng sự cảm nhận của người nghe


5

về chất lượng tiếng nói. Nó bao gồm: giảm nhiễu ồn của tín hiệu
tiếng nói, giảm/khử tiếng vọng (trong kỹ thuật điện thoại)...
- Mã hóa tiếng nói: là một dạng của nén dữ liệu, có vai trị quan trọng
trong lĩnh vực viễn thơng. Ví dụ như trong thể thức truyền tiếng nói
qua internet (voIP), việc nén dữ liệu tiếng nói là điều bắt buộc để
giảm băng thông đường truyền.
- Tổng hợp tiếng nói: là tạo ra tiếng nói một cách nhân tạo nhờ máy
tính.
- Phân tích giọng nói: được ứng dụng chủ yếu trong y học, nhằm phát
hiện ra khuyết tật hay vấn đề của dây thanh âm, thanh quản, ...
- Định vị nguồn âm thanh: xử lý tín hiệu tiếng nói để xác định vị trí

của nguồn phát ra âm thanh (có thể là loa, người nói,...). Nó được
ứng dụng trong hội nghị hình thoại (videoconference) là hội nghị mà
người tham gia ở các nơi khác nhau, hình ảnh và âm thanh ở hai hay
nhiều đầu cầu của hội nghị được truyền tải cho nhau qua hệ thống
điện thoại số, internet hoặc sóng vệ tinh. Khi vị trí người nói trong
hội nghị được xác định, máy ghi hình được lập trình sẽ tự động quay
đến vị trí đó và gửi hình ảnh đi. Ngồi ra định vị nguồn âm thanh
cịn có ứng dụng trong các kỹ thuật tăng chất lượng tiếng nói, trong
theo dõi an ninh,...
1.2. Nhận dạng người nói
1.2.1. Cơ sở lý thuyết của nhận dạng người nói
Tiếng nói tự nhiên ngồi thơng tin ngữ nghĩa mà người nói muốn truyền
đạt (thơng tin có thể ghi lại dưới dạng chữ viết) cịn chứa các thơng tin như
trạng thái tình cảm khi nói, hay những thơng tin riêng của giọng người nói…
Các thơng tin riêng biệt này được chia làm hai loại: mức cao và mức thấp.


6

Mức cao gồm các thông tin như phương ngữ, ngữ cảnh, phong cách nói…và
mức thấp là các thơng tin như các formant, bề rộng formant, cao độ (pitch),
trường độ…Các thông tin này không phải bất biến từ lúc người biết nói đến
lúc già, nhưng nó có tính khá ổn định trong giai đoạn dài của cuộc đời. Khi
con người đã trưởng thành, những thói tật khi nói, những đặc trưng khu biệt
trong cấu âm sẽ hình thành và mang tính ổn định cao. Đây chính là cơ sở khoa
học cho việc xây dựng các hệ thống nhận dạng người nói.
1.2.2. Phân loại bài tốn nhận dạng người nói
1.2.2.1. Phân loại dựa vào chức năng của bài toán
Phân loại dựa vào chức năng của bài toán người ta chia bài toán nhận
dạng người nói thành hai bài tốn: bài tốn định danh người nói (speaker

identification) và bài tốn xác thực người nói (speaker verification).
- Định danh người nói (speaker identification): kiểm tra xem người
cần kiểm tra là ai, hay là không có trong hệ thống.

Hình 1.1. Bài tốn định danh người nói
- Xác thực người nói (speaker verification): xác minh liệu người đang


7

nói có đúng là người mà máy tính đã được biết trước hay khơng
(tính xác thật của giọng nói)? Đây là dạng bài tốn được nghiên cứu
trong đề tài này.

Hình 1.2. Bài tốn xác thực người nói
1.2.2.2. Phân loại dựa theo phương pháp
Phân loại dựa theo phương pháp thì người ta chia bài tốn nhận dạng
người nói thành hai bài tốn: bài tốn nhận dạng người nói phụ thuộc vào từ
khóa (text dependent speaker recognition) và bài tốn nhận dạng người nói
khơng phụ thuộc vào từ khóa (text independent speaker recognition):
- Nhận dạng người nói phụ thuộc vào từ khố (text dependent speaker
recognition): nhận dạng người nói dựa trên sự kết hợp giữa đặc
trưng người nói với nội dung nói.
 Là kỹ thuật nhận dạng người nói có khả năng ứng dụng rất lớn,
ví dụ như đăng nhập vào các hệ thống an ninh bằng mật khẩu
tiếng nói hay truy cập bằng tiếng nói vào hệ thống giao dịch ngân
hàng trên mạng điện thoại thông qua mã số cá nhân (số PIN), …
 Do tận dụng được các thông tin biết trước là nội dung tiếng nói
khi huấn luyện cũng như khi nhận dạng nên độ chính xác nhận
dạng tăng lên trong khi thời gian huấn luyện và nhận dạng lại

giảm nhiều so với nhận dạng người nói khơng phụ thuộc từ khoá
(text independent speaker recognition).


8

 Tuy nhiên hạn chế của kỹ thuật này là khơng có sự thay đổi trong
mật khẩu nên hệ thống dễ bị tấn công bởi những kẻ giả mạo bằng
cách ghi âm lại mật khẩu và tấn công hệ thống. Để chống lại điều
này, nhiều hệ thống đã thay đổi cụm từ mật khẩu. Chẳng hạn
trong trường hợp cụm từ là các số, hệ thống sẽ sinh một cụm từ
mật khẩu là một dãy số ngẫu nhiên nào đó và thơng báo nó mỗi
khi có người đăng nhập hệ thống, các nghiên cứu chỉ ra rằng việc
sử dụng các dãy số và một số các từ cố định trong cụm từ mật
khẩu khá hiệu quả khi chống lại sự giả mạo theo kiểu ghi âm từ
khoá. Trong pha huấn luyện, những người đăng ký sẽ nói các số
và một số các từ cố định. Khi nhận dạng hệ thống sẽ thay đổi
cụm từ mỗi lần đăng nhập trong tập các từ được huấn luyện. Mặc
dù nhận dạng này vẫn phụ thuộc từ khố song nó làm cho sự giả
mạo trở nên khó khăn hơn rất nhiều vì khơng biết được chính xác
cụm từ mật khẩu tự sinh của hệ thống. Các hệ thống như vậy
được gọi là các hệ nhận dạng người nói phụ thuộc từ khố thay
đổi.
- Nhận dạng người nói khơng phụ thuộc vào từ khố(text independent
speaker recognition): nhận dạng người nói chỉ dựa vào đặc trưng
của người nói.
 Hệ thống này lý tưởng hơn hệ thống nhận dạng người nói phụ
thuộc vào từ khố, ứng dụng rộng rãi hơn, đáp ứng được hầu hết
các yêu cầu đề ra. Nhưng không may là hệ thống lý tưởng như
vậy gặp một số vấn đề, nhất là độ chính xác của hệ thống.

 Trong thực tế cùng một người cũng có giọng nói khác nhau ở
những thời điểm khác nhau. Điều này ảnh hưởng rất lớn đến việc
nhận dạng, nó làm cho độ chính xác của hệ thống nhận dạng


9

giảm xuống nhiều lần. Do đó để khắc phục nhược điểm này, hệ
thống nhận dạng khơng phụ thuộc từ khóa cần được thiết kế
phức tạp hơn, đòi hỏi lượng dữ liệu huấn luyện lớn hơn nhiều
lần. Nhưng điều này cũng không cải thiện được bao nhiêu chất
lượng nhận dạng. Do đó trong thực tế có một cách giải quyết là
bán độc lập người nói. Phương pháp này thực hiện bằng cách thu
mẫu một số lượng lớn các giọng nói khác biệt nhau. Khi sử dụng,
hệ thống sẽ được điều chỉnh cho phù hợp với giọng nói của
người dùng, bằng cách nó học thêm một vài câu có chứa các từ
cần thiết (người dùng trước khi sử dụng hệ thống cần phải qua
một quá trình huấn luyện hệ thống).
 Cùng với dạng bài tốn xác thực người nói, đây cũng là dạng bài
toán được nghiên cứu trong đề tài này. Đề tài sẽ tập trung nghiên
cứu bài toán xác thực người nói khơng phụ thuộc vào từ khóa.
1.2.3. Các ứng dụng của bài tốn nhận dạng người nói
Các ứng dụng thực tế của nhận dạng người nói:
- Chứng thực giao dịch:
 Ngăn cản sự gian lận trong thu thuế.
 Mua thẻ điện thoại.
 Mơi giới điện thoại.

Hình 1.3. Chứng thực giao dịch



10

- Điều khiển truy cập:
 Thiết bị vật lý.
 Máy tính và hệ thống mạng dữ liệu.

Hình 1.4. Điều khiển truy nhập hệ thống
- Nhận dạng tội phạm:
 Kiểm soát sử dụng điện thoại trong nhà tù khi người nhà phạm
nhân tới thăm.
 Tìm ra tội phạm thơng qua việc so khớp giọng nói.

Hình 1.5. Nhận dạng tội phạm
- Hệ thống bán hàng gián tiếp (lấy lại thông tin khách hàng):
 Lấy được thông tin khách hàng gọi tới trung tâm.
 Lấy mẫu giọng nói của khách hàng qua điện thoại.


11

Hình 1.6. Tư vấn bán hàng
1.3. Xác thực người nói khơng phụ thuộc vào từ khóa
1.3.1. Giới thiệu chung
Bài tốn xác thực người nói khơng phụ thuộc vào từ khóa là sự kết hợp
của hai bài toán: xác thực người nói và bài tốn nhận dạng người nói khơng
phụ thuộc vào từ khóa. Mục đích của bài tốn xác thực người nói khơng phụ
thuộc vào từ khóa là xác minh liệu người đang nói có đúng là người mà máy
tính đã được biết trước hay khơng (tính xác thật của giọng nói) nhưng khơng
phụ thuộc vào nội dung người nói.

Bài tốn xác thực người nói khơng phụ thuộc vào từ khóa có nhiều ứng
dụng: chứng thực giao dịch bằng giọng nói, điều khiển đăng nhập bằng giọng
nói... Đây là nội dung nghiên cứu chính của đề tài này.
1.3.2. Các thành phần của một hệ thống xác thực người nói khơng
phụ vào từ khóa

Hình 1.7. Các thành phần của một hệ thống xác thực người nói
khơng phụ thuộc vào từ khóa


12

Hình 1.7 cho ta thấy các hệ thống xác thực người nói khơng phụ thuộc
vào từ khóa gồm các thành phần sau:
- Trích chọn đặc trưng: biến đổi từ giọng nói thơ thành những đặc
trưng của người nói.
- Xây dựng mơ hình người nói: huấn luyện người nói dựa vào một
phương pháp cụ thể.
- So khớp mẫu: tính tốn độ hợp giữa đặc trưng của tiếng nói đưa vào
với mơ hình đã huấn luyện.
- Tạo quyết định: xác định ngưỡng và đưa ra quyết định dựa vào việc
so khớp ở trên.
1.3.3. Các giai đoạn xử lý của một hệ thống xác thực người nói
khơng phụ thuộc vào từ khóa

Hình 1.8. Các giai đoạn của một hệ thống xác thực người nói khơng
phụ thuộc vào từ khóa
Hình 1.8 cho ta thấy quá trình xử lý của các hệ thống xác thực người nói
khơng phụ thuộc vào từ khóa gồm hai giai đoạn:
- Giai đoạn huấn luyện:

 Ghi âm giọng nói những người mà hệ thống cần huấn luyện.


13

 Trích chọn đặc trưng giọng nói của mỗi người nói.
 Huấn luyện mẫu.
 Lưu lại các đặc trưng của mỗi người nói sau khi đã được huấn
luyện với một ID kèm theo.
- Giai đoạn kiểm thử:
 Người cần kiểm tra cung cấp một ID.
 Ghi giọng nói người cần kiểm tra.
 Trích chọn đặc trưng giọng nói của người vừa cung cấp.
 Yêu cầu các đặc trưng tương ứng với ID đã được lưu trữ trong
giai đoạn huấn luyện.
 Đưa ra quyết định xác thực: Trong bước này thì hệ thống sẽ so
khớp các đặc trưng người nói với các mẫu có trong hệ thống và
đưa ra quyết định chấp nhận hay từ chối cho truy cập vào hệ
thống.


14

Chương 2
TRÍCH CHỌN ĐẶC TRƯNG NGƯỜI NĨI
Hình 1.8 cho ta thấy cả trong giai đoạn huấn luyện và giai đoạn kiểm thử
của một hệ thống xác thực người nói khơng phụ thuộc vào từ khóa đều phải
trải qua bước trích chọn đặc trưng người nói, đây sẽ là nội dung nghiên của
chương hai.
Các nội dung chính nghiên cứu trong chương hai:

- Đặc tính vật lý, âm học của tiếng nói: nghiên cứu các đặc tính này
sẽ là cơ sở cho việc xác định các đặc trưng người nói.
- Tiền xử lý tín hiệu tiếng nói: tín hiệu tiếng nói sau khi được thu và
trước khi trích chọn đặc trưng, phải tiến hành tiền xử lý tín hiệu
tiếng nói. Mục đích của việc tiền xử lý tín hiệu tiếng nói để loại bỏ
nhiễu, chuẩn hóa biên độ, làm rõ tín hiệu…
- Trích chọn đặc trưng người nói: mục đích của việc trích chọn đặc
trưng người nói, phân loại các đặc trưng người nói, trình bày chi tiết
các bước trích chọn đặc trưng MFCC- đặc trưng được lựa chọn sử
dụng chủ yếu cho các hệ thống nhận dạng người nói.
2.1. Đặc điểm vật lý, âm học của tiếng nói
2.1.1. Đặc điểm vật lý của tiếng nói
Bản chất âm thanh tiếng nói là sóng cơ học nên nó có các tính chất
cơ bản của sóng cơ học.


15

Hình 2.1. Sơ đồ quá trình sản xuất và thu nhận tiếng nói của con người
Hình 2.1 đưa ra một sơ đồ khối của q trình sản xuất tiếng nói và nhận
thức tiếng nói của con người. Q trình sản xuất tiếng nói bắt đầu khi người
nói tạo ra một thông điệp (trong ý nghĩ của anh ta) và muốn chuyển tải nó
cho người nghe thơng qua tiếng nói. Tổ chức thần kinh tương ứng chịu
trách nhiệm tạo ra thông điệp dưới dạng văn bản biểu diễn các từ của thơng
điệp. Bước tiếp theo của q trình là chuyển đổi thông điệp sang dạng một
mã ngôn ngữ. Điều này gần như tương đương với việc chuyển đổi các
biểu diễn văn bản của thông điệp thành một chuỗi các âm vị tương ứng
với những âm thanh tạo nên các từ; đồng thời với việc ghi nhận âm điệu
nhằm xác định sự kéo dài, sự nhấn mạnh, và trọng âm cao thấp của âm
thanh. Khi một mã ngôn ngữ đã được lựa chọn, người nói phải thực hiện

một loạt các lệnh thần kinh vận động để làm cho các dây thanh dao động,
đồng thời cấu trúc hình dạng ống dẫn âm nhằm phát ra một chuỗi các âm
thanh. Như vậy, đầu ra cuối cùng của q trình là một tín hiệu âm học. Các
lệnh thần kinh vận động phải điều khiển một cách đồng bộ tất cả các khâu
vận động như sự hoạt động của mơi, hàm, lưỡi...
Khi tín hiệu tiếng nói đã được sinh ra và được truyền cho người nghe,
quá trình thu nhận tiếng nói bắt đầu. Đầu tiên, người nghe xử lý tín hiệu âm


16

thanh thơng qua màng nền của tai trong; nó có khả năng cung cấp một phân
tích phổ cho tín hiệu tới. Một quá trình xử lý thần kinh chuyển đổi tín hiệu
phổ tại đầu ra của màng nền thành các tín hiệu hoạt động đối với thần kinh
thính giác; có thể coi đây như một quá trình lấy ra các đặc trưng. Bằng một
phương pháp đặc biệt (chưa được hiểu một cách thấu đáo), các tín hiệu hoạt
động đi qua hệ thần kinh thính giác được chuyển đổi thành một mã ngôn ngữ
cho những trung tâm xử lý cao cấp hơn bên trong bộ não; và cuối cùng là việc
hiểu được nội dung thơng điệp.
Qua đó ta thấy tín hiệu âm thanh tiếng nói là tín hiệu ngẫu nhiên
khơng dừng, tuy nhiên những đặc tính của nó là tương đối ổn định khi xét
trong một khoảng thời gian ngắn (vài chục mili giây). Trong khoảng thời
gian đó tín hiệu gần như tuần hồn. Âm thanh tiếng nói con người có các đặc
tính vật lý sau đây:
2.1.1.1. Độ cao (Pitch)
Độ cao hay độ trầm bổng của âm thanh chính là tần số của sóng cơ
học của âm thanh. Âm thanh nào cũng phát ra ở một độ cao nhất định. Độ
cao của âm thanh phụ thuộc vào tần số dao động. Đối với tiếng nói, tần số
dao động của dây thanh quy định độ cao giọng nói của con người. Mỗi
người có một độ cao giọng nói khác nhau, độ cao của nữ giới thường cao

hơn nam giới và độ cao của trẻ em thường cao hơn của người lớn.
2.1.1.2. Cường độ
Cường độ chính là độ to nhỏ của âm thanh. Cường độ càng lớn
thì âm thanh có thể truyền đi được càng xa. Xét trên phương diện sóng cơ
học thì cường độ chính là biên độ của dao động sóng âm, nó quyết định
năng lượng của sóng âm..
Trong tiếng nói cường độ của nguyên âm phát ra thường lớn hơn của
phụ âm. Do vậy chúng ta thường dễ phát hiện ra nguyên âm hơn là phụ âm.


17

Đối với tai người, giá trị tuyệt đối của cường độ âm I thường không
quan trọng mà người ta quan tâm giá trị tỷ số của I so với một giá trị chuẩn
I0 nào đó, đó chính là mức cường độ âm và được tính như sau:
L(B) = lg(I/I0)

(2.1)

2.1.1.3. Trường độ
Trường độ hay độ dài của âm phụ thuộc vào sự chấn động lâu hay
nhanh của các phần tử không khí. Cùng một âm nhưng trong các từ khác
nhau thì độ dài khác nhau.
2.1.1.4. Âm sắc
Âm sắc là bản sắc, sắc thái riêng của âm. Cùng một nội dung,
độ cao nhưng khi nói mỗi người có một âm vị khác nhau.
2.1.2. Đặc điểm âm học của tiếng nói
Tín hiệu tiếng nói là tín hiệu tương tự, biểu diễn cho thơng tin
về mặt ngôn ngữ và được thể hiện bằng các âm vị khác nhau. Số lượng
các âm vị tuỳ thuộc vào từng ngôn ngữ, vào khoảng 20 đến 30 và khơng

vượt q 50. Đối với từng loại âm vị nó có đặc tính âm thanh khác nhau.
Các âm vị được chia thành
Tổ hợp các âm vị tạo nên âm tiết. Âm tiết đóng vai trị một từ chọn
vẹn mang ngữ nghĩa.
2.1.2.1. Nguyên âm
Các nguyên âm có thể được coi là lớp thú vị nhất trong các lớp âm
thanh tiếng nói, đặc biệt đối với Tiếng Anh. Tầm quan trọng của chúng
trong lĩnh vực nhận dạng tiếng nói là rất lớn; hầu hết các hệ thống nhận
dạng dựa trên cơ sở nhận dạng ngun âm đều có tính năng tốt.
Trong khi nói, ngun âm được tạo ra bằng cách kích thích một ống
dẫn âm thanh có hình dạng cố định bằng các xung áp lực khí giả tuần
hồn do sự rung động của dây thanh sinh ra. Hình dạng của từng vùng cục


18

bộ dọc theo ống dẫn âm xác định các tần số cộng hưởng (các formants) và
âm thanh sẽ được tạo ra. Việc tạo ra nguyên âm cụ thể nào là được quyết
định bởi vị trí của lưỡi, hàm, mơi... Các nguyên âm nói chung là có thời
gian tồn tại dài (so với các phụ âm) và dễ xác định phổ. Chính vì thế mà sẽ
dễ dàng cho việc nhận dạng, cả đối với con người và máy móc.
Có một số cách biểu diễn đặc trưng nguyên âm, bao gồm cấu hình
khoang miệng, các đồ thị dạng sóng tín hiệu và các đồ thị phổ, ở đây chúng
ta chỉ quan tâm tới dạng biểu diễn đồ thị phổ. Về mặt lý thuyết, các cực
đại của biểu diễn phổ của tín hiệu nguyên âm chính là các tần số cộng
hưởng (formants) tạo nên nguyên âm. Giá trị của các các formant đầu tiên
(2 hoặc 3 formants đầu tiên) là yếu tố quyết định cho phép chúng ta nhận
dạng được nguyên âm. Do nhiều yếu tố biến thiên như sự khác nhau về
giới tính, về độ tuổi, tình trạng tinh thần của người nói và nhiều yếu tố
ngoại cảnh khác, đối với một nguyên âm xác định các giá trị formant cũng

có một sự biến thiên nhất định. Tuy nhiên sự khác biệt về giá trị các
formants giữa các nguyên âm khác nhau lớn hơn nhiều; và trong khơng gian
formant chúng ta có thể xác định một cách tương đối các vùng riêng biệt
cho từng nguyên âm. Hình 2.2 minh họa một đồ thị kinh điển của
các giá trị formant đầu tiên và

thứ hai của 10 nguyên âm cùng với sự

phân vùng cho các nguyên âm. ở đây chúng ta cũng thấy có những sự nhập
nhằng trong phát âm thể hiện ở một số chỗ chồng chéo lên nhau giữa các
vùng.


19

Hình 2.2. Đồ thị theo các formant F1, F2 cho mười nguyên âm được thực
hiện với nhiều đối tượng người nói khác nhau
2.1.2.2. Phụ âm
Phụ âm được tạo ra bởi các dịng khí hỗn loạn được phát ra gần
những điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành.
Dịng khơng khí tại chỗ đóng của vịm miệng tạo ra phụ âm bật. Những phụ
ân xát được tạo ra từ chỗ co thắt lớn nhất và các âm tắc xát được tạo ra từ
khoảng giữa. Phụ âm có đặc tính hữu thanh và vơ thanh tuỳ thuộc vào dây
thanh có dao động để trở thành cộng hưởng hay khơng. Đặc tính của phụ
âm tuỳ thuộc vào tính chu kỳ của dạng sóng, phổ tần số, thời gian tồn tại và
sự chuyển dẫn âm.
2.1.2.3. Tỷ suất thời gian
Trong khi nói chuyện, các khoảng nói chuyện và khoảng nghỉ xen
kẽ nhau. Phần trăm thời gian nói trên tổng thời gian nói và nghỉ được gọi là
tỷ suất thời gian. Giá trị này biến đổi tuỳ thuộc vào tốc độ nói và từ đó ta

có thể phân loại thành nói nhanh, nói chậm hay trung bình.
2.1.2.4. Hàm năng lượng thời gian ngắn
Hàm năng lượng thời gian ngắn được tính bằng cách chia tín hiệu
tiếng nói thành nhiều khung có chứa N mẫu và tính diện tích trung bình của


×