ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
PHẠM MINH NHỰT
ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN
BẰNG MƠ HÌNH THỐNG KÊ
LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH
Thành phố Hồ Chí Minh – 2009
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
PHẠM MINH NHỰT
ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN
BẰNG MƠ HÌNH THỐNG KÊ
Ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. VŨ HẢI QUÂN
Thành phố Hồ Chí Minh – 2009
LỜI CẢM ƠN
Xin chân thành cám ơn khoa Công nghệ Thông tin trường Đại học Khoa học
Tự nhiên đã tạo điều kiện thuận lợi và giúp đỡ em hoàn thành tốt khóa luận tốt
nghiệp này.
Xin chân thành cám ơn Thầy Vũ Hải Quân đã tận tình chỉ dạy và giúp đỡ em
trong q trình làm khóa luận, nếu khơng có sự hướng dẫn tận tình của thầy, khóa
luận này khơng thể nào hoàn thành tốt được.
Xin chân thành cám ơn các thầy cô khoa Công nghệ Thông tin đã tận tình chỉ
dạy, trang bị kiến thức cho em trong suốt khóa học.
Xin chân thành cám ơn gia đình, ơng bà, cha mẹ đã chăm sóc, ni dưỡng và
tạo điều kiện cho con hồn thành tốt khóa luận này.
Xin cảm ơn những anh chị đi trước đã để lại những kiến thức rất bổ ích. Cảm
ơn các anh chị và các bạn trong nhóm nghiên cứu xử lý tiếng nói đã giúp đỡ trong
quá trình làm luận văn.
Xin cám ơn những người bạn đã giúp đỡ cho việc thu âm cũng như xây dựng
bộ dữ liệu tiếng nói.
Mặc dù đã cố gắng hết sức để hồn thành khóa luận, song khơng thể tránh khỏi
sai sót. Kính mong nhận được nhận xét và sự đóng góp của q Thầy Cơ và bạn bè.
Học viên thực hiện
Phạm Minh Nhựt
i
MỤC LỤC
Trang
MỤC LỤC ................................................................................................................. i
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ ........................................ v
DANH MỤC BẢNG ............................................................................................. viii
DANH MỤC HÌNH ẢNH ...................................................................................... ix
TĨM TẮT LUẬN VĂN ......................................................................................... xi
Chương 1 – GIỚI THIỆU ....................................................................................... 1
1.1. Dẫn nhập ................................................................................................. 1
1.2. Sinh trắc học ............................................................................................ 2
1.2.1. Khái quát ...................................................................................... 2
1.2.2. Kiến trúc cơ bản của một hệ thống sinh trắc ............................... 3
1.3. Bài tốn nhận dạng người nói ................................................................. 4
1.4. Các hướng tiếp cận .................................................................................. 7
1.4.1. Nhóm phụ thuộc văn bản ............................................................. 7
1.4.2. Nhóm độc lập văn bản ................................................................. 8
1.5. Tiếp cận của đề tài .................................................................................. 8
Chương 2 – HỆ THỐNG ĐỊNH DANH NGƯỜI NĨI ...................................... 11
2.1. Mơ hình tổng qt ................................................................................. 11
ii
2.2. Lấy mẫu tiếng nói ................................................................................. 12
2.3. Rút trích đặc trưng ................................................................................ 12
2.3.1. Chia frame ................................................................................. 14
2.3.2. Biến đổi Fourier rời rạc ............................................................. 16
2.3.3. Mel filter bank ........................................................................... 18
2.3.4. Biến đổi Cosine rời rạc .............................................................. 20
2.4. Dị tìm năng lượng ................................................................................ 21
2.5. Chuẩn hóa đặc trưng ............................................................................. 21
2.6. Xây dựng mơ hình người nói ................................................................ 21
2.7. Nhận dạng ............................................................................................. 22
2.7.1. Identification .............................................................................. 23
2.7.2. Verification ................................................................................ 24
2.8. Score normalization .............................................................................. 25
2.8.1. World Model Normalization ..................................................... 25
2.8.2. Cohort Normalization ................................................................ 26
2.8.3. Unconstraint Cohort Normalization .......................................... 26
2.9. Một số hệ thống định danh người nói ................................................... 27
2.9.1. Hệ thống Vector Quantization ................................................... 27
2.9.2. Hệ thống GMM .......................................................................... 28
2.9.3. Các hệ thống khác ...................................................................... 29
Chương 3 – MƠ HÌNH MARKOV ẨN HỢP GAUSS ....................................... 30
3.1. Gaussian Mixture Model ....................................................................... 30
3.1.1. Đặc tả mơ hình ........................................................................... 30
3.1.2. Ước lượng tham số .................................................................... 33
iii
3.2. Hidden Markov Model .......................................................................... 34
3.2.1. Mơ hình Markov ........................................................................ 34
3.2.2. Mơ hình Markov ẩn ................................................................... 36
3.2.3. Ba bài tốn cơ bản của HMM .................................................... 39
3.2.3.1. Bài toán 1 – evaluation problem .................................. 40
3.2.3.2. Bài toán 2 – decoding problem .................................... 42
3.2.3.3. Bài toán 3 – learning problem ..................................... 44
3.3. Mixture of Gaussians Hidden Markov Model ...................................... 46
3.3.1. Đặc tả mơ hình ........................................................................... 46
3.3.2. Huấn luyện tham số ................................................................... 48
3.3.3. Khởi tạo tham số ........................................................................ 51
3.3.3.1. Thuật toán k-means ..................................................... 51
3.3.3.2. Khởi tạo mơ hình MGHMM ....................................... 52
3.4. MGHMM và bài tốn định danh người nói .......................................... 53
3.4.1. Xây dựng mơ hình ..................................................................... 53
3.4.2. Identification .............................................................................. 54
3.4.3. Verification ................................................................................ 55
Chương 4 – THỰC NGHIỆM .............................................................................. 57
4.1. Dữ liệu thực nghiệm .............................................................................. 57
4.2. Các độ đo đánh giá ................................................................................ 59
4.3. Tham số mơ hình ................................................................................... 61
4.3.1. Số vịng lặp huấn luyện .............................................................. 62
4.3.2. Kích thước nhóm K của phương pháp UCN ............................. 63
4.3.3. Cấu hình MGHMM ................................................................... 64
4.4. Hiệu suất hệ thống ................................................................................. 65
iv
Chương 5 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...................................... 66
5.1. Kết luận ................................................................................................. 66
5.2. Hướng phát triển ................................................................................... 66
TÀI LIỆU THAM KHẢO .................................................................................... 67
v
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ
Ký hiệu
-------------
Thuật ngữ
----------------------------------------
Tạm dịch
------------------------------------
ANN
Artificial Neural Network
Mạng neuron nhân tạo
ASI
Automatic Speaker Identification
Định danh người nói tự động
ASR
Automatic Speaker Recognition
Nhận dạng người nói tự động
ASV
Automatic Speaker Verification
Xác minh người nói tự động
-
Biometrics
Sinh trắc học
-
Closed-set Speaker Identification
Định danh người nói trên tập dữ
liệu đóng
CN
Cohort Normalization
Chuẩn hóa nhóm
DCT
Discrete Cosine Transform
Biến đổi Cosine rời rạc
DET
Detection Error Trade-off
Đường tương quan lỗi
DFT
Discrete Fourier Transform
Biến đổi Fourier rời rạc
DTW
Dynamic Time Warping
-
EER
Equal Error Rate
Tỉ lệ cân bằng lỗi
EM
Expectation Maximization
-
FAR
False Acceptance Rate
Tỉ lệ nhận sai mẫu giả
FFT
Fast Fourier Transform
Biến đổi Fourier (nhanh)
vi
Ký hiệu
-------------
Thuật ngữ
----------------------------------------
Tạm dịch
------------------------------------
FRR
False Rejection Rate
Tỉ lệ bỏ sai mẫu thật
-
Feature Extraction
Rút trích đặc trưng
GHMM
Gaussian Hidden Markov Model
Mơ hình Markov ẩn đơn Gauss
GMM
Gaussian Mixture Model
Mơ hình hợp Gauss
HMM
Hidden Markov Model
Mơ hình Markov ẩn
-
Identification
Định danh
IER
Identification Error Rate
Tỉ lệ định danh/phân lớp sai
LSP
Line Spectral Pairs
-
MFCC
Mel-Frequency Cepstral
-
Coefficients
MGHMM
Mixture of Gaussians Hidden
Mơ hình Markov ẩn hợp Gauss
Markov Model
-
Open-set Speaker Identification
Định danh người nói trên tập dữ
liệu mở
-
Pitch Contour /
Đường tần số gốc
Fundamental Frequency Contour
-
Score Normalization
Chuẩn hóa điểm
-
Speaker
Người nói
vii
Ký hiệu
-------------
Thuật ngữ
----------------------------------------
Tạm dịch
------------------------------------
-
Speaker Model
Mơ hình người nói
SVM
Support Vector Machine
-
-
Text-Dependent
Phụ thuộc văn bản
-
Text-Independent
Độc lập văn bản
UCN
Unconstraint Cohort
Chuẩn hóa nhóm tự do
Normalization
VQ
Vector Quantization
-
-
Verification
Xác minh
WMN
World Model Normalization
-
viii
DANH MỤC BẢNG
Bảng 2.1. So sánh các hệ thống định danh người nói trên cùng tập dữ liệu ........... 29
Bảng 2.2. Hiệu suất của một số hệ thống trên các tập dữ liệu khác nhau ............... 29
Bảng 4.1. Tổ chức dữ liệu thực nghiệm .................................................................. 57
Bảng 4.2. Hai chuỗi cấu hình MGHMM ................................................................ 64
Bảng 4.3. Tỉ lệ IER và EER của các cấu hình MGHMM ....................................... 64
ix
DANH MỤC HÌNH ẢNH
Hình 1.1. Phân loại sinh trắc học .............................................................................. 3
Hình 1.2. Các thành phần chính của một hệ thống sinh trắc .................................... 4
Hình 1.3. Các lĩnh vực về nhận dạng tiếng nói ......................................................... 5
Hình 1.4. Phân biệt ASV và ASI .............................................................................. 6
Hình 1.5. Phân biệt open-set ASI và closed-set ASI ................................................ 6
Hình 1.6. Phân loại mơ hình Markov ẩn ................................................................... 9
Hình 2.1. Cơ chế hoạt động của một hệ thống định danh người nói trên tập mở ... 11
Hinh 2.2. Ví dụ về tính tách biệt của 2 đặc trưng khác nhau .................................. 13
Hình 2.3. Các bước rút trích đặc trưng MFCC ....................................................... 14
Hình 2.4. Tín hiệu wave trước và sau khi lọc thơng cao ........................................ 14
Hình 2.5. Cơ chế chia frame ................................................................................... 15
Hình 2.6. Tín hiệu trước và sau khi nhân với cửa sổ Hamming ............................. 16
Hình 2.7. Tương quan giữa tọa độ Descartes và tọa độ cực ................................... 17
Hình 2.8. Tương quan giữa tần số mel và tần số tuyến tính ................................... 18
Hình 2.9. Mel filter banks trên miền mel và miền tần số ........................................ 19
Hình 2.10. Mel filter banks trên miền tần số tuyến tính ......................................... 19
Hình 2.11. Các mơ hình người nói .......................................................................... 22
x
Hình 2.12. Các bước nhận dạng .............................................................................. 24
Hình 2.13. Vector Quantization với codebook có M = 3 ........................................ 27
Hình 3.1. Hàm mật độ Gauss .................................................................................. 30
Hình 3.2. Mơ hình GMM ........................................................................................ 31
Hình 3.3. Hàm mật độ của GMM có 3 phân phối Gauss ........................................ 32
Hình 3.4. Mơ hình Markov 3 trạng thái .................................................................. 35
Hình 3.5. Mơ hình Markov ẩn 3 trạng thái ............................................................. 37
Hình 3.6. Hệ thống Urn-Ball ................................................................................... 38
Hình 3.7. Chuỗi Q tối ưu cục bộ ............................................................................. 43
Hình 3.8. Mơ hình MGHMM 3 trạng thái .............................................................. 47
Hình 3.9. Các bước xây dựng một MGHMM từ dữ liệu huấn luyện ...................... 54
Hình 4.1. Các đường pitch của tiếng nói ba miền ................................................... 58
Hình 4.2. Spectrogram của từ “tâm” phát âm theo tiếng ba miền khác nhau ......... 59
Hình 4.3. Một ví dụ về đường DET và điểm EER .................................................. 61
Hình 4.4. Độ tăng log-likelihood qua các vòng lặp huấn luyện ............................. 62
Hình 4.5. Tương quan giữa K và EER .................................................................... 63
Hình 4.6. Hiệu suất xác minh của hệ thống ............................................................ 65
xi
TĨM TẮT LUẬN VĂN
Luận văn áp dụng mơ hình Markov ẩn hợp Gauss giải quyết bài tốn định danh
người nói độc lập văn bản trên tập dữ liệu mở. Mỗi người nói sẽ được mơ hình hóa
bằng một mơ hình Markov ẩn với hàm mật độ xác suất là hợp các hàm Gauss, được
huấn luyện theo thuật toán expectation maximization trên dữ liệu huấn luyện của
người nói tương ứng. Tiến trình nhận dạng một mẫu tiếng nói gồm hai bước chính
là định danh (identification) và xác minh (verification). Bước định danh thực hiện
phân lớp mẫu tiếng nói theo luật quyết định Bayes. Bước xác minh áp dụng phương
pháp chuẩn hóa nhóm tự do (unconstraint cohort normalization) để tăng hiệu suất
xác minh. Hiệu suất phân lớp và hiệu suất xác minh thật-giả trên tập dữ liệu tiếng
nói tiếng Việt của 60 người, lần lượt là 100% và 96%.
Luận văn trình bày gồm 5 chương:
Chương 1 giới thiệu tổng quan về sinh trắc học và bài tốn định danh người
nói, cùng các lĩnh vực liên quan. Phần cuối chương giới thiệu sơ lược một số
phương pháp truyền thống và hướng tiếp cận của đề tài.
Chương 2 trình bày về các thành phần và cơ chế hoạt động của một hệ thống
định danh người nói trên tập mở, đồng thời tóm tắt nội dung và kết quả đạt
được của một số phương pháp trong các cơng trình nghiên cứu trước đây.
Chương 3 trình bày chi tiết về mơ hình Markov ẩn hợp Gauss – đặc tả mơ
hình, các bước xây dựng mơ hình, và áp dụng của nó trong đề tài.
Chương 4 mô tả dữ liệu thực nghiệm, chi tiết thực nghiệm và các kết quả đạt
được.
Chương 5 đưa ra kết luận và hướng phát triển.
1
Chương 1: GIỚI
THIỆU
1.1 Dẫn nhập
Đề tài nghiên cứu của luận văn này xoay quanh bài tốn định danh người nói – một
bài toán con trong lĩnh vực nhận dạng người nói, vốn là một nhánh của sinh trắc học
(biometrics).
Nhận dạng người nói tự động (Automatic Speaker Recognition – ASR) là tiến trình
nhận dạng tự động một người dựa trên tiếng nói của người đó. Một hệ thống ASR
gồm hai giai đoạn chính là đăng ký (enrollment) và nhận dạng (test):
-
Trong giai đoạn đăng ký, dữ liệu tiếng nói của mỗi người sẽ được thu nhận
và rút trích đặc trưng trước khi đưa vào huấn luyện/xây dựng mơ hình. Bước
rút trích đặc trưng thực hiện thu gọn và biến đổi dữ liệu tiếng nói thành các
vector đặc trưng mang thơng tin phân biệt giữa những người nói khác nhau.
Sau đó, các vector đặc trưng sẽ được đưa vào xây dựng mô hình tùy theo
phương pháp cụ thể của hướng tiếp cận giải quyết bài toán.
-
Trong giai đoạn nhận dạng, vector đặc trưng của mẫu test sẽ được đánh giá
qua các mô hình đã xây dựng ở bước đăng ký và rút ra kết luận.
Về mặt ý nghĩa khoa học và thực tiễn, các hệ thống ASR có nhiều ứng dụng trong
các tác vụ liên quan đến bảo mật. Ví dụ như nó có thể giúp cho việc xác thực các
giao dịch từ xa thơng qua điện thoại, hay kiểm sốt truy cập các hệ thống mạng và
máy tính. Ngồi ra, hệ thống ASR cịn giúp hỗ trợ cơng tác điều tra tội phạm, hay
phối hợp với các lĩnh vực khác như: truy tìm thơng tin (information retrieval), nhận
dạng lời thoại (speech recognition).
Các mục cịn lại của chương này sẽ trình bày chi tiết hơn về bài tốn nhận dạng
người nói mà cụ thể là định danh người nói – đối tượng nghiên cứu của đề tài –
cùng với các lĩnh vực liên quan.
2
1.2. Sinh trắc học
1.2.1. Khái quát
Sinh trắc học (biometrics) là lĩnh vực nghiên cứu các phương pháp toán học và
thống kê áp dụng trên các bài tốn phân tích dữ liệu sinh học. Cụm từ “biometrics”
xuất phát từ chữ “bio” (life) và “metrics” (measure) trong tiếng Hy Lạp.
Sinh trắc học gồm các phương pháp nhận diện một người dựa trên các đặc điểm
sinh lý học (physiological) hay các đặc điểm hành vi (behavioral) của người đó. Các
hệ thống sinh trắc đã và đang được phát triển trong các ứng dụng thực tế như hệ
thống bảo mật giao tác, quản lý truy xuất, các hệ thống điều phối.
Sinh trắc học đem lại một số ưu điểm so với các phương pháp bảo mật truyền thống
(card, password…) như: không thể hoặc rất khó giả mạo, khơng bị đánh cắp hay bị
mất... Tuy nhiên, kết quả của các cơng trình nghiên cứu trên lĩnh vực này vẫn chưa
đủ hồn thiện để có thể thay thế hẳn các phương pháp truyền thống. Hiện nay, kỹ
thuật sinh trắc thường được sử dụng kết hợp với password hay card để tăng cường
khả năng bảo mật cũng như tính an tồn của dữ liệu.
Về phân loại, sinh trắc học có thể được chia thành hai nhóm chính là sinh trắc thể
(physiological) và sinh trắc hành vi (behavioral):
-
Physiological: bao gồm các đặc điểm sinh học trên cơ thể như khn mặt
(face), DNA, vân tay (fingerprint), trịng mắt (iris), giọng nói (voice)…
Trong đó, vân tay là đặc điểm được nghiên cứu và sử dụng từ khá lâu.
-
Behavioral: các đặc điểm về hành vi của con người như thói quen gõ phím
(keystroke), chữ ký (signature), giọng nói (voice)…
Nếu xét theo độ cao thấp (pitch), giọng nói có thể được phân loại vào nhóm đặc
điểm sinh trắc thể. Tuy nhiên, giọng nói cịn được xem là một đặc điểm hành vi nếu
ta xét về cách nói.
3
Sinh trắc học
Đặc điểm Cơ thể
Khn
mặt
DNA
Đặc điểm Hành vi
Trịng
mắt
Vân
tay
Giọng
nói
Chữ ký
Thói quen
Gõ phím
Hình 1.1: Phân loại sinh trắc học.
Sinh trắc học được sử dụng theo hai thể thức chính là định danh (identification) và
xác minh (verification):
-
Identification: xác định cụ thể mẫu sinh trắc thuộc về ai. Cơ chế định danh
thông qua việc tìm một bộ khớp nhất trong database so với mẫu test. Phương
pháp này địi hỏi rất nhiều chi phí tính tốn nếu kích thước database lớn.
-
Verification: xác định xem mẫu sinh trắc có phải thuộc về một chủ thể cho
trước hay không. Cơ chế xác minh thông qua việc so khớp giữa mẫu test với
các mẫu thuộc chủ thể đó trong database. Do vậy, phương pháp này địi hỏi
ít năng lực xử lý và thời gian tính tốn hơn phương pháp định danh.
1.2.2. Kiến trúc cơ bản của một hệ thống sinh trắc
Các thành phần chính của một hệ thống sinh trắc (biometric system):
-
Bộ cảm biến (sensor): thường là các đầu đọc hay thiết bị scan. Bộ phận này
đảm nhận vai trị thu nhận các thơng tin sinh trắc từ người trong thế giới thực.
-
Bộ số hóa (digitalizing module): thực hiện việc chuyển đổi thông tin thu
được từ bộ cảm biến sang tín hiệu số và phân tích, rút trích đặc trưng từ tín
hiệu đó. Đầu ra của bộ phận này sẽ được truyền sang bộ so khớp (matcher) ở
bước nhận dạng (test) hoặc lưu vào database ở bước đăng ký (enrollment).
4
đăng ký
Database
test
Bộ cảm biến
Bộ số hóa
test
Bộ so khớp
Bộ
ứng dụng
Hình 1.2: Các thành phần chính của một hệ thống sinh trắc.
-
Bộ lưu trữ (database): lưu trữ các thông tin sinh trắc của người dùng.
-
Bộ so khớp (matcher): thực hiện đối sánh giữa mẫu test với các mẫu đã được
đăng ký (enrolled) trong database. Kết quả đối sánh sẽ được truyền đến bộ
ứng dụng.
-
Bộ ứng dụng (application device): bộ phận ứng dụng của hệ thống sinh trắc.
Tùy từng ứng dụng cụ thể mà thành phần này sẽ thực hiện các chức năng
tương ứng với quyết định của bộ so khớp.
1.3. Bài toán nhận dạng người nói
Trong các đặc tính sinh học trên cơ thể người, tiếng nói là một đặc điểm mang tính
phổ thơng, dễ phát sinh và khơng cần đến các thiết bị thu phức tạp. Nhiều cơng trình
đã được nghiên cứu trên tiếng nói nhằm khai thác các thơng tin từ tiếng nói. Hình
1.3 minh họa các lĩnh vực nghiên cứu trên tiếng nói, tập trung vào bài tốn nhận
dạng tiếng nói.
Nhận dạng tiếng nói (voice recognition) bao gồm: nhận dạng lời thoại (speech
recognition), nhận dạng người nói (speaker recognition), nhận dạng ngơn ngữ nói
(language recognition), nhận dạng phương ngữ nói (dialect recognition)… Trong đó,
bài tốn nhận dạng người nói lại bao gồm 2 loại là nhận dạng độc lập văn bản (text-
5
independent) và nhận dạng phụ thuộc văn bản (text-dependent). Theo thể thức nhận
dạng thì nhận dạng người nói gồm dạng xác minh (verification) và dạng định danh
(identification).
Tiếng nói
Xử lý
Tiếng nói
Miền
Thời gian
…
Nhận dạng
Tiếng nói
…
Miền
Tần số
Nhận dạng
Lời thoại
Nhận dạng
Người nói
Nhận dạng
Phương ngữ
Nhận dạng
Ngơn ngữ
Xác minh Người nói
(theo thể thức nhận dạng)
N.N. Phụ thuộc Văn bản
(theo thể thức lời thoại)
Định danh Người nói
(theo thể thức nhận dạng)
N.N. Độc lập Văn bản
(theo thể thức lời thoại)
- N.N. : Nhận dạng Người nói
Hình 1.3: Các lĩnh vực về nhận dạng tiếng nói.
Trong bài tốn xác minh người nói tự động (Automatic Speaker Verification –
ASV), máy tính chỉ việc xác định xem một mẫu tiếng nói có phải thuộc về một
người nói cho trước hay khơng mà thơi (so sánh 1:1). Cịn đối với bài tốn định
danh người nói tự động (Automatic Speaker Identification – ASI), máy tính sẽ phải
6
chỉ ra cụ thể mẫu tiếng nói đó thuộc về ai trong số n người nói đã biết (so sánh 1:n).
Định danh người nói cịn được chia thành 2 loại:
-
Định danh người nói trên tập đóng (Closed-set speaker identification): tập dữ
liệu test là tập đóng, tất cả các mẫu đều thuộc về những người nói đã biết.
-
Định danh người nói trên tập mở (Open-set speaker identification): tập dữ
liệu test là tập mở, mẫu test có thể thuộc về một trong những người nói đã
biết hoặc một người nói bất kỳ chưa biết.
Hình 1.4: Phân biệt ASV và ASI.
Hình 1.5: Phân biệt open-set ASI và closed-set ASI.
Trong nhận dạng người nói phụ thuộc văn bản (text-dependent speaker recognition)
hệ thống sẽ quy định trước một câu hay một cụm từ mà người nói cần phải phát âm.