Tải bản đầy đủ (.pdf) (84 trang)

ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.43 MB, 84 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

PHẠM MINH NHỰT

ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN
BẰNG MƠ HÌNH THỐNG KÊ

LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH

Thành phố Hồ Chí Minh – 2009


ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

PHẠM MINH NHỰT

ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN
BẰNG MƠ HÌNH THỐNG KÊ

Ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. VŨ HẢI QUÂN



Thành phố Hồ Chí Minh – 2009


LỜI CẢM ƠN
Xin chân thành cám ơn khoa Công nghệ Thông tin trường Đại học Khoa học
Tự nhiên đã tạo điều kiện thuận lợi và giúp đỡ em hoàn thành tốt khóa luận tốt
nghiệp này.
Xin chân thành cám ơn Thầy Vũ Hải Quân đã tận tình chỉ dạy và giúp đỡ em
trong q trình làm khóa luận, nếu khơng có sự hướng dẫn tận tình của thầy, khóa
luận này khơng thể nào hoàn thành tốt được.
Xin chân thành cám ơn các thầy cô khoa Công nghệ Thông tin đã tận tình chỉ
dạy, trang bị kiến thức cho em trong suốt khóa học.
Xin chân thành cám ơn gia đình, ơng bà, cha mẹ đã chăm sóc, ni dưỡng và
tạo điều kiện cho con hồn thành tốt khóa luận này.
Xin cảm ơn những anh chị đi trước đã để lại những kiến thức rất bổ ích. Cảm
ơn các anh chị và các bạn trong nhóm nghiên cứu xử lý tiếng nói đã giúp đỡ trong
quá trình làm luận văn.
Xin cám ơn những người bạn đã giúp đỡ cho việc thu âm cũng như xây dựng
bộ dữ liệu tiếng nói.
Mặc dù đã cố gắng hết sức để hồn thành khóa luận, song khơng thể tránh khỏi
sai sót. Kính mong nhận được nhận xét và sự đóng góp của q Thầy Cơ và bạn bè.

Học viên thực hiện
Phạm Minh Nhựt


i

MỤC LỤC

Trang
MỤC LỤC ................................................................................................................. i
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ ........................................ v
DANH MỤC BẢNG ............................................................................................. viii
DANH MỤC HÌNH ẢNH ...................................................................................... ix
TĨM TẮT LUẬN VĂN ......................................................................................... xi
Chương 1 – GIỚI THIỆU ....................................................................................... 1
1.1. Dẫn nhập ................................................................................................. 1
1.2. Sinh trắc học ............................................................................................ 2
1.2.1. Khái quát ...................................................................................... 2
1.2.2. Kiến trúc cơ bản của một hệ thống sinh trắc ............................... 3
1.3. Bài tốn nhận dạng người nói ................................................................. 4
1.4. Các hướng tiếp cận .................................................................................. 7
1.4.1. Nhóm phụ thuộc văn bản ............................................................. 7
1.4.2. Nhóm độc lập văn bản ................................................................. 8
1.5. Tiếp cận của đề tài .................................................................................. 8
Chương 2 – HỆ THỐNG ĐỊNH DANH NGƯỜI NĨI ...................................... 11
2.1. Mơ hình tổng qt ................................................................................. 11


ii

2.2. Lấy mẫu tiếng nói ................................................................................. 12
2.3. Rút trích đặc trưng ................................................................................ 12
2.3.1. Chia frame ................................................................................. 14
2.3.2. Biến đổi Fourier rời rạc ............................................................. 16
2.3.3. Mel filter bank ........................................................................... 18
2.3.4. Biến đổi Cosine rời rạc .............................................................. 20
2.4. Dị tìm năng lượng ................................................................................ 21
2.5. Chuẩn hóa đặc trưng ............................................................................. 21

2.6. Xây dựng mơ hình người nói ................................................................ 21
2.7. Nhận dạng ............................................................................................. 22
2.7.1. Identification .............................................................................. 23
2.7.2. Verification ................................................................................ 24
2.8. Score normalization .............................................................................. 25
2.8.1. World Model Normalization ..................................................... 25
2.8.2. Cohort Normalization ................................................................ 26
2.8.3. Unconstraint Cohort Normalization .......................................... 26
2.9. Một số hệ thống định danh người nói ................................................... 27
2.9.1. Hệ thống Vector Quantization ................................................... 27
2.9.2. Hệ thống GMM .......................................................................... 28
2.9.3. Các hệ thống khác ...................................................................... 29
Chương 3 – MƠ HÌNH MARKOV ẨN HỢP GAUSS ....................................... 30
3.1. Gaussian Mixture Model ....................................................................... 30
3.1.1. Đặc tả mơ hình ........................................................................... 30
3.1.2. Ước lượng tham số .................................................................... 33


iii

3.2. Hidden Markov Model .......................................................................... 34
3.2.1. Mơ hình Markov ........................................................................ 34
3.2.2. Mơ hình Markov ẩn ................................................................... 36
3.2.3. Ba bài tốn cơ bản của HMM .................................................... 39
3.2.3.1. Bài toán 1 – evaluation problem .................................. 40
3.2.3.2. Bài toán 2 – decoding problem .................................... 42
3.2.3.3. Bài toán 3 – learning problem ..................................... 44
3.3. Mixture of Gaussians Hidden Markov Model ...................................... 46
3.3.1. Đặc tả mơ hình ........................................................................... 46
3.3.2. Huấn luyện tham số ................................................................... 48

3.3.3. Khởi tạo tham số ........................................................................ 51
3.3.3.1. Thuật toán k-means ..................................................... 51
3.3.3.2. Khởi tạo mơ hình MGHMM ....................................... 52
3.4. MGHMM và bài tốn định danh người nói .......................................... 53
3.4.1. Xây dựng mơ hình ..................................................................... 53
3.4.2. Identification .............................................................................. 54
3.4.3. Verification ................................................................................ 55
Chương 4 – THỰC NGHIỆM .............................................................................. 57
4.1. Dữ liệu thực nghiệm .............................................................................. 57
4.2. Các độ đo đánh giá ................................................................................ 59
4.3. Tham số mơ hình ................................................................................... 61
4.3.1. Số vịng lặp huấn luyện .............................................................. 62
4.3.2. Kích thước nhóm K của phương pháp UCN ............................. 63
4.3.3. Cấu hình MGHMM ................................................................... 64
4.4. Hiệu suất hệ thống ................................................................................. 65


iv

Chương 5 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...................................... 66
5.1. Kết luận ................................................................................................. 66
5.2. Hướng phát triển ................................................................................... 66
TÀI LIỆU THAM KHẢO .................................................................................... 67


v

DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ
Ký hiệu
-------------


Thuật ngữ
----------------------------------------

Tạm dịch
------------------------------------

ANN

Artificial Neural Network

Mạng neuron nhân tạo

ASI

Automatic Speaker Identification

Định danh người nói tự động

ASR

Automatic Speaker Recognition

Nhận dạng người nói tự động

ASV

Automatic Speaker Verification

Xác minh người nói tự động


-

Biometrics

Sinh trắc học

-

Closed-set Speaker Identification

Định danh người nói trên tập dữ
liệu đóng

CN

Cohort Normalization

Chuẩn hóa nhóm

DCT

Discrete Cosine Transform

Biến đổi Cosine rời rạc

DET

Detection Error Trade-off


Đường tương quan lỗi

DFT

Discrete Fourier Transform

Biến đổi Fourier rời rạc

DTW

Dynamic Time Warping

-

EER

Equal Error Rate

Tỉ lệ cân bằng lỗi

EM

Expectation Maximization

-

FAR

False Acceptance Rate


Tỉ lệ nhận sai mẫu giả

FFT

Fast Fourier Transform

Biến đổi Fourier (nhanh)


vi

Ký hiệu
-------------

Thuật ngữ
----------------------------------------

Tạm dịch
------------------------------------

FRR

False Rejection Rate

Tỉ lệ bỏ sai mẫu thật

-

Feature Extraction


Rút trích đặc trưng

GHMM

Gaussian Hidden Markov Model

Mơ hình Markov ẩn đơn Gauss

GMM

Gaussian Mixture Model

Mơ hình hợp Gauss

HMM

Hidden Markov Model

Mơ hình Markov ẩn

-

Identification

Định danh

IER

Identification Error Rate


Tỉ lệ định danh/phân lớp sai

LSP

Line Spectral Pairs

-

MFCC

Mel-Frequency Cepstral

-

Coefficients
MGHMM

Mixture of Gaussians Hidden

Mơ hình Markov ẩn hợp Gauss

Markov Model
-

Open-set Speaker Identification

Định danh người nói trên tập dữ
liệu mở

-


Pitch Contour /

Đường tần số gốc

Fundamental Frequency Contour
-

Score Normalization

Chuẩn hóa điểm

-

Speaker

Người nói


vii

Ký hiệu
-------------

Thuật ngữ
----------------------------------------

Tạm dịch
------------------------------------


-

Speaker Model

Mơ hình người nói

SVM

Support Vector Machine

-

-

Text-Dependent

Phụ thuộc văn bản

-

Text-Independent

Độc lập văn bản

UCN

Unconstraint Cohort

Chuẩn hóa nhóm tự do


Normalization
VQ

Vector Quantization

-

-

Verification

Xác minh

WMN

World Model Normalization

-


viii

DANH MỤC BẢNG
Bảng 2.1. So sánh các hệ thống định danh người nói trên cùng tập dữ liệu ........... 29
Bảng 2.2. Hiệu suất của một số hệ thống trên các tập dữ liệu khác nhau ............... 29
Bảng 4.1. Tổ chức dữ liệu thực nghiệm .................................................................. 57
Bảng 4.2. Hai chuỗi cấu hình MGHMM ................................................................ 64
Bảng 4.3. Tỉ lệ IER và EER của các cấu hình MGHMM ....................................... 64



ix

DANH MỤC HÌNH ẢNH
Hình 1.1. Phân loại sinh trắc học .............................................................................. 3
Hình 1.2. Các thành phần chính của một hệ thống sinh trắc .................................... 4
Hình 1.3. Các lĩnh vực về nhận dạng tiếng nói ......................................................... 5
Hình 1.4. Phân biệt ASV và ASI .............................................................................. 6
Hình 1.5. Phân biệt open-set ASI và closed-set ASI ................................................ 6
Hình 1.6. Phân loại mơ hình Markov ẩn ................................................................... 9
Hình 2.1. Cơ chế hoạt động của một hệ thống định danh người nói trên tập mở ... 11
Hinh 2.2. Ví dụ về tính tách biệt của 2 đặc trưng khác nhau .................................. 13
Hình 2.3. Các bước rút trích đặc trưng MFCC ....................................................... 14
Hình 2.4. Tín hiệu wave trước và sau khi lọc thơng cao ........................................ 14
Hình 2.5. Cơ chế chia frame ................................................................................... 15
Hình 2.6. Tín hiệu trước và sau khi nhân với cửa sổ Hamming ............................. 16
Hình 2.7. Tương quan giữa tọa độ Descartes và tọa độ cực ................................... 17
Hình 2.8. Tương quan giữa tần số mel và tần số tuyến tính ................................... 18
Hình 2.9. Mel filter banks trên miền mel và miền tần số ........................................ 19
Hình 2.10. Mel filter banks trên miền tần số tuyến tính ......................................... 19
Hình 2.11. Các mơ hình người nói .......................................................................... 22


x

Hình 2.12. Các bước nhận dạng .............................................................................. 24
Hình 2.13. Vector Quantization với codebook có M = 3 ........................................ 27
Hình 3.1. Hàm mật độ Gauss .................................................................................. 30
Hình 3.2. Mơ hình GMM ........................................................................................ 31
Hình 3.3. Hàm mật độ của GMM có 3 phân phối Gauss ........................................ 32
Hình 3.4. Mơ hình Markov 3 trạng thái .................................................................. 35

Hình 3.5. Mơ hình Markov ẩn 3 trạng thái ............................................................. 37
Hình 3.6. Hệ thống Urn-Ball ................................................................................... 38
Hình 3.7. Chuỗi Q tối ưu cục bộ ............................................................................. 43
Hình 3.8. Mơ hình MGHMM 3 trạng thái .............................................................. 47
Hình 3.9. Các bước xây dựng một MGHMM từ dữ liệu huấn luyện ...................... 54
Hình 4.1. Các đường pitch của tiếng nói ba miền ................................................... 58
Hình 4.2. Spectrogram của từ “tâm” phát âm theo tiếng ba miền khác nhau ......... 59
Hình 4.3. Một ví dụ về đường DET và điểm EER .................................................. 61
Hình 4.4. Độ tăng log-likelihood qua các vòng lặp huấn luyện ............................. 62
Hình 4.5. Tương quan giữa K và EER .................................................................... 63
Hình 4.6. Hiệu suất xác minh của hệ thống ............................................................ 65


xi

TĨM TẮT LUẬN VĂN
Luận văn áp dụng mơ hình Markov ẩn hợp Gauss giải quyết bài tốn định danh
người nói độc lập văn bản trên tập dữ liệu mở. Mỗi người nói sẽ được mơ hình hóa
bằng một mơ hình Markov ẩn với hàm mật độ xác suất là hợp các hàm Gauss, được
huấn luyện theo thuật toán expectation maximization trên dữ liệu huấn luyện của
người nói tương ứng. Tiến trình nhận dạng một mẫu tiếng nói gồm hai bước chính
là định danh (identification) và xác minh (verification). Bước định danh thực hiện
phân lớp mẫu tiếng nói theo luật quyết định Bayes. Bước xác minh áp dụng phương
pháp chuẩn hóa nhóm tự do (unconstraint cohort normalization) để tăng hiệu suất
xác minh. Hiệu suất phân lớp và hiệu suất xác minh thật-giả trên tập dữ liệu tiếng
nói tiếng Việt của 60 người, lần lượt là 100% và 96%.
Luận văn trình bày gồm 5 chương:
ƒ Chương 1 giới thiệu tổng quan về sinh trắc học và bài tốn định danh người
nói, cùng các lĩnh vực liên quan. Phần cuối chương giới thiệu sơ lược một số
phương pháp truyền thống và hướng tiếp cận của đề tài.

ƒ Chương 2 trình bày về các thành phần và cơ chế hoạt động của một hệ thống
định danh người nói trên tập mở, đồng thời tóm tắt nội dung và kết quả đạt
được của một số phương pháp trong các cơng trình nghiên cứu trước đây.
ƒ Chương 3 trình bày chi tiết về mơ hình Markov ẩn hợp Gauss – đặc tả mơ
hình, các bước xây dựng mơ hình, và áp dụng của nó trong đề tài.
ƒ Chương 4 mô tả dữ liệu thực nghiệm, chi tiết thực nghiệm và các kết quả đạt
được.
ƒ Chương 5 đưa ra kết luận và hướng phát triển.


1

Chương 1: GIỚI

THIỆU

1.1 Dẫn nhập
Đề tài nghiên cứu của luận văn này xoay quanh bài tốn định danh người nói – một
bài toán con trong lĩnh vực nhận dạng người nói, vốn là một nhánh của sinh trắc học
(biometrics).
Nhận dạng người nói tự động (Automatic Speaker Recognition – ASR) là tiến trình
nhận dạng tự động một người dựa trên tiếng nói của người đó. Một hệ thống ASR
gồm hai giai đoạn chính là đăng ký (enrollment) và nhận dạng (test):
-

Trong giai đoạn đăng ký, dữ liệu tiếng nói của mỗi người sẽ được thu nhận
và rút trích đặc trưng trước khi đưa vào huấn luyện/xây dựng mơ hình. Bước
rút trích đặc trưng thực hiện thu gọn và biến đổi dữ liệu tiếng nói thành các
vector đặc trưng mang thơng tin phân biệt giữa những người nói khác nhau.
Sau đó, các vector đặc trưng sẽ được đưa vào xây dựng mô hình tùy theo

phương pháp cụ thể của hướng tiếp cận giải quyết bài toán.

-

Trong giai đoạn nhận dạng, vector đặc trưng của mẫu test sẽ được đánh giá
qua các mô hình đã xây dựng ở bước đăng ký và rút ra kết luận.

Về mặt ý nghĩa khoa học và thực tiễn, các hệ thống ASR có nhiều ứng dụng trong
các tác vụ liên quan đến bảo mật. Ví dụ như nó có thể giúp cho việc xác thực các
giao dịch từ xa thơng qua điện thoại, hay kiểm sốt truy cập các hệ thống mạng và
máy tính. Ngồi ra, hệ thống ASR cịn giúp hỗ trợ cơng tác điều tra tội phạm, hay
phối hợp với các lĩnh vực khác như: truy tìm thơng tin (information retrieval), nhận
dạng lời thoại (speech recognition).
Các mục cịn lại của chương này sẽ trình bày chi tiết hơn về bài tốn nhận dạng
người nói mà cụ thể là định danh người nói – đối tượng nghiên cứu của đề tài –
cùng với các lĩnh vực liên quan.


2

1.2. Sinh trắc học
1.2.1. Khái quát
Sinh trắc học (biometrics) là lĩnh vực nghiên cứu các phương pháp toán học và
thống kê áp dụng trên các bài tốn phân tích dữ liệu sinh học. Cụm từ “biometrics”
xuất phát từ chữ “bio” (life) và “metrics” (measure) trong tiếng Hy Lạp.
Sinh trắc học gồm các phương pháp nhận diện một người dựa trên các đặc điểm
sinh lý học (physiological) hay các đặc điểm hành vi (behavioral) của người đó. Các
hệ thống sinh trắc đã và đang được phát triển trong các ứng dụng thực tế như hệ
thống bảo mật giao tác, quản lý truy xuất, các hệ thống điều phối.
Sinh trắc học đem lại một số ưu điểm so với các phương pháp bảo mật truyền thống

(card, password…) như: không thể hoặc rất khó giả mạo, khơng bị đánh cắp hay bị
mất... Tuy nhiên, kết quả của các cơng trình nghiên cứu trên lĩnh vực này vẫn chưa
đủ hồn thiện để có thể thay thế hẳn các phương pháp truyền thống. Hiện nay, kỹ
thuật sinh trắc thường được sử dụng kết hợp với password hay card để tăng cường
khả năng bảo mật cũng như tính an tồn của dữ liệu.
Về phân loại, sinh trắc học có thể được chia thành hai nhóm chính là sinh trắc thể
(physiological) và sinh trắc hành vi (behavioral):
-

Physiological: bao gồm các đặc điểm sinh học trên cơ thể như khn mặt
(face), DNA, vân tay (fingerprint), trịng mắt (iris), giọng nói (voice)…
Trong đó, vân tay là đặc điểm được nghiên cứu và sử dụng từ khá lâu.

-

Behavioral: các đặc điểm về hành vi của con người như thói quen gõ phím
(keystroke), chữ ký (signature), giọng nói (voice)…

Nếu xét theo độ cao thấp (pitch), giọng nói có thể được phân loại vào nhóm đặc
điểm sinh trắc thể. Tuy nhiên, giọng nói cịn được xem là một đặc điểm hành vi nếu
ta xét về cách nói.


3

Sinh trắc học

Đặc điểm Cơ thể

Khn

mặt

DNA

Đặc điểm Hành vi

Trịng
mắt

Vân
tay

Giọng
nói

Chữ ký

Thói quen
Gõ phím

Hình 1.1: Phân loại sinh trắc học.
Sinh trắc học được sử dụng theo hai thể thức chính là định danh (identification) và
xác minh (verification):
-

Identification: xác định cụ thể mẫu sinh trắc thuộc về ai. Cơ chế định danh
thông qua việc tìm một bộ khớp nhất trong database so với mẫu test. Phương
pháp này địi hỏi rất nhiều chi phí tính tốn nếu kích thước database lớn.

-


Verification: xác định xem mẫu sinh trắc có phải thuộc về một chủ thể cho
trước hay không. Cơ chế xác minh thông qua việc so khớp giữa mẫu test với
các mẫu thuộc chủ thể đó trong database. Do vậy, phương pháp này địi hỏi
ít năng lực xử lý và thời gian tính tốn hơn phương pháp định danh.

1.2.2. Kiến trúc cơ bản của một hệ thống sinh trắc
Các thành phần chính của một hệ thống sinh trắc (biometric system):
-

Bộ cảm biến (sensor): thường là các đầu đọc hay thiết bị scan. Bộ phận này
đảm nhận vai trị thu nhận các thơng tin sinh trắc từ người trong thế giới thực.

-

Bộ số hóa (digitalizing module): thực hiện việc chuyển đổi thông tin thu
được từ bộ cảm biến sang tín hiệu số và phân tích, rút trích đặc trưng từ tín
hiệu đó. Đầu ra của bộ phận này sẽ được truyền sang bộ so khớp (matcher) ở
bước nhận dạng (test) hoặc lưu vào database ở bước đăng ký (enrollment).


4

đăng ký

Database
test

Bộ cảm biến


Bộ số hóa

test

Bộ so khớp

Bộ
ứng dụng

Hình 1.2: Các thành phần chính của một hệ thống sinh trắc.
-

Bộ lưu trữ (database): lưu trữ các thông tin sinh trắc của người dùng.

-

Bộ so khớp (matcher): thực hiện đối sánh giữa mẫu test với các mẫu đã được
đăng ký (enrolled) trong database. Kết quả đối sánh sẽ được truyền đến bộ
ứng dụng.

-

Bộ ứng dụng (application device): bộ phận ứng dụng của hệ thống sinh trắc.
Tùy từng ứng dụng cụ thể mà thành phần này sẽ thực hiện các chức năng
tương ứng với quyết định của bộ so khớp.

1.3. Bài toán nhận dạng người nói
Trong các đặc tính sinh học trên cơ thể người, tiếng nói là một đặc điểm mang tính
phổ thơng, dễ phát sinh và khơng cần đến các thiết bị thu phức tạp. Nhiều cơng trình
đã được nghiên cứu trên tiếng nói nhằm khai thác các thơng tin từ tiếng nói. Hình

1.3 minh họa các lĩnh vực nghiên cứu trên tiếng nói, tập trung vào bài tốn nhận
dạng tiếng nói.
Nhận dạng tiếng nói (voice recognition) bao gồm: nhận dạng lời thoại (speech
recognition), nhận dạng người nói (speaker recognition), nhận dạng ngơn ngữ nói
(language recognition), nhận dạng phương ngữ nói (dialect recognition)… Trong đó,
bài tốn nhận dạng người nói lại bao gồm 2 loại là nhận dạng độc lập văn bản (text-


5

independent) và nhận dạng phụ thuộc văn bản (text-dependent). Theo thể thức nhận
dạng thì nhận dạng người nói gồm dạng xác minh (verification) và dạng định danh
(identification).

Tiếng nói

Xử lý
Tiếng nói

Miền
Thời gian



Nhận dạng
Tiếng nói



Miền

Tần số

Nhận dạng
Lời thoại

Nhận dạng
Người nói

Nhận dạng
Phương ngữ

Nhận dạng
Ngơn ngữ

Xác minh Người nói
(theo thể thức nhận dạng)

N.N. Phụ thuộc Văn bản
(theo thể thức lời thoại)

Định danh Người nói
(theo thể thức nhận dạng)

N.N. Độc lập Văn bản
(theo thể thức lời thoại)
- N.N. : Nhận dạng Người nói

Hình 1.3: Các lĩnh vực về nhận dạng tiếng nói.
Trong bài tốn xác minh người nói tự động (Automatic Speaker Verification –
ASV), máy tính chỉ việc xác định xem một mẫu tiếng nói có phải thuộc về một

người nói cho trước hay khơng mà thơi (so sánh 1:1). Cịn đối với bài tốn định
danh người nói tự động (Automatic Speaker Identification – ASI), máy tính sẽ phải


6

chỉ ra cụ thể mẫu tiếng nói đó thuộc về ai trong số n người nói đã biết (so sánh 1:n).
Định danh người nói cịn được chia thành 2 loại:
-

Định danh người nói trên tập đóng (Closed-set speaker identification): tập dữ
liệu test là tập đóng, tất cả các mẫu đều thuộc về những người nói đã biết.

-

Định danh người nói trên tập mở (Open-set speaker identification): tập dữ
liệu test là tập mở, mẫu test có thể thuộc về một trong những người nói đã
biết hoặc một người nói bất kỳ chưa biết.

Hình 1.4: Phân biệt ASV và ASI.

Hình 1.5: Phân biệt open-set ASI và closed-set ASI.
Trong nhận dạng người nói phụ thuộc văn bản (text-dependent speaker recognition)
hệ thống sẽ quy định trước một câu hay một cụm từ mà người nói cần phải phát âm.



×