Tải bản đầy đủ (.ppt) (47 trang)

Xác thực người nói không phụ thuộc vào từ khóa (TEXT INDEPENDENT SPEAKER VERIFICATION )

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (401.37 KB, 47 trang )

XÁC THỰC NGƯỜI NÓI KHÔNG
PHỤ THUỘC VÀO TỪ KHÓA
(TEXT-INDEPENDENT SPEAKER VERIFICATION )
Trần Cao Trưởng


TÍNH CẤP THIẾT ĐỀ TÀI
• Lĩnh vực nhận dạng người nói có nhiều ứng dụng
– Điều khiển truy nhập máy tính, thiết bị..
– Nhận dạng tội phạm
– Nhận thông tin phản hồi...

• Trên thế giới có nhiều công trình nghiên cứu vấn đề này
nhưng ở Việt Nam mới có rất ít công trình nghiên cứu về
lĩnh vực này
• Là hướng có thể mở rộng nghiên cứu

2


NỘI DUNG









Trích chọn thông tin từ tiếng nói


Tổng quan về bài toán nhận dạng người nói
Bài toán xác thực người nói không phụ thuộc vào từ khóa
Trích chọn đặc trưng người nói
Mô hình hóa người nói
So khớp mẫu
Tạo quyết định
Cài đặt và kết quả thử nghiệm

3


NỘI DUNG









Trích chọn thông tin từ tiếng nói
Tổng quan về bài toán nhận dạng người nói
Bài toán xác thực người nói không phụ thuộc vào từ khóa
Trích chọn đặc trưng người nói
Mô hình hóa người nói
So khớp mẫu
Tạo quyết định
Cài đặt và kết quả thử nghiệm


4


TRÍCH CHỌN THÔNG TIN TỪ TIẾNG NÓI

TÝn hiÖu tiÕng nãi

Speech
Recognition

Nội dung nói

Language
Recognition

Tên ngôn ngữ

Speaker
Recognition

Tên người nói

Bạn có khỏe không?

Tiếng Việt

Anh Trưởng

5



NỘI DUNG









Trích chọn thông tin từ tiếng nói
Tổng quan về bài toán nhận dạng người nói
Bài toán xác thực người nói không phụ thuộc vào từ khóa
Trích chọn đặc trưng người nói
Mô hình hóa người nói
So khớp mẫu
Tạo quyết định
Cài đặt và kết quả thử nghiệm

6


NỘI DUNG










Trích chọn thông tin từ tiếng nói
Tổng quan về bài toán nhận dạng người nói
Bài toán xác thực người nói không phụ thuộc vào từ khóa
Trích chọn đặc trưng người nói
Mô hình hóa người nói
So khớp mẫu
Tạo quyết định
Cài đặt và kết quả thử nghiệm

7


CƠ SỞ LÝ THUYẾT
• Tiếng nói ngoài thông tin ngữ nghĩa còn chứa
các thông tin như trạng thái tình cảm khi nói hay
những thông tin riêng của giọng nói.
• Các thông tin này không bất biến từ lúc người
biết nói đến lúc già, nhưng có tính khá ổn định
trong giai đoạn dài của cuộc đời.
• Khi con người đã trưởng thành, những thói tật
khi nói, những đặc trưng khu biệt trong cấu âm
sẽ hình thành và mang tính ổn định cao.
8


PHÂN LOẠI THEO CHỨC NĂNG
• Speaker Identification: Kiểm tra xem giọng nói cần kiểm

tra là của ai trong hệ thống
?

Trả lời câu hỏi đây là ai?

?

?

9


PHÂN LOẠI THEO CHỨC NĂNG(tiếp)
• Speaker Verification: Xác thực xem ID người cần kiểm
tra có chính xác là người đó hay là không?

Đây có phải là giọng nói của anh Trưởng không?

10


PHÂN LOẠI THEO PHƯƠNG PHÁP
• Nhận dạng phụ thuộc vào từ khóa(text-dependent)
– Hệ thống nhận biết nội dung nói của người nói (mật khẩu)
– Không mất thời gian huấn luyện
– Độ chính xác cao. Nhưng bảo mật không cao do kẻ giả mạo ghi âm
từ khóa

• Nhận dạng không phụ thuộc vào từ khóa(text-independent)
– Hệ thống không quan tâm đến nội dung nói mà chỉ quan tâm đến

giọng nói
– Dữ liệu huấn liệu càng nhiều độ chính xác càng cao.

11


NỘI DUNG









Trích chọn thông tin từ tiếng nói
Tổng quan về bài toán nhận dạng người nói
Bài toán xác thực người nói không phụ thuộc vào từ khóa
Trích chọn đặc trưng người nói
Mô hình hóa người nói
So khớp mẫu
Tạo quyết định
Cài đặt và kết quả thử nghiệm

12


NỘI DUNG










Trích chọn thông tin từ tiếng nói
Tổng quan về bài toán nhận dạng người nói
Bài toán xác thực người nói không phụ thuộc vào từ khóa
Trích chọn đặc trưng người nói
Mô hình hóa người nói
So khớp mẫu
Tạo quyết định
Cài đặt và kết quả thử nghiệm

13


MỤC ĐÍCH
• Xác minh liệu người đang nói có đúng là người mà máy
tính đã được biết trước hay không (tính xác thật của
giọng nói) nhưng không phụ thuộc vào nội dung người
nói.
Đây có phải là giọng nói của anh Trưởng không?

14



HAI GIAI ĐOẠN CỦA HỆ THỐNG
Huấn luyện
Ghi âm giọng nói của
mỗi người

Trưởng

Đặc trưng của mỗi
người nói

Trích
Tríchchọn
chọn
đặc
trưng
đặc trưng


Model
huấn
Môhình
hình
Model
huấn
training
luyện
training
luyện

Quý


Truong

Quy

Xác thực
Trích
Tríchchọn
chọn
đặc
trưng
đặc trưng

Quyết
Verification
định
Quyết
Verification
định
decision
xác
thực
xác
decision
thực

ID: truong

15


Chấp nhận?


CÁC THÀNH PHẦN CỦA HỆ THỐNG
Tín hiệu đầu vào

Huấn luyện
Trích chọn
đặc trưng
Xác thực

ID người nói

Mô hình
người nói

Cơ sở dữ
liệu người
nói

So khớp
mẫu
Điều kiện
quyết định

Quyết định

1. Trích chọn đặc trưng: Biến đổi từ giọng nói thô thành nhưng đặc trưng của
người nói.
2. Mô hinh người nói: Huấn luyện người nói dựa vào một phương pháp cụ thể.

3. So khớp mẫu: Tính toán làm hợp tiếng nói đưa vào và một đặc trưng người
nói trong cơ sở dữ liệu đã được huấn luyện.
4. Điều kiện quyết định: Việc đưa ra quyết định dựa vào việc làm hợp ở trên.
16


NỘI DUNG









Trích chọn thông tin từ tiếng nói
Tổng quan về bài toán nhận dạng người nói
Bài toán xác thực người nói không phụ thuộc vào từ khóa
Trích chọn đặc trưng người nói
Mô hình hóa người nói
So khớp mẫu
Tạo quyết định
Cài đặt và kết quả thử nghiệm

17


NỘI DUNG










Trích chọn thông tin từ tiếng nói
Tổng quan về bài toán nhận dạng người nói
Bài toán xác thực người nói không phụ thuộc vào từ khóa
Trích chọn đặc trưng người nói
Mô hình hóa người nói
So khớp mẫu
Tạo quyết định
Cài đặt và kết quả thử nghiệm

18


TRÍCH CHỌN ĐẶC TRƯNG NGƯỜI NÓI

Tín hiệu đầu vào

Huấn luyện
Trích chọn
đặc trưng
Xác thực

ID người nói


Mô hình
người nói

Cơ sở dữ
liệu mô
hình
người nói

So khớp
mẫu
Điều kiện
quyết định

Quyết định

19


MONG MUỐN
• Xuất hiện một cách tự nhiên và liên tục trong khi nói.
• Ổn định đối với mỗi người nhưng phải khác nhau từ người
này sang người khác.
• Ít bị thay đổi theo thời gian, sức khỏe hay trạng thái của
người nói
• Ít bị ảnh hưởng bởi môi trường xung quanh (độc lập môi
trường).
• Dễ dàng tính toán.

20



CÁC PHƯƠNG PHÁP TRÍCH CHỌN
ĐẶC TRƯNG
• Các đặc trưng mang thông tin về tiếng nói:
– Các tần số formant
– Tần số âm cơ bản
– Năng lượng

• Các đặc trưng mang thông tin về đường bao
phổ:





Hệ số dự đoán tuyến tính(LPC)
Các hệ số cepstrum
Các hệ số cepstrum dự đoán tuyến tính(LPCC)
Các hệ số cepstrum tần số Mel(MFCC)
21


CÁC BƯỚC TRÍCH CHỌN ĐẶC
TRƯNG MFCC
Bao gồm 5 bước cơ bản:
• Bước 1: Phân khung (Frame
Blocking)
• Bước 2:Lấy cửa sổ (Windowing)
• Bước 3: Biến đổi FFT (Fast Fourier

Transform)
• Bước 4: Biến đổi sang thang đo
Mel (Mel-frequency Wrapping)
• Bước 5: Hệ số Cepstrum (Cepstral
Coefficients)

Tín hiệu tiếng nói
Phân khung
Lấy cửa sổ
Tính FFT

Biến đổi sang
thang Mel
Hệ số cepstral
MFCC
22


CÁC BƯỚC TRÍCH CHỌN ĐẶC
TRƯNG MFCC(tiếp)
Bước 1: Phân Khung
• Chia tín hiệu đầu vào thành các
đoạn nhỏ khoảng 20ms-30ms.
• Phân khung tín hiệu mỗi khung N
mẫu, hai khung kề nhau lệch nhau
M mẫu:
• M=1/2 N

Tín hiệu tiếng nói
Phân khung

Lấy cửa sổ
Tính FFT

Biến đổi sang
thang Mel
Hệ số cepstral
MFCC
23


CÁC BƯỚC TRÍCH CHỌN ĐẶC
TRƯNG MFCC(tiếp)
Bước 2: Lấy cửa sổ
• Lấy cửa sổ nhằm giảm sự gián
đoạn của tín hiệu ở đầu và cuối
mỗi khung vừa được chia.
• Dùng cửa sổ Hamming (Với α =
0.54), công thức:

Tín hiệu tiếng nói
Phân khung
Lấy cửa sổ
Tính FFT

Biến đổi sang
thang Mel
Hệ số cepstral
MFCC
24



CÁC BƯỚC TRÍCH CHỌN ĐẶC TRƯNG
MFCC(tiếp)
Bước 3: Tính FFT
• Chuyển đổi mỗi khung
với N mẫu từ miền thời
gian sang miền tần số.

Tín hiệu tiếng nói
Phân khung
Lấy cửa sổ
Tính FFT

Biến đổi sang
thang Mel
Hệ số cepstral
MFCC
25


×