Tải bản đầy đủ (.pdf) (127 trang)

Phân tích và phát hiện tiếng nói dựa trên đặc tính động phi tuyến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.17 MB, 127 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

ĐẶNG THÁI SƠN

PHÂN TÍCH VÀ PHÁT HIỆN TIẾNG NÓI
DỰA TRÊN ĐẶC TÍNH ĐỘNG PHI TUYẾN

LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ

HÀ NỘI - 2017


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

ĐẶNG THÁI SƠN

PHÂN TÍCH VÀ PHÁT HIỆN TIẾNG NÓI
DỰA TRÊN ĐẶC TÍNH ĐỘNG PHI TUYẾN

LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ

Chuyên ngành: Kỹ thuật điện tử
Mã số: 62520203
GIẢNG VIÊN HƯỚNG DẪN KHOA HỌC:
PGS.TS. HOÀNG MẠNH THẮNG

HÀ NỘI - 2017



LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả trình bày trong luận án là công trình nghiên
cứu của tôi dưới sự hướng dẫn của cán bộ hướng dẫn. Các số liệu, kết quả
trình bày trong luận án là hoàn toàn trung thực và chưa được công bố trong
bất kỳ công trình nào trước đây. Các kết quả sử dụng tham khảo đã được
trích dẫn đầy đủ và theo đúng quy định.
Hà nội, ngày 10 tháng 6 năm 2017
Tác giả

Đặng Thái Sơn


LỜI CÁM ƠN

Để hoàn thành được luận án này, tôi xin gửi lời biết ơn sâu sắc đến các
Thày cô trong bộ môn Điện tử và Kỹ thuật máy tính, Viện Điện tử–Viễn
thông đã hỗ trợ, giúp đỡ và động viên tôi trong suốt quá trình làm luận án
tiến sĩ tại Trường Đại học Bách khoa Hà Nội. Tôi gửi lời cám ơn đến người
hướng dẫn, PGS. Hoàng Mạnh Thắng, người chỉ bảo và định hướng cho tôi
trong quá trình nghiên cứu. Tôi cũng xin gửi lời cám ơn đến PGS. Santo
Banerjee về những bàn luận quan trọng cho luận án này.
Xin cám ơn rất nhiều
Hà Nội, ngày 10 tháng 6 năm 2017


MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT


v

DANH MỤC HÌNH VẼ

vii

DANH MỤC BẢNG

xi

DANH MỤC CÁC KÝ HIỆU

xii

MỞ ĐẦU

1

Chương 1:

TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI

6

1.1. Giới thiệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.2. Bối cảnh lịch sử . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


7

1.3. Các đặc trưng âm thanh và các loại tín hiệu tiếng nói . . . . . . . . . . . .

8

1.4. Các đặc trưng phức tạp của nhận dạng tiếng nói . . . . . . . . . . . . . . . .

10

1.5. Ảnh hưởng của nhiễu trong nhận dạng tiếng nói . . . . . . . . . . . . . . . .

12

1.6. Phát hiện hoạt động tiếng nói (VAD) . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

1.7. Nghiên cứu xử lý tín hiệu phi tuyến tính . . . . . . . . . . . . . . . . . . . . . . . .

17

1.8. Nhận dạng tiếng nói tuyến tính và phi tuyến tính . . . . . . . . . . . . . . .

18

1.9. Xác định các điểm kết thúc của tín hiệu tiếng nói . . . . . . . . . . . . . . .

20


1.10. Miền thời gian và miền tần số-thời gian . . . . . . . . . . . . . . . . . . . . . . . .

22

1.11. Mô hình Markov ẩn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

1.12. Kết luận. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

i


ii

Chương 2:

KHẢO SÁT SỰ PHỨC TẠP TRONG CÁC HỆ THỐNG

NGẪU NHIÊN VÀ CÁC TÍN HIỆU TIẾNG NÓI

27

2.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

2.2. Lô tái xuất và các đo lường . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


31

2.2.1. Lô tái xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

31

2.2.2. Entropy của lô tái xuất trọng số . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

2.3. Đánh giá độ phức tạp của tín hiệu tiếng nói ứng dụng lô tái xuất 33
2.3.1. Lô tái xuất trọng số của hệ thống có tác động bởi tín hiệu nhiễu .
34
2.4. Ứng dụng của phương pháp đồng bộ trong phân tích đặc tính động
của tín hiệu tiếng nói . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

40

2.4.1. Phân tích sai số đồng bộ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

2.4.2. Tái xuất trung bình điều kiện (Mean Conditional Recurrence–
MCR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
2.4.3. Xác định các hệ thống điều khiển–phản hồi bằng điều kiện tái xuất
trung bình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43


2.5. Nhận dạng tín hiệu tiếng nói ứng dụng không gian pha tái tạo . .

45

2.5.1. Lợi ích của tính động phi tuyến cho xử lý tín hiệu . . . . . . . . . . .

45

2.6. Thu thập tín hiệu tiếng nói . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

2.7. Kỹ thuật nhận dạng hoạt động tiếng nói . . . . . . . . . . . . . . . . . . . . . . . .

48

2.8. Phân tích tần số và thời gian–tần số . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49

2.9. Sự tái tạo không gian pha và các đặc tính động tái xuất phi tuyến của
tiếng nói . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

51


iii

2.10. Ứng dụng của các đặc tính động tái xuất với nhận dạng tín hiệu tiếng

nói . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52

2.11. Kết luận. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

Chương 3:

ĐỀ XUẤT PHƯƠNG PHÁP PHÁT HIỆN TIẾNG NÓI56

3.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

3.1.1. Khái quát chung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

3.1.2. Hệ thống VAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

59

3.1.3. Mục tiêu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

59

3.1.4. Phương pháp đánh giá thuật toán VAD . . . . . . . . . . . . . . . . . . . . .


60

3.2. Các phương pháp VAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

3.2.1. VAD dựa trên tỉ lệ cắt qua không và năng lượng tín hiệu [7] .

61

3.2.2. VAD dựa trên năng lượng tuyến tính (LED) [112] . . . . . . . . . . .

63

3.2.3. VAD dựa trên năng lượng tuyến tính thích nghi [112] . . . . . . .

64

3.2.4. VAD dựa trên nhận dạng mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

3.2.4.1. Số lần về không . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

3.2.4.2. Logarit-năng lượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65


3.2.4.3. Hệ số tự tương quan chuẩn hóa. . . . . . . . . . . . . . . . . . . . . . . . . . . .

66

3.2.4.4. Hệ số dự đoán đầu tiên. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67

3.2.4.5. Sai số dự đoán chuẩn hóa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67

3.2.4.6. Tính toán khoảng cách . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

68

3.2.4.7. Quá trình thực thi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

3.2.5. VAD dựa vào đo lường thống kê [17, 18]. . . . . . . . . . . . . . . . . . . . .

70

3.3. Phương pháp đánh giá hiệu quả thuật toán VAD. . . . . . . . . . . . . . . .

74

3.3.1. Các tham số mục tiêu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


74


iv

3.4. Phương pháp thu thập dữ liệu và bộ dữ liệu AURORA. . . . . . . . . .

75

3.5. Đề xuất đặc trưng và phương pháp VAD mới . . . . . . . . . . . . . . . . . . .

77

3.5.1. Phương pháp tính với cửa sổ dịch một mẫu . . . . . . . . . . . . . . . . .

78

3.5.2. Phương pháp tính đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

79

3.5.3. Phương pháp tính đặc trưng Tp . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

80

3.5.4. Phương pháp tính đặc trưng tổng hợp Sp và xác định endpoint . .
80
3.6. Đánh giá phương pháp mới trên các tín hiệu tiếng nói khác nhau 81
3.6.1. Đánh giá trên các tín hiệu tiếng nói khác nhau không có tạp âm .
81

3.6.2. Ứng dụng trên các tín hiệu tiếng nói khác nhau có tạp âm . .

82

3.7. So sánh và đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

3.7.1. So sánh với các phương pháp đã có . . . . . . . . . . . . . . . . . . . . . . . . .

90

3.8. Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

94

KẾT LUẬN

95

Danh mục các công trình công bố

97


DANH MỤC CÁC TỪ VIẾT TẮT

VIẾT TẮT TIẾNG ANH

TIẾNG VIỆT


AMI

Average mutual information

Thông tin tương hỗ trung bình

ApEn

Approximate entropy

Entropy xấp xỉ

AR

Auto-regression

Tự động hồi qui

ASR

Automatic speech recognition

Nhận dạng tiếng nói tự động

CASA

Computational auditory

Phân tích ngữ cảnh


scene analysis

âm thanh thông qua tính toán

CML

Cepstral mean normalization

Chuẩn hóa trung bình Cepstral

CS

Complete synchronization

Đồng bộ hoàn chỉnh

ECG

Electrocardiogram

Tín hiệu điện tim

EEG

Electroencephalogram

Tín hiệu điện não

EMG


Electromyogram

Tín hiệu điện cơ

EOG

Electrooculogram

Tín hiệu nhãn đồ

FEC

Front End Clipping

Cắt phía trước

FFT

Fast Fourier Transform

Biến đổi Fourier nhanh

FNN

False nearest neighbor

Lân cận gần nhất sai

GS


Generalized synchronization

Đồng bộ tổng quát

HCI

Human computer interface

Giao tiếp người máy

HMM

Hidden Markov model

Mô hình Markov ẩn

ICA

independent component analysis

Phân tích thành phần độc lập

JRP

Joint Recurrence Plot

Bảng hợp tái xuất

LE


Lyapunov Exponent

Lũy thừa Lyapunov

LS

Lorenz-Stenflo

Hệ thống động Lorenz-Stenflo

LPC

Linear predictive coding

Mã hóa dự báo tuyến tính

LRT

Likelihood ratio test

Kiểm tra tỷ lệ khả năng

MSC

Mid – Speech Clipping

Cắt giữa tiếng nói

MCR


Mean Conditional Recurrence

Tái xuất có điều kiện trung bình

v


vi

MEG

Magnetoencephalogram

Tín hiệu từ não

MFCC

Mel-Frequency

Hệ số Cepstrum tần số Mel

Cepstrum Coefficient
NPD

Normal probability distribution

Phân bố xác suất chuẩn

NSE


Normalized synchronization error

Lỗi đồng bộ được chuẩn hóa

OVER

Over Hang

Phần nhô ra

RASTA

Relative spectral processing

Xử lý phổ tương đối

RP

Recurrence plots

Lô tái xuất

PDF

Probability density function

Hàm phân bố mật độ xác suất

PLP


Perceptual Linear Prediction

Dự đoán cảm nhận tuyến tính

SampEn

Sample entropy

Entropy mẫu

SNR

Signal-to-noise Ratio

Tỷ lệ tín hiệu và nhiễu

SR

Speech recognition

Nhận dạng tiếng nói

STE

Short time energy

Năng lương trong
khoảng thời gian ngắn


TEO

Teager energy operator

Toán tử năng lượng Teager

VAD

Voice activity detection

Phát hiện hoạt động âm thanh

ZCAE

Zero-crossing amplitude estimation Ước lượng biên độ cắt không

WRP

Weighted recurrence plot

Lô tái xuất theo trọng số

WRPE

Entropy of the WRP

Entropy của lô tái xuất


DANH MỤC HÌNH VẼ


1.1

Mô hình nguồn kênh cho một hệ thống nhận dạng tiếng nói . . . . 7

1.2

Lọc nguồn của tín hiệu tiếng nói . . . . . . . . . . . . . . . . . . . . 9

1.3

Mô hình hóa môi trường thêm nhiễu và lọc bằng kênh tuyến tính . 15

1.4

Phát hiện tiếng nói . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.5

Tái tạo không gian pha của tín hiệu tiếng nói . . . . . . . . . . . . 19

1.6

Các tham số biến đổi cho các loại nhiễu khác nhau và tín hiệu
tiếng nói được thu liên tục [115] . . . . . . . . . . . . . . . . . . . . 22

1.7

Xác suất chuyển dịch . . . . . . . . . . . . . . . . . . . . . . . . . . 25


1.8

Xác suất chuyển dịch và phân bố xác suất đầu ra . . . . . . . . . . 26

2.1

Lô tái xuất của hệ thống Lorenz [62] . . . . . . . . . . . . . . . . . 32

2.2

Phổ năng lượng trong các trường hợp . . . . . . . . . . . . . . . . . 35

2.3

Hình chiếu hai chiều của không gian pha của LS với các biến x1 , x4 .

2.4

lô tái xuất trọng số cho hệ thống LS 4 chiều . . . . . . . . . . . . . 38

2.5

Lô WRPE H(r) cho r = 26 với tham số r của hệ thống LS bố chiều

2.6

Đồ thị WRPE H(α1 , α2 ) với r = 26 phụ thuộc vào tham số α1 , α2 . . 40

2.7


Mô tả những thay đổi trong quan hệ sai số đồng bộ (SE) và hệ

37
39

số ghép C theo thời gian. . . . . . . . . . . . . . . . . . . . . . . . . 42
2.8

Biểu đồ ∆(MCR) đối với cường độ liên kết C trong đồng bộ hệ
thống LS bị gây nhiễu bởi tạp âm, tín hiệu âm nhạc và tổ hợp tín
hiệu âm nhạc, tiếng nói. . . . . . . . . . . . . . . . . . . . . . . . . 44

2.9

Tiếng nói và đường bao phổ năng lượng trong các điều kiện khác
nhau. Đường màu hồng biểu diễn trung bình đầu tiên Y1 . . . . . . . 49

2.11 Mỗi tín hiệu được chia nhỏ bằng cửa sổ Hamming có chiều dài 256.

50

2.10 Mỗi tín hiệu được chia nhỏ bằng cửa sổ Hamming có chiều dài 256.

50

2.12 Mỗi tín hiệu được chia nhỏ bằng cửa sổ Hamming có chiều dài 256.

51

vii



viii

2.13 Tín hiệu tiếng nói trong các điều kiện khác nhau và lô tái xuất
của chúng. Trong mỗi trường hợp, ǫ được tính bằng ǫ = 0, 1 ×
Std(speech). Tín hiệu có chiều dài khác nhau. . . . . . . . . . . . . 53
2.14 Các đường màu xanh lam biểu diễn RR(k) cho tiếng nói của
một người trong môi trường không tạp âm. Các đường màu đỏ
biểu diễn RR(k). Các đường xanh lam cho thấy phân bố xác
suất chuẩn tắc của RR(k) cho tiếng nói của một người trong môi
trường không tạp âm. Các đường màu đỏ biểu diễn phân bố xác
suất chuẩn tắc của RR(k) cho tiếng nói giống nhau của cùng một
người trong các điều kiện khác nhau. Các màu xanh và đỏ biểu
thị hai người khác nhau. . . . . . . . . . . . . . . . . . . . . . . . . 54
3.1

Sơ đồ khối của một VAD . . . . . . . . . . . . . . . . . . . . . . . . 59

3.2

Sơ đồ thực thi, so sánh và đánh giá các thuật toán VAD . . . . . . 60

3.3

Sơ đồ khối cho VAD dựa trên tỉ lệ về không và đo năng lượng [7]

3.4

Hàm phân bố xác suất đo số điểm về không [5] . . . . . . . . . . . 65


3.5

Hàm mật độ xác suất của đại lượng năng lượng [5] . . . . . . . . . 66

3.6

Hàm mật độ xác suất của hệ số tự tương quan chuẩn hóa [5] . . . . 67

3.7

Hàm phân bố xác suất của hệ số LPC đầu tiên . . . . . . . . . . . 68

3.8

Hàm mật độ xác suất của sai số đại lượng LPC . . . . . . . . . . . 68

3.9

Sơ đồ khối VAD dựa trên phương pháp nhận dạng mẫu [5]. . . . . . 69

. 62

3.10 Sơ đồ khối của phương pháp VAD dựa trên thống kê đo lường. . . . 72
3.11 Các tham số mục tiêu [9]. . . . . . . . . . . . . . . . . . . . . . . . 75
3.12 Quan hệ Log-Log của nhiễu lũy thừa. . . . . . . . . . . . . . . . . . 76
3.13 Tuyến tính hóa tín hiệu

. . . . . . . . . . . . . . . . . . . . . . . . 77


3.14 Phương pháp dịch cửa sổ nhiều mẫu . . . . . . . . . . . . . . . . . 78
3.15 Phương pháp dịch cửa sổ một mẫu . . . . . . . . . . . . . . . . . . 78
3.16 Phương pháp dùng bộ lọc làm trơn tam giác . . . . . . . . . . . . . 79
3.17 Phương pháp dùng bộ làm mượt tam giác dịch cửa sổ một mẫu . . 79
3.18 Tín hiệu, giá trị trung bình và đường bao đặc trưng . . . . . . . . . 81
3.19 Quan hệ Log-Log phổ năng lượng của tín hiệu nhiễu. Đường màu
xanh chỉ độ dốc (β) của các giá trị trung bình của log(S(f ). . . . . 82
3.20 Tín hiệu loại I, giá trị trung bình và đường bao năng lượng của
nhiễu với cường độ nhiễu là c = 0.002 cho cả hai trường hợp . . . . 83


ix

3.21 Tín hiệu loại II, giá trị trung bình và đường bao năng lượng của
nhiễu với cường độ nhiễu là c = 0.002 cho cả hai trường hợp . . . . 83
3.22 Tín hiệu tiếng nói màu xanh, các đường bao năng lượng có màu
đỏ, tím và xanh lá. Gía trị c = 0.005 được chọn. . . . . . . . . . . . 84
3.23 Tương quan chéo của đường bao năng lượng với trễ trong khoảng
[−20000, 20000]. Các đường đỏ và đen biểu diễn các tương quan
chéo. Phần được phóng to biểu diễn các giá trị tương quan chéo
với trễ trong khoảng [−50, 50]. . . . . . . . . . . . . . . . . . . . . . 85
3.24 Tín hiệu tiếng nói màu xanh, các đường bao năng lượng có màu
đỏ, tím và xanh lá. Gía trị c = 0.005 được chọn. . . . . . . . . . . . 85
3.25 Tín hiệu, đường bao năng lượng của tín hiệu tiếng nói loại I và
loại II trong môi trừng không tạp âm. Đường màu xanh lá cây
được sinh ra từ phương pháp chúng tôi đề xuất và đường màu đỏ
là kết quả của phương pháp trong [74]. . . . . . . . . . . . . . . . . 86
3.26 Tín hiệu loại I và đường bao năng lượng của tín hiệu trong các
môi trường có nhiễu khác nhau. . . . . . . . . . . . . . . . . . . . . 87
3.27 Đồ thị tương quan chéo giữa tiếng nói loại I không có tạp âm

và có tạp âm lần lượt trong ô tô và sân bay. Cột màu biểu diễn
giá trị tương quan chéo. Các cột màu được tính lag trong đoạn
[−2000; 2000] và cho thời tian t = 1, 2, . . . , 15000. . . . . . . . . . . 88
3.28 t và x(t) biểu diễn tín hiệu gốc (đường xanh lá cây) và đường bao
năng lượng Teager (xanh lam) theo thời gian. Tín hiệu được trích
từ đối tượng loại I không có tạp âm. . . . . . . . . . . . . . . . . . 88
3.29 Hiệu quả của phương pháp được đề xuất được so với các phương
pháp khác. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.30 Tín hiệu tiếng nói màu xanh, các đường bao năng lượng có màu
đỏ, tím và xanh lá. Giá trị c = 0.005 được chọn. . . . . . . . . . . . 91
3.31 Tương quan chéo của đường bao năng lượng với trễ trong khoảng
[−20000, 20000]. Các đường đỏ và đen biểu diễn các tương quan
chéo. Phần được phóng to biểu diễn các giá trị tương quan chéo
với trễ trong khoảng [−50, 50]. . . . . . . . . . . . . . . . . . . . . . 91
3.32 Theo trục x, chúng tôi xét đến số lượng các cực đại và cực tiểu
liên tiếp. Tổng số cực trị được tính từ các đường bao năng lượng
theo biểu thức (3.33). Giá trị c = 0.005 được chọn.

. . . . . . . . . 92


x

3.33 Các phần của tín hiệu x(t) và đường bao năng lượng tính theo
phương pháp đề xuất. Giao điểm của tín hiệu tiếng nói và đường
thẳng đứng màu hồng biểu diễn các điểm kết thúc. . . . . . . . . . 93
3.34 Đường bao entropy cho phương pháp đã có (màu vàng) và phương
pháp được đề xuất (màu xanh). Bản phóng to với các điểm màu
tìm biểu diễn điểm kết thúc được xác định bằng 2 phương pháp. . . 93
3.35 So sánh phương pháp VAD . . . . . . . . . . . . . . . . . . . . . . . 94



DANH MỤC BẢNG

2
σnew
2
σold

3.1

Giá trị của p phụ thuộc vào

3.2

Tham số cho việc thực thi VAD [18]. . . . . . . . . . . . . . . . . . 73

xi

[112]. . . . . . . . . . . . . . . . . 64


DANH MỤC CÁC KÝ HIỆU

Ký hiệu

Ý nghĩa

1



nhiễu màu

Chương 1
ν

chiều tương quan

ǫ

bán kính của cầu trong không gian nhiều chiều

ω

tần số

C(ǫ, N )

tổ hợp tương quan

Chương 2
C

hệ số cường độ ghép đồng bộ

a, b, c, r

tham số hệ thống động

d, τ


tham số không gian pha nhúng

a,X, Y

biểu diễn véc-tơ

XY
Ri,j , Wij , JRij

tái xuất

RR(k)

cửa sổ tái xuất

H

Shannon Entropy

p, P r

xác suất

mi , V i

tín hiệu tác động

ni


tạp âm màu bậc βi

si

cường độ trọng số trong tái xuất trọng số

αi

hệ số cường độ ghép tác động của tạp âm

xii


xiii

Chương 3
s

tín hiệu tiếng nói không chứa tạp âm

n

tín hiệu tạp âm

x

tín hiệu tiếng nói có chứa tạp âm

Zn


số điểm cắt không

sgn[.]

hàm xác định dấu

E

năng lượng của tín hiệu

σ2

phương sai

Wi

ma trận hiệp phương sai

mi

véc-tơ trung bình

di

khoảng cách đo lường dùng cho phân loại

P

mật độ phổ công suất


P

kỳ vọng công suất

η

mức ngưỡng


MỞ ĐẦU

Năm mươi năm trở lại đây, lĩnh vực xử lý tín hiệu ngày càng được quan tâm
trong cộng đồng khoa học và được ứng dụng mang lại những lợi ích. Trong lĩnh
vực xử lý tín hiệu tiếng nói, đa số nghiên cứu đưa ra một số quá trình nhận
dạng dựa trên miền không gian, thời gian và tần số. Có các công trình nghiên
cứu đưa ra các ứng dụng của lĩnh vực động học phi tuyến vào nhận dạng tiếng
nói. Cho tới nay, động học phi tuyến và hỗn loạn cho thấy có những phép đo
lường và đánh giá hiệu quả trong lĩnh vực xử lý tín hiệu [84, 109]. Luận án này
đề cập đến nghiên cứu về tín hiệu giọng nói và các tín hiệu khác cũng như các
đánh giá định lượng dưới góc nhìn của lý thuyết phi tuyến.
1. Các phương pháp và công cụ được dùng để phân tích
Luận án này được nghiên cứu dựa vào các phương pháp:
• Tái tạo không gian pha: Tái tạo không gian pha là công cụ hữu ích để xấp
xỉ động học của bất cứ chuỗi thời gian nào. Ở đây, tái tạo không gian pha
được dùng để khám phá các tham số động học của tín hiệu tiếng nói.
• Đại lượng entropy và sự phức tạp: Sự phức tạp đóng vai trò quan trọng
trong việc hiểu bản chất của nguồn thông tin dựa trên những phân tích và
đánh giá về sự bất ổn định trong chuỗi thời gian quan sát được. Nó được
áp dụng vào việc định lượng các tham số động học của tín hiệu tiếng nói,
khi mà tín hiệu tiếng nói được xem như là tín hiệu được sinh ra từ một hệ

thống động.
• Đại lượng đo tương quan và lũy thừa Lyapunov: Các công cụ này rất hữu
hiệu trong lĩnh vực động học phi tuyến. Chúng được dùng để phân tách và
đánh giá các đặc trưng của tín hiệu tiếng nói.
• Phương pháp phát hiện tiếng nói: Hoạt động tiếng nói có thể được phát
hiện dùng phương pháp phân tích như phổ tín hiệu và cắt qua không.... Nó
giúp phân tách tín hiệu hữu thanh và vô thanh/nhiễu sau khi áp dụng kỹ
thuật phát hiện tiếng nói một cách thích hợp.
1


2

2. Mục tiêu nghiên cứu
Nghiên cứu này nhằm đến các mục đích sau:
• Phân tích các tín hiệu tiếng nói được ghi âm trong những điều kiện khác
nhau, sử dụng các công cụ có sẵn để định lượng các thành phần động học
như phổ công suất, phân tích lũy thừa Lyapunov, tương quan chéo, phân
tích dựa trên tính hồi quy và tái tạo không gian pha.
• Đánh giá mức độ phức tạp thông qua đo lường, đánh giá các tham số động
học vốn có của hệ thống động học qua phân tích tín hiệu và định lượng sự
bất ổn định trong chuỗi thời gian.
• Đề xuất phương pháp mới hữu hiệu và khả thi để phát hiện thời điểm đầu
và kết thúc của âm hữu thanh được phát ra trong các tín hiệu tiếng nói với
cường độ âm thanh và độ dài của các từ là bất kỳ.
4. Tình hình nghiên cứu trong và ngoài nước
Trong nước:
Hệ thống xử lý và nhận dạng tiếng Việt cũng được nghiên cứu ở một số nhóm
như AILab [3] thuộc Trường Đại học Khoa học Tự nhiên TP HCM, Phòng giao
tiếp tiếng nói thuộc viện MICA [72] nằm trong Đại học Bách khoa Hà Nội, nhóm

nghiên cứu về tiếng nói thuộc Viện Công nghệ Thông tin (Viện Khoa học và
Công nghệ Việt Nam). Các sản phẩm như VietVoice [126], VSpeech [128].
Ngoài nước:
Ngày nay, nhu cầu thông tin luôn gia tăng và tương tác người máy (HCI)
từ đó cũng tăng theo. Một số tiếp cận cho HCI thông qua việc phân tích tín
hiệu điện não (EEG), phân tích tín hiệu tiếng nói và phân tích cử chỉ của
con người. Trong số đó, các tương tác thông qua tiếng nói và cử chỉ [80] của
người không đòi hỏi phải gắn thiết bị lên cơ thể một cách cố định, trong khi
đó tín hiệu EEG được ghi thông qua các điện cực gắn lên da. Việc nghiên cứu
tín hiệu tiếng nói cho giao tiếp người máy được phát triển mạnh trong những
năm gần đây [16, 40, 63, 90]. Có nhiều công trình nghiên cứu liên quan đến
nhận dạng tiếng nói và đạt được các kết quả đáng kể dùng cho ứng dụng thực
tế [4, 45, 67]. Ví dụ, các hệ thống nhận dạng tiếng nói cho tiếng Anh như Via
Voice [28] được đưa ra bởi IBM, Spoken Toolkit [123] được đưa ra bởi Central of


3

Spoken Language Understanding, Speech Recognition [73] đưa ra bởi Microsoft,
Hidden Markov Model toolkit [133] được đưa ra bởi Đại học Cambridge, CMU
Sphinx [118] được đưa ra bởi Đại học Carnegie Mellon... Bên cạnh đó, các hệ
thống nhận dạng tiếng Pháp, Đức, Trung Quốc, tiếng Việt...cũng được phát
triển.
Mặc dù đã có các phương pháp và kỹ thuật nhận dạng tiếng Việt, nhưng
chúng được nhìn ở các góc độ khác nhau ngoại trừ góc nhìn của lý thuyết phi
tuyến tính. Hơn nữa, hầu hết các nghiên cứu dựa vào sử dụng các phương pháp
tuyến tính để phân tích các đặc trưng của thành phần tần số cơ bản F0 .
5. Những đóng góp của Luận án
Luận án có một số đóng góp như sau:
• Tìm ra được sự thay đổi trong mức độ phức tạp của hệ thống động ngẫu

nhiên được sinh ra bởi tác động của tín hiệu phi tuyến hoặc bởi nhiễu.
Sự thay đổi này được đánh giá thông qua entropy của sơ đồ tái xuất theo
trọng số. Toàn bộ hệ thống trở thành mô hình ngẫu nhiên dưới tác động
của nhiễu ngoài, tác động của tín hiệu giọng nói và các tín hiệu âm nhạc.
Các ảnh hưởng có thể được định lượng bằng cách đánh giá sự phức tạp (đại
lượng đo lường entropy) hoặc bằng những phân tích dựa trên tái xuất trọng
số. Những nghiên cứu về phương pháp tần số, thời gian-tần số và động học
tái xuất phi tuyến cũng được đưa ra. Để có được thông tin chính xác, việc
xây dựng đường bao năng lượng được đề xuất. Đường bao năng lượng được
dùng để phân loại hiệu quả giữa phần tín hiệu có giọng nói và phần tín hiệu
không có giọng nói. Bằng cách áp dụng các kỹ thuật tần số, thời gian-tần
số, lọc thông tin không thích hợp để nhận ra phần tín hiệu có tiếng nói. Sau
đó, động học (tái xuất) phi tuyến được áp dụng để mô tả chuyển động cục
bộ của quĩ đạo trong không gian pha tái tạo từ tín hiệu giọng nói. Đo lường
đánh giá những chuyển động cục bộ bằng tốc độ cửa sổ tái xuất được thực
hiện. Nó cũng cho thấy rằng phân bố xác suất chuẩn của tốc độ tái xuất
cửa sổ có thể được ứng dụng thành công trong việc mô tả sự tương đồng và
sự không tương đồng giữa các tín hiệu giọng nói thậm chí trong môi trường
có nhiễu. Do đó, phân bố xác suất chuẩn của tốc độ tái xuất cửa sổ là một
trong những phép đo lường để nhận dạng mẫu tín hiệu giọng nói.


4

• Các bước cơ bản trong xử lý tín hiệu là phát hiện phần tín hiệu có tiếng
nói và phần không có tiếng nói. Đề xuất phương pháp phân tích VAD dựa
trên đường bao vi phân trung bình của tín hiệu tiếng nói được đưa ra. Việc
phân tích được thực hiện trong miền thời gian và có tốc độ xử lý nhanh
tương đối so với các phương pháp phân tích hiện nay trong miền thời gian.
Phương pháp này có khả năng phân tích tốt trong điều kiện tín hiệu tiếng

nói có nhiễu. Đề xuất phương pháp phát hiện phần tín hiệu có giọng nói
và phần không có giọng nói dựa trên tính toán trung bình đường bao cực
trị (cực đại và cực tiểu) cục bộ của tín hiệu tiếng nói. Phương pháp này
được thực hiện trên miền thời gian và không phụ thuộc vào người nói. Mô
hình đề xuất được kiểm chứng với các tín hiệu thực tế và các tín hiệu có
tác động nhiễu không ổn định. Việc kiểm chứng hiệu quả của phương pháp
đề xuất được so sánh với các phương pháp thực hiện trong miền thời gian
được đưa ra trước đây.
6. Cấu trúc của Luận án
Luận án này gồm hai phần, phần đầu là giới thiệu tổng quan về lĩnh vực có
liên quan đến đề tài và phần thứ hai là chi tiết nội dung nghiên cứu. Cụ thể,
cấu trúc Luận án như sau:
Chương 1 nói về thông tin liên quan đến nhận dạng tiếng nói. Ở Chương này,
các nội dung liên quan đến đặc trưng của tín hiệu tiếng nói được trình bày; Sự
phức tạp trong tín hiệu tiếng nói được ứng dụng trong nhận dạng; Ảnh hưởng
của nhiễu vào kết quả nhận dạng tiếng nói; Khái niệm tổng quát và các phương
pháp về phát hiện tiếng nói (VAD); Phương pháp phân tích phi tuyến ứng dụng
trong nhận dạng tiếng nói; Vấn đề xác định điểm đầu điểm cuối trong tín hiệu
tiếng nói; Các phân tích tiếng nói theo miền thời gian và miền tần số-thời gian.
Chương 2 đi khảo sát và phân tích sự phức tạp của tín hiệu tiếng nói trong
điều kiện có nhiễu và không có nhiễu dưới góc nhìn phi tuyến. Ở đây, động học
của tín hiệu tiếng nói được nghiên cứu trong điều kiện có nhiễu tương quan
mạnh. Các phép đại lượng entropy được sử dụng ở đây để hiểu thấu đáo về sự
phức tạp của hệ thống và cũng được xem là công cụ xử lý tín hiệu. Sự phức tạp
của hệ thống động hỗn loạn mạnh được nghiên cứu, trong đó hệ thống động bị
tác động mạnh bởi nhiễu và các tín hiệu tiếng nói hoặc tín hiệu âm nhạc. Sự
phức tạp được đo lường bởi đại lượng entropy tái xuất có trọng số cho các hệ


5


thống hỗn loạn này. Hiện tượng đồng bộ giữa hai hệ thống ngẫu nhiên với tín
hiệu (ghép phức) cũng được nghiên cứu. Các tiêu chí này được kiểm tra trên các
hệ thống hỗn loạn và hệ thống hỗn loạn có tác động qua lại thông qua sai số
đồng bộ chuẩn hóa và tái xuất có điều kiện. Các kết quả mô phỏng số và thực
nghiệm trên tín hiệu thực tế cho thấy hiệu quả của phương pháp phân tích được
đề xuất. Nhận dạng các tín hiệu giọng nói trong các điều kiện có nhiễu lớn và
nhiễu tương quan được nghiên cứu. Hai trường hợp được xem xét là:(i) các tín
hiệu tiếng nói của cùng một người trong các điều kiện nhiễu khác nhau, và (ii)
tín hiệu tiếng nói của những người khác nhau trong điều kiện có nhiễu. Kết quả
phân tích cho thấy không thể nhận ra các tín hiệu tiếng nói nêu trên bằng cách
sử dụng các phương pháp thông thường, như dựa trên tần số và thời gian-tần số,
trong trường hợp nhiễu và tín hiệu tiếng nói có tương quan lớn. Phương pháp
nhận dạng và phân biệt các mẫu của chúng trong cả hai trường hợp bằng cách
dùng động học tái xuất phi tuyến được đề xuất ở đây. Các kết quả thực nghiệm
cho thấy hiệu quả của phương pháp phân tích được đề xuất.
Chương 3 nói về hai đề xuất gồm (i) đề xuất phương pháp dùng cho phát hiện
hoạt động giọng nói và (ii) đề xuất phương pháp đo lường nhằm phát hiện điểm
đầu - cuối của tín hiệu tiếng nói trong miền thời gian. Phương pháp đề xuất
thực hiện phân tích dựa trên sự hoạt động của đường bao vi phân của tín hiệu
tiếng nói. Các phương pháp đề xuất có tốc độ tính toán nhanh và chính xác khi
được so sánh với các phương pháp trước đây. Ở đề xuất thứ hai, phương pháp
này đã làm nổi bật đặc trưng mức độ cao thấp và chỉ ra điểm kết thúc dùng hai
tham số trong miền thời gian. Các kết quả thực nghiệm cho thấy rằng phương
pháp phát hiện hoạt động giọng nói này làm việc tốt trong các trường hợp có
các loại nhiễu khác nhau. So sánh với các phương pháp trước đây, phương pháp
đo lường được đề xuất ở đây đơn giản hơn và có thể áp dụng cho các ứng dụng
thực tế.
Phần cuối cùng của Luận án là các kết luận và những công việc tiếp theo sẽ
được thực hiện trong tương lai.



Chương 1
TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI

1.1. Giới thiệu
Nhận dạng tiếng nói (Speech Recognition) là một công nghệ nổi bật, ảnh hưởng
đến sự hội tụ của ngành công nghiệp điện thoại, máy thu hình và máy tính.
Công nghệ nhận dạng tiếng nói được phát triển từ những năm 50 của thế kỉ 20,
các nhà nghiên cứu trong các lĩnh vực tâm lý, ngôn ngữ, kĩ thuật điện tử, kĩ
thuật máy tính bắt đầu nghiên cứu lĩnh vực này. Tuy nhiên, có nhiều cách tiếp
cận khác nhau cho việc nhận dạng tiếng nói, nhưng chưa thật hiệu quả vì các
lí do như chi phí, tài nguyên máy tính, thiếu các tiêu chuẩn chung để tích hợp
nhận dạng tiếng nói với các phần mềm ứng dụng.
Tiếng nói được định nghĩa là âm thanh được phát ra dùng để giao tiếp giữa
con người. Quá trình học tiếng diễn ra một cách tự nhiên và kéo dài suốt cuộc
đời. Điều đặc biệt ở đây là con người không nhận thấy được độ phức tạp trong
cấu trúc liên kết của quá trình này. Cấu trúc thanh quản và bộ phận tạo âm
của con người là cơ quan sinh học có đặc tính phi tuyến rất cao, những bộ phận
này hoạt động không được điều khiển một cách có ý thức nhưng bị ảnh hưởng
bởi một vài yếu tố thay đổi từ giới tính đến trình độ giáo dục cũng như vùng
miền và trạng thái cảm xúc. Do vậy, phát âm có thể bị biến đổi rất rộng với các
điều kiện như giọng, phát âm, cách phát âm, âm mũi, độ cao, âm lượng và tốc
độ. Ngoài ra, trong quá trình phát âm, những kiểu phát âm khác thường có thể
bị méo nhiều hơn do nhiễu nền và tiếng vang cũng như các đặc tính điện của
các thiết bị điện tử. Tất cả sự biến đổi này làm cho việc nhận dạng và đồng bộ
tiếng nói trở thành vấn đề rất phức tạp.
Để định nghĩa quá trình nhận dạng tiếng nói một cách chính xác, Luận án
sử dụng các nội dung sau:
• Nhận dạng tiếng nói là quá trình biến đổi tín hiệu tiếng nói sang dạng trực

giao có thể nhận dạng.
6


7

• Nhận dạng tiếng nói tự động (Automatic speech recognition–ASR) được
định nghĩa là máy tính trích xuất bản sao của ngôn ngữ nói sang dạng văn
bản. Nhận dạng tiếng nói tự động là một công cụ cho phép máy tính có thể
xác định những từ mà người nói vào microphone hoặc điện thoại và biến
đổi chúng sang dạng văn bản.
Mô hình nguồn kênh sử dụng cho nhận dạng tiếng nói được minh họa trong
Hình 1.1, được Huang đề xuất năm 2001 [38]. Mặc dù các kĩ thuật khác được
phát triển để nhận dạng tiếng nói từ các hệ thống dựa trên nhận thức cho đến
mạng thần kinh nhân tạo. Thành phần chính đằng sau quá trình này là công
nghệ nổi trội, theo cách tiếp cận thống kê của dữ liệu, được dựa trên mô hình
Markov ẩn.

Hình 1.1: Mô hình nguồn kênh cho một hệ thống nhận dạng tiếng nói

1.2. Bối cảnh lịch sử
Lịch sử của nhận dạng tiếng nói đã có hơn nửa thế kỷ. Dưới ảnh hưởng khả
năng tính toán của máy tính, thuật toán và kĩ thuật tiên tiến, nhận dạng tiếng
nói đã có một bước tiến lớn so với hai thập kỉ trước đây. Cuộc thử nghiệm đầu
tiên để xây dựng những hệ thống cho việc nhận dạng tiếng nói tự động vào năm
1950 dựa trên ngữ âm học.
Năm 1952, tại Phòng thí nghiệm Bell, Davis, Biddulph và Balashek đã xây
dựng một hệ thống nhận dạng số độc lập cho một người nói [19] sử dụng tần số
cộng hưởng được đo/đánh giá trong vùng nguyên âm của mỗi số.
Vào những năm 70 của thế kỉ 20, những nghiên cứu về nhận dạng tiếng nói

đạt được những thành tựu đáng kể. Đầu tiên, trong lĩnh vực tách từ hay nhận
dạng tiếng nói rời rạc đã trở thành hiện thực và công nghệ này dựa trên những
nghiên cứu cơ bản của Liên Xô (cũ) và Nhật Bản. Velich và Zagoruyko ở Liên Xô
(cũ) đã cải tiến ý tưởng sử dụng nhận dạng mẫu để áp dụng vào nhận dạng tiếng
nói [125]. Trong khi đó Sakoe và Chiba cải tiến phương pháp của họ bằng việc


8

sử dụng chương trình động và Itakura khi đang làm việc tại phòng thí nghiệm
Bell đã đề xuất ý tưởng mã hóa dự đoán tuyến tính (Linear Predictive Coding LPC) có thể mở rộng để sử dụng trong hệ thống nhận dạng tiếng nói thông qua
việc sử dụng khoảng cách đo thích hợp dựa trên tham số phổ của LPC [41].
Trong những năm 1980, các hệ thống nhận dạng từ ghép được đề xuất dựa
trên thuật toán liên kết các từ rời rạc cho việc nhận dạng. Hướng quan trọng
nhất là chuyển đổi cách tiếp cận từ nhận dạng mẫu sang mô hình thống kê, đặc
biệt là mô hình Markov (Hidden Markov Model-HMM) [101]. HMM không được
sử dụng rộng rãi trong ứng dụng tiếng nói cho đến giữa những năm 1980.
Cuối những năm của thập kỷ 1980, các mạng thần kinh nhân tạo được đưa
ra để giải quyết các vấn đề trong nhận dạng tiếng nói cho mục đích phân loại
tín hiệu. Để tăng cường hơn nữa năng lực cho các hệ thống nhận dạng tiếng nói,
điển hình là tiếng nói tự phát, việc xác minh lời nói và các phương pháp tin cậy
được tập trung nghiên cứu [57].

1.3. Các đặc trưng âm thanh và các loại tín hiệu tiếng nói
Đặc trưng của âm thanh có được từ việc phân tích tín hiệu tiếng nói được xem
như một nguồn tín hiệu đi qua bộ lọc biến đổi tuyến tính theo thời gian [30, 79,
99]. Hình 1.2 biểu diễn mô hình này, với e[n] là kích thích các mức âm thanh,
h[n] là bộ lọc đường thanh quản và s[n] là tín hiệu tiếng nói phát ra. Việc biểu
diễn đặc tính của âm thanh hiện nay dựa trên mô hình tạo âm thanh. Vì tín
hiệu tiếng nói biến đổi theo thời gian nên các đặc trưng được tính toán theo

từng khung với giả thiết tín hiệu tiếng nói không thay đổi trong mỗi khung. Âm
thanh tiếng nói có thể được đưa ra theo ba trạng thái sau:
• Im lặng: Không có tiếng nói được phát ra.
• Âm vô thanh: Dây thanh quản không rung nên không tạo ra dạng sóng âm
thanh.
• Âm hữu thanh: Dây thanh quản được căng ra và rung một cách tuần hoàn
nên tạo ra dạng sóng gần như tuần hoàn.


×