Tải bản đầy đủ (.pdf) (27 trang)

Luận án tiến sĩ phân tích và phát hiện tiếng nói dựa trên đặc tính động phi tuyến (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.69 MB, 27 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

ĐẶNG THÁI SƠN

PHÂN TÍCH VÀ PHÁT HIỆN TIẾNG NÓI DỰA TRÊN
ĐẶC TÍNH ĐỘNG PHI TUYẾN

Chuyên ngành: Kỹ thuật điện tử
Mã số: 62520203

TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ

HÀ NỘI - 2017


Công trình này được hoàn thành tại
Trường Đại học Bách khoa Hà Nội

Người hướng dẫn khoa học: PGS.TS.Hoàng Mạnh Thắng

Phản biện 1:
Phản biện 2:
Phản biện 3:
Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp trường
họp tại Trường Đại học Bách khoa Hà Nội

vào hồi . . . giờ, ngày . . . tháng . . . năm . . .

Có thể tìm hiểu luận án tại:


1. Thư viện Tạ Quang Bửu, Trường ĐHBK Hà Nội
2. Thư viện Quốc gia Việt Nam


MỞ ĐẦU
Năm mươi năm trở lại đây, lĩnh vực xử lý tín hiệu ngày càng được quan tâm trong
cộng đồng khoa học và ứng dụng bởi những lợi ích mà nó mang lại. Trong lĩnh vực
xử lý tín hiệu tiếng nói, đa số nghiên cứu đưa ra một số quá trình nhận dạng dựa
trên miền không gian, thời gian và tần số, có ít các công trình nghiên cứu đưa ra
các ứng dụng của lĩnh vực động học phi tuyến vào nhận dạng tiếng nói. Cho tới
nay, động học phi tuyến và hỗn loạn cho thấy có những phép đo lường và đánh
giá hiệu quả trong lĩnh vực xử lý tín hiệu [38, 46]. Luận án này đề cập đến nghiên
cứu các tín hiệu giọng nói và các tín hiệu khác cũng như các đánh giá định lượng
dựa trên các kỹ thuật phi tuyến.
1. Các phương pháp và công cụ được dùng để nghiên cứu
Luận án này được nghiên cứu dựa vào các phương pháp:
• Tái tạo không gian pha: Tái tạo không gian pha là công cụ hữu ích để xấp xỉ
động học của bất cứ chuỗi thời gian nào. Tái tạo không gian pha được dùng
để khám phá các tham số động học của tín hiệu tiếng nói.
• Các phép đo lường entropy và sự phức tạp: Sự phức tạp đóng vai trò quan
trọng trong việc hiểu bản chất của nguồn thông tin và sự bất ổn định trong
chuỗi thời gian. Nó được áp dụng hữu hiệu vào việc định lượng các tham số
động học của tín hiệu tiếng nói, khi mà tín hiệu tiếng nói được xem như là
tín hiệu được sinh ra từ một hệ thống động.
• Tương quan và lũy thừa Lyapunov: Các công cụ này rất hữu ích trong lĩnh
vực động học phi tuyến. Chúng được dùng để phân tách tín hiệu tiếng nói.
• Phát hiện tiếng nói: Hoạt động tiếng nói có thể được phát hiện dùng phương
pháp phân tích phổ tín hiệu. Nó sẽ phân tách tín hiệu âm thanh và vô
thanh/nhiễu sau khi áp dụng kỹ thuật lọc tín hiệu một cách thích hợp.
2. Mục tiêu nghiên cứu

Nghiên cứu này nhằm đến các mục đích sau:
• Phân tích các tín hiệu tiếng nói được ghi âm trong những điều kiện khác
nhau, sử dụng các công cụ có sẵn để định lượng các thành phần động học
như phổ công suất, phân tích lũy thừa Lyapunov, tương quan chéo, phân
tích dựa trên tính hồi quy và tái tạo không gian pha.
• Phân tích sự phức tạp thông qua đo lường, đánh giá các tham số động học
vốn có của hệ thống động học qua phân tích tín hiệu và định lượng sự bất
ổn định trong chuỗi thời gian.

1


• Đề xuất phương pháp mới hữu hiệu và khả thi để phát hiện thời điểm đầu
và kết thúc của âm hữu thanh được phát ra trong các tín hiệu tiếng nói với
cường độ âm thanh và độ dài của từ là bất kỳ.
3. Ý nghĩa khoa học và những đóng góp của Luận án
Luận án có một số đóng góp như sau:
• Tìm ra được sự thay đổi trong mức độ phức tạp của hệ thống động ngẫu
nhiên được sinh ra bởi tác động của tín hiệu phi tuyến hoặc bởi nhiễu. Sự
thay đổi này được đánh giá thông qua entropy của sơ đồ tái xuất theo trọng
số. Toàn bộ hệ thống trở thành mô hình ngẫu nhiên dưới tác động của nhiễu
ngoài, tác động của tín hiệu giọng nói và các tín hiệu âm nhạc. Các ảnh
hưởng có thể được định lượng bằng cách đánh giá sự phức tạp (đại lượng
đo lường entropy) hoặc bằng những phân tích dựa trên tái xuất trọng số.
Những nghiên cứu về phương pháp tần số, thời gian-tần số và động học tái
xuất phi tuyến cũng được đưa ra. Để có được thông tin chính xác, việc xây
dựng đường bao năng lượng được đề xuất. Đường bao năng lượng được dùng
để tách bạch hiệu quả giữa phần tính hiệu có giọng nói và phần tín hiệu
không có giọng nói. Bằng cách áp dụng các kỹ thuật tần số, thời gian-tần
số, lọc thông tin không thích hợp để phần tín hiệu có giọng nói có thể được

nhận ra. Sau đó, động học (tái xuất) phi tuyến được áp dụng khi nó mô tả
mọi chuyển động cục bộ của quĩ đạo trong không gian pha tái tạo từ tín hiệu
giọng nói. Đo lường đánh giá những chuyển động cục bộ bằng tốc độ cửa sổ
tái xuất được thực hiện. Nó cũng cho thấy rằng phân bố xác suất chuẩn của
tốc độ tái xuất cửa sổ có thể được ứng dụng thành công trong việc mô tả
sự tương đồng và sự không tương đồng giữa các tín hiệu giọng nói thậm chí
trong môi trường có nhiễu. Do đó, phân bố xác suất thường của tốc độ tái
xuất cửa sổ là một trong những phép đo lường để nhận dạng mẫu tín hiệu
giọng nói.
• Các bước cơ bản trong xử lý tín hiệu là phát hiện phần tín hiệu có tiếng
nói và phần không có tiếng nói. Đề xuất phương pháp phân tích VAD dựa
trên đường bao vi phân trung bình của tín hiệu tiếng nói được đưa ra. Việc
phân tích được thực hiện trong miền thời gian và có tốc độ xử lý nhanh
tương đối so với các phương pháp phân tích hiện nay trong miền thời gian.
Phương pháp này có khả năng phân tích tốt trong điều kiện tín hiệu tiếng
nói có nhiễu. Đề xuất phương pháp phát hiện phần tín hiệu có giọng nói và
phần không có giọng nói dựa trên tính toán trung bình đường bao cực trị
(cực đại và cực tiểu) cục bộ của tín hiệu tiếng nói. Phương pháp này được
thực hiên trên miền thời gian và không phụ thuộc vào người nói. Mô hình
đề xuất được kiểm chứng với các tính hiệu thực cũng như các tín hiệu có tác
động nhiễu không ổn định. Việc kiểm chứng hiệu quả của phương pháp đề
xuất được đưa ra và có so sánh với các phương pháp đã được đưa ra trước
khi thực hiện trong miền thời gian.
2


4. Cấu trúc của Luận án
Luận án này gồm hai phần, phần đầu là giới thiệu tổng quan về lĩnh vực có liên
quan đến đề tài và phần thứ hai là chi tiết nội dung nghiên cứu. Cụ thể, cấu trúc
Luận án này như sau:

Chương 1 nói về thông tin cơ sở liên quan đến nhận dạng tiếng nói. Ở Chương
này, các nội dung liên quan đến đặc trưng của tín hiệu tiếng nói được trình bày;
Sự phức tạp trong tín hiệu tiếng nói được ứng dụng trong nhận dạng; Ảnh hưởng
của nhiễu vào kết quả nhận dạng tiếng nói; Khái niệm tổng quát và các phương
pháp về phát hiện tiếng nói (VAD); Phương pháp phân tích phi tuyến ứng ứng
dụng trong nhận dạng tiếng nói; Vấn đề xác định điểm đầu điểm cuối trong tín
hiệu tiếng nói; Các phân tích tiếng nói theo miền thời gian và miền tần số-thời
gian.
Chương 2 đi khảo sát và phân tích sự phức tạp của tín hiệu tiếng nói trong điều
kiện có nhiễu và không có nhiễu dưới góc nhìn phi tuyến. Ở đây, động học của tín
hiệu tiếng nói được nghiên cứu trong điều kiện có nhiễu tương quan mạnh. Các
phép đo lường entropy được sử dụng ở đây để hiểu thấu đáo về sự phức tạp của hệ
thống và cũng được xem là công cụ xử lý tín hiệu. Sự phức tạp của hệ thống động
hỗn loạn mạnh được nghiên cứu, trong đó hệ thống động bị tác động mạnh bởi
nhiễu và các tín hiệu tiếng nói hoặc tín hiệu âm nhạc. Sự phức tạp được đo lường
bởi entropy tái xuất có trọng số cho các hệ thống hỗn loạn này. Hiện tượng đồng
bộ giữa hai hệ thống ngẫu nhiên với tín hiệu (ghép phức) cũng được nghiên cứu.
Các tiêu chí này được kiểm tra trên các hệ thống hỗn loạn và hệ thống hỗn loạn
có tác động qua lại thông qua sai số đồng bộ chuẩn hóa và tái xuất có điều kiện.
Các kết quả mô phỏng số và thực nghiệm trên tín hiệu thực tế cho thấy hiệu quả
của phương pháp phân tích được đề xuất. Nhận dạng các tín hiệu giọng nói trong
các điều kiện có nhiễu lớn và nhiễu tương quan được nghiên cứu. Hai trường hợp
được xem xét là:(i) các tín hiệu tiếng nói của cùng một người trong các điều kiện
nhiễu khác nhau, và (ii) tín hiệu tiếng nói của những người khác nhau trong điều
kiện có nhiễu. Kết quả phân tích cho thất không thể nhận ra các tín hiệu tiếng
nói nêu trên bằng cách sử dụng các phương pháp thông thường, như dựa trên tần
số và thời gian-tần số, khi mà nhiễu có tương quan nhiều với tín hiệu tiếng nói.
Phương pháp nhận dạng và phân biệt các mẫu của chúng trong cả hai trường hợp
bằng cách dùng động học tái xuất phi tuyến được đề xuất ở đây. Các kết quả thực
nghiệm cho thấy hiệu quả của phương pháp phân tích được đề xuất.

Chương 3 nói về hai đề xuất gồm (i) đề xuất phương pháp dùng cho phát hiện
hoạt động giọng nói và (ii) đề xuất phương pháp đo lường nhằm phát hiện điểm
đầu - cuối của tín hiệu tiếng nói trong miền thời gian. Phương pháp đề xuất thực
hiện phân tích dựa trên sự hoạt động của đường bao vi phân của tín hiệu tiếng
nói. Các phương pháp đề xuất có tốc độ tính toán nhanh và chính xác khi được
so sánh với các phương pháp trước đây. Ở đề xuất thứ hai, phương pháp này đã
làm nổi bật đặc trưng mức độ cao thấp và chỉ ra điểm kết thúc dùng hai tham số
trong miền thời gian. Các kết quả thực nghiệm cho thấy rằng phương pháp phát
hiện hoạt động giọng nói này làm việc tốt trong các trường hợp có các loại nhiễu
3


khác nhau. So sánh với các phương pháp trước đây, phương pháp đo lường được
đề ở đây đơn giản hơn và có thể áp dụng cho các ứng dụng thực tế.
Cuối cùng của Luận án là các kết luận và những công việc tiếp theo sẽ được
thực hiện trong tương lai.

Chương 1
Tổng quan về nhận dạng tiếng nói
1.1. Giới thiệu
Tiếng nói được định nghĩa là âm thanh được phát ra dùng để giao tiếp giữa
con người. Cấu trúc thanh quản và bộ phận tạo âm của con người là cơ quan sinh
học có đặc tính phi tuyến rất cao, những bộ phận này hoạt động không được điều
khiển một cách có ý thức nhưng bị ảnh hưởng bởi một vài yếu tố thay đổi từ giới
tính đến trình độ giáo dục cũng như trạng thái cảm xúc. Do vậy, sự phát âm có
thể bị biến đổi rất rộng với điều kiện như giọng, phát âm, cách phát âm, âm mũi,
độ cao, âm lượng và tốc độ. Ngoài ra âm thanh còn có thể bị méo nhiều hơn do
nhiễu nền và tiếng vang cũng như các đặc tính điện thông của các thiết bị điện
tử. Tất cả sự biến đổi này làm cho việc nhận dạng và đồng bộ tiếng nói trở thành
vấn đề rất phức tạp.

Định nghĩa quá trình nhận dạng tiếng nói một cách chính xác, các nội dung
sau được hiểu: (i) Nhận dạng tiếng nói là quá trình biến đổi bất kỳ tín hiệu tiếng
nói sang dạng tín hiệu có thể nhận được ra nhờ vào sự khác biệt nào đó, hoặc
(ii) Nhận dạng tiếng nói tự động (Automatic speech recognition–ASR) được định
nghĩa là máy tính trích xuất từ ngôn ngữ nói sang dạng văn bản. Mô hình nguồn
kênh sử dụng cho nhận dạng tiếng nói được minh họa trong Hình 1.1, được Huang
đề xuất năm 2001 [20].

Hình 1.1: Mô hình nguồn kênh cho một hệ thống nhận dạng tiếng nói

1.2. Bối cảnh lịch sử
Lịch sử của nhận dạng tiếng nói đã có hơn nửa thế kỷ. Cuộc thử nghiệm đầu
tiên để xây dựng những hệ thống cho việc nhận dạng tiếng nói tự động vào năm
1950 dựa trên ngữ âm học. Năm 1952, một hệ thống nhận dạng số độc lập cho một
người nói [8] được đưa ra. Velich và Zagoruyko ở Liên Xô (cũ) đã sử dụng nhận
dạng mẫu để nhận dạng tiếng nói [55]. Phương pháp sử dụng chương trình động
và mã hóa dự đoán tuyến tính (Linear Predictive Coding - LPC) dùng để nhận
4


dạng tiếng nói [22]. Trong những năm 1980, các hệ thống nhận dạng từ ghép được
phát minh dựa trên thuật toán liên kết các từ rời rạc cho việc nhận dạng. Cách
tiếp cận từ nhận dạng mẫu sang mô hình thống kê, đặc biệt là mô hình Markov
(Hidden Markov Model-HMM) [43]. Cuối những năm của thập kỷ 1980, các mạng
thần kinh nhân tạo được dùng trong nhận dạng tiếng nói với mục đích phân loại.
Việc xác minh lời nói và các phương pháp tin cậy cũng được tập trung nghiên
cứu [28].

1.3. Các đặc trưng âm thanh và các loại tín hiệu tiếng nói


Hình 1.2: Lọc nguồn của tín hiệu tiếng nói

Hình 1.2 biểu diễn mô hình lọc nguồn, với e[n] là kích thích từ các mục âm
thanh, h[n] là bộ lọc đường thanh quản và x[n] là tín hiệu tiếng nói phát ra. Âm
thanh tiếng nói có thể được đưa ra theo ba trạng thái sau: (i) Im lặng, (ii) Âm
vô thanh, và (iii) Âm hữu thanh.
Có một số cách biểu diễn đặc tính của âm thanh thuận lợi cho việc nhận dạng
tiếng nói như ảnh phổ, LPC hoặc mô hình hồi quy tự động (Auto-regression AR).
Phân tích cepstral được dùng để trích xuất đặc trưng của tiếng nói cho ra tập
đặc trưng Mel-Frequency Cepstrum Coefficient (MFCC). Những mô hình thúc
đẩy nhận thức như dự báo nhận thức tuyến tính (Perceptual Linear Prediction–
PLP) [16, 17] có cách tiếp cận của hệ thống thính giác. Tất cả các phương pháp
tiếp cận đó nhấn mạnh việc phân tích phổ năng lượng/tần số với quan điểm về sự
xấp xỉ mô hình thính giác. Những hệ thống này dựa trên một thực tế khó khăn
của ASR là khả năng xác định khi nào người nói bắt đầu và kết thúc một lời nói.
Các hình thức khác nhau của nhận dạng tiếng nói gồm: (i) Các từ đơn, (ii) Các
từ kết nối, (iii) Lời nói ngẫu nhiên, (iv) Xác minh tiếng nói.

1.4. Các đặc trưng phức tạp của nhận dạng tiếng nói

Nhận dạng tiếng nói thường được xem như là phức tạp hơn tổng hợp tiếng nói,
chúng được phân loại theo các yếu tố sau: (i) Số lượng người nói, (ii) Lời nói lưu
loát, (iii) Số lượng từ vựng, (iv) Yếu tố ngữ pháp, (v) Yếu tố môi trường, (vi) Sự
phức tạp của ngôn ngữ. Tóm lại, việc nhận dạng một số lượng nhỏ các từ rời rạc
từ một người nói đơn lẻ trong môi trường yên tĩnh dễ hơn rất nhiều so với lời nói
liên tục trong môi trường thực tế như từ một người bất kì qua điện thoại là một
ví dụ.

1.5. Ảnh hưởng của nhiễu trong nhận dạng tiếng nói
Cường độ nhiễu là một vấn đề mấu chốt trong nhận dạng tiếng nói tự động

(ASR). Có loại nhiễu đặc trưng là hiệu ứng tiếng vang. Mô hình cộng thêm nhiễu
gồm tín hiệu tiếng nói s(k) bị ảnh hưởng bởi nhiễu n(k) tạo ra tín hiệu x(k)
x(k) = s(k) + n(k)
(1.1)
5


Trong miền tần số
x(ejω ) = s(ejω ) + n(ejω )

(1.2)

Kỹ thuật giúp giảm nhiễu là phát hiện tiếng nói kích hoạt (Voice Activity
Detection–VAD) [12]. VAD thường được dùng để nhận ra sự có mặt của tiếng nói
bằng cách đánh dấu ranh giới giữa đoạn tín hiệu có tiếng nói và đoạn còn lại.

1.6. Phát hiện tiếng nói (VAD)

Phát hiện tiếng nói là nhiệm vụ cơ bản trong các ứng dụng liên quan đến xử
lý tiếng nói. Vấn đề là phân biệt tiếng nói với nhiễu/sự im lặng [48, 54]. Hình 1.3
minh họa cho VAD điển hình.

Hình 1.3: Phát hiện tiếng nói

Hệ thống phát hiện tiếng nói điển hình bao gồm hai thành phần cơ bản: phần
trích đặc trưng và cơ chế quyết định một tín hiệu là tiếng nói hay không. Quá
trình VAD được biểu diễn ở Hình 1.3. Việc lựa chọn các đặc trưng và thuật toán
phân loại phù hợp là một nhiệm vụ rất khó khi môi trường gây ra nhiễu tín hiệu
tiếng nói.


1.7. Nghiên cứu xử lý tín hiệu phi tuyến tính

Việc sử dụng kĩ thuật phi tuyến tính trong xử lý tiếng nói là một lĩnh vực
nghiên cứu phát triển rất nhanh. Các phương pháp rất đa dạng bao gồm tuyến
tính hóa giống như trong lĩnh vực lọc thích nghi [15] và nhiều dạng bộ dao động
và bộ dự đoán phi tuyến [25]. Một lớp các phương pháp xử lý tiếng nói phi tuyến
bao gồm các mô hình và thuật toán xử lý tín hiệu số được đưa ra để phân tích
hiện tượng phi tuyến động trong luồng khí lúc tạo ra tiếng nói [53]. Những nghiên
cứu về đặc tính phi tuyến của luồng khí lúc nói có thể dẫn đến sự phát triển của
các hệ thống xử lý tín hiệu phi tuyến thích hợp cho việc trích xuất các thông tin
liên quan trong các hiện tượng như vậy.

Hình 1.4: Tái tạo không gian pha của tín hiệu tiếng nói

1.8. Nhận dạng tiếng nói tuyến tính và phi tuyến tính
Các kĩ thuật xử lý tín hiệu tiếng nói thông thường được xác định trên lý thuyết
hệ thống tuyến tính và không gian xử lý chủ yếu phần lớn trên miền tần số [53].
Các nghiên cứu âm thanh cơ bản giả thiết một mô hình nguồn–bộ lọc trong đó
6


thanh quản được mô hình hóa như một bộ lọc tuyến tính. Công việc tiếp theo
là chia các vùng tần số đặc tính của thanh quản từ nguồn kích thích. Vector đặc
trưng điển hình được dùng cho bộ nhận dạng tiếng nói từ thủ tục xử lý tín hiệu
là các hệ số tần số Mel cepstral (Mel frequency cepstral coefficients–MFCC).
Như một sự thay thế cho các kĩ thuật truyền thống và để đạt được hiệu quả
tốt hơn, hệ thống phi tuyến xuất hiện trong nghiên cứu tiếng nói. Sử dụng các kĩ
thuật, các phân tích tập trung từ miền tần số sang một không gian xử lý khác
gọi là không gian tái tạo pha. Một không gian tái tạo pha được tạo ra bằng cách
thiết lập các véc-tơ, trong đó, các phần tử của không gian là chuỗi các biến được

làm trễ đi.
Khi nghiên cứu chuỗi thời gian, các phương pháp như lũy thừa Lyapunov, chiều
tương quan, việc phân tích các phần tử chính thường cho ra hiệu quả tốt. Phương
pháp tái tạo không gian pha của hệ thống động dựa trên định lý Takens để xác
định số chiều nhúng d.

1.9. Xác định các điểm kết thúc của tín hiệu tiếng nói

Việc phát hiện và xác định các điểm kết thúc của các đoạn tiếng nói tương đối
phức tạp trong các môi trường nhiễu nhưng rất quan trọng cho việc nhận dạng
tiếng nói. Các phương pháp dựa trên phổ năng lượng hay năng lượng [23, 27, 42,
50], dựa trên entropy [37] trong miền tần số. Hình 1.6 biểu diễn một số kết quả
thực nghiệm [52].

(a) Dạng sóng của tiếng nói

(b) Sơ đồ phổ

(c) Năng lượng thời gian ngắn và phổ
năng lượng

(d) Tỉ lệ về không

(e) Etropy của phổ (đồng thời xác định
điểm bắt đầu và kết thúc)

Hình 1.5: Các tham số biến đổi cho các loại nhiễu khác nhau và tín hiệu tiếng nói được
thu liên tục

1.10. Miền thời gian và miền tần số-thời gian

Một vài phân tích trong việc nhận dạng tín hiệu tiếng nói nghiên cứu trong
miền thời gian cũng như miền tần số-thời gian chỉ ra rằng miền tần số-thời gian
có thể cho kết quả tốt hơn trong trường hợp tín hiệu có nhiễu. Các thuật toán
gồm: ước lượng biên độ giao điểm không (Zero Crossing Amplitude Estimation–
7


ZCAE) [39], phân tích tiếng nói thu được từ những kênh thông dải và cố gắng xác
định tập con của các phần tử thời gian–tần số gần với nguồn âm mong muốn.

1.11. Mô hình Markov ẩn
Mô hình Markov ẩn (Hidden Markov model–HMM) là một công cụ tính toán
mạnh mẽ cho mô hình hóa chuỗi thời gian. Nó cung cấp các thuật toán hiệu quả
cho việc ước lượng trạng thái và tham số, nó tự động thực hiện điều chỉnh thời
gian cho các tín hiệu bị nén hoặc giãn cục bộ. Ngoài ra, mô hình này còn được sử
dụng vào nhiều mục đích khác nhau ngoài việc mô hình hóa âm thanh. Những mô
hình Markov ẩn dựa trên chuỗi Markov nổi tiếng từ lý thuyết xác suất được dùng
để mô hình hóa chuỗi sự kiện theo thời gian. Một mô hình Markov ẩn được định
nghĩa với các tham số gồm (i) Số lượng sự kiện theo dõi kí hiệu là M , (ii) Một
đầu ra: V = {v1 , v2 , v3 , . . . . . . , vM }, (iii) Số lượng trạng thái N , (iv) Một không
gian trạng thái Q = {1, 2, ...N }.
Các trạng thái thường được đánh số thứ tự là
i, j, một trạng thái mô hình trong đó một điểm đặc biệt trong thời gian t được
biểu diễn là qt . Do đó, qt = i nghĩa là mô hình trong trạng thái i tại thời điểm t.
• Phân bố xác suất của quá trình chuyển tiếp giữa các trạng thái A = aij ,
trong đó aij = P (qt+1 = j|qt = i), 1 ≤ i, j ≤ N .
• Hiện tượng cần quan sát có phân bố xác suất b = bj (k), trong đó bj (k) =
P (ot = vk |qt = i) với ot là một chuỗi quan sát được.
Các mô hình Markov ẩn cung cấp một nền tảng đơn giản và hiệu quả cho việc mô
hình hóa chuỗi phổ vector biến đổi theo thời gian. Hệ quả là ngày nay, hầu hết

hệ thống nhận dạng tiếng nói liên tục với số lượng từ vựng lớn (Large Vocabulary
Continuous Speech Recognition–LVCSR) đều dựa trên mô hình Markov ẩn. Để
nhận dạng tiếng nói liên tục cần đạt được mục tiêu sau:
Mục tiêu:
Cho dữ liệu A = a1 , a2 , ..., ak
Tìm chuỗi từ W = w1 , w2 , ..., wk
Sao cho P (W |A) là cực đại
Luật Bayes:
).P (W )
P (W |A) = P (A|W
P (A)

Trong đó, P (A) là hằng số cho một câu hoàn chỉnh, P (A|W ) là mô hình âm
học (HMMs), và P (W ) là mô hình ngôn ngữ. Mô hình Markov và các giả thiết
liên quan được trình bày ở trên có thể được tổng kết như sau:
Các phần tử:(i) Các trạng thái: S = S0 , S1 , ..., SN và (ii) Các xác suất chuyển
dịch: P (qt = Si |qt−1 = Sj ) như được đưa ra trong Hình. 1.6
Giả thiết Markov:
Xác xuất chuyển dịch chỉ phụ thuộc vào trạng thái hiện tại là P (qt =
Si |qt−1 = Sj , qt−2 = Sk , ...) = P (qt = Si |qt−1 = Sj ) − aji , ở đó aji ≥ 0, ∀j, i, và
i=0
N = 1aji , ∀j. Hình 1.6 biểu diễn mạng đồ họa của mô hình Markov, gồm hai
trạng thái A và B với một số kết nối được biểu diễn bằng mũi tên. Cấu trúc liên
kết của mạng biểu diễn một đặc tính quan trọng của chuỗi Markov đó là trạng
8


Hình 1.6: Xác suất chuyển dịch

Hình 1.7: Xác suất chuyển dịch và phân bố xác suất đầu ra


thái tiếp theo chỉ phụ thuộc vào trạng thái hiện tại trong Hình 1.7, không quan
tâm trạng thái hiện tại được hình thành như thế nào; đặc tính này gọi là đặc trưng
Markov. Những mô hình Markov ẩn có thể được biểu diễn như sau: Các phần
tử:
Các trạng thái: S = {S1 , S2 , ..., SN }
Các xác suất chuyển dịch: P (qt = Si |qt−1 = Sj ) = aji
Phân bố xác suất đầu ra (ở trạng thái j đối với ký hiệu k): P (yt = Ok |qt =
Sj ) = bj (k) như được thấy trong Hình 1.7.
Về cơ bản, mô hình Markov ẩn tính xác suất của chuỗi sự kiện cần quan sát để
đưa ra mô hình. Để giải mã, hay tìm chuỗi trạng thái tối đa hóa xác suất của chuỗi
sự kiện cần điều chỉnh các tham số để tối đa hóa xác suất của chuỗi đã quan sát.
Các thuật toán chuyển tiếp và quay ngược giải quyết hiệu quả các vấn đề liên quan.

1.12. Kết luận
Chương này đã trình bày tổng quan các vấn đề liên quan đến nhận dạng tiếng
nói, các phương pháp tiếp cận và công cụ thực hiện nhận dạng tiếng nói đang
được cộng đồng nghiên cứu áp dụng. Từ những vấn đề tổng quan trên cho thấy,
hướng tiếp cận dùng lý thuyết phi tuyến tính có những đặc điểm phù hợp với loại
tín hiệu tiếng nói. Lý do là coi hệ thống phát ra tiếng nói là một hệ thống động
học, và từ đó, các phân tích đánh giá dùng các công cụ phân tích phi tuyến tính
cho thấy có khả quan cao. Khi hiểu các đặc trưng phi tuyến của tín hiệu tiếng nói
thì các bước phương pháp dùng để phát hiện đặc trưng mới có tính khả thi cao.
Trong các chương tiếp theo đi khảo sát đặc tính phi tuyến của tín hiệu tiếng nói
sử dụng các công cụ phân tích phi tuyến, và từ đó đưa ra các đề xuất nhận dạng

9


tiếng nói.


Chương 2
Khảo sát sự phức tạp trong các hệ thống ngẫu nhiên và các
tín hiệu tiếng nói
Tóm tắt Chương này trình bày các cơ sở của lý thuyết phi tuyến và ứng dụng
chúng vào việc phân tích các tín hiệu tiếng nói dưới góc nhìn của động học phi
tuyến. Một phần của nội dung Chương này được đăng tải trong bài báo [J1]
và [J2].

2.1. Giới thiệu

Trong chương này, mục tiêu chính là quan sát hành vi của hệ thống hyperchaos cũng như tín hiệu liên tục bị tác động bởi một số nguồn ngoài như tạp âm
ngẫu nhiên, tín hiệu âm nhạc và tiếng nói. Để chi tiết hơn, cần đánh giá xem có
hệ thống hỗn loạn tạo ra xu hướng ngẫu nhiên gia tăng của ít nhất một tham số
quyết định cho hyperchaos trong hệ phương trình động học như thế nào.
Tiếng nói là một tập hợp các âm khác nhau được tạo bởi một số hoạt động
nhịp nhàng của các dây thanh quản. Dễ thấy tiếng nói gồm nhiều thành phần
năng lượng khác nhau và có đặc tính động. Một vấn đề khó khăn cho việc nhận
dạng là khi tiếng nói được phát ra trong môi trường có nhiễu ở mức lớn (ngoại trừ
nhiễu trắng, nhiễu hồng, nhiễu nâu,. . . ). Các kĩ thuật xử lý dựa trên tần số cũng
như thời gian–tần số không thể áp dụng trong môi trường mà tạp âm và tín hiệu
có độ tương quan cao. Do vậy, các công cụ phân tích phi tuyến sẽ giúp tìm ra các
đặc trưng của tiếng nói, nhằm phục vụ cho nhận dạng.

2.2. Lô tái xuất và các đo lường
2.2.1. Lô tái xuất

Cho hai điểm bất kì xi , xj ∈ X (i, j = 1, 2, ..., N ) trong không gian pha hoặc
không gian pha tái tạo có tái xuất nếu xi − xj < ǫ, trong đó, ǫ là hằng số và
X = {xi , i = 1, 2, ..., N } là không gian pha tái tạo với xi là véc-tơ m chiều. Ma

trận tái xuất được định nghĩa như sau:
Ri,j = θ(ǫ − xi − xj ), i = 1, 2, ..., N
(2.1)
Trong đó, θ là hàm Heaviside, . là chuẩn tắc Euclid được định nghĩa trong
không gian pha tái tạo X, ǫ là bán kính dùng để xác định lân cận. Trong RP, điểm
tái xuất và không tái xuất lần lượt được kí hiệu là “1” và “0” và có thể được biểu
diễn là các điểm đen và trắng như trong Hình 2.1. Lô tái xuất hiển thị lên các cấu
trúc đa dạng cung cấp thông tin về bản chất của không gian pha [31]. Dịch chuyển
song song và trạng thái bẫy/trạng thái phân lớp được mô tả lần lượt bởi các đường
chéo và các đường thẳng đứng/đường nằm ngang. Với giá trị của dịch chuyển k,
các đường chéo song song với đường chéo chính được xác định trong bảng RP. Với
giá trị của k, ta có các cửa sổ khác nhau trong RP, ký hiệu là RP (k). Như vậy,
với mỗi cửa sổ RP (k), nếu đường chéo chính được thay đổi và tái xuất tương ứng
10


của nó cũng thay đổi theo. Tỉ lệ cửa sổ tái xuất RR(k) được định nghĩa như sau:
RR(k) =

1
N −k

N −k

Ri,i+k

(2.2)

i=1


Khi mỗi RR(k) biểu thị phân bố tái xuất của tất cả các đường chéo song song
với đường chéo chính, vì vậy, sự tương đồng của các quỹ đạo song song có thể được
định lượng bằng RR(k). Hàm mật độ xác suất chuẩn hóa của RR(k) được xét để
đánh giá sự tương đồng.

Hình 2.1: Lô tái xuất của hệ thống Lorenz [29]
2.2.2. Entropy của lô tái xuất có trọng số

Lô tái xuất có trọng số (WRP) [9] dựa trên việc xét khoảng cách giữa các điểm
trong không gian pha. Ma trận khoảng cách W giữa hai điểm i, j trong chuỗi thời
gian. Ma trận trọng số W được định nghĩa như sau:
Wij = e− xi −xj , i, j = 1, 2, .., N
(2.3)
Entropy Shannon dựa trên WRP với cường độ si của điểm xi trong không gian
pha được tính như sau:
N

si =

Wij

(2.4)

j=1

Sự phức tạp được tính thông qua entropy của Shannon liên hợp của ma trận
trọng số W :
H=−
p(s)ln (p(s))
(2.5)

{s}

Trong đó, p(s) =
là phân bố tần số tương đối của cường độ ma trận
N
khoảng cách với S là tổng số lượng cường độ với S = i si . Entropy (H) dựa
trên WRP có lợi thế nhất định hơn các phép đo entropy dựa trên RP.
P (s)
S

2.3. Đánh giá độ phức tạp của tín hiệu tiếng nói ứng dụng lô
tái xuất

Thông thường, sự phức tạp của một hệ thống được đánh giá thông qua tính
entropy của hệ thống đó [24]. Nếu entropy càng cao thì hệ thống đó được coi là
mức phức tạp càng cao. Entropy Shannon dựa trên WRP được xem như Entropy
của WRP (WRPE).
2.3.1. WRP của hệ thống có tác động bởi tín hiệu nhiễu

Entropy H được dùng để tìm những thay đổi mức độ phức tạp của hệ thống
Lorenz–Stenflo (LS) 4 chiều (4D) theo tham số hệ thống r, khi bị hỗn loạn và khi
bị các tín hiệu bên ngoài tác động. Các tín hiệu bên ngoài tác động lên. Các tạp
11


âm về cơ bản là nhiễu lũy thừa có mật độ phổ công suất tỷ lệ nghịch với hàm lũy
thừa tần số, hay ni = f 1βi . Các tín hiệu được dùng để tác động lên LS gồm: âm

nhạc m1 thu từ nhạc cụ truyền thống Việt Nam, tín hiệu âm nhạc m2 được thu
âm từ nhạc cụ truyền thống Ấn Độ, và tín hiệu tiếng nói s1 là bài phát biểu được

thu âm. Phổ năng lượng của các tín hiệu này ở Hình 2.2.

(a)
lũy
f

Nhiễu (b) Nhiễu
lũy (c) Tín hiệu hiệu (d) Tín hiệu nhạc (e) Tín hiệu tiếng
thừa thừa β12 , β2 = 1 âm nhạc Việt cụ Dagar (m2 )
nói (s1 )
f
1
Nam (m1 )
β1 , β1 = 0.5

Hình 2.2: Phổ năng lượng trong các trường hợp

Hệ phương trình LS [3] khi có tác động nhiễu như sau:
y˙1 = a(y2 − y1 ) + cy4 + α1 V1 ; y˙2 = y1 (r − y3 ) − y2
(2.6)
y˙3 = y1 y2 − by3 + α2 V2 ; y˙4 = −y1 − ay4
Khi tác động bởi tín hiệu bên ngoài, chọn các nhiễu lũy thừa với V1 = n1 ,
V2 = n2 , chọn các tín hiệu âm nhạc khác nhau với V1 = m1 , V2 = m2 , và chọn tín
hiệu tổ hợp giữa âm nhạc và tiếng nói với V1 = m1 , V2 = s1 . Hình 2.3 cho thấy
sự khác nhau trong các trường hợp có tác động bởi tín hiệu bên ngoài. Các WRP
tương ứng được biểu diễn trong Hình 2.4.

(a) LS không bị tác (b) LS bị tác động bởi (c) LS bị tác động (d) LS bị tác động
động
hai thành phần nhiễu bởi hai thành phần bởi âm nhạc (m1 ) và

n1 , n2
âm nhạc m1 , m2
tiếng nói (s1 )

Hình 2.3: Hình chiếu hai chiều của không gian pha bốn chiều với các biến x1 , x4 .

Để tìm ra những thay đổi độ phức tạp khi bị tác động bởi tín hiệu bên ngoài,
WRPE H(r) được tính theo giá trị khác nhau của r như tronh Hình 2.5. Hình 2.5
cho thấy mức độ phức tạp của hệ thống LS thay đổi phụ thuộc vào r rất nhiều
và sự phụ thuộc này gia tăng khi tín hiệu tác động là âm nhạc và tiếng nói.
Hình 2.6 cho thấy α2 ảnh hưởng đến độ phức tạp nhiều hơn α1 . Với hệ thống
LS bị tác động bởi tín hiệu âm nhạc, độ phức tạp tương đối ít với các giá trị α2
thấp (α2 ∈ [0, 001; 0, 003]). Trong khi các hệ thống LS bị tác động bởi âm nhạc
và tiếng nói kết hợp đồng thời thì độ phức tạp tương đối ít với cá giá trị α2 cao
(α2 ∈ [0, 008; 0, 01]).
12


(a) LS không có tác (b) LS bị tác động bởi (c) LS bị tác động bởi (d) LS bị tác động bởi
động bởi tính hiệu hai thành phần nhiễu hai thành âm nhạc m1 , hai thành phần nhiễu
ngoài
n1 , n2
m2
âm nhạc (m1 ) và tiếng
nói (s1 )

3.9

4


3.8

3.8

3.8

3.7

3.7

3.6

3.6

3.6

3.5

3.5

3.4

3.4

3.3

H(r)

3.9


H(r)

H(r)

Hình 2.4: WRP cho hệ thống LS 4 chiều

3.2

3

3.3
5

10

15

20

25

3.4

2.8
5

10

15


r

20

25

5

10

r

(a) LS
nhiễu

15

20

25

30

r

không (b) LS bị tác động (c) LS bị tác động (d) LS bị tác động (e) Sơ đồ đường
bởi hai nhiễu khác bởi hai tín hiệu bởi âm nhạc (m1 ) viền của WRPE
nhau n1 , n2
âm nhạc khác và tiếng nói (s1 )
nhau m1 , m2


Hình 2.5: Lô WRPE H(r) cho r = 26 với tham số r của hệ thống LS bố chiều
1.6

1.55

1.55

1.4

0.001

1.2
0.001

1.35

1.25

α2

0.01

0.01

α1

1.4

1.4


1.5
1

1

0.5
0.8

1.35

0.0001
1.3

0.005

0.005

H(α 1,α 2)

H(α 1,α 2)

1.2

1.45

1.45

1.4


1.4

1.5

1.6

1.6

2

H(α1,α2)

1.5

1.2
0.0001

1.3

0.0003
0.0003

α2

0.001

0
0.001

0.6


0.005

0.002

1.25

0.0005

0.0005

α1

(a) LS 4D bị tác động (b) LS 4D bị tác động
bởi hai tín hiệu nhiễu bởi hai tín hiệu âm nhạc
non-Gaussian
khác khác nhau, m1 , m2 .
nhau, n1 , n2 .

α2

0.004

0.01

α1

(c) Tín hiệu âm nhạc
(m1 ) và tiếng nói (s1 )
được dùng để tác động

vào LS, α1 và α2 nằm
trong dải từ 0.001 đến
0.01 với bước thay đổi
0.0001.

Hình 2.6: Đồ thị WRPE H(α1 , α2 ) với r = 26 phụ thuộc vào tham số α1 , α2 .

2.4. Ứng dụng của phương pháp đồng bộ trong phân tích đặc
tính động của tín hiệu tiếng nói
Sự đồng bộ là sự điều chỉnh nhịp điệu của các đối tượng có tương tác với nhau.
Cơ chế đồng bộ hoàn toàn (Complete Synchronization–CS) [40, 41] thường được
đề cập. Luận án này chỉ xét hệ thống LS 4D và hệ thông bị tác động vởi bốn cách
13


gây nhiễu khác nhau tạp âm, âm nhạc, tiếng nói và kết hợp.
2.4.1. Phân tích sai số đồng bộ

Đồng bộ hoàn toàn giữa hệ thống chủ và hệ thống đáp ứng được khảo sát bằng
cách đo sai số đồng bộ giữa chúng. Sai số đồng bộ (synchronization error–SE) được
định nghĩa là sự khác nhau giữa hai hệ thống khi có tương tác. Đồng bộ hoàn toàn
xảy ra nếu SE → 0 khi t → ∞. Do đó, để kiểm tra sự tồn tại của CS giữa một
cặp hệ thống cụ thể, chúng ta tính toán và khảo sát sai số đồng bộ theo sự thay
đổi của cường độ liên kết. Với mục đích này, ở đây xét hệ thống LS bị tác động
đóng vai trò hệ thống phản hồi như trong (2.7).
y˙1 = a(y2 − y1 ) + cy4 + α1 V1 + C(x1 − y1 ); y˙2 = y1 (r − y3 ) − y2
(2.7)
y˙3 = y1 y2 − by3 + α2 V2 ; y˙4 = −y1 − ay4 .
Trong đó, a = 1, 0, b = 0, 7, c = 1, 5, r ∈ [5, 26] và y1 (0) = 0, 0015, y2(0) =
0, 0025, y3(0) = 0, 0035, y4(0) = 0, 0045. Trong biểu thức (2.7), C được dùng để

điều chỉnh cường độ liên kết của tín hiệu. Với hệ thống LS bị tác động bởi nhiễu,
giá trị các tham số được chọn là V1 = n1 , V2 = n2 , α1 = 5, 5, α2 = 5, 2; với hệ
thống LS bị tác động bởi hai tín hiệu âm nhạc khác nhau, tham số được chọn là
V1 = m1 , V2 = m2 , α1 = 0, 001, α2 = 0, 002; còn đối với hệ thống LS bị tác động
bởi tổ hợp các tín hiệu âm nhạc và tiếng nói thì giá trị các tham số được chọn là
V1 = m1 , V2 = s1 , α1 = 0, 001, α2 = 0, 002.
Sự thay đổi SE theo sự gia tăng của cường độ liên kết và thời gian trong ba
loại hệ thống LS bị tác động nói trên được đưa ra ở Hình 2.7(a), 2.7(b) and 2.7(c).
Sai số đồng bộ được chuẩn hóa được đưa ra trong Hình 2.7(d).

(a) Nhiễu tác động vào (b) Các tín hiệu âm (c) Tín hiệu âm nhạc (d) Biểu đồ quan hệ
hệ thống LS
nhạc tác động vào hệ và tín hiệu tiếng nói tác giữa SE được chuẩn
thống LS
động vào LS
hóa và cường độ ghép
C cho các trường hợp
(a), (b), và (c)

Hình 2.7: Mô tả sự phụ thuộc của sai số đồng bộ (SE) và hệ số ghép C theo thời gian.

Từ Hình 2.7 cho thấy rằng sai số đồng bộ do tạp âm dây ra nhiều các trường
hợp còn lại. Tuy nhiên, trong cả ba trường hợp, sai số SE giảm với khi tăng giá
trị cường độ liên kết.
2.4.2. Tái xuất trung bình điều kiện (MCR)

Ở đây xét độ phức tạp trong liên kết giữa các hệ thống đồng bộ. Tái xuất trung
bình điều kiện (Mean Conditional Recurrence–MCR) [47] được dùng dùng trong
nghiên cứu sự đối xứng trong tương tác giữa các hệ động học. MCR là xác suất có
điều kiện trung bình của tái xuất giữa hệ thống X và Y được xét với lô tái xuất

14


liên kết (Joint Recurrence Plot–JRP).
Tái xuất giữa hai điểm xi , xj ∈ Rn đi đánh giá khảng cách giữa chúng trong
không gian pha. Bên cạnh đó, JRP là một dạng diễn tả bằng hình ảnh ma trận tái
XY
xuất liên kết JRij
= Θ(ǫX − xi − xj )Θ(ǫY − yi − yj ), i = 1, 2, ..., N , trong
đó ǫX và ǫY lần lượt là các ngưỡng cho các hệ thống X, Y . JRP nói lên sự đồng
thời trong tái xuất của hai hệ thống X, Y .
2.4.3. Xác định các hệ thống điều khiển–phản hồi bằng điều kiện tái xuất
trung bình

Về mặt toán học, tái xuất trung bình điều kiện (MCR) của hệ thống X theo
Y và của hệ thống Y theo X lần lượt được định nghĩa như sau:
N
N
N
N
XY
XY
1
1
j=1 JRij
j=1 JRij
M CR(X|Y ) =
;
M
CR(Y

|X)
=
. (2.8)
N
N
Y
X
N i=1
N i=1
j=1 Rij
j=1 Rij
X
Y
Trong đó, Ri,j
= Θ(ǫX − xi − xj ), Ri,j
= Θ(ǫY − yi − yj )i = 1, 2, ..., N . Để
xác định tính không đối xứng của liên kết cần sử dụng tiêu chuẩn sau:
∆(M CR) = M CR(X|Y ) − M CR(Y |X)
(2.9)
Nếu ∆(M CR) > 0 có nghĩa là X điều khiển Y , ∆(M CR) là Y điều khiển X,
và ∆(M CR) = 0 là ghép đối xứng. Đối với hệ thống bị tác động, chúng ta xem
X là hệ thống tác động và Y là hệ thống đáp ứng. Trong trường hợp tín hiệu âm
nhạc làm hệ thống LS bị tác động, X được xem như hệ thống bị gây tác động bởi
tín hiệu âm nhạc và tiếng nói, Y là hệ thống đáp ứng của hệ thống. Hình 2.8 biểu
diễn sự thay đổi của ∆(M CR) với cường độ liên kết C cho mỗi trường hợp tác
động.

Hình 2.8: Biểu đồ ∆(M CR) đối với cường độ liên kết C trong đồng bộ hệ thống LS bị
gây nhiễu bởi tạp âm, tín hiệu âm nhạc và tổ hợp tín hiệu âm nhạc, tiếng
nói.


Hai hệ thống bị gây nhiễu bởi tín hiệu âm nhạc và tổ hợp âm nhạc cùng tiếng
nói đối xứng sau khi C = 1, 9 trong khi hệ thống LS bị gây nhiễu bởi tạp âm đối
xứng sau khi C = 3, 3. Điều này cũng được kiểm chứng trong Hình 2.7 với cả ba
trường hợp, các hệ thống đáp ứng Y hoạt động giống như hệ thống phản hồi.

2.5. Nhận dạng tín hiệu tiếng nói ứng dụng không gian pha
tái tạo
2.5.1. Lợi ích của tính động phi tuyến cho xử lý tín hiệu

Động học của dữ liệu phi tuyến được tái tạo giúp mô hình hóa và để nhận
được thông tin có trong dữ liệu. Từ hiểu biết về hệ thống động học, tín hiệu tiếng
15


nói có thể được xem như thành phần quan sát được của hệ thống tạo ra tiếng nói.
Mô hình hóa động học có thể hữu ích cho việc dự đoán/tổng hợp tiếng nói. Trong
khi những dạng khác nhau của động học, như các lũy thừa Lyapunov hay số chiều
fractal của vùng hút được tái tạo có thể hữu ích cho việc nhận dạng tiếng nói.

2.6. Thu thập tín hiệu tiếng nói

Với mục đích thực nghiệm, tác giả thu thập hai loại tín hiệu tiếng nói (i) hai
người nói cùng một nội dung; (ii) nhiều người khác nhau nói 20 nội dung khác
nhau trong môi trường có tạp âm (sân bay, tàu, đường phố, nhà hàng) và trong
môi trường không có tạp âm. Tất cả dữ liệu được lưu ở định dạng file .WAV và
được xử lý trên phần mềm MATLAB R2015a. Tập hợp 20 tín hiệu tiếng nói gồm
cả giọng nam và nữ nằm trong tần số 50Hz đến 4 kHz trong môi trường không tạp
âm. Tiếng nói được thu âm trong các môi trường sân bay, tàu, đường phố, nhà
hàng bao gồm một số tiếng nói xung quanh được xem như tạp âm tương quan.

Tập dữ liệu được thu thập từ [18].

2.7. Kỹ thuật nhận dạng hoạt động tiếng nói

Để phân biệt được các tín hiệu tiếng nói, cần phân loại phần giọng nói ra thành
phần các thành phần hữu thanh và vô thanh bằng các phương pháp phát hiện
hoạt động và lọc. Việc xem xét kỹ thuật phát hiện âm thanh bằng cách dùng sự
khác nhau giữa cực trị cục bộ của các tín hiệu tiếng nói là quan trọng. Các tín
hiệu tiếng nói được làm mềm bởi kỹ thuật lọc phù hợp. Kỹ thuật lọc được mô
tả như sau: (i) Tín hiệu tiếng nói/âm thanh Y với tần số lấy mẫu Fs =16Khz và
được mã hóa bởi 16 bit, (ii) Tìm tất cả các giá trị cực trị của tín hiệu tiếng nói,
(iii) Dùng cửa sổ có độ rộng W với số mẫu là N0 = 64, dữ liệu mới được tạo ra
bởi Y1 (n) là tổng các pitch cao (Y ) trừ tổng các pitch thấp của (Y ), và (iv) Tính
trung bình Y1 theo cửa sổ K ∗ N0 (K = 5, 6, 7...).

2.8. Phân tích tần số và thời gian–tần số

Đối với việc phân tích theo miền tần số và thời gian–tần số, chuyển đổi Fourier
của sổ với các cửa sổ Hamming được xem xét. Môi trường nhiễu có chứa các âm
thanh khác của những người xung quanh, và các tín hiệu này tương quan với tín
hiệu tiếng nói ta quan tâm. Khi ấy, phân tích tần số và thời gian–tần số không
thể dùng để phân loại các mẫu tín hiệu.

2.9. Sự tái tạo không gian pha và các đặc tính động tái xuất
phi tuyến của tiếng nói

Các đặc tính động của tín hiệu tiếng nói có thể được xấp xỉ bởi không gian
pha được tái tạo tương đương về mặt hình học. Không gian pha hình học tương
đương có thể được tái tạo bằng thời gian trễ τ thích hợp và chiều ánh xạ (d) phù
hợp. Từ không gian pha tái tạo đó, các phân tích đặc trưng động học được thực

hiện.

16


2.10. Ứng dụng của các đặc tính động tái xuất với nhận dạng
tín hiệu tiếng nói
Để áp dụng các đặc tính động tái xuất, đầu tiên, ở đây tái tạo không gian
pha của mỗi tín hiệu tiếng nói. Mô hình tái xuất có thể được dùng để phân biệt
thành công các tín hiệu tiếng nói giống nhau phát ra bởi những người khác nhau.
Điều này chỉ ra rằng các mô hình tái xuất có các đặc tính động tương tự của tín
hiệu tiếng nói giống nhau trong các môi trường tạp âm khác nhau. Tính chất này
khẳng định sự tương quan mạnh tồn tại giữa các hệ thống động tái xuất độc lập
với các loại nhiễu. Hơn nữa, các đặc tính động có thể được dùng để chỉ ra các tín
hiệu tiếng nói của nhiều người trong các môi trường khác nhau. Để xác minh sự
giống và khác giữa các đặc tính động, RR(k) được tính và biến đổi sang phân bố
xác suất chuẩn tắc (npd).

2.11. Kết luận

Chương này cũng đã khảo sát tần số, thời gian–tần số và các đặc tính động tái
xuất của các tín hiệu tiếng nói. Để có được thông tin chính xác, cấu trúc đường
bao năng lượng được đưa ra. Đường bao năng lượng phân biệt hiệu quả phần có
tiếng nói và không có tiếng nói trong tín hiệu. Bằng việc áp dụng các kĩ thuật
tần số, thời gian–tần số, thông tin chính xác không được xác định vì vậy tiếng
nói không nhận dạng được. Vậy nên, phương pháp này áp dụng các đặc tính phi
tuyến tái xuất khi nó mô tả mỗi biến động địa phương của quỹ đạo trong không
gian pha tái tạo của tín hiệu tiếng nói. Ở đây đo các biến động địa phương bằng
tỉ lệ tái xuất cửa sổ. Phân bố xác suất chuẩn hóa tỉ lệ tái xuất cửa sổ có thể mô
tả chính xác sự giống và khác nhau giữa các tín hiệu tiếng nói mặc dù người nói

trong trường tạp âm. Do đó, phân bố xác suất chuẩn hóa tỉ lệ tái xuất cửa sổ là
một phương pháp tốt để nhận dạng tín hiệu tiếng nói.

Chương 3
Đề xuất phương pháp phát hiện tiếng nói
Tóm tắt
VAD (Voice Activity Detector – VAD) là kĩ thuật xác định sự xuất hiện tiếng
người nói có hay không trong dữ liệu âm thanh thu được. Các bộ VAD đóng vai
trò quan trọng như một khối tiền xử lý của các ứng dụng nhận dạng và xử lý tiếng
nói. Chương này trình bày các phương pháp đã có dựa trên ngưỡng năng lượng,
điểm cắt không và các tính toán thống kê khác trên miền thời gian. Chương này
trình bày về phương pháp tìm hai đặc trưng mới của tiếng nói ứng dụng cho VAD.
Chương này cũng trình một thuật toán mới để phân loại được khoảng có tiếng nói
và không có tiếng nói (tìm điểm endpoint). Một phần nội dung của Chương này
được đăng tải trong bài báo [C1], [J2] và [J3].

17


3.1. Giới thiệu
3.1.1. Khái quát chung

VAD là một lớp các phương pháp xử lý tín hiệu xác định sự có mặt của tiếng
nói trong tín hiệu âm thanh [5, 11, 26, 30, 44, 51]. Bằng việc sử dụng VAD, các
đoạn tín hiệu có tiếng nói được tách khỏi tín hiệu âm thanh. Thông thường, một
VAD sử dụng các bộ luật để đưa ra quyết định dựa trên các đặc điểm đã được
chọn để đánh giá. Việc quyết định có tiếng nói hay không rất quan trọng vì quyết
định này được dùng trong các hệ thống xử lý tín hiệu và nhận dạng dạng mẫu và
là yếu tố quyết định chất lượng nhận dạng tiếng nói tự động (ASR) [2, 21, 36, 56].
Trong thực tế, phương pháp xử lý tín hiệu trên miền tần số đóng vai trò quan

trọng, nhưng việc phân tích trong miền thời gian dễ và nhanh hơn miền tần số
nếu hệ thống thực hiện VAD trong thời gian thực.
3.1.2. Hệ thống VAD

Một VAD cơ bản làm việc với các đặc trưng cơ bản được trích xuất từ tín hiệu
thanh gửi đến, tín hiệu này được chia thành các khung với khoảng thời gian 5 –
40 ms. Những đặc trưng này được so sánh với một ngưỡng giới hạn và đồng thời
quyết định VAD cũng được tính. Nếu đặc trưng của khung tín hiệu vào vượt quá
giá trị ngưỡng, quyết định VAD (VAD = 1) được tính và tiếng nói được coi là xuất
hiện trong tín hiệu. Ngược lại, quyết định VAD được tính (VAD = 0) và khung
đầu vào được coi là không có tín hiệu tiếng nói. Sơ đồ khối của một VAD cơ bản
được trình bày trong Hình 3.1.

Hình 3.1: Sơ đồ khối của một VAD
3.1.3. Mục tiêu

Mục tiêu của luận văn này là thực hiện một nghiên cứ tỉ mỉ về các thuật toán
VAD hiện dựa trên ngưỡng năng lượng, tỉ lệ về điểm không (zero crossing rate)
và phương pháp thống kê. Những thuật toán này gần đây được so sánh khả năng
phân loại chính xác tín hiệu đầu vào thành tín hiệu có tiếng nói và không có tiếng
nói trong các môi trường có nhiễu khác nhau như các địa điểm sân bay, bờ suối,
nhà hàng, trên tàu với giá trị SNR trong khoảng 0 – 15dB. Sau đó, tác giả thiết
kế sơ đồ VAD thực hiện thời gian thực trên miền thời gian dựa trên năng lượng
trung bình bao quanh tín hiệu tiếng nói.

3.2. Các phương pháp VAD
3.2.1. VAD dựa trên tỉ lệ điểm về không và năng lượng tín hiệu [4]

Đây là một phương pháp tiếp cận nhanh và đơn giản để chia tín hiệu đầu vào
thành 2 loại có tiếng nói và không có tiếng nói. Phương pháp này hoạt động dựa

18


trên việc kết hợp các tính toán tỉ lệ điểm về không và năng lượng tín hiệu. Phương
pháp tỉ lệ điểm về không: Tỉ lệ điểm về không có thể được định nghĩa là số lần
các mẫu liên tiếp trong tín hiệu có dấu khác nhau hoặc biên độ tín hiệu hiệu đi
qua giá trị không. Phương pháp năng lượng thời gian ngắn: Năng lượng thời gian
ngắn là một tham số khác để nhận biết có tiếng nói hay không trong đoạn tín
hiệu đầu vào. Nếu năng lượng của khung đầu vào cao thì khung được coi là khung
chứa tiếng nói và ngược lại, khung có năng lượng thấp được coi là không có tiếng
nói. Năng lượng thời gian ngắn của khung x(m) được kí hiệu là En .

3.2.2. VAD dựa trên năng lượng tuyến tính (LED) [49]

Phương pháp này làm việc theo nguyên lý cập nhật giá trị của ngưỡng một cách
thích nghi. Năng lượng toàn băng thông: Năng lượng Ej trên toàn băng thông được
jN
tính dựa trên năng lượng của khung dữ liệu Ej = N1 i=(j−1)N +1 x2 (i). Trong đó,
Ej là năng lượng của khung thứ j, nếu x(i) là mẫu thứ i của tiếng nói và N là
jN
chiều dài khung thì với khung j, fj được biểu thức fj = {x(i)}i=(j−1)N +1
3.2.3. VAD dựa trên năng lượng tuyến tính thích nghi [49]

Phương pháp này là phiên bản nâng cấp của phương pháp phát hiện tiếng nói
dựa trên năng lượng tuyến tính. Quá trình thực thi phương pháp là quá trình đi
xác định các khung câm.
3.2.4. Nhận dạng mẫu để phân loại có hay không có tiếng nói

Trong phương pháp này, nhận dạng mẫu được định nghĩa là áp dụng phân loại
tín hiệu đưa ra thành 2 loại có tiếng nói và không có tiếng nói. Phương pháp này

tính toán 5 tham số gồm: số lượng số lần về không, năng lượng tín hiệu, tương
quan giữa các mẫu tín hiệu liền kề, dự đoán hệ số đầu tiên từ phân tích dự đoán
tuyến tính và năng lượng trong sai số dự đoán. Năm tham số này đơn giản và rất
hiệu quả trong việc phân loại.
Số lượng số lần về không

Nếu các mẫu liên tiếp trong tín hiệu khác nhau về dấu thì hiện tượng về 0
xảy ra. Tỉ lệ về không được định nghĩa là tỉ lệ xảy ra hiện tượng về không trong
khung. Tỉ lệ về không cho tiếng nói được tính và so sánh để ra quyết định.
Logarit-năng lượng

Năng lượng của tín hiệu hiệu tiếng nói cao hơn năng lượng không có tiếng nói
dựa trên hàm phân bố logarit năng lượng lượng của tín hiệu có tiếng nói và không
có tiếng nói.
Hệ số tự tương quan chuẩn hóa

Hệ số tự tương quan chuẩn hóa C1 đưa ra sự tương quan giữa các mẫu tín hiệu
hiệu liền kề tường biến đổi trong khoảng -1 đến 1. Giá trị này gần đồng nhất vì
sự tập trung tần số trong vùng tần số thấp và tín hiệu không có tiếng nói gần với
giá trị không. Hệ số tự tương quan chuẩn hóa trong một đơn vị trễ được xác định.
Hệ số dự đoán đầu tiên

Hệ số dự đoán đầu tiên của p điểm cực là số lượng có được từ phân tích mã
hóa dự đoán tuyến tính (Linear Predictive Coding – LPC). Giá trị này biến đổi
từ -5 (tín hiệu có tiếng nói) đến một (tín hiệu không có tiếng nói). Hệ số này được
tính toán từ việc tìm giá trị nhỏ nhất.
19


Sai số dự đoán chuẩn hóa


Sai số dự đoán chuẩn hóa Ep được định nghĩa trong công thức (3.1):
p

Ep = Es − 10 ∗ log10

10

−6

+

αk .φ(0, k) + φ(0, 0)

(3.1)

k=1

Tính toán khoảng cách

Một tập dữ liệu huấn luyện được đánh dấu bằng tay thực hiện với dữ liệu được
thu âm trong môi trường yên tĩnh và phân đoạn tín hiệu thành các vùng có tiếng
nói và không có tiếng nói. Những đoạn này được chia thành các khoảng 10 ms và
5 phép đo (đã giải thích trong Phần 3.2.4) được tính cho mỗi khối và lưu vào tập
tin kiểm thử.
3.2.5. VAD dựa vào đo lường thống kê [6, 7]

Phương pháp này miêu tả một phương thức thống kê sử dụng tỉ lệ nhiễu trên
tạp âm để phát hiện đoạn tiếng nói trong tín hiệu đầu vào. Phương pháp này kết
hợp với việc đánh giá phổ thay đổi chậm và cơ chế ngưỡng thích nghi cho việc

phát hiện tiếng nói. Mật độ phổ năng lượng lượng nhiễu kì vọng và biến đổi của tỉ
lệ nhiễu trên tạp âm được đánh giá từ các đoạn tín hiệu không có tiếng nói trước
đó. Việc tính toán ngưỡng thích nghi giúp nâng cao hiệu năng của VAD.
• Phương pháp tính tỉ số tín hiệu trên tạp âm SNR: Xét một tín hiệu bị
gây nhiễu bởi tạp âm thêm vào được mô hình hóa bằng công thứcxk (n) =
sk (n) + vk (n)
• Phương pháp phương sai của SNR: Đo phương sai của SNR được xác định
2
cho tín hiệu hiệu không có tiếng nói được đưa ra trong công thứcσv,k
=
2
E ψk (fl )

3.3. Phương pháp đánh giá hiệu quả thuật toán VAD
3.3.1. Các tham số mục tiêu

Hiệu năng lượng của phương pháp VAD được đánh giá thông qua 4 tham số
mục tiêu truyền thống [4, 7, 10], đó là:A) Cắt phía trước (Front End Clipping –
F EC), B) Cắt giữa tiếng nói (Mid – Speech Clipping - M SC), C) Phần nhô ra
(Over Hang – OV ER), D) Nhiễu được xác nhận là tiếng nói (Noise Detected as
Speech – N DS).

3.4. Phương pháp thu thập dữ liệu và bộ dữ liệu AURORA [1,
19]

Để phục vụ với mục đích thực nghiệm, tín hiệu tiếng nói được thập từ dữ liệu
đặc thù [18]. Nghiên cứu này tập trung thực nghiệm với một số tiếng nói tiếng
Việt (giọng nam và nữ) và một số tiếng nói tiếng Anh trong điều kiện nhiễu môi
trường khác nhau với 20 tín hiệu tiếng nói bao gồm giọng nam và nữ với tần số
trong khoảng 50 Hz đến 8kHz.


3.5. Đề xuất đặc trưng và phương pháp VAD mới

Quan sát tín hiệu âm thanh thấy rằng đường tín hiệu giữa một cực cao (pitch)
và một cực thấp (pitch) liên tiếp là đường phi tuyến có dạng gần tuyến tính. Để
20


thực hiện VAD, các bước sau được thực hiện: (i) tuyến tính hóa cục bộ tín hiệu
giữa 2 điểm cực liên tiếp, (ii) Thống kê tổng số lượng điểm Pitch trong khung
thời gian ngắn làm thông tin đặc trưng và thống kê tổng chênh lệch điểm cực cao
(Pitch cao) và điểm cực thấp (Pitch thấp) trong khung thời gian ngắn làm thông
tin đặc trưng.
3.5.1. Phương pháp tính với cửa sổ dịch một mẫu

Phương pháp tính cửa sổ trượt một mẫu được đề xuất. Mỗi khung liền kề cách
nhau một mẫu tín hiệu và tổng giá trị khung sau liền kề bằng tổng giá trị khung
trước liền kề trừ đi một mẫu của khung trước đó. Đồng thời sử dụng phương pháp
làm mượt với cửa sổ trượt tam giác lớn và dịch một mẫu nhanh. Trong xử lý tín
hiệu số, chúng ta thường sử dụng bộ lọc tam giác nhỏ hàng chục mẫu để làm trơn.
Tác giả đề xuất áp dụng của sổ làm trơn tam giác với kích thước lớn hàng trăm
mẫu và dịch một mẫu.
3.5.2. Phương pháp tính đặc trưng Dp là mật độ số lượng điểm Pitch

• Bước 1: Ghi âm tín hiệu tiếng nói (x) với tần số lấy mẫu Fs = 16kHz và tốc
độ bit lấy mẫu là 16bit.
• Bước 2: Chuẩn hóa tín hiệu với tín hiệu có biên độ lớn nhất max{Y } = 0, 9.
• Bước 3: Chọn độ dài khung xử lý là N , N thường sử dụng là 128, 256, và
640.
• Bước 4: Cho khung độ dài N trượt từ đầu đến cuối tín hiệu x với bước dịch

mỗi lần là một mẫu tín hiệu. Tính trung bình tổng tất cả điểm Pitch trong
khung N . Ta thu được hàm Dp mật độ các điểm Pitch của Y (có cùng kích
thước với Y ).
• Bước 5: Làm trơn và lọc hàm Dp thu được ở bước trước với phương pháp
lọc tam giác dịch một mẫu và cũng dùng kích thước khung N . Ta thu được
hàm Dp đã được làm mịn là đặc trưng thứ nhất cho tín hiệu tiếng nói.
3.5.3. Phương pháp tính đặc trưng Tp dựa trên khoảng cách các điểm Pitch
liên tiếp

• Bước 1: Ghi âm tín hiệu tiếng nói (x) với tần số lấy mẫu Fs = 16kHz và tốc
độ bit lấy mẫu là 16bit.
• Bước 2: Chuẩn hóa tín hiệu với tín hiệu có biên độ lớn nhất max{Y } = 0,9.
• Bước 3: Chọn độ dài khung xử lý là N , N thường sử dụng là 256.
• Bước 4: Cho khung độ dài N trượt từ đầu đến cuối tín hiệu x với bước dịch
mỗi lần là một mẫu tín hiệu. Tính tổng biên độ tất cả điểm Pitch cao trừ đi
tổng biên độ tất cả các Pitch thấp trong khung N . Ta thu được hàm Tp độ
lệch các điểm Pitch của x (có cùng kích thước với x).
• Bước 5: Làm trơn và lọc hàm Tp ta thu được ở bước trước với phương pháp
lọc tam giác dịch một mẫu và cũng dùng kích thước khung N . Ta thu được
hàm Tp đã được làm mịn là đặc trưng thứ hai cho tín hiệu tiếng nói.
21


3.5.4. Phương pháp tính đặc trưng tổng hợp Sp và xác định endpoint

• Bước 1: Tính đặc trưng Tp theo phương pháp 3.5.3 với kích thước khung N1
• Bước 2: Tính đường bao năng lượng Ep tương tự cách tính Tp với hàm
E(i) = x2 (i) với khung kích thước N1
• Bước 3: Tính đặc trưng Sp (i) = Tp (i) ∗ Ep(i), với i = 0...length(x)
• Bước 4: Làm trơn và lọc hàm Sp thu được ở bước trước với phương pháp

lọc tam giác dịch một mẫu và cũng dùng kích thước khung N2 . Ta thu được
hàm Sp đã được làm mịn là đường bao đặc trưng cho tín hiệu tiếng nói.
• Bước 5: Tính ngưỡng trung bình toàn dải đường bao Sp = Tb .
• Bước 6: Tìm những vùng có dải giá trị ≥ Tb trong thời gian dài hơn 20ms.
• Bước 7: Tìm ngược về phía trước mỗi vùng sao cho Sp(k1 )−Sp(k1 −N2 ) < ǫ1
là điểm bắt đầu vùng có tiếng nói.
• Bước 8: Tìm xuôi về phía sau mỗi vùng sao cho Sp (k2 ) − Sp (k2 + N2 ) < ǫ2
là điểm kết thúc của vùng có tiếng nói.
• N1, N2 thường chọn là 128 và 256; ǫ1 và ǫ2 là 0,5 và 0,3
Thuật toán này dựa trên đường bao đặc trưng Sp của tín hiệu tiếng nói trong
miền thời gian. Với N là kích thước cửa sổ. Phân tích này đơn giản và đủ nhanh
để xác định điểm kết thúc. Để nghiên cứu khả năng của phương pháp này, tác giả
đo các điểm kết thúc dưới hầu hết tương quan công suất – nhiễu. Phương pháp
mới này được kiểm nghiệm trên các tín hiệu tiếng nói Loại I, II và bộ dữ liệu
AURORA.

3.6. Đánh giá phương pháp mới trên các tín hiệu tiếng nói
khác nhau
3.6.1. Đánh giá trên các tín hiệu tiếng nói khác nhau không có tạp âm

Các giá trị trung bình của tín hiệu tiếng nói loại I và loại II và nhận được kết
quả là giá trị trung bình |Y (k)| xấp xỉ các thành phần tín hiệu tiếng nói có độ lớn
vượt trội. Vị trí giữa 2 đường dốc (tăng và giảm) của đường bao năng lượng mô tả
một cách rõ ràng những phần không có tín hiệu tiếng nói. Do đó, giải pháp VAD
mà tác giả xây dựng có thể nhận dạng đúng những phần có tiếng nói và không có
tiếng nói.
3.6.2. Ứng dụng trên các tín hiệu tiếng nói khác nhau có tạp âm

Áp dụng phương pháp này với các tín hiệu tiếng nói tương tự với hai loại tạp
âm khác nhau. Với tín hiệu tiếng nói x(t) được thêm vào thành phần nhiễu và tạo

ra y(t) = x(t) + cφ, trong đó, φ = f1α với α = 1 và 2 [32, 33, 35].
Các giá trị trung bình của tạp âm trong tín hiệu tiếng nói có nhiễu loại I được
biểu diễn tương ứng trong Hình 3.2(a) và 3.2(b). Nó cho thấy các giá trị trung
bình tăng lên khi có tiếng nói, nhưng không rõ ràng giữa phần có tiếng nói và
22


(a) Tín hiệu có nhiễu (b) Tín hiệu có nhiễu (c) Tín hiệu có nhiễu (d) Tín hiệu có nhiễu
φ = f1 và giá trị trung φ = f12 và giá trị trung φ = f1 và đường bao φ = f12 và đường bao
bình

năng lượng

bình

năng lượng

Hình 3.2: Tín hiệu loại I, giá trị trung bình và đường bao năng lượng của nhiễu với
cường độ nhiễu là c = 0.002 cho cả hai trường hợp

phần không có tiếng nói. Đường bao năng lượng tương ứng được biểu diễn lần lượt
trong Hình 3.2(c) và 3.2(d) cho thấy vị trí có tiếng nói và không có tiếng nói có
mức khác hẳn nhau.
Giá trị trung bình của tín hiệu tiếng nói loại II bị pha tạp âm được biểu diễn
trong Hình 3.3. Giá trị trung bình và các đường bao năng lượng cũng nhận dạng
thành công vùng có tiếng nói và vùng không có tiếng nói.

(a) Tín hiệu có nhiễu (b) Tín hiệu có nhiễu (c) Tín hiệu có nhiễu
φ = f1 và giá trị trung φ = f12 và giá trị trung φ = f1 và đường bao
bình


năng lượng

bình

(d) Tín hiệu có nhiễu
φ = f12 và đường bao
năng lượng

Hình 3.3: Tín hiệu Loại II, giá trị trung bình và đường bao năng lượng của nhiễu với
cường độ nhiễu là c = 0.002 cho cả hai trường hợp.

(a) Tín hiệu tiếng nói không bị (b) Tín hiệu y(t) = x(t) + cφα (c) Tín hiệu y(t) = x(t) + cφα
nhiễu x(t)
với α = 1.5
với α = 2

Hình 3.4: Tín hiệu tiếng nói màu xanh, các đường bao năng lượng có màu đỏ, tím và
xanh lá. Gía trị c = 0.005 được chọn.

23


×