Tải bản đầy đủ (.pdf) (119 trang)

Phân tích và phát hiện tiếng nói dựa trên đặc tính động phi tuyến.

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.04 MB, 119 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

ĐẶNG THÁI SƠN

PHÂN TÍCH VÀ PHÁT HIỆN TIẾNG NÓI DỰA TRÊN
ĐẶC TÍNH ĐỘNG PHI TUYẾN

LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ

HÀ NỘI - 2017


MỞ ĐẦU

Năm mươi năm trở lại đây, lĩnh vực xử lý tín hiệu ngày càng được quan tâm
trong cộng đồng khoa học và ứng dụng bởi những lợi ích mà nó mang lại. Trong
lĩnh vực xử lý tín hiệu tiếng nói, đa số nghiên cứu đưa ra một số quá trình nhận
dạng dựa trên miền không gian, thời gian và tần số, có ít các công trình nghiên
cứu đưa ra các ứng dụng của lĩnh vực động học phi tuyến vào nhận dạng tiếng
nói. Cho tới nay, động học phi tuyến và hỗn loạn cho thấy có những phép đo
lường và đánh giá hiệu quả trong lĩnh vực xử lý tín hiệu [91, 116]. Luận án này
đề cập đến nghiên cứu các tín hiệu giọng nói và các tín hiệu khác cũng như các
đánh giá định lượng dựa trên các kỹ thuật phi tuyến.
1. Các phương pháp và công cụ được dùng để phân tích
Luận án này được nghiên cứu dựa vào các phương pháp:
• Tái tạo không gian pha: Tái tạo không gian pha là công cụ hữu ích để xấp
xỉ động học của bất cứ chuỗi thời gian nào. Tái tạo không gian pha được
dùng để khám phá các tham số động học của tín hiệu tiếng nói.
• Các phép đo lường entropy và sự phức tạp: Sự phức tạp đóng vai trò quan
trọng trong việc hiểu bản chất của nguồn thông tin và sự bất ổn định trong


chuỗi thời gian. Nó được áp dụng hữu hiệu vào việc định lượng các tham số
động học của tín hiệu tiếng nói, khi mà tín hiệu tiếng nói được xem như là
tín hiệu được sinh ra từ một hệ thống động.
• Tương quan và lũy thừa Lyapunov: Các công cụ này rất hữu ích trong lĩnh
vực động học phi tuyến. Chúng được dùng để phân tách tín hiệu tiếng nói.
• Phát hiện tiếng nói: Hoạt động tiếng nói có thể được phát hiện dùng phương
pháp phân tích phổ tín hiệu. Nó sẽ phân tách tín hiệu hữu thanh và vô
thanh/nhiễu sau khi áp dụng kỹ thuật lọc tín hiệu một cách thích hợp.
2. Mục tiêu nghiên cứu
1


2

Nghiên cứu này nhằm đến các mục đích sau:
• Phân tích các tín hiệu tiếng nói được ghi âm trong những điều kiện khác
nhau, sử dụng các công cụ có sẵn để định lượng các thành phần động học
như phổ công suất, phân tích lũy thừa Lyapunov, tương quan chéo, phân
tích dựa trên tính hồi quy và tái tạo không gian pha.
• Phân tích sự phức tạp thông qua đo lường, đánh giá các tham số động học
vốn có của hệ thống động học qua phân tích tín hiệu và định lượng sự bất
ổn định trong chuỗi thời gian.
• Đề xuất phương pháp mới hữu hiệu và khả thi để phát hiện thời điểm đầu
và kết thúc của âm hữu thanh được phát ra trong các tín hiệu tiếng nói với
cường độ âm thanh và độ dài của từ là bất kỳ.
4. Tình hình nghiên cứu trong và ngoài nước
Trong nước:
Hệ thống xử lý và nhận dạng tiếng Việt cũng được nghiên cứu ở một số nhóm
như AILab [3] thuộc Trường Đại học Khoa học Tự nhiên TP HCM, Phòng giao
tiếp tiếng nói thuộc viện MICA [78] nằm trong Đại học Bách khoa Hà Nội,

nhóm nghiên cứu của PGS Lương Chi Mai thuộc Viện Công nghệ Thông tin
(Viện Khoa học và Công nghệ Việt Nam). Các sản phẩm như VietVoice [135],
VSpeech [137].
Ngoài nước:
Ngày nay, nhu cầu thông tin luôn gia tăng và tương tác người máy (HCI)
từ đó cũng tăng theo. Một số tiếp cận cho HCI như thông qua việc phân tích
tín hiệu điện não (EEG), phân tích tín hiệu tiếng nói và phân tích cử chỉ của
người. Trong số đó, các tương tác thông qua tiếng nói và cử chỉ [87] của người
không đòi hỏi phải gắn thiết bị lên người một cách cố định, trong khi đó tín
hiệu EEG được ghi thông qua các điện cực gắn lên da. Việc nghiên cứu tín hiệu
tiếng nói cho giao tiếp người máy được phát triển mạnh trong những năm gần
đây [17, 45, 68, 97]. Có nhiều công trình nghiên cứu liên quan đến nhận dạng
và đạt được các kết quả đáng kể dùng cho ứng dụng thực tế [4, 49, 72]. Ví dụ,
các hệ thống nhận dạng tiếng nói cho tiếng Anh như Via Voice [30] được đưa
ra bởi IBM, Spoken Toolkit [18] được đưa ra bởi Central of Spoken Language
Understanding, Speech Recognition [113] đưa ra bởi Microsoft, Hidden Markov


3

Model toolkit [143] được đưa ra bởi Đại học Cambridge, CMU Sphinx [127] được
đưa ra bởi Đại học Carnegie Mellon... Bên cạnh đó, các hệ thống nhận dạng
tiếng Pháp, Đức, Trung Quốc, tiếng Việt...cũng được phát triển.
Mặc dù đã có các phương pháp và kỹ thuật nhận dạng tiếng Việt, nhưng
chúng được nhìn ở các góc độ khác nhau ngoại trừ góc nhìn của lý thuyết phi
tuyến tính. Hơn nữa, hầu hết các nghiên cứu dựa vào sử dụng các phương pháp
tuyến tính để phân tích các đặc trưng của thành phần tần số cơ bản F0 .
5. Những đóng góp của Luận án này
Luận án có một số đóng góp như sau:
• Tìm ra được sự thay đổi trong mức độ phức tạp của hệ thống động ngẫu

nhiên được sinh ra bởi tác động của tín hiệu phi tuyến hoặc bởi nhiễu.
Sự thay đổi này được đánh giá thông qua entropy của sơ đồ tái xuất theo
trọng số. Toàn bộ hệ thống trở thành mô hình ngẫu nhiên dưới tác động
của nhiễu ngoài, tác động của tín hiệu giọng nói và các tín hiệu âm nhạc.
Các ảnh hưởng có thể được định lượng bằng cách đánh giá sự phức tạp
(đại lượng đo lường entropy) hoặc bằng những phân tích dựa trên tái xuất
trọng số. Những nghiên cứu về phương pháp tần số, thời gian-tần số và
động học tái xuất phi tuyến cũng được đưa ra. Để có được thông tin chính
xác, việc xây dựng đường bao năng lượng được đề xuất. Đường bao năng
lượng được dùng để tách bạch hiệu quả giữa phần tính hiệu có giọng nói và
phần tín hiệu không có giọng nói. Bằng cách áp dụng các kỹ thuật tần số,
thời gian-tần số, lọc thông tin không thích hợp để phần tín hiệu có giọng
nói có thể được nhận ra. Sau đó, động học (tái xuất) phi tuyến được áp
dụng khi nó mô tả mọi chuyển động cục bộ của quĩ đạo trong không gian
pha tái tạo từ tín hiệu giọng nói. Đo lường đánh giá những chuyển động
cục bộ bằng tốc độ cửa sổ tái xuất được thực hiện. Nó cũng cho thấy rằng
phân bố xác suất chuẩn của tốc độ tái xuất cửa sổ có thể được ứng dụng
thành công trong việc mô tả sự tương đồng và sự không tương đồng giữa
các tín hiệu giọng nói thậm chí trong môi trường có nhiễu. Do đó, phân bố
xác suất thường của tốc độ tái xuất cửa sổ là một trong những phép đo
lường để nhận dạng mẫu tín hiệu giọng nói.
• Các bước cơ bản trong xử lý tín hiệu là phát hiện phần tín hiệu có tiếng
nói và phần không có tiếng nói. Đề xuất phương pháp phân tích VAD dựa


4

trên đường bao vi phân trung bình của tín hiệu tiếng nói được đưa ra. Việc
phân tích được thực hiện trong miền thời gian và có tốc độ xử lý nhanh
tương đối so với các phương pháp phân tích hiện nay trong miền thời gian.

Phương pháp này có khả năng phân tích tốt trong điều kiện tín hiệu tiếng
nói có nhiễu. Đề xuất phương pháp phát hiện phần tín hiệu có giọng nói và
phần không có giọng nói dựa trên tính toán trung bình đường bao cực trị
(cực đại và cực tiểu) cục bộ của tín hiệu tiếng nói. Phương pháp này được
thực hiên trên miền thời gian và không phụ thuộc vào người nói. Mô hình
đề xuất được kiểm chứng với các tính hiệu thực cũng như các tín hiệu có
tác động nhiễu không ổn định. Việc kiểm chứng hiệu quả của phương pháp
đề xuất được đưa ra và có so sánh với các phương pháp đã được đưa ra
trước khi thực hiện trong miền thời gian.
6. Cấu trúc của Luận án
Luận án này gồm hai phần, phần đầu là giới thiệu tổng quan về lĩnh vực có
liên quan đến đề tài và phần thứ hai là chi tiết nội dung nghiên cứu. Cụ thể,
cấu trúc Luận án này như sau:
Chương 1 nói về thông tin cơ sở liên quan đến nhận dạng tiếng nói. Ở Chương
này, các nội dung liên quan đến đặc trưng của tín hiệu tiếng nói được trình bày;
Sự phức tạp trong tín hiệu tiếng nói được ứng dụng trong nhận dạng; Ảnh hưởng
của nhiễu vào kết quả nhận dạng tiếng nói; Khái niệm tổng quát và các phương
pháp về phát hiện tiếng nói (VAD); Phương pháp phân tích phi tuyến ứng ứng
dụng trong nhận dạng tiếng nói; Vấn đề xác định điểm đầu điểm cuối trong tín
hiệu tiếng nói; Các phân tích tiếng nói theo miền thời gian và miền tần số-thời
gian.
Chương 2 đi khảo sát và phân tích sự phức tạp của tín hiệu tiếng nói trong
điều kiện có nhiễu và không có nhiễu dưới góc nhìn phi tuyến. Ở đây, động học
của tín hiệu tiếng nói được nghiên cứu trong điều kiện có nhiễu tương quan
mạnh. Các phép đo lường entropy được sử dụng ở đây để hiểu thấu đáo về sự
phức tạp của hệ thống và cũng được xem là công cụ xử lý tín hiệu. Sự phức
tạp của hệ thống động hỗn loạn mạnh được nghiên cứu, trong đó hệ thống động
bị tác động mạnh bởi nhiễu và các tín hiệu tiếng nói hoặc tín hiệu âm nhạc.
Sự phức tạp được đo lường bởi entropy tái xuất có trọng số cho các hệ thống
hỗn loạn này. Hiện tượng đồng bộ giữa hai hệ thống ngẫu nhiên với tín hiệu



5

(ghép phức) cũng được nghiên cứu. Các tiêu chí này được kiểm tra trên các
hệ thống hỗn loạn và hệ thống hỗn loạn có tác động qua lại thông qua sai số
đồng bộ chuẩn hóa và tái xuất có điều kiện. Các kết quả mô phỏng số và thực
nghiệm trên tín hiệu thực tế cho thấy hiệu quả của phương pháp phân tích được
đề xuất. Nhận dạng các tín hiệu giọng nói trong các điều kiện có nhiễu lớn và
nhiễu tương quan được nghiên cứu. Hai trường hợp được xem xét là:(i) các tín
hiệu tiếng nói của cùng một người trong các điều kiện nhiễu khác nhau, và (ii)
tín hiệu tiếng nói của những người khác nhau trong điều kiện có nhiễu. Kết quả
phân tích cho thất không thể nhận ra các tín hiệu tiếng nói nêu trên bằng cách
sử dụng các phương pháp thông thường, như dựa trên tần số và thời gian-tần
số, khi mà nhiễu có tương quan nhiều với tín hiệu tiếng nói. Phương pháp nhận
dạng và phân biệt các mẫu của chúng trong cả hai trường hợp bằng cách dùng
động học tái xuất phi tuyến được đề xuất ở đây. Các kết quả thực nghiệm cho
thấy hiệu quả của phương pháp phân tích được đề xuất.
Chương 3 nói về hai đề xuất gồm (i) đề xuất phương pháp dùng cho phát hiện
hoạt động giọng nói và (ii) đề xuất phương pháp đo lường nhằm phát hiện điểm
đầu - cuối của tín hiệu tiếng nói trong miền thời gian. Phương pháp đề xuất
thực hiện phân tích dựa trên sự hoạt động của đường bao vi phân của tín hiệu
tiếng nói. Các phương pháp đề xuất có tốc độ tính toán nhanh và chính xác khi
được so sánh với các phương pháp trước đây. Ở đề xuất thứ hai, phương pháp
này đã làm nổi bật đặc trưng mức độ cao thấp và chỉ ra điểm kết thúc dùng hai
tham số trong miền thời gian. Các kết quả thực nghiệm cho thấy rằng phương
pháp phát hiện hoạt động giọng nói này làm việc tốt trong các trường hợp có
các loại nhiễu khác nhau. So sánh với các phương pháp trước đây, phương pháp
đo lường được đề ở đây đơn giản hơn và có thể áp dụng cho các ứng dụng thực
tế.

Cuối cùng của Luận án là các kết luận và những công việc tiếp theo sẽ được
thực hiện trong tương lai.


Chương 1
Tổng quan về nhận dạng tiếng nói

1.1. Giới thiệu
Nhận dạng tiếng nói (SR) là một công nghệ nổi bật, ảnh hưởng đến sự hội tụ
của ngành công nghiệp điện thoại, máy thu hình và máy tính. Công nghệ nhận
dạng tiếng nói được phát triển từ những năm 50 của thế kỉ 20, các nhà nghiên
cứu trong các lĩnh vực tâm lý, ngôn ngữ, kĩ thuật điện tử, kĩ thuật máy tính bắt
đầu nghiên cứu lĩnh vực này. Tuy nhiên, có nhiều cách tiếp cận khác nhau cho
việc nhận dạng tiếng nói, nhưng chưa thật hiệu quả vì các lí do như chi phí, tài
nguyên máy tính, thiếu các tiêu chuẩn chung để tích hợp nhận dạng tiếng nói
với các phần mềm ứng dụng.
Tiếng nói được định nghĩa là âm thanh được phát ra dùng để giao tiếp giữa
con người. Quá trình học tiếng diễn ra một cách tự nhiên và kéo dài suốt cuộc
đời. Điều đặc biệt ở đây là con người không nhận thấy được độ phức tạp trong
cấu trúc liên kết của quá trình này. Cấu trúc thanh quản và bộ phận tạo âm của
con người là cơ quan sinh học có đặc tính phi tuyến rất cao, những bộ phận này
hoạt động không được điều khiển một cách có ý thức nhưng bị ảnh hưởng bởi
một vài yếu tố thay đổi từ giới tính đến trình độ giáo dục cũng như trạng thái
cảm xúc. Do vậy, sự phát âm có thể bị biến đổi rất rộng với điều kiện như giọng,
phát âm, cách phát âm, âm mũi, độ cao, âm lượng và tốc độ. Ngoài ra, trong
quá trình phát đi, những kiểu phát âm khác thường có thể bị méo nhiều hơn
do nhiễu nền và tiếng vang cũng như các đặc tính điện của các thiết bị điện tử.
Tất cả sự biến đổi này làm cho việc nhận dạng và đồng bộ tiếng nói trở thành
vấn đề rất phức tạp.
Để định nghĩa quá trình nhận dạng tiếng nói một cách chính xác, tác giả sử

dụng các nội dung sau:
• Nhận dạng tiếng nói là quá trình biến đổi bất kỳ tín hiệu tiếng nói sang
dạng trực giao tương ứng.
6


7

• Nhận dạng tiếng nói tự động (Automatic speech recognition–ASR) được
định nghĩa độc lập, máy tính trích xuất bản sao của ngôn ngữ nói sang
dạng văn bản. Nhận dạng tiếng nói tự động là một công cụ cho phép máy
tính có thể xác định những từ mà người nói vào microphone hoặc điện thoại
và biến đổi chúng sang dạng văn bản.
Mô hình nguồn kênh sử dụng cho nhận dạng tiếng nói được minh họa trong
Hình 1.1, được Huang đề xuất năm 2001 [43]. Mặc dù các kĩ thuật khác được
phát triển để nhận dạng tiếng nói từ các hệ thống dựa trên nhận thức cho đến
mạng thần kinh nhân tạo. Thành phần chính đằng sau quá trình này và hiện
nay là công nghệ nổi trội, là cách tiếp cận thống kê theo dữ liệu, được dựa trên
mô hình Markov ẩn.

Hình 1.1: Mô hình nguồn kênh cho một hệ thống nhận dạng tiếng nói

1.2. Bối cảnh lịch sử
Lịch sử của nhận dạng tiếng nói đã có hơn nửa thế kỷ. Dưới ảnh hưởng của khả
năng tính toán của máy tính, thuật toán và kĩ thuật tiên tiến, nhận dạng tiếng
nói đã có một bước tiến lớn so với hai thập kỉ trước đó. Cuộc thử nghiệm đầu
tiên để xây dựng những hệ thống cho việc nhận dạng tiếng nói tự động vào năm
1950 dựa trên ngữ âm học.
Năm 1952, tại Phòng thí nghiệm Bell, Davis, Biddulph và Balashek đã xây
dựng một hệ thống nhận dạng số độc lập cho một người nói [21] sử dụng tần số

cộng hưởng được đo/đánh giá trong vùng nguyên âm của mỗi số.
Vào những năm 70 của thế kỉ 20, những nghiên cứu về nhận dạng tiếng nói
đạt được những thành tựu đáng kể. Đầu tiên, trong lĩnh vực tách từ hay nhận
dạng tiếng nói rời rạc đã trở nên khả thi và công nghệ này dựa trên những nghiên


8

cứu cơ bản của Liên Xô (cũ) và Nhật Bản. Velich và Zagoruyko ở Liên Xô (cũ)
đã cải tiến ý tưởng sử dụng nhận dạng mẫu để áp dụng vào nhận dạng tiếng
nói [134]. Trong khi đó Sakoe và Chiba cải tiến phương pháp của họ bằng việc
sử dụng chương trình động và Itakura khi đang làm việc tại phòng thí nghiệm
Bell đã đề xuất ý tưởng mã hóa dự đoán tuyến tính (Linear Predictive Coding LPC) có thể mở rộng để sử dụng trong hệ thống nhận dạng tiếng nói thông qua
việc sử dụng khoảng cách đo thích hợp dựa trên tham số phổ của LPC [46].
Trong những năm 1980, các hệ thống nhận dạng từ ghép được phát minh dựa
trên thuật toán liên kết các từ rời rạc cho việc nhận dạng. Hướng quan trọng
nhất là chuyển đổi cách tiếp cận từ nhận dạng mẫu sang mô hình thống kê, đặc
biệt là mô hình Markov (Hidden Markov Model-HMM) [108]. HMM không được
sử dụng rộng rãi trong ứng tiếng nói cho đến mãi giữa những năm 1980.
Cuối những năm của thập kỷ 1980, các mạng thần kinh nhân tạo được đưa
ra để giải quyết các vấn đề trong nhận dạng tiếng nói cho mục đích phân loại
tín hiệu. Để tăng cường hơn nữa năng lực cho các hệ thống nhận dạng tiếng nói,
điển hình là tiếng nói tự phát, việc xác minh lời nói và các phương pháp tin cậy
được tập trung nghiên cứu [62].

1.3. Các đặc trưng âm thanh và các loại tín hiệu tiếng nói

Hình 1.2: Lọc nguồn của tín hiệu tiếng nói

Những đặc điểm âm thanh thông thường có được từ việc phân tích tín hiệu

tiếng nói như một nguồn thông qua bộ lọc thời gian biến đổi tuyến tính [33,
86, 106]. Hình 1.2 biểu diễn mô hình này, với e[n] là kích thích từ các mức âm
thanh, h[n] là bộ lọc đường thanh quản và x[n] là tín hiệu tiếng nói phát ra.
Việc biểu diễn đặc tính của âm thanh hiện nay dựa trên mô hình tạo âm thanh.
Vì tín hiệu tiếng nói biến đổi theo thời gian nên các đặc trưng được tính toán
từng khung với giả thiết tín hiệu tiếng nói không thay đổi trong mỗi khung. Âm
thanh tiếng nói có thể được đưa ra theo ba trạng thái sau:


9

• Im lặng: Không có tiếng nói được phát ra.
• Âm vô thanh: Dây thanh quản không rung nên không tạo ra dạng sóng âm
thanh có chu kì ngẫu nhiên.
• Âm hữu thanh: Dây thanh quản được căng ra và rung một cách tuần hoàn
nên tạo ra dạng sóng gần như tuần hoàn.
Bộ nhận dạng tiếng nói ước lượng các đặc tính lọc và thường bỏ qua kích
thích và thông tin cho nhận dạng tiếng nói hầu hết phụ thuộc vào đặc tính
của thanh quản. Do đó, quá trình phân tách giữa nguồn và bộ lọc là một trong
những nhiệm vụ quan trọng trong xử lý tiếng nói.
Dựa trên nhiều mô hình khác nhau, có một số cách biểu diễn đặc tính của
âm thanh thuận lợi cho việc nhận dạng tiếng nói. Về mặt lịch sử, ảnh phổ là
một cách biểu diễn hữu dụng dùng phân tích biến đổi Fourier thời gian ngắn.
Ý tưởng của ảnh phổ là tính toán một biến đổi Fourier trong mỗi khoảng thời
gian/tần số. LPC (được xem như phân tích LPC) hoặc mô hình hồi quy tự động
(Auto-regression AR) là một kĩ thuật phân tích dựa trên tất cả các điểm cực của
mô hình lọc nguồn. Các đặc điểm nhận dạng của âm thanh có thể có được từ
kĩ thuật phân tích này. Tuy nhiên, phân tích cepstral được dùng phổ biến nhất
trong kĩ thuật trích xuất đặc trưng của tiếng nói và Mel-Frequency Cepstrum
Coefficient (MFCC) là tập các đặc trưng được dùng phổ biến nhất hiện nay.

MFCC là các đặc trưng phổ được tính toán từ việc phân tích thời gian ngắn
tín hiệu tiếng nói. Sử dụng thang tần số phi tuyến thích hợp cho cách xử lý của
hệ thống tiếng nói. Những mô hình thúc đẩy nhận thức như dự báo nhận thức
tuyến tính (Perceptua Linear Prediction–PLP) [38, 39] có cách tiếp cận tương
tự với phân tích cepstral nhưng với mô hình cụ thể của hệ thống thính giác. Tất
cả các phương pháp tiếp cận đó nhấn mạnh việc phân tích phổ năng lượng/tần
số với quan điểm về sự xấp xỉ mô hình thính giác. Thông tin về pha và tần số
tín hiệu có bậc cao bị bỏ qua trong cách biểu diễn đặc trưng này.
Những hệ thống nhận dạng tiếng nói có thể được chia thành một vài dạng
khác nhau bằng cách mô tả những cách nói mà những hệ thống này có thể nhận
ra. Những hệ thống này dựa trên một thực tế khó khăn của ASR là khả năng
xác định khi nào người nói bắt đầu và kết thúc một lời nói. Dưới đây là các hình
thức khác nhau của nhận dạng tiếng nói.
• Các từ đơn


10

Bộ nhận dạng từ riêng biệt thường dựa trên khoảng lặng (không có tín hiệu
âm thanh) ở cả hai bên khung cửa sổ mẫu của từ đó. Thông thường, những
hệ thống này có các trạng thái “Lắng nghe/ Không lắng nghe” để chờ giữa
các câu nói (thông thường, việc xử lý trong khoảng thời gian người nói dừng
lại). Loại phân tách từ này được gọi là phân tách lời nói.
• Các từ kết nối
Hệ thống kết nối từ (hay nói chính xác hơn là các câu được kết nối) tương
tự như các từ được phân tách nhưng cho phép phân chia lời nói chạy cùng
nhau với một khoảng thời gian nghỉ ngắn nhất.
• Lời nói ngẫu nhiên
Ở mức độ cơ bản, những âm này như một âm thanh tự nhiên nhưng không
thể nhắc lại được. Một hệ thống ASR khả năng nhận ra lời nói tự nhiên có

thể xử lý được các đặc tính đa dạng của lời nói ngẫu nhiên , và xem lời nói
ngẫu nhiên như những từ hoạt động cùng nhau như “ừm”, “à” và ngay cả
những tật nói lắp nhẹ.
• Xác minh tiếng nói
Một vài hệ thống ASR có khả năng xác định người cụ thể. Luận án này
không bao gồm hệ thống xác minh tiếng nói.

1.4. Các đặc trưng phức tạp của nhận dạng tiếng nói
Mặc dù làm việc với cùng loại tín hiệu thô, nhận dạng tiếng nói thường được
xem như là phức tạp hơn tổng hợp tiếng nói. Sự phức tạp của nhận dạng tiếng
nói có thể được phân loại theo các yếu tố sau:
• Số lượng người nói: Một số thiết bị có thể nhận dạng tiếng nói từ một người
nói chính xác định nào đó (phụ thuộc người nói). Một số khác có thể nhận
dạng tiếng nói tự nhiên (không phụ thuộc người nói). Khi một hệ thống
phụ thuộc người nói thì người nói cần dạy hệ thống (huấn luyện cho hệ
thống) bằng cách đọc một đoạn văn bản một vài trang trước khi hệ thống
có thể nhận ra giọng của người nói đó. Hệ thống độc lập với người nói dùng
phương pháp dạy trước cho hệ thống bằng một lượng lớn người nói, vì vậy,
khi một người mới nói vào hệ thống, người dùng có thể rơi vào tập hợp các
giọng đọc mà hệ thống đã được dạy hoặc là mẫu giọng đọc đã được mô


11

hình hóa.
• Lời nói lưu loát: Các hệ thống cũ chỉ có thể nhận dạng các từ riêng biệt,
điều đó có nghĩa là người nói phải dừng lại ở mỗi từ trong khi nói. Trong
khi đó, các hệ thống ngày nay có thể hoạt động với lời nói liên tục. Một
công nghệ khác liên quan đến từ được làm trọng tâm, nghĩa là nhận dạng
những từ khóa trong một chuỗi những từ không biết. Nhận dạng tiếng nói

liên tục khó hơn vì tổ hợp để giải mã từ một chuỗi âm vị tăng lên. Nếu có
khoảng thời gian tạm nghỉ giữa hai từ thì việc giải mã từ sẽ dễ hơn. Nghiên
cứu hiện nay tập trung vào việc cải thiện hiệu năng nhận dạng trong lời nói
tự nhiên với những lời nói ấp úng hoặc đính chính trong lúc nói.
• Số lượng từ vựng: Từ vựng là một yếu tố làm giới hạn khả năng của rất
nhiều thiết bị nhận dạng. Số lượng từ vựng lớn làm tăng khả năng nhầm
lẫn, và cần nhiều bộ nhớ và tài nguyên tính toán. Nhiều từ khác nhau sẽ
dễ tổ chức hơn so với số lượng từ ít mà các từ này lại đồng nghĩa. Hệ thống
ngữ nghĩa trong thương mại lên tới hơn 64,000 từ, trong khi nhận dạng số
vẫn là một vấn đề.
• Yếu tố cú pháp: Một cú pháp gượng ép giúp nhận dạng những từ bằng cách
làm mờ các từ đồng âm. Số lượng từ trung bình cho phép đưa ra một từ
gọi là yếu tố phân nhánh hoặc sự hỗn tạp. Để đưa ra một từ dựa trên ngữ
pháp sẽ giảm sự hỗn tạp. Tuy nhiên, cú pháp thường giới hạn lĩnh vực áp
dụng. Thêm vào đó, những câu xảy ra trong lời nói tự nhiên gồm những lời
đính chính mà điều này không nằm trong cú pháp chuẩn mực.
• Yếu tố môi trường: Nhiều phòng thí nghiệm đưa ra các báo cáo về những
cuộc thử nghiệm với tỉ lệ nhận dạng cao vào những năm đầu thập niêm
80 của thế kỉ 20. Những kết quả này được làm sáng tỏ. Khi điều kiện môi
trường được tính đến thì kết quả bị ảnh hưởng rất nhiều. Yêu cầu người nói
phát âm cẩn thận từng từ trong những phòng được cách ly. Điều này thu
được kết quả không như mong muốn trong điều kiện thực tế. Những ứng
dụng thực tế cung cấp dịch vụ điện thoại hoặc điều khiển máy bằng giọng
nói, những điều kiện đó làm khả năng nhận dạng giảm một cách nhanh
chóng. Những nghiên cứu ngày nay bao gồm đánh giá nhận dạng tin tức
quảng bá, lời trên nền nhạc hoặc trong hội thoại.


12


• Sự phức tạp trong ngôn ngữ: Nhiều phòng thí nghiệm nhận dạng tiếng nói
tập trung nghiên cứu tiếng Anh và tối ưu công cụ cho việc nhận dạng ngôn
ngữ. Những nghiên cứu cố gắng cho tiếng Anh và mở rộng sang các ngôn
ngữ Tây Âu khác như tiếng Đức, tiếng Pháp, tiếng Tây Ban Nha, tiếng
Italia. Với sự đầu tư nghiên cứu nhiều hơn, nên khả năng của các hệ thống
dành cho tiếng Anh thực hiện tốt hơn. Nhận dạng các ngôn ngữ khác ngay
cả khi có cộng đồng người nói lớn như tiếng A–rập, tiếng Trung Quốc, tiếng
Ấn Độ và Việt Nam hiện nay có chất lượng thấp hơn.
Tóm lại, việc nhận dạng một số lượng nhỏ các từ rời rạc từ một người nói đơn
lẻ trong môi trường yên tĩnh dễ hơn rất nhiều so với lời nói liên tục trong môi
trường thực tế như từ một người bất kì qua điện thoại là một ví dụ.

1.5. Ảnh hưởng của nhiễu trong nhận dạng tiếng nói
Cường độ nhiễu là một vấn đề mấu chốt trong nhận dạng tiếng nói tự động
(ASR). Nhiễu là thông tin không mong muốn trong tín hiệu nói. Tiếng nói được
thu trong các môi trường khác nhau bị nhiễu lẫn vào. Trong ASR, chúng ta phải
xác định và lọc những nhiễu này từ tín hiệu lời nói. Một loại nhiễu khác là hiệu
ứng tiếng vang, khi tín hiệu nói được phản xạ từ một vài đối tượng xung quanh
và đến microphone trong một vài mili giây sau đó. Trong môi trường thuận lợi,
hiện tượng phản xạ có thể kéo dài tới vài giây.
Rất nhiều phương pháp được nghiên cứu nhằm cải thiện khả năng của những
hệ thống nhận dạng tiếng nói trong các môi trường nhiễu khác nhau. Những
phương pháp này có thể được phân thành 3 loại cơ bản dựa trên mục tiêu của
từng phương pháp: chống các nhiễu đặc trưng, kĩ thuật nâng cao chất lượng
tiếng nói, chống nhiễu thích nghi [139]. Trong đó, nhiều phương pháp thực hiện
việc nhận dạng mẫu chung và thuật toán học thống kê để cải thiện khả năng
chống nhiễu của hệ thống nhận dạng tiếng nói mà không cần biết trước môi
trường nói. Có thể xem xét một vài cách tiếp cận dựa trên phân tích. Nếu dữ
liệu dùng để huấn luyện và dữ liệu dùng trong thử nghiệm (có nhiễu) có trung
bình và phương sai không giống nhau thì khả năng nhận dạng của hệ thống bị

suy giảm nhanh chóng. Một số phương pháp khác để giảm biến đổi trung bình
và tăng phương sai được đưa ra bằng cách thêm nhiễu vào tín hiệu tiếng nói.


13

Các đặc trưng chống nhiễu phụ thuộc vào việc xác định tốt hơn các đặc trưng
của nhận dạng giọng nói, có tính đến sự tồn tại của nhiễu. Nhiều phương pháp
không có những giả định hay đánh giá về các đặc trưng của nhiễu. Tuy nhiên,
mỗi kĩ thuật đều có ưu điểm cũng như nhược điểm, điều này phụ thuộc vào điều
kiện của nhiễu khi đánh giá phương pháp đó [139]. Cuối cùng, những phương
pháp này hướng đến việc xác định tốt hơn, mạnh mẽ hơn cho nhận dạng đặc
trưng tiếng nói trong môi trường nhiễu.
Giữa các đặc trưng chống nhiễu, kĩ thuật phổ biến nhất là chuẩn hóa trung
bình cepstral (ceptral mean normalization–CMN). Kĩ thuật này dùng để chuẩn
hóa sự biến đổi của phổ trong các môi trường ghi âm. Các kĩ thuật khác như
xử lý phổ tương đối (relative spectral processing–RASTA) [26] cố gắng loại bỏ
nhiễu nền biến đổi chậm so với với sự biến đổi của tín hiệu tiếng nói. Cả hai
kĩ thuật có để đạt được ở một số môi trường khác nhau với một chi phí không
đáng kể [37].
Các kĩ thuật tăng cường tiếng nói cố gắng giới hạn ảnh hưởng của nhiễu trong
lời nói bằng cách trích xuất lời nói nguyên văn từ tín hiệu bị nhiễu. Rất nhiều
kĩ thuật phổ biến ban đầu được phát triển để cải thiện chất lượng cảm nhận
tiếng nói cho người nghe. Những kĩ thuật này nhằm giảm nhiễu âm thanh trong
tín hiệu tiếng nói. Việc giảm nhiễu có thể được thực hiện bằng cách cải thiện
tỉ lệ tín hiệu trên nhiễu (Signal–to–noise hay ký hiệu là SNR) của tín hiệu đầu
vào [22]. Một kĩ thuật phổ biến là trừ phổ. Trong phương pháp này, phổ biên
độ của tín hiệu lời nói ban đầu thu được bằng cách trừ tín hiệu lời nói cho phổ
biên độ nhiễu được ước lượng. Trong khi có rất nhiều thuật toán được chứng
minh để cải thiện chất lượng tín hiệu tiếng nói, song không phải những cải tiến

này luôn cải thiện hiệu năng của hệ thống nhận dạng giọng nói. Trong một vài
điều kiện nhiễu, việc cải thiện tiếng nói có thể gây ra việc ước lượng vượt quá
số liệu thống kê nhiễu dẫn đến giảm chất lượng tiếng nói [81].
Khác với việc thu được giọng nói ban đầu thông qua các kĩ thuật nâng cao
chất lượng tín hiệu tiếng nói, phương pháp thích nghi nhiễu cố gắng làm thích
nghi mô hình nhận dạng trong môi trường có nhiễu. Những kĩ thuật này thay
đổi các tham số của mô hình nhận dạng để nhận dạng được giọng nói có nhiễu.
Thêm vào đó, một số kĩ thuật thích nghi nhiễu được thêm vào bộ nhận dạng.
Những nghiên cứu này hoạt động tốt trong các môi trường với tỉ lệ tín hiệu trên
tạp âm cao, hay nói cách khác, trong điều kiện có sự phân biệt rõ ràng giữa


14

tiếng nói và nhiễu nền. Tuy nhiên, những điều chỉnh các tham số trong mô hình
thường cho kết quả biến động rất lớn trong việc thực hiện nhận dạng. Mô hình
cộng thêm nhiễu như sau:
Với sự có mặt của nhiễu thêm vào tín hiệu tiếng nói là s(k), nhiễu n(k) thì
kết quả có được của tín hiệu tiếng nói đi cùng với nhiễu là x(k)
x(k) = s(k) + n(k)

(1.1)

x(ejω ) = s(ejω ) + n(ejω )

(1.2)

Trong miền tần số

Các mối quan hệ giữa 2 miền thời gian và tần số là tương tự, tuy nhiên, phổ

biên độ chỉ giống nhau trong trường hợp tín hiệu và nhiễu cùng pha. Vì vậy phổ
biên độ thường được dùng trong việc tính toán các đặc trưng của ASR.
Giả sử phổ phức của tín hiệu và tiếng nói ở tần số ωθ như sau:
S(ejωθ ) = aejθ1

(1.3)

N (ejωθ ) = bejθ2

Với a và b tương ứng là biên độ phổ tiếng nói và nhiễu tại tần số ωθ. Biên độ
phổ tín hiệu có nhiễu:
p = aejθ1 + bejθ2 .

(1.4)

Trong đó p là biến ngẫu nhiên. Để tính toán kì vọng p, đầu tiên chúng ta cần
xét đến biên độ của nhiễu b, tiếp theo chỉ ra ngẫu nhiên hóa pha của nhiễu bằng
phân bố đều trong khoảng 0 đến 2π.
1
E(p) =

a
=




ae

jθ1


+ be

jθ2

0

1
dθ =




a2 + b2 + 2abcos(θ)dθ,
(1.5)

0



1 + r2 + 2rcos(θ)dθ = a.Q(r),
0

Trong đó, θ = θ2 − θ1 and r = ab . Với b là biên độ nhiễu và là một biến ngẫu
nhiên, E(p) được tính như sau:

E(p) = a

f (b)Q
b


b
db
a

(1.6)

Với f (b) là hàm phân bố xác suất của b. Thông thường, b biến động nhỏ với
nhiễu tĩnh nhưng biến động rất lớn với nhiễu động. Trong kết luận ở phần trước,


15

giá trị của b thường nhỏ hơn a khi ảnh hưởng của nhiễu là nhỏ. Trong nhận
dạng tiếng nói, toán tử logarit được áp dụng để mô phỏng cảm nhận của con
người về cường độ âm thanh. Do đó, ta dùng:

log (E(p)) = log(a) + log (Q(r))

(1.7)

Nói chung, ở một mức độ nhiễu xác định, những tần số với năng lượng thấp
dễ bị nhiễu. Để những tần số có SNR cao, ảnh hưởng của nhiễu đặc biệt sau khi
logarit là không đáng kể.

Hình 1.3: Mô hình hóa môi trường thêm nhiễu và lọc bằng kênh tuyến tính

Như được đưa ra trong Hình 1.3, x[k] diễn tả tín hiệu sạch; n[k] là tín hiệu
nhiễu; y[k] là tín hiệu tiếng nói có nhiễu; và h[k] là kênh tuyến tính.
Một trong những những thành phần quan trọng trong nhận dạng tiếng nói

có thể cải tiến tất cả các kĩ thuật chống nhiễu mạnh là phát hiện tiếng nói kích
hoạt (Voice Activity Detection–VAD) [31]. VAD thường được dùng để nhận ra
sự có mặt của tiếng nói trong một tín hiệu đầu vào bằng cách đánh dấu ranh
giới giữa đoạn tín hiệu có tiếng nói và đoạn còn lại. Những nghiên cứu chỉ ra
rằng hiệu năng của hệ thống nhận dạng tiếng nói có thể được nâng cao một
cách rõ rệt bằng việc tích hợp mô-đun VAD vào hệ thống. Ví dụ: một đánh giá
thực tế, bộ nhận dạng từ độc lập cho ra nhiều hơn 50% tỉ lệ lỗi vì lỗi ở việc xác
định đầu cuối [86]. Hơn nữa, bộ VAD chính xác giảm thời gian đáp ứng và chi
phí cho việc tính toán của những hệ thống nhận dạng tiếng nói khi chỉ xác định
khung có tiếng nói thông qua thuật toán nhận dạng.

1.6. Phát hiện tiếng nói (VAD)
Phát hiện tiếng nói là nhiệm vụ cơ bản trong các ứng dụng liên quan đến xử
lý tiếng nói như: mã hóa tiếng nói, nhận dạng tiếng nói,. . . Nhiệm vụ này được


16

xem như vấn đề phân biệt tiếng nói với nhiễu/sự im lặng [118, 133]. Hình 1.4
minh họa cho VAD điển hình:

Hình 1.4: Phát hiện tiếng nói

Một hệ thống phát hiện tiếng nói điển hình bao gồm hai thành phần cơ bản:
phần trích đặc trưng và cơ chế quyết định một tín hiệu là tiếng nói hay không.
Phần đầu tiên trích chọn một tập các tham số từ tín hiệu và được sử dụng cho
phần tiếp theo quyết định tín hiệu đó có phải tiếng nói hay không dựa trên một
tập hợp các luật. Hầu hết các đặc trưng của VAD là lợi dụng các đặc trưng phân
biệt trong tiếng nói ở các đặc trưng khác nhau, các đặc trưng này có thể được
chia thành 5 loại: đặc trưng năng lượng, đặc trưng của miền phổ, đặc trưng miền

cepstral, đặc trưng sóng hài và đặc trưng dài hạn. Đặc trưng năng lượng đơn
giản và dễ thực hiện trên phần cứng. Đặc trưng miền phổ và đặc trưng miền
cepstral nhạy với nhiễu hơn ở những SNR thấp, vì chúng có lợi từ nhiều loại
kĩ thuật lọc và phân tích tiếng nói trong những miền này. Khi SNR gần bằng
0 dB hoặc nhiễu nền gồm trường hợp âm thanh phức tạp, các đặc trưng này
dựa vào cấu trúc họa âm của tiếng nói cũng như lợi dụng tính biến đổi trong
khoảng thời gian dài của tiếng nói xuất hiện nhiều. Ở phần thứ hai của VAD
quyết định đoạn tín hiệu có phải tiếng nói hay không. Cơ chế tạo ra quyết định
này có thể chia thành ba loại: lấy ngưỡng, mô hình hóa thống kê và học máy.
Loại thứ nhất là đơn giản nhất, nhưng không đủ cho nhiều trường hợp có các
đặc điểm thực thi có tính năng phân biệt tốt. Hai loại sau làm việc tốt với SNR
cao nhưng hiệu năng của 2 loại này giảm xuống nhanh chóng tại các SNR thấp.
VAD là một bài toán phân loại với các đặc trưng của tín hiệu âm thanh được
dùng để phân chia tín hiệu vào thành 2 loại: tiếng nói và không phải tiếng nói.
Hai thành phần cơ bản của VAD là tính toán đặc trưng và thuật toán phân loại.
Thông thường, tín hiệu âm thanh được chia thành các khung có chiều dài cố
định và các giá trị đặc trưng được tính toán ở mỗi khung. Sau đó, các giá trị


17

này sau đó được đưa qua thuật toán phân loại. Quá trình VAD được biểu diễn
ở Hình 1.4.
Việc tính toán đặc trưng xác định các giá trị dùng cho việc phân loại tín hiệu
âm thanh thành các lớp khác nhau đóng vai trò quan trọng. Việc tổ hợp các
giá trị đặc trưng thô thành các đặc trưng độc lập giúp giảm số chiều của biến
đầu vào. Lượng tử hóa cũng có thể được áp dụng trong quá trình này. Những
nghiên cứu chi tiết của quá trình này trong các hệ thống VAD được trình bày ở
các phần sau của Luận án này.
Thuật toán phân loại là bước quyết định trong các hệ thống VAD. Các thuật

toán đang có dùng vào cho việc phân loại được chia thành các thuật toán dựa
trên luật và các thuật toán học máy. Với các thuật toán dựa trên luật, người
dùng quyết định tính toán các giá trị ngưỡng đặc trưng trong quyết định phân
loại. Tuy nhiên, việc tìm các giá trị ngưỡng tối ưu rất khó, đặc biệt khi tập các
đặc trưng lớn và phức tạp. Mặc khác, các thuật toán học máy sử dụng dữ liệu
huấn luyện để xây dựng chức năng ra quyết định, việc phân loại tín hiệu đầu
vào thành một trong các nhóm đã được định nghĩa trước mà không cần định
nghĩa các ngưỡng.
Việc lựa chọn các đặc trưng và thuật toán phân loại phù hợp là một nhiệm
vụ rất khó nhưng vấn đề trở nên thách thức hơn khi môi trường gây ra nhiễu
tín hiệu tiếng nói. Khi điều này xảy ra, VAD cần đòi hỏi thận trọng hơn ở chức
năng đưa ra quyết định. Việc xác định dấu hiệu của tiếng nói khi ra quyết định
là nghi ngờ. Có lẽ môi trường phức tạp nhất cho nhận dạng tiếng nói là môi
trường có SNR thấp, với điều kiện đó thì hầu hết các kĩ thuật phát hiện tiếng
nói đơn giản không thể phân biệt tiếng nói và nhiễu. Ở môi trường thu âm có
nhiễu, con người thường thay đổi tiếng nói để bù với nhiễu [34, 114]. Những thay
đổi trong việc tạo tiếng nói trong các điều kiện bất lợi này (được gọi là hiệu ứng
Lombard) có thể có ảnh hưởng lớn lên tín hiệu vì việc tạo tiếng nói bị thay đổi
khi cố gắng giao tiếp hiệu quả hơn trong môi trường nhiễu là những điều trái
ngược nhau [34].

1.7. Nghiên cứu xử lý tín hiệu phi tuyến tính
Thành phần phi tuyến tính tồn tại trong tín hiệu như tiếng người nói hoặc tín
hiệu y sinh (EEG, ECG). Đối với một số hệ thống xử lý tín hiệu, phi tuyến tính
là một thành phần cơ bản. Việc sử dụng kĩ thuật phi tuyến tính trong xử lý


18

tiếng nói là một lĩnh vực nghiên cứu phát triển rất nhanh. Các phương pháp rất

đa dạng bao gồm tuyến tính hóa giống như trong lĩnh vực lọc thích nghi [37]
và nhiều dạng bộ dao động và bộ dự đoán phi tuyến [56]. Các bộ dự đoán phi
tuyến là thành phần của lớp các mô hình tự hồi quy phi tuyến thông thường.
Trong các cách xấp xỉ khác nhau cho các mô hình tự hồi quy phi tuyến đã được
đề xuất được chia thành hai loại chính: phương pháp tham số và phương pháp
phi tham số. Các phương pháp tham số được minh họa bằng xấp xỉ đa thức, các
mô hình tuyến tính từng đoạn [59], các mô hình trạng thái phụ thuộc cũng như
mạng thần kinh nhân tạo. Các phương pháp phi tham số bao gồm các phương
thức lân cận gần nhất [26], ước lượng mật độ nhân..v..v. Một lớp các phương
pháp xử lý tiếng nói phi tuyến bao gồm các mô hình và thuật toán xử lý tín
hiệu số được đưa ra để phân tích hiện tượng phi tuyến động trong luồng khí lúc
tạo ra tiếng nói [131]. Những nghiên cứu về đặc tính phi tuyến của luồng khí lúc
nói có thể dẫn đến sự phát triển của các hệ thống xử lý tín hiệu phi tuyến thích
hợp cho việc trích xuất các thông tin liên quan trong các hiện tượng như vậy.
Công việc gần đây bao gồm sử dụng mô hình AM–FM để mô hình hóa những
tiếng nói âm vang [70], sử dụng phương pháp fractal đo đạc mức độ nhiễu loạn
trong các âm thanh tiếng nói [71] và ứng dụng các đặc trưng tiếng nói phi tuyến
cho việc nhận dạng tiếng nói [22, 71].

Hình 1.5: Tái tạo không gian pha của tín hiệu tiếng nói


19

1.8. Nhận dạng tiếng nói tuyến tính và phi tuyến tính
Trong vài năm gần đây, các nghiên cứu cơ bản để mô hình hóa tiếng nói là mô
hình tuyến tính (nguồn–bộ lọc), trong đó, quá trình tạo ra tiếng nói hoàn toàn
phi tuyến ở mức vật lý được xấp xỉ thông qua việc giả sử âm thanh tuyến tính
và sóng âm được lan truyền theo mặt phẳng một chiều trong thanh quản. Mô
hình tuyến tính được áp dụng để mã hóa, tổng hợp, nhận dạng nhiều tiếng nói

khác nhau với thành công còn hạn chế. Để xây dựng những ứng dụng hiệu quả,
những sai lệch từ mô hình tuyến tính thường được mô hình hóa bằng các hiệu
ứng bậc hai hoặc các thành phần sai lệch.
Các kĩ thuật xử lý tín hiệu tiếng nói thông thường được xác định trên lý
thuyết hệ thống tuyến tính và không gian xử lý chủ yếu phần lớn trên miền
tần số [131]. Các nghiên cứu âm thanh cơ bản giả thiết một mô hình nguồn–bộ
lọc trong đó thanh quản được mô hình hóa như một bộ lọc tuyến tính. Công
việc tiếp theo là chia các vùng tần số đặc tính của thanh quản từ nguồn kích
thích. Vector đặc trưng điển hình được dùng cho bộ nhận dạng tiếng nói từ
thủ tục xử lý tín hiệu là các hệ số tần số Mel cepstral (Mel frequency cepstral
coefficients–MFCC).
Như một sự thay thế cho các kĩ thuật truyền thống và để đạt được hiệu
quả tốt hơn, hệ thống phi tuyến xuất hiện trong nghiên cứu tiếng nói. Sử dụng
các kĩ thuật, các phân tích tập trung từ miền tần số sang một không gian xử
lý khác gọi là không gian tái tạo pha. Một không gian tái tạo pha được tạo ra
bằng cách thiết lập các véc-tơ, trong đó, các phần tử của không gian là chuỗi
các biến được làm trễ đi. Hình 1.5 biểu diễn một ví dụ việc tạo không gian pha
của tín hiệu tiếng nói.
Các mô hình phi tuyến của hệ thống tạo tiếng nói được thực hiện thành
công, điều này tạo ra sức hút của các nghiên cứu tái tạo các tín hiệu tiếng nói.
Các mô hình này được dùng để trích các đặc trưng giúp cho việc mô tả đặc tính
của các hệ thống hỗn loạn có tên là lũy thừa Lyapunov. Các thử nghiệm với các
lũy thừa Lyapunov của các lớp âm vị chỉ ra rằng có thể là các đặc trưng có lợi
cho việc phân loại âm thanh tiếng nói, đưa ra một hướng nghiên cứu hứa hẹn
cho việc xử lý nhanh và khả thi.
Khi nghiên cứu chuỗi thời gian, các phương pháp như lũy thừa Lyapunov,
chiều tương quan, việc phân tích các phần tử chính thường cho ra hiệu quả tốt.


20


Để sử dụng các công cụ phi tuyến cho nhận dạng tiếng nói, các thành phần tĩnh
của tín hiệu tiếng nói cần phải đặc biệt chú trọng. Thêm thành phần không
tĩnh gây khó khăn cho áp dụng phương thức phi tuyến cho việc quy ước phân
chia thời gian. Ví dụ, trong tín hiệu tồn tại các thành phần dao động với ba
tần số khác nhau. Kết quả là những tần số có ý nghĩa trong phổ tín hiệu chiếm
dải từ hàng trăm Hz đến hàng kHz khác với trường hợp hệ thống hỗn loạn lí
tưởng như hệ thống Rossler. Trong hầu hết các trường hợp, phương pháp tái
tạo không gian pha của hệ thống động dựa trên định lý Takens [129]. Bản chất
của phương pháp gồm sự diễn giải hình học của hệ thống động tín hiệu trong
không gian Euclid với số chiều xác định d.
Một trong các phương thức chính để ước lượng chiều của tập đạt được
trong không gian nhúng cho tín hiệu tiếng nói là ước lượng chiều tương quan.
Vấn đề hoàn toàn tương tự khi chiều của vùng hút hỗn loạn được ước lượng. Để
ước lượng chiều tương quan yêu cầu tính tổ hợp tương quan

C(ǫ, N ) =

1
N2

θ (ǫ − |xi − xj |)

(1.8)

i=j

Trong đó xi là các điểm của không gian nhúng d chiều. Chiều tương quan có
thể được biểu diễn như sau:
logC(ǫ, N )

ǫ→0 N →∞
logǫ

ν = lim lim

(1.9)

Trong đó N là số lượng điểm trong một không gian nhúng. Chiều tương quan
cũng đưa ra ước lượng các điểm trong tập tín hiệu tiếng nói trong không gian
pha. Trong Chương 2, luận án sẽ thảo luận chi tiết những kĩ thuật phi tuyến
cho việc nhận dạng tín hiệu tiếng nói và các tiêu chuẩn kèm theo.

1.9. Xác định các điểm kết thúc của tín hiệu tiếng nói
Việc phát hiện và xác định các điểm kết thúc của các đoạn tiếng nói tương
đối phức tạp trong các môi trường nhiễu nhưng rất quan trọng cho việc nhận
dạng tiếng nói. Phổ năng lượng hay năng lượng trong thời gian ngắn thường
được dùng như những tham số chủ yếu để phân biệt đoạn có tiếng nói với các
cùng còn lại [50, 60, 101, 120]. Tuy nhiên, các đặc tính có độ tin cậy bị giảm


21

trong môi trường nhiễu, đặc biệt là sự xuất hiện của nhiễu động và âm thanh
nhân tạo như tiếng đập môi, tiếng thở mạnh, tiếng mấp máy miệng.v..v.
Trong các thuật toán thông thường xác định các điểm kết thúc tín hiệu, phổ
năng lượng hay năng lượng trong thời gian ngắn thường được dùng như các
tham số cơ bản với sự gia tăng tỉ lệ cắt qua không, độ dốc và khoảng thời
gian [50, 60, 101, 120]. Nhưng những đặc trưng này giảm hiệu quả và độ tin cậy
nếu có nhiễu động và nhiều loại âm thanh nhân tạo. Một số thuật toán khác sử
dụng ngưỡng thích nghi nhưng lại không hữu ích nếu có âm thanh nhân tạo và

mức độ nhiễu tương đối cao.
Thuật toán mới cho việc xác định điểm tiếng nói kết thúc được đưa ra dựa
trên entropy [89] trong miền tần số, được gọi là phổ entropy. Với nghiên cứu
này, đầu tiên hàm mật độ xác suất (probability density function - pdf) của phổ
cho mỗi khung tín hiệu tiếng nói được ước lượng, phổ entropy được xác định và
đo đạc. Giá trị phổ entropy này rất hữu ích trong việc phân biệt những đoạn
có tiếng nói và phần không có tiếng nói trong một đoạn ghi âm liên tục, đặc
biệt trong môi trường nhiễu lớn và tương quan. Hàm mật độ xác suất của phổ
tiếng nói cũng được ước lượng thống kê thông qua một tập hợp lớn dữ liệu tiếng
nói để sử dụng như một hàm trọng số cho phổ entropy. Kết quả các cuộc thử
nghiệm chỉ ra rằng các đoạn tiếng nói được nhúng vào có thể được trích xuất ra
rất chính xác trong lời nói gồm nhiều loại nhiễu nền lớn và âm thanh nhân tạo
khác nhau. Hiệu năng của việc nhận dạng trong các môi trường này được cải
thiện đáng kể khi so sánh với các thuật toán dựa trên năng lượng thông thường.
Hình 1.6 biểu diễn một số kết quả thực nghiệm [124].
Tiêu chuẩn phát hiện điểm cuối trong miền thời gian có thể được tổng hợp
như sau:
• Việc loại bỏ các thành phần một chiều rất quan trọng vì tỉ lệ cắt qua không
của tín hiệu được tính và có vai trò trong việc phát hiện đoạn nào không
tồn tại tiếng nói. Nếu thành phần một chiều không bị loại bỏ, ta không thể
tìm tỉ lệ cắt qua không của nhiễu để loại nhiễu ra khỏi tín hiệu.
• Tính độ lớn trung bình và tỉ lệ cắt qua không của tín hiệu cũng như của
nhiễu nền. Hai thành phần này được tính từ 100 ms đầu tiên của tín hiệu.
Những giá trị trung bình và độ lệch chuẩn của độ lớn trung bình và tỉ lệ
cắt qua không của nhiễu được tính, giúp xác định được các ngưỡng cho mỗi


22

lần tách tín hiệu tiếng nói thật ra khỏi nhiễu nền.

• Tại thời điểm bắt đầu tín hiệu, ta tìm điểm đầu tiên có biên độ tín hiệu
trội hơn so với tín hiệu trước đó, thiết lập ngưỡng cho biên độ trung bình.
Vị trí này được đánh dấu là điểm bắt đầu của đoạn tiếng nói.
• Từ điểm này, cần tìm ngược lại cho đến khi biên độ thấp hơn một ngưỡng
biên độ xác định trước.
• Tìm các khung của tín hiệu trước đó để tìm vị trí tỉ lệ cắt qua không dưới
một ngưỡng cho trước. Điểm này nếu được tìm thấy sẽ giải thích rằng tiếng
nói bắt đầu với một âm vô thanh và cho phép thuật toán quay lại điểm bắt
đầu của tiếng nói gồm tại vị trí bắt đầu cụm chứa âm vô thanh.
• Quá trình xử lý trên được lặp lại cho đến khi kết thúc tín hiệu tiếng nói tại
điểm kết thúc.


23

(a) Dạng sóng của tiếng nói

(b) Sơ đồ phổ

(c) Năng lượng thời gian ngắn và phổ năng lượng

(d) Tỉ lệ cắt qua không

(e) Etropy của phổ (đồng thời xác định điểm bắt đầu và kết thúc)

Hình 1.6: Các tham số biến đổi cho các loại nhiễu khác nhau và tín hiệu tiếng nói
được thu liên tục

1.10. Miền thời gian và miền tần số-thời gian
Một vài phân tích trong việc nhận dạng tín hiệu tiếng nói nghiên cứu trong miền

thời gian cũng như miền tần số-thời gian chỉ ra rằng miền tần số-thời gian có


24

thể cho kết quả tốt hơn trong trường hợp tín hiệu có nhiễu.
Như chúng ta đã biết, việc cảm nhận tiếng nói là một quá trình phân cấp
phức tạp bao gồm một số mức độ nhận dạng. Ở mức độ thấp nhất, âm vị được
nhận dạng thông qua thuộc tính âm thanh của tín hiệu tiếng nói. Khi đó, từ,
câu, cảm nhận cuối cùng của một phát biểu được nhận dạng từ việc liên kết
các âm vị. Nhận dạng âm vị nhằm chuyển lời nói liên tục sang các phần rời rạc
liên tiếp nhau, các chữ trong bảng chữ cái thường bao gồm các âm vị trong một
ngôn ngữ. Sự chuyển đổi này làm giảm đáng kể sự mô tả tín hiệu tiếng nói có
được thông qua việc loại bỏ các thông tin không cần thiết bằng việc đưa ra các
phát âm đặc trưng, đặc tính âm thanh của môi trường, trạng thái cảm xúc của
người nói.
Thông tin về ngữ âm trong tín hiệu tiếng nói gồm những thay đổi phổ trong
giai đoạn ngắn phản ánh địa điểm và phương thức phát âm. Do đó, việc phân
tích tần số ngắn hạn được thực hiện tại giai đoạn đầu của quá trình xử lý
tín hiệu tiếng nói S(t) được biểu diễn dưới dạng chuỗi các mẫu rời rạc S(n),
n = 0, 1, 2 . . . với tần số lấy mẫu f = 8 ÷ 20 kHz. Cần làm trơn các ước lượng
pha theo thời gian và tần số để hỗ trợ tối đa cho hiệu năng nhận dạng tiếng nói,
đặc biệt với tín hiệu nhiều nhiễu. Một số phân tích chỉ ra nhận dạng trên miền
tần số chính xác hơn trên miền thời gian với mức độ tính toán ít hơn đáng kể.
Mới đây, thuật toán ước lượng biên độ giao điểm không (Zero Crossing Amplitude Estimation–ZCAE) được Park [96] giới thiệu. Những thuật toán phân
tích tiếng nói thu được từ những kênh thông dải và cố gắng xác định tập con
của các phần tử thời gian–tần số gần với nguồn âm mong muốn. Tín hiệu nhận
dạng chỉ được tái cấu trúc từ tập con các phần tử thời gian–tần số “tốt”. Sự lựa
chọn các phần tử “tốt” này thường được xét đến trong tài liệu phân tích tính
toán ngữ cảnh âm thanh (Computational Auditory Scene Analysis–CASA) như

việc nhân tất cả các phần từ với một mặt nạ nhị phân chỉ khác không với những
phần tử tín hiệu mong muốn. Mặc dù ZCAE cho một hiệu năng ấn tượng cho dù
SNR thấp nhưng thuật toán này lại đòi hỏi mức độ tính toán lớn, không thích
hợp cho các thiết bị cầm tay.

1.11. Mô hình Markov ẩn
Mô hình Markov ẩn (Hidden Markov model–HMM) là một công cụ tính toán


×