Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
1
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP
NGUYỄN NGỌC TOÀN
NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TRONG NHẬN
DẠNG TIẾNG NÓI
Chuyên ngành: Kỹ thuật điện tử
Mã số: 60.52.70
LUẬN VĂN THẠC SĨ KỸ THUẬT
Thái Nguyên - 2012
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2
CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI
1.1 GIỚI THIỆU
Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp
(classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được
học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là
các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì công việc
nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận
dạng với các mẫu đã được học và lưu trữ trong bộ nhớ.
Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo
thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ
nói, ngữ cảnh và môi trường âm học khác nhau. Một nhiệm vụ khó khăn đó là xác định
những thông tin biến thiên nào của tiếng nói là quan trọng đối với nhận dạng tiếng nói
và những thông tin nào là không quan trọng đối với công việc nhận dạng tiếng nói. Đây
là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh
cũng khó khăn trong việc tổng quát hóa từ các mẫu tiếng nói, những biến thiên quan
trọng cần thiết trong nhận dạng tiếng nói.
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:
- Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một
khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các
đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ
liệu để nhận dạng tiếng nói.
- Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký
hiệu ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm,
phát âm thành dãy các ký hiệu ngữ âm.
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3
- Nhận dạng tiếng nói là một quá trình nhận thức. Ngôn ngữ nói là có ý nghĩa,
do đó thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá
trình nhận dạng tiếng nói nhất là khi thông tin về âm học là không rõ ràng.
Lĩnh vực nghiên cứu của nhận dạng tiếng nói là rất rộng, liên quan đến nhiều
ngành khác nhau. Sau đây là các ngành và mối liên hệ của chúng với nhận dạng tiếng nói:
- Xử lý tín hiệu số (digital signal processing): Các kỹ thuật xử lý tín hiệu số
dùng để phân tích tín hiệu tiếng nói biến thiên theo thời gian nhằm trích ra các thông
tin quan trọng từ tiếng nói.
- Vật lý hay âm học (acoustic): Khoa học nghiên cứu về mối quan hệ giữa tín
hiệu tiếng nói và cơ chế sinh lý học của bộ máy phát âm của con người, cũng như cơ
chế hoạt động của tai người.
- Nhận dạng mẫu: Các thuật toán dùng để phân loại dữ liệu thành tập các mẫu
và đối sánh các mẫu dựa trên cơ sở tính toán khoảng cách giữa các đặc điểm của mẫu.
- Lý thuyết thông tin và khoa học máy tính (information and computer science
theory): Các thuật toán để tính toán các tham số của các mô hình thống kê, các thuật
toán giải mã và mã hóa (lập trình động, các thuật toán dùng stack, giải mã Viterbi) để
tìm một đường đi tốt nhất dãy các từ được nhận dạng.
- Ngôn ngữ học (linguistics): Kiến thức về cấu trúc của ngôn ngữ, đặc biệt là
đơn vị ngữ âm cơ bản của tiếng nói và vai trò của chúng trong việc sản sinh ra giọng nói.
- Sinh lý học (physiology): Kiến thức về cấu tạo của bộ máy phát âm của con
người, của tai người
- Tâm lý học ứng dụng (applied psychology): Những kiến thức về quá trình sinh
ra tiếng nói cũng như quá trình nhận thức tiếng nói của loài người.
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
4
1.2 NGUYÊN TẮC CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI
Các hệ thống nhận dạng tiếng nói có thể được phân chia thành hai loại khác
nhau: hệ thống nhận dạng từ rời rạc và hệ thống nhận dạng từ liên tục. Trong hệ thống
nhận dạng tiếng nói liên tục, người ta lại phân biệt hệ thống nhận dạng có kích thước từ
điển nhỏ và hệ thống nhận dạng với kích thước từ điển trung bình hoặc lớn [Rabiner
1993]. Hình 1.1 cho ta các lớp hệ thống nhận dạng tiếng nói khác nhau.
Trong hệ thống nhận dạng từ rời rạc, các phát âm được nhận dạng được giả thiết
là chỉ bao gồm một từ hoặc một nhóm từ độc lập. Các từ được nhận dạng mà không
phụ thuộc vào ngữ cảnh của nó. Nhận dạng tiếng nói với các từ rời rạc được ứng dụng
trong các chương trình dạng câu lệnh - điều khiển (command-control), chẳng hạn như
ứng dụng quay số bằng giọng nói trong điện thoại di động. Bài toán nhận dạng tiếng
nói các từ rời rạc rõ ràng là dễ hơn rất nhiều so với bài toán nhận dạng tiếng nói liên
tục vì ranh giới trái và phải của các từ được coi mặc nhiên là đã được xác định. Tuy
nhiên trong thực tế việc tìm ranh giới các từ trong một phát âm liên tục không phải lúc
nào cũng là dễ dàng [Dong 2001]. Ngoài ra xây dựng cơ sở dữ liệu các từ đơn lẻ cũng
đơn giản và các phát âm các từ đơn lẻ cũng rõ ràng hơn so với các từ đứng liền nhau
[Young 1996].
Ví dụ về các hệ thống nhận dạng liên tục với từ điển kích thước nhỏ là hệ thống
nhận dạng các chữ số từ 0 đến 9, hệ thống nhận dạng các chữ cái, hoặc một số các từ
hữu hạn nào đó. Các hệ thống này có tính chất là đơn vị nhận dạng của chúng có thể là
các từ giống như hệ thống nhận dạng từ rời rạc. Với hệ thống nhận dạng liên tục có
kích thước bộ từ điển lớn thì đơn vị nhận dạng cơ bản không thể là các từ mà là các âm
vị hoặc bán âm tiết.
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
5
Hình 1.1: Các hệ thống nhận dạng tiếng nói
Trong đồ án chỉ nghiên cứu hệ thống nhận dạng các từ liên tục. Sau đây là
nguyên tắc cơ bản của một hệ thống nhận dạng từ liên tục.
Một phát âm dưới dạng .wav sẽ được phân tích thành một dãy các vector đặc
tính phổ, mỗi vector tương ứng với một khung tín hiệu thường có độ dài 10ms. Ví dụ
một phát âm Y được phân tích thành dãy các vector đặc tính phổ tương ứng y
1
, y
2
…, y
T
.
Phát âm là một dãy các từ W = w
1
, w
2
, …, w
n
, và nhiệm vụ của hệ thống nhận
dạng là tìm ra được dãy có từ Ŵ có xác suất cao nhất với dãy các vector đặc tính phổ Y
cho trước.
Theo luật xác suất Bayes ta có:
Ŵ
)(maxarg YWP
)(
)()(
maxarg
YP
WYPWP
Do xác suất P(Y) là độc lập với W, do đó ta thấy để tìm được dãy từ có xác suất
cao nhất Ŵ phải tìm dãy từ sao cho hai xác suất P(W) và P(Y|W) cao nhất. Xác suất
P(W) độc lập với tín hiệu tiếng nói và xác suất này xác định bởi mô hình ngôn ngữ
(language model). Xác suất P(Y|W) được xác định bởi mô hình âm học (acoustic
model). Hình 1.2 cho thấy mối quan hệ giữa các xác suất này. Trong đó với một phát
Hệ thống nhận dạng
Hệ thống nhận dạng
từ liên tục
Hệ thống nhận dạng
từ rời rạc
Hệ thống với kích
thước bộ từ điển nhỏ
Hệ thống với kích
thước bộ từ điển
trung bình và lớn
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
6
âm là dãy từ “giọng nói”, mô hình ngôn ngữ sẽ cho ta xác suất P(W). Bằng từ điển
phiên âm ta biến đổi chúng thành dãy các âm vị tương ứng. Dãy các âm vị này cho ta
xây dựng một mô hình Markov ẩn lớn bằng cách nối ghép các mô hình Markov ẩn của
các âm vị tương ứng. Phát âm được trích trọn các đặc điểm đưa vào mô hình Markov
ẩn lớn này sẽ cho ta xác suất P(Y|W). Về mặt nguyên tắc, quá trình này có thể lặp đi
lặp lại với tất cả các dãy từ có thể để tìm ra dãy từ có xác suất lớn nhất.
Hình 1.2: Khái quát về hệ thống nhận dạng
Trong thực tế việc tìm xác suất với tất cả các dãy từ là không thể áp dụng. Một
quá trình xem xét tất cả các dãy từ có thể song song với nhau được áp dụng và một quá
trình chọn lọc xóa đi các dãy từ khó có khả năng trở thành dãy từ tốt nhất. Quá trình
tìm kiếm này được gọi là quá trình giải mã (decoding).
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
7
Hình 1.3 sau đây cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng
nói, gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ.
Dãy các đặc
tính phổ
Dãy các từ
Hoặc âm vị
Tín hiệu
tiếng nói
Từ, câu được
nhận dạng
Mô hình âm học
(acoustic model)
Mô hình ngôn ngữ
(language model)
Hình 1.3: Các quá trình nhận dạng
1.2.1 Phân tích các đặc tính tiếng nói
Phân tích các đặc tính trích ra các thông tin cần thiết cho quá trình nhận dạng
tiếng nói từ tín hiệu tiếng nói. Quá trình này loại bỏ những thông tin không quan trọng.
Chẳng hạn như tiếng ồn của môi trường thu âm, nhiễu trên đường truyền, các đặc điểm
riêng biệt của từng người nói… Tiếng nói được phân tích theo từng khung thời gian
(frame) với độ dài dao động từ 8ms tới 25ms [Joseph 1993]. Kết quả ra của giai đoạn
này là các vector đặc tính của mỗi khung tín hiệu tiếng nói.
Có hai cách tiếp cận thông dụng hiện nay thường được áp dụng để phân tích tín
hiệu tiếng nói đó là phương pháp dựa vào mô hình hóa bộ đường phát âm (vocal tract)
và phương pháp dựa vào mô hình hóa cảm nhận âm thanh của con người (human
auditory system). Cả hai cách này đều đang được áp dụng thành công trong các hệ
thống nhận dạng. Tuy nhiên các phương pháp phân tích tiếng nói hiện nay mới chỉ thực
hiện được công việc nhỏ so với hệ thống phát âm và nhận thức âm thanh của con
Phân tích đặc
tính (feature
analysis)
Phân lớp mẫu
(pattem
classification)
Xử lý ngôn
ngữ (language
processing)
Các từ, âm vị
Các từ, câu
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
8
người. Sự cải tiến của các phương pháp này sẽ dẫn tới nâng cao năng lực nhận dạng
của các hệ thống nhận dạng tiếng nói. Hai phương pháp trích trọn tiếng nói đang được
sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng hiện tại là: Phương pháp
MFCC (Mel Scale Frequency Cepstral Coefficients) và PLP (Perceptual Linear
Prediction).
Có hai kỹ thuật xử lý tiếng nói có vị trí quan trọng là kỹ thuật RASTA
(RelAtive SpecTral) và CMS (Cepstral Mean Subtraction). Đây là hai kỹ thuật áp dụng
nhằm lọc bỏ nhiễu, những âm thanh không phải là tiếng nói. Hai kỹ thuật này đặc biệt
có ích trong xử lý tiếng nói thu âm qua điện thoại [Avendano 1996]. Cả hai kỹ thuật
đều có thể dùng kết hợp được với một trong hai phương pháp trích trọn đặc tính phổ
MFCC hoặc PLP. Kỹ thuật RASTA có ưu điểm là có thể được áp dụng trong các hệ
thống nhận dạng trực tiếp (live), nhận dạng phát âm mà không cần đợi phát âm đó kết
thúc [Hermansky 1994]. Kỹ thuật này thường được đi kèm với phương pháp trích trọn
đặc điểm PLP [Hermansky 1992]. Ngược lại kỹ thuật CMS có ưu điểm là đơn giản,
thời gian tính toán nhanh, dễ áp dụng.
1.2.2 Phân lớp mẫu
Bước thứ hai trong hệ thống nhận dạng tiếng nói đó là phân lớp mẫu, trong đó
hệ thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơn vị tiếng nói cơ bản (từ
hoặc âm vị). Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu (template
matcher), rule-based, mạng neuron và mô hình Markov ẩn.
Nguyên tắc cơ bản của phương pháp đối sánh mẫu đó là cất giữ một số lượng
các mẫu (examples) tiếng nói, bao gồm các vector đặc tính. Tín hiệu tiếng nói cần nhận
dạng được phân tích và các vector đặc tính của chúng sẽ được so sánh với các mẫu đã
được cất giữ trước đó. Do tốc độ phát âm là rất khác nhau, từ phát âm nhanh đến phát
âm chậm, nên kỹ thuật DTW (Dynamic Time Warping) được áp dụng để dãn hoặc co
hẹp thời gian trên trục thời gian nhằm giảm sự khác biệt so với các mẫu.
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
9
Hệ thống rule-based xây dựng một loạt các tiêu chuẩn trên một cây quyết định
để xác định xem đơn vị nào của ngôn ngữ nằm trong tín hiệu tiếng nói. Đối với hệ
thống nhận dạng tiếng nói lớn, phương pháp này gặp khó khăn trong việc tổng quát hóa
sự đa dạng của tiếng nói. Một vấn đề nữa là với cây quyết định, rất khó hồi phục lỗi
nếu như một quyết định sai được xác định ngay từ khi bắt đầu phân tích.
Mô hình Markov ẩn được nghiên cứu rộng rãi gần đây như là một công cụ mạnh
được áp dụng thành công trong nhận dạng tiếng nói. Đa số các hệ thống nhận dạng
tiếng nói đều dùng mô hình Markov ẩn. Chi tiết về mô hình Markov ẩn sẽ được trình
bày trong Chương 3.
Mạng neuron được áp dụng trong nhận dạng tiếng nói từ những năm 1980 với
mong muốn sử dụng khả năng phân lớp mạnh của mạng. Mạng neuron truyền thẳng đa
lớp perceptron thường được sử dụng trong nhận dạng tiếng nói. Tuy nhiên mạng
neuron có hạn chế về khả năng mô hình hóa sự biến thiên của tiếng nói theo thời gian.
Vì vậy mạng neuron gần đây hay được sử dụng thay thế các hàm mật độ xác suất trong
các hệ thống lai ghép mạng neuron và mô hình Markov ẩn.
1.2.3 Mô hình ngôn ngữ
Mục đích của mô hình ngôn ngữ là tìm ra xác suất của từ w
k
trong phát âm theo
sau các từ W
1
k-1
= w
1
, w
2
, … w
k-1
. Một phương pháp đơn giản hay được áp dụng đó là
dùng N-gram, với giả thiết rằng từ w
k
chỉ phụ thuộc vào n-1 các từ đứng trước nó tức
là
P(w
k
|W
1
k-1
)=P(w
k
|W
1
1
k
nk
)
Mô hình ngôn ngữ N-gram cùng một lúc chứa đựng các thông tin về cú pháp
(syntax), ngữ nghĩa (semantics), suy đoán (pragmatics) và chúng tập trung vào sự phụ
thuộc lân cận của một từ. Các xác suất của mô hình ngôn ngữ có thể được tính toán
trực tiếp từ cơ sở dữ liệu văn bản mà không cần đến các luật ngôn ngữ như ngữ pháp
hình thức của ngôn ngữ.
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
10
Về mặt nguyên tắc các xác suất của mô hình ngôn ngữ có thể được tính toán
trực tiếp từ số lần xuất hiện của các từ trong cơ sở dữ liệu:
),(
),(
),(
ˆ
12
1,2
21
kk
kkk
kk
wwb
wwwt
wwP
Trong đó hàm t(a,b,c) là số lần xuất hiện của bộ ba từ a,b,c (trigram). b(a,b) là
số lần xuất hiện của bộ đôi (bigram) a,b.
Tuy nhiên một vấn đề khó khăn cơ bản của mô hình ngôn ngữ là số lượng các
bộ ba là quá lớn. Chẳng hạn với một hệ thống nhận dạng với bộ từ điển V có kích
thước là 10.000 từ thì số lượng các bộ ba là V
3
. Số lượng từ này rõ ràng là quá lớn, sẽ
có nhiều bộ ba không xuất hiện hoặc xuất hiện rất ít, chỉ một hoặc hai lần trong cơ sở
dữ liệu. Với các trường hợp này, xác suất của các bộ ba là không tính được hoặc rất nhỏ.
Mặc dù có khó khăn về tính toán như trên, mô hình ngôn ngữ vẫn chứng minh
được là chúng đóng vai trò quan trọng trong các hệ thống nhận dạng. Trong các hệ
thống nhận dạng với kích thước lớn hiện nay, các mô hình ngôn ngữ 3-gram và 2-gram
dùng phổ biến [Young 1996]. Một số hệ thống nhận dạng có khả năng thay đổi mô
hình ngôn ngữ theo ngữ cảnh, tự điều chỉnh mô hình ngôn ngữ trong quá trình nhận
dạng [Béchet 2001, Estève2000].
1.3 CÁC ỨNG DỤNG CỦA NHẬN DẠNG TIẾNG NÓI
1.3.1 Nhận dạng tiếng nói và viễn thông
Dựa vào mạng điện thoại công cộng, nhận dạng tiếng nói ngày càng được đưa
vào ứng dụng trong hệ thống điện thoại. Có hai nhóm chương trình ứng dụng của nhận
dạng tiếng nói trong viễn thông [Roe 1993]. Nhóm đầu tiên là các ứng dụng nhằm làm
giảm giá thành, đó là các ứng dụng trong đó một người thực hiện một tác vụ trong hệ
thống viễn thông thông qua một nhân viên phục vụ (attendant). Trong ứng dụng này độ
chính xác nhận dạng của các hệ thống nhận dạng thay thế nhân viên phục vụ là một yếu
tố quan trọng, do vậy người dùng sẽ khó thông cảm cho các lỗi của hệ thống nhận dạng.
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
11
Ví dụ về các hệ thống nhận dạng loại này là:
• Tự động hóa các dịch vụ có sự tham gia của nhân viên. Hệ thống này đang
được nghiên cứu và phát triển bởi AT&T và Northen Telecom.
• Tự động hóa các dịch vụ danh bạ điện thoại.
Nhóm chương trình ứng dụng thứ hai là những chương trình sản sinh giá trị gia
tăng. Trong nhóm này lợi ích của công nghệ nhận dạng tiếng nói nằm ở phía người sử
dụng cuối. Các giới hạn của độ chính xác nhận dạng có thể được thông cảm bởi người
dùng. Ví dụ về các chương trình này là:
• Các dịch vụ về ngân hàng (đang được phát triển bởi Nippon Telecom)
• Dịch vụ báo giá chứng khoán (đang được phát triển bởi Bell Northen
Research)
Nói chung các ứng dụng nhận dạng tiếng nói trong viễn thông thường cho phép
người dùng giao tiếp với máy tính thông qua các câu lệnh bằng giọng nói, thông qua đó
máy tính thực hiện các câu lệnh của người dùng. Mặc dù độ chính xác nhận dạng còn
cần phải tiếp tục nâng cao, nhưng nhiều ứng dụng của công nghệ nhận dạng tiếng nói
đã được đưa vào sử dụng và đã được người dùng chấp nhận. Sau đây là một vài ứng
dụng hiện đang được khai thác.
- Hệ thống xử lý cuộc gọi áp dụng công nghệ nhận dạng tiếng nói Voice Recognition
Call Processing của hãng AT&T được triển khai vào năm 1991. Hệ thống này có thể
nhận dạng một số lượng giới hạn từ vựng, nhận dạng tiếng nói độc lập với người nói,
có khả năng tự động một phần công việc thực hiện bằng tay bởi các nhân viên trực ca.
Hệ thống này giảm được khối lượng công việc thực hiện bằng tay đồng thời tăng
cường hiệu quả hoạt động của hệ thống xử lý cuộc gọi. Hệ thống đã thu được thành
công nhất định và đã được khách hàng chấp nhận.
- Hệ thống dịch vụ danh bạ Directory Assisstance của hãng Northem Telecom. Hệ
thống này cho phép người dùng đọc phiên âm của một từ, từ đó hệ thống sẽ nhận ra từ
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
12
cần nhận dạng. Nhờ cách này hệ thống có thể nhận dạng được hàng nghìn các từ khác
nhau mà các từ này không cần phải được học trước. Phương pháp này rất thuận tiện
cho việc bổ sung một từ mới như tên một người vào trong hệ thống danh bạ.
1.3.2 Hệ thống đọc chính tả bằng giọng nói
Mặc dù công việc đọc chính tả cho máy tính là một trong những bài toán khó
khăn nhất của nhận dạng tiếng nói, một số phần mềm đọc chính tả đã xuất hiện trên thị
trường. Ví dụ như phần mềm Dragon có khả năng hiểu được 30.000 từ, hệ thống nhận
dạng tiếng nói của IBM có khả năng nhận dạng được 20.000 từ.
Các phần mềm này có khả năng hiểu được các phát âm liên tục của người nói.
Chúng đều có nguyên tắc hoạt động giống nhau, đó là đầu tiên người dùng cần phải
đọc một đoạn văn để hệ thống có thể làm quen với giọng đọc. Các phần mềm có khả
năng chấp nhận tốc độ đọc khoảng 50 từ/1 phút. Độ chính xác nhận dạng phụ thuộc
vào giọng đọc của người nói, vào sự giống nhau giữa văn bản được đọc và mô hình
ngôn ngữ được xây dựng trong hệ thống. Tỷ lệ lỗi trong các hệ thống này có thể đạt tới
3-5%, mở ra khả năng cho phép con người dùng giọng nói để đọc chính tả cho máy
tính. Chức năng này được sử dụng rất hiệu quả cho những người tàn tật, khiếm thị.
1.3.3 Nhận dạng tiếng nói trong các sản phẩm tiêu dùng
Nhận dạng tiếng nói đã được áp dụng vào trong một số sản phẩm tiêu dùng hàng
ngày như điện thoại, trò chơi và điện thoại di động. Các điện thoại di động hiện nay
cho phép người dùng có thể quay số bằng giọng nói nhờ cách đọc tên người được gọi ở
trong danh bạ. Các sản phẩm tiêu dùng đều có đặc điểm là có vi xử lý nhỏ, do đó thuật
toán nhận dạng tiếng nói chạy trong các sản phẩm thường không phức tạp nhưng vẫn
đảm bảo tỷ lệ độ chính xác nhận dạng chấp nhận được.
1.4 NGHIÊN CỨU HIỆN THỜI VỀ NHẬN DẠNG TIẾNG NÓI
Sau đây là các đặc điểm chính của hệ thống nhận dạng tiếng nói liên quan đến
độ chính xác nhận dạng:
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
13
- Sự phụ thuộc vào người nói: Hệ thống nhận dạng tiếng nói có thể là phụ thuộc vào
người nói (speaker Dependent) hoặc là độc lập với người nói (speaker independent).
Xây dựng một hệ thống nhận dạng tiếng nói cho giọng nói của một người dễ dàng hơn
là xây dựng hệ thống nhận dạng tiếng nói cho nhiều người, nhất là khi những người
này có giọng nói tại những địa phương khác nhau. Tỷ lệ lỗi nhận dạng tiếng nói của hệ
thống độc lập với người nói thường cao hơn 3 đến 5 lần so với hệ thống nhận dạng
tiếng nói phụ thuộc người nói tương đương [Tebelskis 1995].
- Kích thước của bộ từ điển: Kích thước bộ từ điển mà hệ thống nhận dạng tiếng nói có
thể hiểu được càng lớn thì khả năng nhầm lẫn giữa các từ, các câu càng cao và nhiệm
vụ nhận dạng tiếng nói càng trở nên khó khăn.
- Tốc độ nói, hiện tượng đồng phát âm: Trong một phát âm, một âm bị ảnh hưởng rất
lớn của các âm xung quanh nó. Các từ rời rạc được nhận dạng dễ dàng hơn là các từ
trong một phát âm liên tục.
- Sự biến đổi trong lời nói: Con người có thể hiểu được lời nói ngay cả khi nó bị xen
lẫn bởi các tạp âm như tiếng ho, tiếng cười, tiếng “à, ờ” và lời nói với những từ được
nhấn mạnh. Tuy nhiên đối với máy tính các trường hợp như vậy gây ra những khó
khăn đặc biệt trong nhận dạng tiếng nói.
- Điều kiện môi trường: Tiếng nói có chất lượng thấp (bị méo tín hiệu, bị nhiễu kênh
truyền, …) thường đặt ra rất nhiều vấn đề giải quyết cho các hệ thống nhận dạng tiếng
nói. Theo [Siohan 1995] tỷ lệ lỗi của hệ thống nhận dạng khi làm việc với tiếng nói có
SNR > 40dB (SNR – Signal to Noise Ratio) so với tiếng nói có SNR > 18dB tăng lên
nhiều lần, có thể tới 10 lần.
- Các phát âm tự nhiên và các phát âm liên tục: Hệ thống nhận dạng tiếng nói có thể
làm việc với các phát âm được đọc từ các văn bản chuẩn bị sẵn hoặc với các phát âm
do người nói nói một cách tự nhiên (spontaneous). Nhận dạng các phát âm tự nhiên rõ
ràng là khó khăn hơn nhiều so với các phát âm đọc sẵn. Lý do là các phát âm tự nhiên
số lượng từ vựng thường là không hạn chế, hệ thống phải phân biệt với các từ không có
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
14
trong bộ từ điển. Ngoài ra trong các phát âm người nói vừa nói vừa nghĩ và do đó phát
âm không rõ ràng, tốc độ phát âm khác nhau, tiếng nói có thể xen lẫn với các tạp âm
khác.
- Các giới hạn về ngôn ngữ: Các hệ thống nhận dạng có thể làm việc với các câu với
ngữ pháp rõ ràng trong các chương trình ứng dụng cụ thể. Với các hệ thống này, nhiệm
vụ nhận dạng sẽ dễ dàng hơn hệ thống nhận dạng mà các từ không có ràng buộc cụ thể
về ngữ pháp, hay nói cách khác các từ quan hệ với nhau bằng vòng lặp từ (word-loop)
nghĩa là bất kỳ một từ nào trong bộ từ điển đều có thể theo sau từ khác trong bộ từ điển.
1.4.1 Các nghiên cứu về nhận dạng tiếng nói ngôn ngữ nƣớc ngoài
Công nghệ nhận dạng tiếng nói đã có bước tiến dài trong các thập kỷ qua, một
số các phần mềm nhận dạng tiếng nói đã có mặt trên thị trường, chẳng hạn như các
phần mềm nhận dạng tiếng nói đọc chính tả của IBM, Gragon Systems, L&H. Về lĩnh
vực ứng dụng nhận dạng tiếng nói trong viễn thông, Nuance và Speech Works là các
hãng phần mềm nổi tiếng. Rất nhiều các trung tâm nghiên cứu đang tập trung nghiên
cứu về nhận dạng tiếng nói, chẳng hạn như Bell Labs, IBM Research Center, Microsoft
Research, CSLU, …
Độ khó của các ứng dụng nhận dạng tiếng nói phụ thuộc vào nhiều yếu tố. Hình
1.4 miêu tả các ứng dụng của nhận dạng tiếng nói phụ thuộc vào hai yếu tố chính: kích
thước từ vựng và kiểu phát âm. Độ khó tăng từ thấp lên cao, từ trái sang phải.
Trong các ứng dụng thực tế, có sự khác nhau lớn giữa môi trường thu âm tiếng
nói nên cùng với một thuật toán các hệ thống nhận dạng có độ chính xác nhận dạng
kém hơn nhiều khi làm việc trong môi trường thực tế so với trong môi trường phòng
thí nghiệm. Ví dụ như một hệ thống nhận dạng các số của thẻ tín dụng ngân hàng được
đọc bởi người bán hàng ở các cửa hàng bán lẻ tại Mỹ có độ chính xác nhận dạng là
98% (so với 99,7% trong môi trường phòng thí nghiệm) [Stephen a]. Sự khác nhau về
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
15
tỷ lệ lỗi nhận dạng chủ yếu là do sự khác nhau giữa chất lượng tiếng nói được thu âm
trong môi trường phòng thí nghiệm và môi trường bên ngoài.
20 200 2000 20000
Hình 1.4: Các bài toán nhận dạng khác nhau theo kích thước bộ từ điển và kiểu nói
Bảng 1.1 so sánh tỷ lệ lỗi nhận dạng của các hệ thống nhận dạng tiếng Anh so
với khả năng nhận dạng của con người theo đánh giá của [Barbara 2001]. Từ bảng ta
thấy tỷ lệ lỗi nhận dạng của con người thấp hơn năm lần so với tỷ lệ lỗi nhận dạng
bằng máy tính. Đối với các hệ thống nhận dạng làm việc với giọng nói tự nhiên hoặc
đối thoại thì tỷ lệ lỗi nhận dạng của máy tính cao hơn đến mười lần. Với cơ sở dữ liệu
tiếng nói có nhiều nhiễu thì sự khác nhau này có thể còn cao hơn nữa. Do vậy có thể
nói kỹ thuật nhận dạng hiện thời còn xa mới có thể đạt tới khả năng của con người.
Giọng nói tự
nhiên
Giọng nói liên
tục
Giọng nói do
người nói đọc
Tiếng nói liên
tục
Các từ rời rạc
Đối thoại tự
nhiên
Tìm từ
Ghi chép
Hệ thống đối
thoại hạn chế
Quay số bằng
giọng nói
Đọc chính tả
trong văn phòng
Điền mẫu biểu
bằng giọng nói
Ra lệnh bằng
giọng nói
Tra cứu
danh bạ
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
16
Hệ thống nhận dạng
Kích thước từ vựng
Máy tính
Con người
Liên tục
10
0,72%
0,009%
Các chữ cái
26
5%
1%
Giọng nói tự nhiên
2000
36,7%
3,8%
Giọng nói chất lượng tốt của WSJ
5000
4,5%
0,9%
Giọng nói có nhiều nhiễu WSJ
20000
8,6%
1,1%
Bảng 1.1: So sánh tỷ lệ lỗi nhận dạng của máy tính và con người
với một số hệ thống nhận dạng
Ngoài ngôn ngữ Châu Âu, các nghiên cứu về nhận dạng tiếng nói đối với các
ngôn ngữ đơn âm và có thanh điệu giống tiếng Việt như tiếng Trung Quốc (bao gồm
tiếng Bắc Kinh và tiếng Quảng Đông), tiếng Thái Lan cũng đã được nghiên cứu. Với
tiếng Trung Quốc, rất nhiều nghiên cứu đã được tiến hành, nhiều hệ thống nhận dạng
tiếng nói tiếng Trung Quốc đã được công bố và các hệ thống nhận dạng tiếng Hán với
kích thước từ vựng lớn cũng đã được xây dựng [Fu 1996]. Một số phần mềm nhận
dạng tiếng nói tiếng Trung Quốc cũng đã được bán ra thị trường. Bảng 1.2 trình bày
các hệ thống nhận dạng tiếng nói tiếng Bắc Kinh (tiếng Hán) được công bố trong các
bài báo khoa học theo thống kê của [Stephen b].
Phương pháp
Kích thước bộ từ điển
Độ chính xác
HMM + modification of initials and finals
5000 syllables
93%
CDHMM
Complete vocabulary
92,5%
DDHMM
1254 syllables
90,1%
Time Delayed Neural Network
Complete vocabulary
85%
Hierarchical Neural Network
Complete vocabulary
90,14%
Bảng 1.2: Các hệ thống nhận dạng tiếng Hán
Với ngôn ngữ Thái Lan, hầu hết các nghiên cứu tập chung vào nhận dạng các từ
rời rạc [Sornlertlamvanich]. Với các nghiên cứu hệ thống nhận dạng liên tục, hệ thống
nhận dạng mười chữ số Thái liên tục đạt độ chính xác 96,89% với cơ sở dữ liệu thu âm
trong nhà [Thubthong 2000a]. Với hệ thống nhận dạng liên tục kích thước lớn tiếng
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
17
Thái Lan, hiện thời các nghiên cứu mới chỉ ở bước khởi đầu. Đã có một số nghiên cứu
về nhận dạng thanh điệu tiếng Thái [Thubthong 2000b].
1.4.2 Các nghiên cứu về nhận dạng tiếng nói tiếng Việt
Cho đến thời điểm hiện nay, chưa có nhiều các nghiên cứu về nhận dạng tiếng
Việt. Các công việc nghiên cứu về nhận dạng tiếng nói tiếng Việt đang được tiến hành
với các bước đầu tiên, các bài toán cơ bản về nhận dạng tiếng nói. Về nguyên tắc, tiếng
Việt cũng như các ngôn ngữ có thanh điệu khác, hệ thống nhận dạng bao gồm hai quá
trình nhận dạng song song: nhận dạng các từ không có thanh điệu và nhận dạng thanh
điệu [Zhang 2000]. Hình 1.5 dưới đây miêu tả hệ thống nhận dạng ngôn ngữ có thanh
điệu, trong đó có tiếng Việt:
Hình 1.5: Hệ thống nhận dạng ngôn ngữ có thanh điệu
Nghiên cứu gần đây nhất về nhận dạng tiếng Việt là nghiên cứu của TS. Nguyễn
Thành Phúc [Phúc 2000]. Trong luận án tiến sỹ của mình TS. Nguyễn Thành Phúc đã
dùng bộ công cụ CSLU để tiến hành nghiên cứu và thực hiện các công việc sau:
- Xây dựng được một số cơ sở dữ liệu thu âm trong môi trường trong nhà:
• Cơ sở dữ liệu gồm 10 chữ số tiếng Việt gồm 812 câu, mỗi câu gồm 6 từ, do 15
người nói. Các câu đều được gán nhãn bằng tay.
• Cơ sở dữ liệu gồm sáu âm tiết khác nhau về thanh điệu gồm 350 câu.
• Cơ sở dữ liệu gồm 22 từ có các âm đầu khác nhau và có cùng phần vần là EO
gồm 350 câu.
- Nghiên cứu quá trình xây dựng một cơ sở dữ liệu tiếng Việt, đề xuất bảng ký hiệu âm
vị tiếng Việt dùng để phiên âm các âm vị.
Nhận dạng các từ
không dấu
Nhận dạng thanh điệu
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
18
- Khảo sát nhận dạng đối với các từ khác nhau về thanh điệu
- Tiến hành xây dựng hệ thống nhận dạng với mười chữ số tiếng Việt liên tục với điều
kiện thu âm trong nhà. Nghiên cứu các giải pháp nhằm tăng cường độ chính xác nhận
dạng: mô hình âm tiết, đơn vị nhận dạng cơ bản, ảnh hưởng của ngữ cảnh trong nhận
dạng,… Độ chính xác nhận dạng cao nhất thu được là 98,83% ở mức từ.
Một nghiên cứu về nhận dạng thanh điệu tiếng Việt được tiến hành bởi TS.
Nguyễn Quốc Cường và cộng sự tại phòng thí nghiệm CLIPS-IMAG, trường đại học
Grenoble tại Pháp [Cường]. Tác giả đã nghiên cứu nhận dạng thanh điệu tiếng Việt
dùng mô hình Markov ẩn đối với từ rời rạc. Đây là một trong những công trình đầu tiên
nghiên cứu về nhận dạng thanh điệu tiếng Việt. Các thử nghiệm được tiến hành trên cơ
sở dữ liệu gồm 9720 từ, do 18 người nói đến từ ba miền Bắc – Trung – Nam, thu âm
với tần suất lấy mẫu 16kHz, biến đổi A/D 16 bit. Kết quả thu được tỷ lệ nhận dạng
chính xác thanh điệu đạt 91,6%.
Ngoài ra trước TS. Nguyễn Thành Phúc có một số công trình nghiên cứu đã
được công bố. Theo [Phúc 2000] các công trình trên bao gồm:
- Công trình nghiên cứu nhận dạng tiếng nói theo phương pháp âm học – ngữ âm học
của TS. Nguyễn Anh Tuấn. Kết quả của công trình như sau:
• Hình thức hóa được ngôn ngữ hình học của các từ tiếng Việt, cho phép nâng
cao độ tin cậy của phân đoạn hóa các từ thành từng đoạn tương ứng với phần đầu, phần
vần và thanh điệu của âm tiết tiếng Việt.
• Nghiên cứu và hình thức hóa những đặc trưng của sáu thanh điệu tiếng Việt
cho phép xác định tự động kiểu thanh điệu tiếng Việt.
• Thông qua biểu đồ phổ đã xác định được đặc trưng formant của các nguyên
âm và bán nguyên âm tiếng Việt. Các đặc trưng này có thể sử dụng để phân loại các
nguyên âm.
• Đã tìm được các thông số phổ và thời gian của các nguyên âm và phụ âm
tiếng Việt.
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
19
• Trên cơ sở các thông số đặc trưng của các âm tiết đã tìm được, đã tìm được
một thuật toán nhận dạng các từ tiếng Việt rời rạc bao gồm mười chữ số tiếng Việt. Hệ
thống nhận dạng xây dựng trên thuật toán này có độ chính xác là 95% không phụ thuộc
vào giọng nói.
- Đề tài nghiên cứu cấp nhà nước mã số KHCN 01-07 do Khoa Công nghệ thông tin
Đại học Bách Khoa Hà Nội thực hiện hòan thành vào tháng 6/1998 đã áp dụng phương
pháp dự báo tuyến tính LPC để đánh giá các tham số cơ bản (F0-F5 và tương quan F1-
F2) của các nguyên âm tiếng Việt: „„a, â, ă, e, ê, i, o, ô, ơ, u, ư‟‟.
- TS. Đặng Văn Chuyết và KS. Ngô Đức Bình đã áp dụng phương pháp phân tích
cepstral thời gian ngắn tín hiệu tiếng nói để xác định và quan sát sự biến đổi của các
formant của nguyên âm tiếng Việt khi thay đổi ngữ cảnh.
- TS. Nguyễn Thế Hiếu ứng dụng phương pháp hiệu chỉnh thời gian động DTW để
nhận dạng các từ rời rạc cho tiếng Việt. Các tham số được sử dụng là các F1 và F2. Hệ
thống nhận dạng thử nghiệm với năm nguyên âm tiếng Việt: „„a, e, i, o, u”, mười chữ
số tiếng Việt và các từ điều khiển: „„tiến, lùi, phải, trái, sau, dừng”. Độ chính xác nhận
dạng mười chữ số tiếng Việt rời rạc trung bình là 78,47%.
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
20
CHƢƠNG 2: CÁC KHÁI NIỆM VỀ NGỮ ÂM TIẾNG VIỆT
2.1 NGÔN NGỮ TIẾNG VIỆT
2.1.1 Đặc điểm âm tiết tiếng Việt
2.1.1.1 Tính độc lập cao
Trong tiếng Việt, âm tiết được thể hiện khá đầy đủ, rõ ràng, được tách và ngắt
thành từng khúc đoạn riêng biệt. Âm tiết nào của tiếng Việt cũng mang một thanh điệu
và cấu trúc ổn định. Điều này làm cho sự thể hiện của âm tiết tiếng Việt trong chuỗi lời
nói nổi bật và tách bạch hơn. Do đó nên việc vạch ra ranh giới giữa các âm tiết trong
tiếng Việt dễ dàng hơn nhiều việc phân chia ranh giới âm tiết trong các ngôn ngữ Châu
Âu [Thuật 1999] (trong ngôn ngữ Châu Âu, việc phân chia âm tiết có khi phải dùng
phương pháp phân tích phổ). Việc tách bạch âm tiết còn được thể hiện ở chữ viết, mỗi
âm tiết được viết tách ra thành một từ riêng biệt.
Có thể nói so với các âm tiết Châu Âu, tiếng Việt có tính độc lập cao hơn hẳn.
Trong các ngôn ngữ Châu Âu thường gặp các hiện tượng nối âm (liaison), ví dụ như:
Les amis
Trong tiếng Việt không có hiện tượng nối âm như vậy.
2.1.1.2 Có khả năng biểu hiện ý nghĩa
Tuyệt đại đa số các âm tiết tiếng Việt đều có nghĩa. Gần như toàn bộ các âm tiết
đều hoạt động như từ. Nói cách khác trong tiếng Việt ranh giới của âm tiết trùng với
ranh giới của hình vị [Tho 1997] (hình vị là đơn vị có ý nghĩa nhỏ nhất trong một ngôn
ngữ). Chính vì vậy trong một phát âm, số lượng âm tiết trùng với số lượng hình vị).
Trang
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
21
2.1.1.3 Có cấu trúc chặt chẽ
Mỗi âm tiết tiếng Việt ở dạng đầy đủ có 5 phần như Hình 2.1:
Thanh điệu
Âm đầu
Vần
Âm đệm
Âm chính
Âm cuối
Hình 2.1: Cấu trúc âm tiết của tiếng Việt
Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2). Trong đó C1 là
phụ âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối.
Âm tiết tiếng Việt có cấu trúc gồm hai bậc: Bậc một bao gồm các thành tố trực
tiếp được phân định bằng những ranh giới có ý nghĩa ngữ âm học. Bậc thứ hai bao gồm
các yếu tố của phần vần chỉ có chức năng khu biệt thuần túy. Quan hệ giữa các yếu tố ở
bậc một là quan hệ lỏng lẻo, giữa các yếu tố của bậc hai có quan hệ chặt chẽ. Các thực
nghiệm đã chứng minh rằng: tính độc lập của thanh điệu đối với các âm vị cụ thể lộ ra
ở chỗ đường nét âm điệu và trường độ của nó không gắn liền với thành phần âm thanh
của âm tiết. Trong khuôn khổ mỗi loại hình thanh điệu, các âm tiết có một trường độ cố
định. Âm đầu không tham gia bảo đảm trường độ cố định ấy mà chính âm phần vần lại
đảm đương với bất kể số lượng và phẩm chất của những yếu tố làm thành phần của nó.
Trong phần vần, việc rút ngắn các nguyên âm ở những vị trí nhất định được bù lại bằng
sự kéo dài các âm cuối [Thuật 1999].
Theo GS. Bảng và cộng sự [Bảng 2001] số lượng âm tiết trên lý thuyết của tiếng
Việt là 18.958. So với các ngôn ngữ thông thường trên thế giới có số lượng âm tiết vào
khoảng 3000-5000, tiếng Trung Quốc có số lượng âm tiết trên lý thuyết là 1620, trên
thực tế là 1255. Điều này cho thấy tiếng Việt có số lượng âm tiết rất lớn, chính vì thế ít
có hiện tượng đồng âm, ít gây trở ngại cho việc nhận diện âm tiết. Theo [Thuật 1999],
trong tiếng Việt có 6 thanh điệu, 21 âm đầu, 155 phần vần và phần vần đóng vai trò
khu biệt lớn hơn cả so với các yếu tố khác trong Bậc 1.
-->