Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
116
nhận dạng từ có thanh điệu khác nhau
trong tiếng việt sử dụng mô hình markov ẩn
Hoàng Hữu Việt
(a)
Tóm tắt. Trên cơ sở nghiên cứu mô hình Markov ẩn (HMM) và ngữ âm tiếng Việt,
bài báo này đa ra một số đề xuất nhận dạng từ có thanh điệu khác nhau trong tiếng
Việt và một số kết quả thử nghiệm với hệ thống nhận dạng thanh điệu tiếng Việt. Các
thử nghiệm giới hạn là từ tiếng Việt giống nhau về âm đầu, vần và chỉ khác nhau về
thanh điệu, bộ từ vựng nhỏ, phụ thuộc ngời nói. Kết quả nhận dạng tốt nhất với độ
chính xác là 96.67% ở mức âm tiết và 82.50% ở mức câu.
1. Giới thiệu
Nhận dạng tiếng nói bằng máy tính cho phép con ngời giao tiếp với máy tính
bằng tiếng nói. Hiện nay trên thế giới đã có những hệ thống nhận dạng tiếng nói cỡ
lớn, độ chính xác tơng đối cao nhng chủ yếu đợc phát triển trên những cơ sở dữ
liệu tiếng nói khá hoàn chỉnh, chủ yếu là tiếng Anh. ở Việt Nam, việc nghiên cứu và
phát triển các hệ thống nhận dạng tiếng nói mới ở bớc đầu với rất ít kết quả đợc
công bố.
Để xây dựng đợc các hệ thống nhận dạng tiếng nói thành công của mỗi một
dân tộc, ngoài những nguyên tắc nhận dạng chung, đòi hỏi ngời nghiên cứu phải
quan tâm, khai thác triệt để các yếu tố tiếng nói đặc thù riêng nhằm phát triển đợc
hệ thống nhận dạng phù hợp.
Tiếng Việt là một ngôn ngữ đơn âm, có thanh điệu, mỗi âm tiết đều có một
thanh điệu đóng vai trò là một âm vị mang tính siêu đoạn. Đó là loại âm vị không có
âm đoạn, không độc lập tồn tại nhng có chức năng phân biệt nghĩa [1]. Việc đi sâu
nghiên cứu, tích hợp các đặc trng của tiếng Việt vào các hệ thống nhận dạng tiếng
nói bằng các phơng pháp nhận dạng hiện đại là một hớng nghiên cứu nhằm tiến
tới xây dựng các ứng dụng nhận dạng tiếng Việt phù hợp. Nghiên cứu ảnh hởng
của thanh điệu, một trong những đặc trng cơ bản của tiếng Việt, là cần thiết giúp
cho quá trình xây dựng một hệ thống nhận dạng tiếng Việt sau này.
Trong bài viết này, chúng tôi trình bày cấu trúc cơ bản của âm tiết tiếng Việt
và một số kết quả nghiên cứu thử nghiệm nhận dạng âm tiết có thanh điệu khác
nhau trong tiếng Việt sử dụng mô hình Markov ẩn.
2. Cấu trúc cơ bản của âm tiết tiếng việt
2.1. Cấu trúc cơ bản của âm tiết tiếng Việt
Về mặt cấu trúc, âm tiết tiếng Việt đợc tạo thành từ 3 thành phần khá độc
lập là âm đầu, vần và thanh điệu, trong đó phần vần có thể đợc chia thành âm
đệm, âm chính và âm cuối.
Nhận bài ngày 18/9/2006. Sửa chữa xong 28/02/2007.
Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
117
Bảng 2.1. Cấu trúc của âm tiết tiếng Việt.
Thanh điệu
Vần
Âm đầu
Âm đệm Âm chính Âm cuối
Âm đầu luôn luôn là một phụ âm hoặc có thể thiếu trong một số âm tiết. Vần
đợc phân thành âm đệm, âm chính và âm cuối. Âm đệm và âm cuối có thể thiếu
trong một số âm tiết. Âm chính là một nguyên âm đơn hoặc một nguyên âm đôi. Âm
cuối là một phụ âm hoặc bán nguyên âm. Tiếng Việt có 22 âm đầu, 155 vần, 1 âm
đệm, 16 âm chính và 8 âm cuối. Tổng số âm tiết phát âm khác nhau khoảng 18598
âm tiết nhng thực tế chỉ có 7000 âm tiết khác nhau đợc sử dụng [1].
Thanh điệu là một âm vị siêu đoạn tính, nó đợc biểu hiện trong toàn bộ âm
tiết bao gồm cả âm đầu, âm đệm, âm chính và âm cuối. Thanh điệu tiếng Việt có 6
thanh là thanh ngang (không dấu), thanh sắc, thanh ngã, thanh hỏi, thanh huyền
và thanh nặng.
Theo các nhà ngữ âm học, ba tiêu chí khu biệt cho 6 âm vị thanh điệu đợc
biểu diễn theo sơ đồ hình cây sau:
Trong hình 2.1 tính từ mỗi điểm phân nhánh, nhánh trái biểu thị vế đầu,
nhánh phải biểu thị vế sau của thế đối lập.
Âm vực là độ cao của thanh điệu. Âm điệu là sự biến thiên của độ cao theo thời
gian.
Sự thể hiện âm điệu của các thanh điệu trong những âm tiết tách rời nh sau:
- Thanh không dấu là một thanh thuộc âm vực cao, đờng nét âm điệu bằng
phẳng hầu nh không lên không xuống từ đầu đến cuối.
- Thanh huyền là một thanh thuộc âm vực thấp, xuất phát thấp hơn thanh
không dấu một nữa độ cao. Đờng nét âm điệu bằng phẳng hơi đi xuống thoai thoải.
Không dấu
Huyền
Ng
Hỏi
Sắc
Nặng
Âm điệu bằng
-
Trắc
Âm điệu gy
-
Không gy
Âm vực cao
-
Thấp
Hình 2.1
.
Tiêu chí khu biệt cho 6 âm vị th
anh điệu.
Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
118
- Thanh ngã xuất phát gần ngang với độ cao xuất phát của thanh huyền.
Thanh này bắt đầu ở âm vực thấp nhng kết thúc ở âm vực cao. Đờng nét âm điệu
không bằng phẳng, có hai biến thể:
+ Đờng nét bắt đầu cao hơn thanh huyền một chút đến giữa âm tiết đi
xuống đột ngột, dốc đứng trong một thời gian ngắn, sau đó vút lên ngang với độ
cao ban đầu và đi thêm 1 quãng nữa.
+ Đờng nét bắt đầu và kết thúc tơng tự nh trên nhng bị gián đoạn ở
giữa.
- Thanh hỏi bắt đầu ở mức cao của độ xuất phát thanh huyền. Đờng nét âm
điệu thấp dần từ khi bắt đầu, đến quãng giữa thì chuyển sang một nét đi lên cân đối
với nét đi xuống ban đầu, và kết thúc ngang bằng với độ cao xuất phát.
- Thanh sắc có các biến thể:
+ Trong các âm tiết có âm cuối không phải là âm tắc, vô thanh, đờng nét
âm điệu bắt đầu xấp xỉ với thanh không dấu, với một âm điệu bằng ngang sau
đó âm điệu đi lên, kết thúc cao hơn thanh không dấu.
+ Trong các âm tiết có âm cuối là âm tắc, vô thanh. Nếu âm chính là
nguyên âm dài thì phần bằng ngang ngắn hơn nhiều hoặc có khi mất hẳn. Độ
cao xuất phát và độ cao kết thúc về cơ bản nh trờng hợp trên. Nếu âm chính
là nguyên âm ngắn thì thanh điệu bắt đầu cao hơn khá nhiều, đờng nét âm
điệu đi lên mạnh hơn và kết thúc ở một khoảng cách nhỏ.
- Thanh nặng là thanh điệu thuộc âm vực thấp, nó bắt đầu xấp xỉ với mức cao
ban đầu của thanh huyền. Các biến thể gồm:
+ Trong các âm tiết có âm cuối không phải là âm tắc, vô thanh, đờng nét
bắt đầu bằng ngang và kéo dài trong phần lớn của bộ phận vần, sau đó đi
xuống với độ dốc lớn. Nếu âm cuối là âm mũi thì phần đi xuống nằm vào âm
cuối.
+ Trong các âm tiết kết thúc bằng âm tắc, vô thanh, phần đi xuống nằm
ngay ở cuối nguyên âm làm âm chính. Nếu âm chính là nguyên âm ngắn thì
phần ngang bằng thu ngắn lại.
Thanh điệu là sự nâng cao hoặc hạ thấp giọng nói trong một âm tiết, điều đó
có nghĩa là sự thay đổi tần số âm thanh cơ bản của nguyên âm. Dây thanh chấn
động tạo ra âm thanh. Khi âm cơ bản giữ nguyên, các hoạ âm (là các tần số bằng bội
số của tần số âm cơ bản) thay đổi về cờng độ và độ cao do hiện tợng cộng hởng thì
toàn bộ âm thanh sẽ thay đổi âm sắc và nhận đợc các nguyên âm khác nhau về
thanh điệu, ví dụ à, ù, ì. Ngợc lại, nếu tần số âm cơ bản thay đổi trong khi các
hoạ âm không thay đổi do không có sự biến đổi gì về cộng hởng thì sẽ chỉ có một
nguyên âm với một âm sắc không đổi, nhng với nhiều thanh điệu khác nhau, ví dụ
à, á, ạ.
Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
119
Nh vậy thanh điệu đợc xác định bởi tần số âm cơ bản, tuy nhiên độ cao của
âm cơ bản không nhất thiết phải đồng đều trong thời gian tồn tại của âm tiết mà có
sự biến thiên theo thời gian.
Tín hiệu tiếng nói và sự biến thiên của tần số cơ bản của các âm tiết trong phát
ngôn "ma, mà, má, mạ, mả, mã" đợc trích chọn trong khoảng thời gian 10ms sử
dụng phần mềm Praat [8] đợc chỉ ra trong hình 2.2.
Hình 2.2. Tín hiệu tiếng nói và sự biến thiên của tần số cơ bản của các âm tiết.
2.2. Nhận dạng từ có thanh điệu khác nhau trong tiếng Việt
Xét việc phát âm các từ ma, má, mà, mả, mã, mạ, nếu bỏ đi phần
thanh điệu thì đợc phát âm là /ma/, là những âm tiết đồng âm. Trong một câu nói,
để xác định chính xác âm tiết nào đợc phát âm cần phải sử dụng các thông tin về
ngữ cảnh, nghĩa là các âm tiết đợc phát âm trớc và sau nó, điều này đợc giải
quyết bằng mô hình ngôn ngữ. Tuy nhiên, nếu nhận dạng chính xác đợc thanh
điệu, thì có thể xác định đợc âm tiết phát âm thay vì phải sử dụng mô hình ngôn
ngữ.
Căn cứ vào cấu tạo âm tiết tiếng Việt, vào tính chất thanh điệu đợc xác định
bởi tần số âm cơ bản F
o
và vào tập tham số MFCC (Mel - Frequency Cepstral
Coefficients) không chứa tần số âm cơ bản F
0
chúng tôi tiến hành thử nghiệm tập
tham số MFCC kết hợp với tần số cơ bản F
0
để xem xét sự chính xác của hệ thống
nhận dạng âm tiết có các thanh điệu khác nhau trong tiếng Việt.
Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
120
3. Thực nghiệm
Hệ thống nhận dạng tiếng Việt đợc xây dựng bằng phần mềm Matlab dựa
trên một số modul phân tích tham số đặc trng của tiếng nói [6] và modul nhận
dạng HMM [7].
3.1. Mô hình hệ thống nhận dạng
Mô hình hệ thống nhận dạng đợc mô tả ở hình 3.1 [5]. Môi trờng thử nghiệm
là phòng máy tính, tín hiệu tiếng nói đợc ghi bằng micro thông thờng, tốc độ lấy
mẫu là 11025Hz, PCM 16 bit mono. Chuỗi quan sát là véc tơ đặc trng của các
khung tín hiệu.
Hình 3.1. Mô hình hệ thống nhận dạng.
Sáu mô hình HMM đợc sử dụng để nhận dạng sáu âm tiết của các thử
nghiệm. Với các cơ sở dữ liệu đợc chọn là tập các âm tiết có 3 âm vị, qua các thử
nghiệm cho thấy mỗi mô hình HMM có 3 trạng thái, tơng đơng với số âm vị của
mỗi âm tiết, cho kết quả nhận dạng tốt nhất. Mỗi mô hình HMM đợc mô tả ở hình
3.2.
Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
121
Hình 3.2. Mô hình Markov ẩn 3 trạng thái sử dụng nhận dạng.
Ma trận xác suất chuyển trạng thái của mỗi mô hình HMM đợc khởi tạo nh
sau:
0.3333 0.3333 0.3333
0.0000 0.5000 0.5000
0.0000 0.0000 1.0000
Tập các phân bố xác suất cho trạng thái khởi đầu của mỗi mô hình HMM đợc
chọn là: (0.3333, 0.3333, 0.3333).
3.2. Thử nghiệm 1
a. Cơ sở dữ liệu: Cho tới nay cha có cơ sở dữ liệu tiếng Việt dùng chung nào
đợc xây dựng và công bố. Đây là một trở ngại trong việc nghiên cứu và đánh giá độ
chính xác của tập tham số nhận dạng tiếng Việt. Cơ sở dữ liệu tiếng nói sử dụng
trong thực nghiệm do tác giả tự thu âm giọng nói của chính mình.
Cơ sở dữ liệu đợc chia thành hai tập:
- Tập huấn luyện: Gồm 100 câu, mỗi câu có 6 âm tiết "na, ná, nà, nạ, nã, nả"
đợc đọc theo thứ tự ngẫu nhiên.
- Tập nhận dạng: Gồm 59 câu không thuộc tập các câu huấn luyện, mỗi câu có
6 âm tiết "na, ná, nà, nạ, nã, nả" đợc đọc theo thứ tự ngẫu nhiên.
Tất cả các âm tiết của tập huấn luyện và tập nhận dạng đợc phân đoạn và
gán nhãn theo từng âm tiết của các câu đọc vào dựa trên 1 thủ tục tự động. Tiêu chí
phân đoạn là năng lợng của mỗi âm tiết, dựa trên thuật toán phát hiện điểm kết
thúc âm tiết [3]. Độ dài của các âm tiết là khác nhau (kể cả với một âm tiết đợc
phát âm những lần khác nhau), phụ thuộc vào tốc độ phát âm của từng âm tiết.
b. Tập tham số: Tín hiệu của mỗi âm tiết đợc phân tích thành các khung với
mỗi khung có chiều dài 256 mẫu, các khung chồng lên nhau 128 mẫu. Số khung của
mỗi âm tiết phụ thuộc vào độ dài tín hiệu của âm tiết. Bốn tập tham số cho mỗi
khung tín hiệu đợc thử nghiệm với bộ nhận dạng gồm [4]:
- (MFCC + E): Tập tham số gồm 12 hệ số MFCC (Mel - Frequency Cepstral
Coefficients), 1 hệ số năng lợng. Véc tơ tham số cho mỗi khung tín hiệu gồm 13 hệ
số.
Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
122
- (MFCC + E )+ D: Tập tham số gồm 12 hệ số MFCC, 1 hệ số năng lợng, 13 hệ
số đạo hàm bậc một. Véc tơ tham số cho mỗi khung tín hiệu gồm 26 hệ số.
- (MFCC + E) + D + A: Tập tham số gồm 12 hệ số MFCC, 1 hệ số năng lợng,
13 hệ số đạo hàm bậc một, 13 hệ số đạo hàm bậc 2. Véc tơ tham số cho mỗi khung tín
hiệu gồm 39 hệ số.
- (MFCC + E + F
0
) + D + A: Tập tham số gồm 12 hệ số MFCC, 1 hệ số năng
lợng, 1 hệ số là tần số cơ bản F
0
, 14 hệ số đạo hàm bậc một, 14 hệ số đạo hàm bậc 2.
Véc tơ tham số cho mỗi khung tín hiệu gồm 42 hệ số.
3.3. Thử nghiệm 2
Các tham số đợc chọn giống nh thử nghiệm 1 nhng thay đổi về tập âm tiết
huấn luyện và nhận dạng.
- Tập huấn luyện: Gồm 90 câu, mỗi câu có 6 âm tiết "ma, má, mà, mạ, mã, mả"
đợc đọc theo thứ tự ngẫu nhiên.
- Tập nhận dạng: Gồm 40 câu không thuộc tập các câu huấn luyện, mỗi câu có
6 âm tiết "ma, má, mà, mạ, mã, mả" đợc đọc theo thứ tự ngẫu nhiên.
4. Kết quả
Bảng 4.1a là kết quả nhận dạng âm tiết, bảng 4.1b là kết quả nhận dạng nhầm
các thanh điệu cho tập tham số có độ chính xác cao nhất (MFCC + E + F
0
) + D + A
của thử nghiệm 1.
Bảng 4.1a. Kết quả nhận dạng của thử nghiệm 1.
Độ chính xác
Tập tham số
Âm tiết Câu
(MFCC + E) 75.42% 15.25%
(MFCC + E) + D 83.62% 28.81%
(MFCC + E) + D + A 84.75% 35.59%
(MFCC + E + F
0
) + D + A 92.66% 62.71%
Bảng 4.1b. Kết quả nhận dạng nhầm các thanh điệu của thử nghiệm 1.
Thanh bị nhận dạng nhầm
Thanh lỗi
Thanh
không
Thanh
sắc
Thanh
huyền
Thanh
nặng
Thanh
ngã
Thanh
hỏi
Tổng
cộng
Thanh không
0 0 8 0 0 0 8
Thanh sắc 0 0 0 0 3 0 3
Thanh huyền
4 0 0 0 0 0 4
Thanh nặng 0 0 2 0 0 0 2
Thanh ngã 0 0 0 0 0 7 7
Thanh hỏi 0 0 0 0 2 0 2
Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
123
Bảng 4.2a là kết quả nhận dạng âm tiết, bảng 4.2b là kết quả nhận dạng
nhầm các thanh điệu cho tập tham số có độ chính xác cao nhất (MFCC + E + F
0
) + D
+ A của thử nghiệm 2.
Bảng 4.2a. Kết quả nhận dạng của thử nghiệm 2.
Độ chính xác
Tập tham số
Âm tiết Câu
(MFCC + E) 80.00% 25.00%
(MFCC + E) + D 92.50% 67.50%
(MFCC + E) + D + A 94.58% 72.50%
(MFCC + E + F
0
) + D + A 96.67% 82.50%
Bảng 4.2b. Kết quả nhận dạng nhầm các thanh điệu của thử nghiệm 2.
Thanh bị nhận dạng nhầm
Thanh lỗi
Thanh
không
Thanh
sắc
Thanh
huyền
Thanh
nặng
Thanh
ngã
Thanh
hỏi
Tổng
cộng
Thanh không
0 0 3 0 0 0 3
Thanh sắc 0 0 0 0 0 0 0
Thanh huyền
2 0 0 0 0 0 2
Thanh nặng 0 0 1 0 0 0 1
Thanh ngã 0 0 0 0 0 1 1
Thanh hỏi 0 0 0 0 1 0 1
Bảng 4.1b và bảng 4.2b cho thấy số lợng lỗi nhận dạng nhầm giữa các thanh
điệu. Tỷ lệ nhận dạng nhầm ở thanh không dấu sang thanh huyền là cao nhất, tiếp
đến là nhận dạng nhầm ở thanh huyền sang thanh không dấu. Âm tiết chứa thanh
nặng và thanh hỏi cho kết quả nhận dạng chính xác cao nhất.
5. Kết luận
Bài báo này trình bày một số kết quả thực nghiệm nhận dạng thanh điệu tiếng
Việt dựa trên tập gồm các âm tiết có chung âm đầu, âm vần nhng khác nhau về
thanh điệu. Phơng pháp nhận dạng đợc chọn là mô hình Markov ẩn. Đơn vị nhận
dạng là âm tiết.
Dựa trên lý thuyết về ngữ âm tiếng Việt cũng nh thực nghiệm đã chứng tỏ
việc bổ sung tần số cơ bản F
0
vào vector tham số đặc trng đã tăng đáng kể độ chính
xác nhận dạng cho hệ thống nhận dạng thanh điệu tiếng Việt. Kết quả nhận dạng
tốt nhất với độ chính xác là 96.67% ở mức âm tiết và 82.50% ở mức câu với tập tham
số (MFCC + E + F
0
) + D + A.
Tuy nhiên những kết quả trong bài báo này chỉ là những kết quả bớc đầu
đợc thử nghiệm trên những cở sở dữ liệu nhỏ. Một trong những nghiên cứu chính
Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
124
tiếp theo là cần phải xây dựng và thử nghiệm trên các cơ sở dữ liệu lớn, có nhiều
ngời nói và cần xác định mô hình phiên âm của các âm tiết hay âm vị phù hợp với
hệ thống nhận dạng để tăng độ chính xác nhận dạng.
Tài liệu tham khảo
[1] Đặng Ngọc Đức, Lơng Chi Mai, Nhận dạng từ có thanh điệu khác nhau trong
tiếng Việt, Tạp chí Tin học và Điều khiển học, T.19, S.2, pp.131-138, 2003.
[2] Đoàn Thiện Thuật, Ngữ âm tiếng Việt, Nhà xuất bản Đại học quốc gia Hà Nội,
1999.
[3] Lawrence R. Rabiner and Ronald W. Schafer, Digital Processing of Speech
Signals, Prentice Hall, 1978.
[4] Lawrence R. Rabiner and Biing-Hwang Juang, Fundamentals of Speech
Recognition, Prentice Hall, 1993.
[5] Lawrence R. Rabiner, A Tutorial on Hidden Markov Models and Selected
Applications in Speech Recognition, IEEE, Vol.77, No.2, pp. 257 - 285, February,
1989.
[6] Barbara Resch, Signal Processing and Speech Communication Laboratory,
[7] VOICEBOX: Speech Processing Toolbox for MATLAB,
[8] Paul Boersma and David Weenink, Institute of Phonetic Sciences (IFA) in the
University of Amsterdam, www.praat.org.
SUMMARY
recognition of Vietnamese speech words with
different tones by using Hidden Markov Model
Based on the study of the hidden Markov model (HMM) and Vietnamese
phonetics, this paper presents some proposals of recognition of Vietnamese speech
words with differrent tones and some results of recognition experiments with
Vietnamese speech databases of words. The recognition task is limited to
Vietnamese words, which have the same initial and final, but different tones. The
best recognition rate is 96.67% for words and 82.50% for sentences.
(a) Khoa Công nghệ Thông tin, trờng Đại học Vinh.