Lĩnh vực Công nghệ thông tin
áp dụng thuật toán Dynamic Time wraping (dtW)
cho ứng dụng nhận dạng mẫu Tiếng Việt
ThS.Đoàn Phan Long
Trung tâm Công nghệ thông tin
Tóm tắt: Tự động nhận dạng tiếng nói (Automatic Speech Recognition ASR) là một lĩnh vực
nghiên cứu quan trọng để đa các ứng dụng tiếng nói vào nhiều ngành. Một vấn đề liên quan
cần nghiên cứu trong lĩnh vực này đợc dựa trên cơ sở lu trữ một hoặc nhiều mẫu tín hiệu cho
mỗi từ cần nhận dạng. Quá trình nhận dạng là quá trình thực hiện việc so sánh hai mẫu tín
hiệu của cùng một âm để tím ra mẫu có sai số nhỏ nhất. Bởi vì tín hiệu âm thanh đợc tạo ra
tại các thời điểm khác nhau không bao giừo giống nhau hoàn toàn. Nó luôn có sự sai lệch do
các yếu tố về trọng âm, ngữ điệu, tốc độ, Vì vậy cần phải thực hiện só sánh hai mẫu theo
các thuật toán biến dạng nhằm giảm thiểu sai số. Thuật toán DTW (Dynamic Time Wraping)
là thuật toán hiệu quả nhất cho việc ứng dụng sao sánh hai mẫu tín hiệu có chiều dài khác
nhau và cho sai số nhỏ nhất [4]. Tuy nhiên việc ứng dụng DTW có nhiều hớng khác nhau và
cho các kết quả khác nhau, việc lựa chọn phơng pháp áp dụng có hiệu quả đối với ngôn ngữ
tiếng Việt là một vấn đề cần quan tâm.
Mở đầu:
Hiện nay với sự trợ giúp của các hệ thống máy tính có rất nhiều xu hớng nhằm áp
dụng các mô hình ngôn ngữ trong các hệ thống sử dụng công nghệ nhận dạng tiếng nói,
trong đó có thể kể đến nh mô hình từ, âm tiết và mô hình âm vị, mô hình âm đầu+vần. Việc
lựa chọn các mô hình này để giải quyết các bài toán cụ thể phụ thuộc vào yêu cầu của các
ứng dụng. Nó quyết định đến độ phức tạp, tính bao trùm và chất lợng của hệ thống. Hệ thống
nhận dạng áp dụng các mô hình ngôn ngữ trên đều có thể sử dụng công nghệ nhận dạng mẫu
theo từ, âm tiết, âm vị hoặc theo các âm đầu và vần. Để có thể so sánh giữa tín hiệu đầu vào
và mẫu, ngời ta thờng pháp áp dụng thuật toán DTW.
Thuật toán DTW đợc ứng dụng để giải quyết việc so sánh giữa hai mẫu tín hiệu có độ
dài khác nhau theo thời gian. Nh ta biết, kết quả của quá trình phân tích tính hiệu theo phơng
pháp mã hoá dự báo tuyến tính (Linear Predictive Coding LPC) hay ngân hàng bộ lọc (Filter
Bank) bao giờ cũng cho ta kết quả dạng chuỗi các véctơ đặc trng. Độ dài của chuỗi véc tơ
này phụ thuộc vào độ dài của của hai tín hiệu mà ta phân tích. Nh vậy, quá trình so sánh hai
tín hiệu sẽ tơng ứng với quá trình so sánh 2 chuỗi véc tơ đặc trng của hai tín hiệu. Thuật toán
DTW sẽ thực hiện việc so sánh 2 chuỗi véc tơ này theo một số luật sao cho tổng độ lệch giữa
hai chuỗi là nhỏ nhất tơng ứng với đờng đi giữa các cặp véc tơ của hai chuỗi là tối u nhất.
Việc chọn lựa luật chọn đờng đi và giới hạn biên của các đờng đi sẽ cho ta kết quả tính toán
là nhỏ nhất và hiệu quả nhất.
1 Khái quát về tiếng Việt
1.1) Các dân tộc và ngôn ngữ ở Việt Nam
Trong số 54 dân tộc ở Việt Nam thì dân tộc Việt (còn gọi là Kinh) chiếm số lợng
tuyệt đối, tổng số dân lên tới trên 70 triệu ngời. Dân tộc Tày có 1,2 triệu, dân tộc Thái trên 1
triệu, các dân tộc Hoa, Khơ me, Mờng, Cơ Ho, Chàm, Sán Dìu trên 900 nghìn ngời.
Căn cứ vào ngôn ngữ, chữ viết ta có thể phân bố các thành phần dân tộc nh sau:
Học viện Công nghệ BCVT
Hội nghị Khoa học lần thứ 5
Tiếng Nôm - Khơme. Gồm nhiều nhóm ngời ở Tây Bắc, Tây Nguyên, Quảng Trị vv
Tiếng Thái. Gồm ngời Thái Tây Bắc, Thợng du Thanh Hóa, Nghệ An, khu Việt Bắc,
Quảng Ninh. Ngoài ra còn có nhóm ngời Giáy, Cao Lan, Lự vv
Tiếng Anh-đô-nê-diêng. Gồm ngời Chàm, Gia rai, Ê-đê (Tây Nguyên).
Tiếng Mèo-Dao. Gồm ngời Mèo Dao (Việt Bắc, Hòa Bình Thanh Hóa)
Tiếng Tạng - Miến: Gồm ngời Lô Lô (Hà Giang), Hà Nhì, La Khu, Cống, Xila (Tây
Bắc).
Tiếng Hán: Ngời Hoa (Quảng Ninh), Sán Dìu (Bắc Giang, Bắc Cạn, Thái Nguyên
vv ).
Tiếng Việt là ngôn ngữ cộng đồng của dân tộc Việt và cũng là công cụ giao tiếp chung
cho các dân tộc sống trong nớc Việt Nam. Nhiều công trình nghiên cứu theo phơng pháp lịch
sử so sánh đều đi đến kết luận các ngôn ngữ ở Việt Nam thuộc vào các họ Hán Tạng, Thái,
Mèo-Dao, Nam Đảo, Nam á; riêng tiếng Việt thuộc họ tiếng Nam á. Họ Nam á
(austroasiatique) là một họ ngôn ngữ khá lớn bao gồm một phần ấn độ, một phần Malaysia,
một phần Miến điện, phần lớn Campuchia, phần lớn Việt Nam. Họ này lại phân thành nhiều
nhóm: Việt-Mờng, Mông-Khmer, Khơ mú, Cơ tu, Bana, Mnông, Kađai.
Họ Nam Đảo (austronesien hay malayo-polyesien) cũng là một họ lớn, với nhiều ngôn
ngữ, trên một khu vực rộng bao gồm quần đảo Madagascar, Malaysia, Indonesia, Philippines,
New Guinea, Taiwan và phía Nam Việt Nam. Về ngôn ngữ thuộc họ này ở Việt Nam có
Chàm, Raglai, Chru, Êđê, Giarai, tất cả đều thuộc nhóm Chăm.
Họ Hán Tạng bao gồm tiếng Hoa và một số ngôn ngữ phía Tây nam Trung hoa và phần
lớn Miến Điện. Các ngôn ngữ thuộc họ này ở Việt Nam bao gồm Lô Lô, Phù Lá, Hà Nhì, La
Hủ, Cống, Si La thuộc nhóm Tạng-Miến, các tiếng Hoa, Sán Chỉ, Sán Dìu thuộc nhóm Hán.
1.2) Vài nét về lịch sử phát triển của tiếng Việt
Theo một số tài liệu nghiên cứu thì tiếng Việt thời thợng cổ là thứ tiếng cha có thanh
điệu. Hệ thống phụ âm đầu trong tiếng Việt có những phụ âm đơn và phụ âm kép nh bl, tl, pr,
pl Các âm cuối bị mất dần một số trong quá trình phát triển (nh âm cuối l mất đi, âm cuối r
chuyển thành i), nói riêng âm h mất đi và xuất hiện dấu ngã trong tiếng Việt.
Hệ thống thanh điệu đã xuất hiện dần. Vào đầu công nguyên, tiếng Việt cha có thanh
điệu, đến thế kỉ VI xuất hiện ba thanh và đến thế kỉ XII mới có đủ sáu thanh nh hiện nay. Sự
biến đổi của âm đầu và cuối là nguyên nhân làm xuất hiện hệ thống thanh điệu trong tiếng
Việt.
Sự biến đổi trong hệ thống các âm đầu diễn ra tơng đối rõ hơn trong hệ thống nguyên
âm: âm vô thanh chuyển thành hữu thanh (p b, t d và k g). Các phụ âm kép kl, tl, bl,
khl mất dần, làm xuất hiện các âm uốn lỡi tr và s (tlăm trăm (thế kỉ 17); blăng trăng
(thế kỉ 18), khlông (thế kỉ 15) sông (thế kỉ 17), nhóm ml chuyển thành l hoặc nh (nlầm
lầm, nhầm, mlẽ lẽ, nhẽ)
Kho từ vựng tiếng Việt phong phú với những từ cơ bản có nguồn gốc Nam á và Tày
Thái cổ. Kho từ vựng trong quá trình phát triển còn tiếp nhận và thuần hoá cả về ngữ âm lẫn
ý nghĩa một bộ phận khá nhiều từ gốc Hán (nh đũa, đục, muôn, mũi, móc, mùa ).
Hệ thống ngữ pháp tỏ ra bền vững hơn hệ thống từ vựng, trật tự cú pháp, trật tự tổ hợp từ giữ
đặc điểm riêng của tiếng Việt.
Học viện Công nghệ BCVT
Lĩnh vực Công nghệ thông tin
1.3) Một số đặc điểm của tiếng Việt
Tiếng Việt là loại hình ngôn ngữ đơn lập (ngôn ngữ không biến hình - amorphous) và
có thanh điệu. Tiếng Việt là tiếng đơn âm có ranh giới cố định, mang thanh điệu, có cấu trúc
đơn giản, thanh điệu và có âm tiết trùng với hình vị, đơn vị nhỏ nhất có tổ chức mang ý nghĩa
ngữ pháp. Do mỗi âm tiết là vỏ ngữ âm của hình vị nên khác với các ngôn ngữ Âu-ấn, tiếng
Việt có số lợng âm tiết hữu hạn với 17.000 vỏ ngữ âm và 6.900 âm tiết tồn tại thực [3].
Âm tiết, hình vị trong tiếng Việt là cố định, không biến đổi hình thái theo ngữ pháp
và thời, giống và số nh các ngôn ngữ khác. Từ thờng có hai loại là đơn tiết và đa tiết. Một
phần rất lớn từ đa tiết là Hán Việt (kể cả từ mới). Trong các từ đa tiết thờng có dạng láy âm
hoặc ghép các từ đơn tiết. Âm tiếng Việt có cấu trúc chặt chẽ với các loại âm ở các vị trí cố
định trong thành phần âm tiết.
Tiếng Việt là ngôn ngữ có thanh điệu, tiếng Việt có 6 thanh (tiếng Thái, Lào có 5
thanh, tiếng Hán 4 thanh, tiếng Miến Điện 3 thanh, Trung Quốc có 4 thanh) là ngang (không
dấu), huyền, ngã, hỏi, sắc và nặng. Mỗi thanh đều có thể tham gia vào việc cấu tạo từ và tạo
nghĩa cho từ. Thanh điệu tiếng Việt có tính nhạc, câu văn có vần, nhịp điệu, trầm bổng nhịp
nhàng. Mỗi âm tiết đều mang một thanh điệu nhất định. Thanh điệu kết hợp với thành phần
của âm tiết tạo thành các từ khác nhau, ví dụ nh /ma, mà, má, mả, mã, mạ/. Trong tiếng Việt
không phải vần nào cũng phát âm đợc đủ sáu thanh. Đối với âm tiết đóng chỉ có hai thanh là
sắc và nặng
Âm tiết tiếng Việt ở dạng đầy đủ bao gồm 3 thành phần có mức độ độc lập khác nhau
là âm đầu (phụ âm), phần vần và thanh điệu. Với phần vần bao gồm 3 thành phần là âm đệm
(bán nguyên âm), âm chính (nguyên âm đơn hoặc nguyên âm đôi) và âm cuối (phụ âm đơn
hoặc bán nguyên âm). Trong đó nguyên âm và thanh điệu là hạt nhân của âm tiết. Trừ phụ
âm đầu, phần còn lại của âm tiết tiếng Việt đợc gọi là vần. Tiếng Việt có 512 vần (Theo
thống kê trong một số tài liệu của GS. Hoàng Phê). Vần và thanh tạo nên sự hài hoà về ngữ
âm và ngữ nghĩa trong các từ tợng hình, tợng thanh.
Từ song tiết chiếm phần khá lớn trong tổng số từ. Từ ghép đa tiết chia ra thành các
loại từ ghép nghĩa, từ láy, từ ghép tự do, các từ vay mợn nớc ngoài. Vốn từ vựng tiếng Việt
bao gồm các từ, các thành ngữ, thuật ngữ. Một bộ phận từ tiếng Việt có gốc Hán.
Phơng tiện biểu hiện ý nghĩa ngữ pháp trong tiếng Việt là trật tự các thành tố (từ và
câu), ngữ điệu, dạng láy, ngữ cảnh. Từ và cụm từ là các đơn vị cấu tạo nên câu.
Ngôn ngữ nói và ngôn ngữ viết không cách xa nhau về qui tắc ngữ âm, ngữ pháp.
1.4) Mối quan hệ giữa chữ cái, thanh và âm tiết, từ
- Chỉ các nguyên âm mới có quyền mang dấu thanh trong biểu diễn âm tiết hay từ.
- Mỗi nguyên âm có thể đợc mang nhiều nhất là một trong các dấu thanh trên.
- Các dấu thanh: huyền, hỏi, ngã, sắc đợc đặt ở phía trên của nguyên âm mang dấu. Dấu
nặng đợc đặt ở phía dới nguyên âm mang dấu.
- Các âm tiết chữ Việt đợc tạo ra trên cơ sở biểu diễn hình ảnh cho các âm phát ra có mang
thanh điệu. Mỗi âm tiết đều đợc biểu diễn bằng việc viết liền các chữ cái mô tả cho âm
tiết đó và đợc mang nhiều nhất là một thanh, đặt trên một nguyên âm. Các âm tiết tách
lẫn nhau bằng dấu cách.
- Thanh là thuộc tính của âm tiết, không phải là thuộc tính của nguyên âm. Thanh đợc đặt
vào vị trí của nguyên âm để phân biệt trong cách phát âm.
- Một từ trong tiếng Việt là một đơn vị ngữ nghĩa, mang một ý nghĩa nào đó, và bao gồm
một hai, ba hay nhiều âm tiết.
Học viện Công nghệ BCVT
Hội nghị Khoa học lần thứ 5
- Dựa trên cách biểu diễn chữ Việt theo chữ cái và thanh này, có thể nêu ra đợc các tập
sinh khác cho chữ Việt, nh:
Tập sinh dới dạng tổ hợp của các phụ âm đầu và vần theo sau
Tập sinh với 33 chữ cái và 5 thanh
Tập sinh với các phụ âm đầu và khoảng 800 vần
- Mặc dầu cách biểu diễn theo phụ âm và vần có thể có một số ích lợi trong xử lí nhng ích
lợi đó khó bù đợc cho những bất lợi mà nó đem lại nh:
Với đặc thù phát âm của tiếng Việt khó biểu diễn những tình huống có chen lẫn
tiếng Việt và không phải tiếng Việt.
Việc làm này đi ngợc với xu thế hoà đồng các ngôn ngữ trên thế giới, do đó khó
khăn cho việc tiếp thu những tiến bộ công nghệ mới.
1.5) Chữ viết
Theo các tài liệu lịch sử Đại Việt sử lợc, An nam chí nguyên, Việt sử thông giám tổng luận
thì đều có chép thời Hùng vơng "chính sự dùng lối kết nút." Tuy nhiên cha có tài liệu nào cho
biết rõ hơn về việc khi nào có chữ viết đợc bắt đầu dùng ở Việt Nam. Việc sử dụng chữ Hán
đi kèm với việc văn hoá Trung quốc lan xuống phía Nam đến cùng với việc chinh phục và
thôn tính đất đai của các triều đại phong kiến Trung quốc.
1.6) Cấu trúc âm tiết trong tiếng Việt
Nh đã nêu trên, Âm tiết của tiếng việt ở dạng đầy đủ đợc tạo bởi 5 thành phần là phụ âm
đầu, âm đệm (bán nguyên âm), âm chính (nguyên âm đơn hoặc nguyên âm đôi) và âm cuối
(phụ âm đơn hoặc bán nguyên âm) và thanh điệu. Về cấu trúc, âm tiết tiếng Việt có cấu trúc
hai bậc. Bậc một gồm ba thành phần là thanh điệu, phụ âm đầu và vần. Bậc hai là các thành
tố của phần vần gồm âm đệm là bán nguyên âm, nguyên âm chính và phụ âm hoặc bán
nguyên âm cuối. Các thành phần âm tiết đợc thể hiện ở hình 1.
Thanh điệu
Âm đầu Vần
Âm đệm Âm chính Âm cuối
Hình 1: Sơ đồ âm tiết tiếng Việt
1.6.1) Âm đầu
Phụ âm mở đầu âm tiết gồm có 22 vần. Các phụ âm đầu đợc phân biệt theo các tiêu
chí về phơng thức cấu âm (tắc, xát), về thanh tính (vang, ồn) phụ âm vang đợc phân biệt
giữa phụ âm mũi và phụ âm bên (phụ âm không mũi). Trong phụ âm ồn đợc chia thành loại
âm vô thanh và âm hữu thanh. Nh vậy phân theo lớp ngữ âm rông ta có thể chia phụ âm đầu
tiếng Việt thành bảy loại theo hình 2 dới đây.
Phơng thức cấu âm Các phụ âm
ồn
Tắc Vô thanh Bật hơi th
Không bật hơi (p), t, tr, ch, k, c
Hữu thanh b, đ
Xát Vô thanh ph, x, s, kh
Hữu thanh v, d, r, g-gh, h
Vang
Học viện Công nghệ BCVT
Lĩnh vực Công nghệ thông tin
Mũi m, n, nh, ng-ngh
Không mũi l
Hình 2: Phân loại phụ âm đầu
1.6.2) Phần vần
Phần vần có 3 thành phần là âm đệm, âm chính và âm cuối. Ví dụ âm tiết /toán/ có phần vần
là oan, trong đó âm vị âm đệm là /o/, âm chính là /a/ và âm cuối là /n/.
- Âm đệm đóng vai trò làm biến đổi âm sắc của âm tiết nhng nó không tạo nên đỉnh của
âm tiết. Âm đệm đợc viết bằng chữ cái /o/ khi đứng trớc 3 nguyên âm /e/, /a/, /ă/ và bằng
chữ cái /u/ trong các trờng hợp còn lại. Nếu đứng sau phụ âm đầu /k/ thì chỉ đợc viết là /u/
và /k/ đợc viết là /q/
- Âm chính là một âm trong hệ thống nguyên âm gồm 11 nguyên âm đơn là /a/, /ă/, /â/,
/e/, /ê/, /o/, /ô/, /ơ/, /u/, //, /i/ và 3 nguyên âm đôi là /iê/, /ơ/, /a/. Âm chính là yếu tố tạo
nên đỉnh âm tiết, có biên độ và cờng độ lớn nhất trong các thành phần âm tiết.
- Âm cuối là âm kết thúc âm tiết. Nó biến đổi âm sắc của âm chính do tác động tác khép
lại của bộ máy phát âm. Hệ thống âm cuối trong tiếng Việt gồm hai bán nguyên âm là /i/
và /o/ và sáu phụ âm. Các phụ âm này là /m/, /n/, /ng (nh)/, /p/, /t/, /c/.
1.6.3) Thanh điệu
Thanh điệu là loại âm vị siêu đoạn tính, nó đợc biểu hiện trong tiàn bộ phần hữu thanh của
âm tiết. ở mức vật lý, phần thanh của thanh điệu chính là đờng nét của tần số âm cơ bản F
0
.
Về cảm thụ, thanh điệu là sự cảm nhận về độ thay đổi cao độ tần số cơ bản F
0
của âm tiết.
Sáu thanh điệu trong tiếng Việt đợc chia thành hai nhóm lớn là bằng và trắc. Thanh không
dấu và thanh huyền thuộc loại thanh bằng có đờng nét tơng đối đơn giản. Thanh ngã, thanh
hỏi, thanh sắc và thanh nặng là những thanh trắc có đờng nét thanh điệu phức tạp. Các thanh
ngang, sắc, ngã thuộc âm vực cao còn các âm huyền, hỏi và nặng thuộc âm vực thấp.
Ngoài tính chất thanh tính, các thanh điệu còn có một số đặc trng phi điệu tính nh hiện tợng
yết hầu hoá, thanh hầu hoá tạo thành các hệ thống các đặc trng phụ để phân biệt các thanh
điệu đặc biệt của thanh ngã và sắc, thanh hỏi và thanh nặng.
1.6.4) Loại âm tiết
Phụ thuộc vào cách thức kết thúc, âm tiết tiếng Việt đợc chia thành 4 loại nh sau:
Âm tiết mở: Là loại âm tiết không có âm cuối, kết thúc âm tiết bằng nguyên âm
chính, ví dụ cha, mẹ
Âm tiết nửa mở: Khi âm cuối kết thúc âm tiết là một bán nguyên âm, ví dụ mai, sau
Âm tiết nửa đóng: Khi âm cuối là một phụ âm mũi /n/, /m/, /ng/, /nh/, ví dụ làm,
ngành, mông.
Âm tiết đóng: Khi âm cuối là một phụ âm tắc vô thanh /p/, /t/, /c/, ví dụ: tập, học,
mệt.
2. Đơn vị nhận dạng cơ bản cho các hệ thống nhận dạng lời Việt
2.1. Mô hình từ và âm tiết
Việc lựa chọn từ làm đơn vị nhận dạng là phơng pháp thông thờng và dễ dàng nhất,
nó bao trùm đợc tính biến thể âm vị. Đối với một số ứng dụng nhận dạng tiếng nói cần số từ
không lớn nh hệ thống điều khiển học, đếm số có thể áp dụng tốt mô hình từ để nhận dạng
do dễ dàng thu thập đủ số mẫu huấn luyện cho mỗi từ. Xem hình 3 dới đây.
Học viện Công nghệ BCVT
Hội nghị Khoa học lần thứ 5
Trong tất cả các ngôn ngữ, từ là đơn vị tự nhiên nhỏ nhất của tiếng nói và từ là mục
tiêu của các hệ thống nhận dạng tiếng nói. Tiếng Việt là ngôn ngữ đơn âm tiết. Trong tiếng
Việt, âm tiết là những đơn vị âm thanh nhỏ nhất và nh vậy âm tiết là mục tiêu của các hệ
thống nhận dạng lời Việt. Do vậy nó có thể đợc lựa chọn làm đơn vị nhận dạng tiếng nói cho
các ứng dụng nhận dạng lời Việt. Tuy nhiên, do trong tiếng Việt, số lợng âm tiết rất lớn trên
10.000 âm tiết nên rất khó có thể áp dụng cho các hệ thống nhận dạng tiếng việt cỡ lớn do
việc thu thập mẫu tiếng nói cần thiết cho các âm tiết sẽ gặp nhiều khó khăn do só lợng mẫu
quá lớn và thời gian xử lý so sánh, lựa chọn mẫu trong cơ sở dữ liệu lâu. Ngoài ra , mỗi mẫu
huấn luyện của một âm tiết chỉ có thể sử dụng để huấn luyện và so sánh lựa chọn cho chính
âm tiết đó chứ không thể sử dụng chung để huấn luyện và lựa chọn cho các âm tiết khác.
Xong bù lại, phơng pháp này có nhiều đơn giản do không cần phải sử dụng một số các phơng
pháp để phân đoạn và gán nhãn.
Hình 1.1. Số từ trong các ứng dụng cụ thể
Hình 3. Vốn từ trung bình theo các ứng dụng
2.2. Mô hình âm vị
Nhằm giảm bớt số lợng mẫu huấn luyện, nhận dạng và để sử dụng chung các mẫu này,
mô hình âm vị thờng đợc sử dụng làm đơn vị nhận dạng cơ bản cho các hệ thống nhận dạng
tiếng nói. Trong tiếng Việt chỉ có 38 âm vị trong đó có 22 phụ âm và 16 nguyên âm đơn và
đôi [1], khi kết hợp với thanh điệu (huyền, hỏi, ngã, sắc, nặng, không dấu) thì tổng cộng có
228 âm vị có thanh điệu. Với số lợng âm vị hạn chế nh vậy, hoàn toàn có thể xây dựng một
mô hình nhận dạng tiếng Việt với từ điển cỡ lớn không hạn chế với khoảng 1.500 - 2000 câu
huấn luyện. Một đặc điểm nữa là các từ trong tiếng Việt có số lợng âm vị rất ít, nhiều nhất
cũng chỉ tới 6 âm vị (ví dụ khuếch trơng). Tuy nhiên, mô hình âm vị có một số nhợc điểm
chính:
- Các âm vị nh nhau ở các vị trí khác nhau không hẳn đã có đặc tính âm học, ngữ âm học
nh nhau. Một số âm vị vừa đóng vai trò âm chính, vừa đóng vai trò âm phụ.
- Âm vị là đơn vị âm nhỏ nhất của một từ, việc xác định gianh giới của các âm vị rất khó,
do đó việc phân đoạn và gán nhãn chính xác ở mức âm vị rất khó khăn nhng lại rất quan
trọng và ảnh hởng nhiều đến chất lợng của hệ thống.
2.3. Âm đầu +Vần
Học viện Công nghệ BCVT
Tiếng Việt thông thờng 300.000
Máy viết chính tả 20.000 - 50.000
Nói chuyện hàng ngày 8.000 - 20.000
Hội thoại cung cấp thông tin 500-2000
Điều khiển, vận hành máy móc 20-200
Đếm, số 10 + x
Điều khiển học (có/không) 2
Đồng hồ báo thức 1
Lĩnh vực Công nghệ thông tin
Tiếng Việt là ngôn ngữ đơn âm tiết. Âm tiết tuy đợc phát âm liền nhng lại có cấu tạo lắp
ghép và hầu nh theo một quy luật nhất định. Điều này dễ thấy ở các em bé học đánh vần
trong năm đầu đi học. Mỗi từ trong tiếng Việt có 3 bộ phận chính là thanh điệu, âm đầu và
vần. Âm đầu có một âm vị tham gia cấu tạo, vần đợc cấu tạo bới âm đệm, âm chính và âm
cuối. Theo [4] thì trong tiếng Việt có 22 âm đầu và 155 vần. Kết hợp với thanh điệu thì tổng
số âm đầu+vần có thanh điệu nhỏ hơn (22+155)*6=1062 vì có nhiều âm đầu, vần và thanh
điệu không kết hợp đợc với nhau. Mô hình âm đầu+vần cho phép giảm bớt nhiều khó khăn
cho việc phân đoạn, gán nhãn trong quá trình lập cơ sở dữ liệu và giảm bớt yêu cầu tính toán
của máy khi phải phân đoạn từ thu nhận từ Micro.
3. Vấn đề nhận dạng mẫu
Trong các phơng pháp nhận dạng mẫu, ngời ta thờng hay sử dụng nhận dạng mẫu cho
các từ đơn lẻ. Hệ thống khá đơn giản do không phải qua các công đoạn phân đoạn và gán
nhãn. Nh trên đã trình bày, phơng pháp này thờng chỉ áp dụng cho các hệ thống nhận dạng
với th viện từ hạn chế. Ta có thể áp dụng nhận dạng mẫu cho mô hình nhận dạng theo âm vị,
hoặc âm đầu+vần. Với phơng pháp này, các từ đợc phân đoạn, gán nhãn và tính toán các đặc
tính. Âm thanh thu đợc cũng sẽ đợc phân đoạn và so sánh với th viện mẫu và quyết định lựa
chọn mẫu có đặc tính giống đoạn âm thu đợc nhất (hình 4). Do âm thanh đợc tạo ra tại các
thời điểm khác nhau luôn có sự sai khác bởi các yếu tố trọng âm, ngữ điệu, tốc độ Do vậy
âm thanh thu đợc cần đợc so sánh với âm mẫu với thuật toán biến dạng DTW nhằm giảm
thiểu sai số.
Hình 4: Nhận dạng theo phơng pháp so sánh mẫu
4. Thuật toán Dynamic Time Wraping (DTW)
Cho chuỗi âm tiết đầu vào
{ }
L
wwww , ,
21
=
có độ dài L và có chuỗi vector đặc tính
{ }
T
xxxX , ,
21
=
, nhiệm vụ của hệ thống là phải nhận dạng xem chuỗi âm đầu vào là các ký
tự gì và trong quá trình xử lý cần phải giảm thiểu tối đa các sai số quyết định. Mỗi tín hiệu
âm tiết đầu vào W
l
sẽ đợc so sánh với các mẫu Y
l
. Mỗi Y
l
là chuỗi các vector đặc tính của tín
hiệu âm tiết W
l
. Nhằm tăng khả năng nhận dạng, mỗi âm tiết có một tập hợp các mẫu khác
nhau:
l
Mll
YY
,1,
, ,
. Quá trình quyết định âm tiết phù hợp với một mẫu dựa theo nguyên tắc
sau:
),(minminarg
,
*
ml
m
l
YXDl =
Nh vậy âm tiết W
l*
là âm tiết phù hợp nhất với mẫu Y
l
tìm đợc.
Học viện Công nghệ BCVT
Phân đoạn
Gán nhãn
Đặc tính
Tính toán độ
sai số
D(X,Y
l
)
W
l*
Mẫu so sánh
Y
1
, , Y
l
X
Tín hiệu âm
thanh vào
M
N
I
M
U
M
Hội nghị Khoa học lần thứ 5
Khoảng cách D(X,Y) giữa dữ liệu đầu vào và dữ liệu mẫu Y=y
1
.y
s
có độ dài thời gian khác
nhau S T đợc xác định bằng tổng các khoảng cách cục bộ
),(
jiij
yxdd =
trên cả đờng đi
của quá trình biến dạng thời gian. Khoảng cách tích luỹ
) , (
11 jiij
yyxxDD =
đợc xác định
theo công thức
{ }
+
ijjijiji
dDDD
1,,11,1
,,min
0
I=J=0
I>0, J>0
Khác
Và khoảng cách tổng D(X,Y)=D
TS
.
Giả sử cho hai chuỗi vec tơ tơng ứng với mẫu tín hiệu là
{ }
I
aaaaa , ,,
321
=
và
{ }
J
bbbbb , ,,
321
=
. Cho rằng tín hiệu mẫu
a
có chiều dài lớn hơn mẫu
b
tức là giá trị (I >
J). Thuật toán sẽ thực hiện việc tìm đờng đi tối u của chuỗi b theo chuỗi a (tức là các vị trí
khác nhau giữa hai chuỗi theo thời gian) sao cho tổng chênh lệch giữa hai chuỗi vec tơ là nhỏ
nhất.
Để thực hiện đợc điều này thuật toán dùng ma trận lới các điểm hình 5.
Hình 1: Lới ma trận
Hình 5: Ma trận lới các điểm
Hai chuỗi véc tơ sẽ tơng ứng với hai cạnh của ma trận. Giả sử , véc tơ a theo trục x và
véc tơ b theo trục y. Các nút của ma trận tơng ứng với khoảng cách tính đợc của hai chuỗi
véc tơ tại các thời điểm thứ i của véc tơ a tơng ứng thời điểm thứ j của véc tơ b tơng ứng nút
(i,j). Nh vậy, đờng đi tối u trong ma trận sẽ có dạng nh hình 6.
Học viện Công nghệ BCVT
Hình 6: Hình dạng đờng đi trong ma trận
Lĩnh vực Công nghệ thông tin
Việc xác định đờng đi tối u trong ma trận lới đợc thực hiện sao tổng khoảng cách sai lệch
giữa các cặp véc tơ của hai chuỗi là nhỏ nhất. Ký hiệu, d(i,j) là độ chênh lệch của hai véc tơ a
và b tại thời điểm i và j tơng ứng.
Yêu cầu của thuật toán DTW cho hai chuỗi vec tơ bất kỳ là cùng bắt đầu tại các vị trí (0,0) và
kết thúc tại vị trí (I,J). Giá trị tại nút (0,0) xác định bằng 0.
Đờng đi đợc xác định theo các cặp nút liên tiếp (i
k-1
,j
k-1
)
(i
k
,j
k
) . Dùng ký hiệu i
k
để biểu
diễn chỉ số của véc tơ a tại thời điểm k và j
k
là chỉ số của véc tơ b tại thời điểm k. Nh vậy
tổng khoảng cách giữa hai chuỗi véc tơ là :
),(),(),(
11 kkkkkk
jidjiDjiD +=
Việc tìm giá trị min D(i,j) theo công thức sau:
[ ]
),(),(min),(
11
*
kkkkkk
jidjiDjiD +=
=
=
=
km
m
mm
jid
0
),(min
Một số bắt buộc của DTW:
- Chỉ số của i phải tăng đều tức là : i
k
- i
k-1
=1
- Chỉ số của j tăng theo i với điều kiện: j
k
-j
k-1
0
Giới hạn của đờng đi không thể tuỳ ý đợc vì nh thế nó sẽ gây ra kết quả sai lệch và làm tăng
khối lợng tính toán (nếu xét trên toàn bộ ma trận điểm). Vì vậy, cần phải giới hạn phạm vi
của đờng đi sao cho việc tính toán giảm và độ chính xác cao. Phạm vi cho đờng đi đợc chọn
nh hình vẽ 7:
Hình 3: Đờng đi trong ma trận theo thuật toán DTW
Hình 7: Phạm vi cho đờng đi
Luật đờng đi đợc lựa chọn theo nh hình 8 :
Hình 8: Luật đờng đi
Học viện Công nghệ BCVT
Hội nghị Khoa học lần thứ 5
Giả sử vị trí hiện tại đang ở thời điểm i
k-1
và điểm đi tiếp là i
k
. Nh vậy các giá trị j
k
có thể là
j
k
, j
k+1
, j
k+2
tơng ứng với các mũi tên trên ma trận.
Kết quả:
Kết quả đợc so sánh với phơng pháp biến dạng khác là biến dạng tuyến tính theo thời gian
hay còn gọi là đồng bộ theo thời gian với thuật toán biến dạng nh sau:
Chỉ số theo thời gian của tín hiệu b liên quan đến chỉ số theo thời gian của tín hiệu a là :
i
I
J
j =
và kết quả cho nh trên hình 8.
Trên hình vẽ thể hiện đờng đặc trng của âm số 2 (hai) có độ dài khác nhau (a) và (b).
Với phơng pháp biến dạng tuyến tính thì giá trị thời gian chỉ số mẫu b đợc giãn đều theo chỉ
số thời gian của mẫu tín hiệu a. Nh vậy, hai khoảng thời gian đợc kéo dãn bằng nhau song
các giá trị thì vẫn còn độ sai lệch lớn do tỷ lệ biến dạng là đều mà không có sự chọn lựa theo
giá trị hình (c). Thể hiện việc kéo giãn tại các điểm có đờng nối ngang giữa hai tín hiệu.
Còn sử dụng thuật toán DTW ta thấy tỷ lệ biến dạng không đồng đều tại các thời điểm tuỳ
thuộc vào giá trị tích luỹ từ trớc nên hai mẫu so sánh sẽ có độ chênh lệch là nhỏ nhất hình (d),
các đờng nối chéo thể hiện sự biến dạng không tuyến tính theo thời gian.
5. Kết luận
Học viện Công nghệ BCVT
Hình 8. Biểu diễn thuật toán biến dạng âm hai
(a)(b) Hai tín hiệu có chiều dài khác nhau.
(c) Biến dạng tuyến tính theo thời gian
(d) Biến dạng DTW
(a) (b)
(d)
(c)
Lĩnh vực Công nghệ thông tin
Trên đây là ứng dụng của thuật toán DTW cho hệ thống nhận dạng tiếng nói đang đợc
nghiên cứu và triển khai. ứng dụng luật đờng đi và cách xác định đờng giới hạn cho thuật
toán DTW đã góp phần nâng cao chất lợng của bộ nhận dạng. Tuy nhiên, luật đờng đi và giới
hạn của đờng đi còn có thể có nhiều dạng khác cần nghiên cứu thêm, song với ứng dụng
nhận dạng mẫu rời rạc thì luật đờng đi xác định theo phơng pháp trên là có chất lợng hơn cả.
Tài liệu tham khảo
[1]. Đoàn Thiện Thuật - Ngữ âm tiếng Việt, Nhà xuất bản Đại học và Trung học chuyên
nghiệp, Hà nội. 1977
[2]. H.Sakoe and S.Chiba - Dynamic programming optimization for spoken word recognition.
1978.
[3]. Hoang Tue and Hoang Minh, Remarks on the phonological Structure of vietnamese,
Vietnamese Studies, Ha noi, 1979
[4]. Lawrence Rabiner, Biing Hwang Juang; Fundamentals of speech recognition. 1999.
[5]. R. M Gray, A. Buzo, A.H.Gray, Jr., and Y. Matsuyama - Distortion measures for speech
processing. 1980.
Sơ lợc tác giả
Đoàn Phan Long, Tốt nghiệp Đại học tại trờng đại học tổng hợp Karl-Marx-Stadt CHLB
Đức tại Thành phố Chemnitz khoa tự động hoá, chuyên ngành điều khiển học năm 1985,
hiện nay công tác tại Trung tâm Công nghệ Thông tin CDIT, Học viện Công nghệ Bu
chính Viễn thông Tổng Công ty BCVT Việt nam. Những vấn đề đang quan tâm bao trùm
các lĩnh vực tự động nhận dạng tiếng nói, hình ảnh và tổng hợp tiếng nói áp dụng trong các
hệ thống cung cấp dịch vụ trong ngành Bu chính-Viễn thông.
Học viện Công nghệ BCVT