Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.54 MB, 121 trang )

VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
VIỆN CÔNG NGHỆ THÔNG TIN
18 Hoàng Quốc Việt, Hà Nội

BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI
NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ
NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ
TIẾNG VIỆT
Thời gian thực hiện: 2001- 6/2004

Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang

HÀ NÔI, 12/2004

Bản quyền 2004 thuộc Viện Công nghệ thông tin
Đơn xin sao chép toàn bộ hoặc từng phần tài liệu này phải gửi đến
Viện trưởng Viện Công nghệ thông tin trừ trường hợp sử dụng
với mục đích nghiên cứu

2
VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
VIỆN CÔNG NGHỆ THÔNG TIN
18 Hoàng Quốc Việt, Hà Nội

BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI
NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ
NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ
TIẾNG VIỆT
Thời gian thực hiện: 2001- 6/2004

Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang

HÀ NỘI, 12/2004

Tài liệu này được chuẩn bị trên cơ sở kết quả thực hiện
Đề tài cấp Nhà nước mã số KC01-03

3
DANH SÁCH NHỮNG NGƯỜI THỰC HIỆN CHÍNH

TT Họ và tên Chức vụ,
học vị
Đơn vị công
tác
Nhiệm vụ thuộc đề tài
1 Bạch Hưng Khang GS.TSKH
NCVCC
Viện CNTT Chủ nhiệm đề tài

2 Ngô Cao Sơn KS Viện CNTT Thư ký
3 Lương Chi Mai TS. NCVC Viện CNTT Chủ trì nhánh nghiên cứu
4 Ngô Quốc Tạo PGS. TS.
NCVC
Viện CNTT Chủ trì nhánh nghiên cứu
5 Lê Khánh Hùng TS. Viện
NCUDCN
Chủ trì nhánh nghiên cứu
6 Vũ Kim Bảng TS Trung tâm
Ngữ âm học
thực nghiệm
Chủ trì nhánh nghiên cứu
7 Hồ Tú Bảo GS. TSKH Viện CNTT Chủ trì nhánh nghiên cứu
8 Nguyễn Thị Minh
Huyền
Thạc sĩ ĐHKHTN
Hà nội
Chủ trì nhánh nghiên cứu
9 Đàm Hiếu Dũng KS Trung tâm
kỹ thuật
thông tấn
Chủ trì nhánh nghiên cứu
10 Ngô Hoàng Huy KS Viện CNTT Trưởng nhóm

Đơn vị phối hợp

Hoạt động của các tổ chức phối hợp tham gia thực hiện dự án

TT Tên tổ chức Địa chỉ Hoạt động/đóng góp cho đề tài

1 Trung tâm Ngữ âm học thực
nghiệm, Viện Ngôn ngữ học,
Trung tâm khoa học xã hội
và nhân văn.
22 Lý Thái
Tổ
Xây dựng CSDL ngữ âm, phân
tich các đặc trưng ngôn ngữ, ngữ
âm, thanh điệu cho tiếng Việt:
- Phân tích phổ của các âm vị
khó.
- Nghiên cứu cấu trúc nguyên
âm.
- Nghiên cứu cấu trúc âm tiếng
Việt, tổng hợp giọng nói.
2 Trug tâm nghiên cứu ứng
dụng quang điện tử, Viện
nghiên cứu ứng dụng công
nghệ.
C6 Thanh
xuân bắc,
Hà nội
Nghiên cứu và phát triển phương
pháp dịch tự động Việt - Anh
3 Khoa Toán – Cơ – Tin học,
Bộ môn Tin học, ĐHKHTN
Hà nội
Nguyễn
Trãi, Hà nội
Nghiên cứu phương pháp dóng

hàng trong các văn bản song ngữ
Pháp - Việt / Việt – Pháp
4 Trung tâm kỹ thuật thông tấn
– TTXVN
5 Lý
Thường
Kiệt
Xây dựng công nghệ Coding ngữ
nghĩa của âm thanh

4
5 Nhóm nghiên cứu triển khai
của Công ty NetNam
18 Đường
Hoàng Quốc
Việt
Tích hợp công nghệ tổng hợp và
nhận dạng tiếng Việt với các
dịch vụ số của INTERNET thế
hệ hai và ứng dụng.
6 GS John-Paul Hosom,
CSLU- Center of Spoken
Language Understanding,
OGI, USA
Cascade
Building
20000 N.W.
Walker
Road
Beaverton,

OR 97006
Cung cấp công cụ và phương
pháp nhận dạng bằng HMM và
ANN, CSDL tiếng Việt qua
mạng điện thoại.
7 GS Hansjoerg Mixdorff,
University of Applied
Science, Berlin
Steinstr. 27
A, 12307
Berlin
Germany
Phương pháp và mô hình
Fujisaki cho các ngôn ngữ có
thanh điệu
8 GS Hiroya Fujisaki, Frontier
Informatics, School of
Frontier Science, University
of Tokyo
7-3-1
Hongo
Bunkyo-ku,
Tokyo
113003
Japan
Phương pháp và mô hình
Fujisaki cho các ngôn ngữ có
thanh điệu

5
TÓM TẮT

Kể từ thế hệ máy tính điện tử (MTĐT) đầu tiên, giới nghiên cứu và công nghệ đã ý
thức được rằng muốn phát huy khả năng xử lý của MTĐT thì phải tìm cách để máy
và người có thể giao tiếp với nhau bằng ngôn ngữ tự nhiên. Trong đó có rất nhiều
vấn đề khác nhau cần giải quyết nhưng một số vấn đề mấu chốt trong giao tiếp
người máy là x
ử lý ngôn ngữ tự nhiên, tổng hợp, nhận dạng tiếng nói, chữ viết,
dịch tự động. Sau gần nửa thế kỷ nghiên cứu và thử nghiệm, hiện nay đã có một số
phần mềm thương phẩm, chủ yếu cho tiếng Anh. Đối với tiếng Việt là một ngôn
ngữ đơn âm có thanh điệu còn chưa có nhiều nghiên cứu và kết quả.

Mục đích của đề
tài là nghiên cứu khảo sát xây dựng các phương pháp hiệu quả
cho tổng hợp, nhận dạng và xử lý ngôn ngữ tiếng Việt. Ba nội dung chính quan hệ
chặt chẽ với nhau được nghiên cứu trong đề tài KC01-03 là:
1. Nhận dạng và tổng hợp tiếng Việt
2. Nhận dạng chữ Việt in và viết tay có hạn chế
3. Xử lý ngôn ngữ tự nhiên tiếng Việt (các giải pháp trong xử lý ngôn ngữ tự
nhiên ti
ếng Việt, nhằm tới mục đích dịch tự động).
Các nội dung của đề tài tập trung vào nghiên cứu đặc thù trong ngữ âm, thanh
điệu, văn phạm tiếng Việt; kế thừa, phát triển các công cụ trong tổng hợp, nhận
dạng, phân tích văn phạm, dịch tự động để áp dụng hiệu quả cho tiếng Việt. Đề tài
vừa phát triển một số giải pháp, phương pháp và công cụ c
ơ bản, vừa từng bước
tạo ra một số sản phẩm thiết thực phục vụ cho ứng dụng. Mỗi nhánh của đề tài đều
có những sản phẩm phần mềm như phần mềm tổng hợp tiếng Việt VnVoice 2.0,
phần mềm nhận dạng lệnh VnCommand, phần mềm viết chính tả phụ thuộc giọng

đọc VnDictator; phần mềm nhận dạng ch
ữ Việt in VnDOCR 3.0; phần mềm nhận
dạng phiếu điều tra MarkRead 2.0 có modul tích hợp chữ viết tay hạn chế; phần
mềm dịch tự động Việt – Anh EVTRAN 2.5. Ngoài những sản phẩm nói trên còn
có các kết quả ở dạng công cụ phục vụ cho nghiên cứu tiếng Việt như phương
pháp và công nghệ xây dựng CSDL ngữ âm tiếng Việt, dóng hàng song ngữ, mô
hình từ điển điện tử cho xử lý ngôn ng
ữ tự nhiên. Đề tài cũng đã đóng góp các bài
nghiên cứu đã được công bố ở các tạp chí, hội nghị trong và ngoài nước,làm phong
phú thêm về mặt lý thuyết cho tổng hợp và nhận dạng ngôn ngữ đơn âm đa thanh
điệu, một mảng chưa có thật nhiều kết quả trên thế giới.

6

MỤC LỤC

1. Lời mở đầu 7
2. Nội dung chính của báo cáo 7

2.1 Tổng quan tình hình nghiên cứu trong và ngoài nước 7

2.2 Những nội dung đã thực hiện 10

2.2.1 Kết quả nghiên cứu về Tổng hợp và Nhận dạng tiếng Việt 10
2.2.1.1 Các kết quả nghiên cứu 10
Khảo sát về ngữ âm tiếng Việt 10

Tổng hợp tiếng Việt 11
Nhận dạng ti
ếng Việt 12
2.2.1.2 Sản phẩm phần mềm 17
Hệ thống Tổng hợp tiếng nói VnVoice 2.0 17
Chương trình nhận dạng lệnh VnCommand 18
Chương trình đọc chính tả VnDictator 18
Chương trình xây dựng công nghệ coding
ngữ nghĩa của âm thanh 19
2.2.1.3 Về triển khai ứng dụng 20
Ứng dụng của tổng hợp tiếng nói 20

2.2.2 Nghiên cứu phát triển kỹ thuật nhậ
n dạng chữ in và
viết tay tiếng Việt 20
Nhận dạng chữ Việt in VnDOCR 3.0 22
Nhận dạng chữ viết tay có hạn chế 22

2.2.3 Nghiên cứu phát triển các kỹ thuật xử lý ngôn ngữ
tự nhiên tiếng Việt
24
2.2.3.1 Dịch tự độngViệt – Anh 24
2.2.3.2 Dóng hàng văn bản song ngữ Pháp-Việt 26
2.2.3.2 Mô hình từ điển điện tử 28

2.3 Tổng quát hoá và đánh giá kết quả thu được 28

2.4 Kết luận và kiến nghị 29

2.5 Tài liệu tham khảo 31

7

1. LỜI MỞ ĐẦU

Nhận dạng và xử lý ngôn ngữ nói và viết tiếng Việt là nhu cầu thiết yếu của phát
triển và ứng dụng công nghệ thông tin ở Việt nam. Giới nghiên cứu và công
nghiệp trên thế giới do theo đuổi các nghiên cứu cơ bản và công nghệ này từ hàng
chục năm qua, gần đây đã thu được nhiều thành tựu quan trọng. Khác với các sản
phẩm khác của công nghệ thông tin, sản phẩm về tiếng nói, chữ vi
ết và ngôn ngữ
Việt không thể mua được từ nước ngoài, chỉ có thể do người Việt làm ra trên cơ sở
tiếp thu được các thành tựu khoa học công nghệ trên thế giới và theo đuổi thực
hiện lâu dài. Những năm qua trong khuôn khổ chương trình trọng điểm nhà nước,
một số kết quả nghiên cứu và sản phẩm về nhận dạng và xử lý tiếng Việt - tập
trung cho nhận dạng ch
ữ Việt in - đã thành công và bắt đầu được sử dụng rộng rãi.
Đề tài này nhằm theo đuổi những nghiên cứu và phát triển phải thực hiện lâu dài
về tiếng Việt trên máy tính với sự triển khai một số phương hướng mới. Mục tiêu
của đề tài là nghiên cứu làm chủ các phương pháp, kỹ thuật tiên tiến trong một số
lĩnh vực của trí tuệ nhân tạo và lý thuyết nhận dạ
ng trên thế giới để xây dựng các
phương pháp hiệu quả cho nhận dạng tiếng nói, chữ viết, và xử lý ngôn ngữ tự
nhiên tiếng Việt. Đề tài vừa tiếp tục xây dựng các phương pháp và công cụ cơ bản

vừa từng bước tạo ra một số sản phẩm thiết thực nhằm giải quyết một số bài toán
cấp bách trong phát triển và ứng dụng công nghệ thông tin ở Vi
ệt nam. Ba nội
dung chính quan hệ chặt chẽ với nhau được nghiên cứu trong đề tài là:

1. Nhận dạng và tổng hợp tiếng Việt
2. Nhận dạng chữ Việt in và viết tay
3. Xử lý ngôn ngữ tự nhiên tiếng Việt

2. NỘI DUNG CHÍNH CỦA BÁO CÁO

2.1. Tổng quan tình hình nghiên cứu trong và ngoài nước

Ba lĩnh vực (1) nhận dạng và tổng hợp tiếng nói, (2) nhận dạng chữ, và (3)
xử lý ngôn ngữ tự nhiên có liên quan mật thiết với nhau, và là nền tảng cho sự phát
triển và ứng dụng công nghệ thông tin của mọi quốc gia
Nhận dạng tiếng nói nhằm chuyển thông tin từ tiếng nói con người vào máy
tính, và tổng hợp tiếng nói nhằm tự động tạo ra tiếng người nói bằng máy tính.
Cùng với sự phát triển nhanh chóng c
ủa công nghệ thông tin nói chung và mạng
Internet nói riêng, nhận dạng và tổng hợp tiếng nói càng ngày càng trở nên là một
xu hướng tất yếu cho những máy tính thế kỉ 21. Trong vòng 50 năm qua, rất nhiều
thuật toán được đề xuất và triển khai trên các hệ tự động nhận dạng và tổng hợp
tiếng nói. Trên thế giới đã có nhiều bộ phần mềm thương mại dành cho tiếng Anh
như IBM ViaVoice, Dragon Naturally Speaking, L&H Voice Xpress. Những phần
mềm này cung cấp các chứ
c năng chủ yếu như: nhập văn bản vào máy, đọc văn
bản thành lời, duyệt Web bằng giọng nói. Gần đây nhất hãng Microsoft đã công bố
việc tích hợp VUI (Voice User Interface) thay cho GUI (Graphic User Interface)
truyền thống vào phiên bản hệ điều hành Windows thế hệ mới với mật danh

8
Whistler. Kết quả này có ý nghĩa rất lớn trong giao tiếp người-máy: thay vì giao
tiếp với máy tính qua những biểu tượng và cửa sổ, các máy tính trong tương lai chỉ
giao tiếp với con người bằng những mệnh lệnh đơn giản. Nhận dạng và tổng hợp
tiếng nói có vai trò quan trọng đối với việc phát triển các hệ thông tin di động thế
hệ thứ 3 (3G), với các tính năng ưu việt tập trung trong chiế
c máy điện thoại di
động mà một trong các dịch vụ điển hình là hệ thống thông điệp hợp nhất (Unified
Messaging System - UMS). Sản phẩm về các bo mạch của Dialogic đã tích hợp
các công nghệ tổng hợp và nhận dạng tiếng nói qua điện thoại cho nhiều ngôn ngữ
hệ Latinh. Ngoài ra, một trong những ứng dụng điển hình và mang tính chất kinh
điển từ trước tới nay của nhận dạ
ng tiếng phục vụ cho điều khiển bằng giọng nói
và bảo mật, cho tự động hoá văn phòng, những ứng dụng rộng rãi trong viễn
thông, bảo tồn văn hoá, hỗ trợ người khuyết tật
Về lĩnh vực nhận dạng chữ, các phần mềm thương phẩm nhận dạng chữ in
cho các ngôn ngữ hệ Latinh và Slavơ đã đạt được chất lượng nhận d
ạng rất cao, ví
dụ như OMNIPAGE 11.0 của Caere (Mỹ), Fine Reader 7.0 của ABBYY (Nga),
Yonde OCR của Aisoft và KanjiScan (Nhật). Để đạt tới các phiên bản với chất
lượng cao như vậy, từ hơn 10 năm nay, các hãng phần mềm này vẫn phải liên tục
cho phát triển hoàn thiện các chức năng nhận dạng cũng như tiền và hậu xử lý.
Nhưng đối với chữ viết tay trực tuyến hoặc gián tiếp, chất lượng nh
ận dạng thấp
hơn nhiều và các phương pháp hiện nay mới chỉ nhận dạng được chữ viết tay có
hạn chế. Vì vậy trên các tạp chí chuyên ngành về nhận dạng, các chủ đề này vẫn
còn đang được đề cập đến nhiều với các cách tiếp cận khác nhau, đề cập tới các
phương pháp cải tiến để tăng chất lượng nhận dạng, tách và cắt chữ, và kết hợ
p với

ngữ nghĩa của từng ngôn ngữ cụ thể.
Xử lý ngôn ngữ tự nhiên là lĩnh vực nhằm làm cho máy tính có thể hiểu và
sử dụng được ngôn ngữ tự nhiên của con người (cả ngôn ngữ nói và ngôn ngữ
viết), bao gồm các hệ dịch tự động, tìm kiếm thông tin, tổng hợp văn bản tự động,
tính toán ngôn ngữ, v.v.
Dịch văn bản từ một ngôn ngữ qua ngôn ngữ khác b
ằng máy tính là mơ ước
từ buổi đầu của công nghệ thông tin. Với thành tựu nghiên cứu về xử lý ngôn ngữ
tự nhiên bắt đầu từ những năm 60, cùng với sự tiến bộ nhanh chóng của kỹ thuật
tính toán, việc dịch tự động ngôn ngữ tự nhiên đang được từng bước ứng dụng.
Hiện nay trên thế giới đã có nhiều hệ dịch máy thương phẩm vớ
i chất lượng chấp
nhận được (SYSTRAN, GLOBALINK, STYLUS, IBM, ). Các cặp ngôn ngữ đã
được thực hiện chủ yếu là những ngôn ngữ Âu châu (bao gồm Anh-Pháp, Pháp-
Anh, Anh-Đức, Anh-Tây ban nha, Anh-Nga, Anh-Nhật, Nhật-Anh, v.v. và một số
sản phẩm dịch một chiều khác). Các sản phẩm dịch tự động được sử dụng phổ biến
từ những phần mềm cho các hệ máy lớn, trạm làm việc và máy tính cá nhân đến
những thiết bị
dịch tự động chuyên dụng cầm tay. Trên thế giới chưa có thương
phẩm nào biên dịch Anh-Việt hay Việt-Anh.

Tình hình nghiên cứu trong nước:

Nghiên cứu về nhận dạng và ứng dụng đã được tiến hành ở nước ta từ khá sớm.
Các chương trình trọng điểm quốc gia về tin học, CNTT từ năm 1981 đến nay đều
có nội dung nghiên cứu về nhận dạng. Đặc biệt t
ừ năm 1991 đến nay, trong

9
chương trình khoa học và công nghệ KC-01 (giai đoạn 1991-1995, 1996-2000),

các vấn đề về Nhận dạng và xử lý thông tin hình ảnh đã được quan tâm và là nội
dung nghiên cứu chính của đề tài KC-01-10, KC-01-07. Các đề tài đều được
nghiệm thu đánh giá xuất sắc. Tuy nhiên trong giai đoạn này mới chỉ tập trung nỗ
lực vào vấn đề nhận dạng chữ (sản phẩm VnDOCR 1.0 và 2.0) và một phần về
dịch tự động (sản phẩm EVETRAN 1.0), nhậ
n dạng và tổng hợp tiếng nói mới là
những nghiên cứu thử nghiệm. Mặc dù trên thế giới đã có những bước tiến khá dài
trong lĩnh vực nhận dạng-tổng hợp tiếng nói, và xử lý ngôn ngữ tự nhiên, ở Việt
nam vấn đề này chỉ mới được quan tâm và chưa nhiều người nghiên cứu. Trong
khi đó nhu cầu giao tiếp với máy tính bằng tiếng Việt đang ngày càng cấp thiết b
ởi
chúng ta không thể lúc nào cũng sử dụng các phần mềm nhận dạng và tổng hợp
tiếng nói với ngôn ngữ là tiếng Anh. Nhận dạng, tổng hợp tiếng nói Việt, nhận
dạng chữ viết Việt, máy hiểu ngôn ngữ Việt không chỉ cần những nghiên cứu cơ
bản và kỹ thuật chung, mà còn phải dựa trên các đặc trưng ngôn ngữ tiếng Việt. Đã
có những bước đi ban
đầu của một số cơ sở có tiến hành nghiên cứu về lĩnh vực
này:

- Phòng Nhận dạng và Công nghệ Tri thức, Viện Công nghệ Thông tin,
- Trung tâm MICA, Đại học Bách khoa, Hà nội
- Nhóm nghiên cứu của Bộ môn Khoa học Máy tính, Khoa CNTT, ĐHBK Hà
Nội,
- Nhóm nghiên cứu của Khoa Công nghệ Thông tin, Trường Đại học Khoa học
Tự nhiên, TP. Hồ Chí Minh,
- Công ty CDIT, Tổng Công ty Bưu chính Viễn thông Việt nam
- Softext, Viện
ứng dụng công nghệ

và còn một số công trình của các cá nhân làm đề tài thạc sĩ và tiến sĩ.

Về nhận dạng và tổng hợp tiếng Việt: Trước hết đây là vấn đề khó, đòi hỏi phải
có tập trung nghiên cứu trong thời gian dài. Trong thời gian qua, các nghiên cứu
còn tản mạn, các kết quả tập trung chủ yếu vào thử nghiệm bước đầu tổng hợp
tiếng Việ
t dựa trên một số kỹ thuật cơ bản, và giải quyết các ứng dụng điều khiển
bằng giọng nói với lượng từ vựng nhỏ để có thể triển khai nhanh, để minh họa và
thực tế là chưa khai thác đặc điểm riêng của ngữ âm tiếng Việt. Trong đề tài KC-
01-10, các nội dung về tổng hợp và nhận dạng tiếng Việt m
ới được tiến hành
nghiên cứu ở hai năm cuối (1999-2000). Vì thế chưa có sản phẩm có khả năng ứng
dụng rộng rãi chẳng hạn cho các ứng dụng văn phòng hay các ứng dụng trong viễn
thông.

Về nhận dạng chữ Việt: Phòng Nhận dạng và Công nghệ tri thức Viện CNTT đã
bước đầu thành công trong lĩnh vực nhận dạng chữ Việt in, đã và đang phát triển
phần m
ềm Nhận dạng VnDOCR 2.0 hiện đang thương mại hoá rộng rãi trên thị
trường. Cũng như bất kỳ một sản phẩm phần mềm nào, VnDOCR cần được hoàn
thiện để giải quyết các yêu cầu cao hơn về chất lượng nhận dạng trên các văn bản
đầu vào xấu hơn, các tài liệu cũ, v.v. Ngoài ra, các khoa Công nghệ Thông tin của
các trường đại học như Bách khoa Hà nội, Đại học Quốc gia,
Đại học KHTN TP

10
Hồ Chí Minh cho sinh viên làm luận văn cao học hoặc cử nhân về nhận dạng chữ,
nhưng đều ở dạng tiếp cận kiến thức, chưa thành dạng thương phẩm. Sản phẩm
Image Scan của Công ty CadPro cũng có giới thiệu bước đầu trên thị trường.
Ngoài ra vấn đề nhận dạng chữ viết tay tiếng Việt cũng cần được đặt ra để giải
quyết cho từng bài toán c

ụ thể.

Về xử lý ngôn ngữ tự nhiên tiếng Việt: Các nghiên cứu hướng nhiều vào dịch tự
động. Sản phẩm phần mềm EVTRAN (Phòng thí nghiệm Công nghệ Phần mềm
máy tính, Trung tâm Công nghệ vi điện tử và Tin học) biên dịch tự động Anh Việt
đã có mặt trên thị trường. Hiện nay đã có phiên bản EVTRAN 2.0 với nhiều tính
năng trợ lý ngôn ngữ thuận tiện. Đây cũng là thương ph
ẩm duy nhất về dịch tự
động Anh-Việt. EVTRAN đã được phát triển trên mười năm (bắt đầu từ năm
1990). Sản phẩm đã góp phần hỗ trợ mọi người trong việc đọc hiểu văn bản tiếng
Anh và biên dịch sang tiếng Việt. Tuy nhiên chưa có hệ dịch cho chiều ngược lại
(Việt- Anh). Cũng như hấu hết các sản phẩm dịch tự động hi
ện nay trên thế giới,
do vấn đề quá khó, EVTRAN còn phải được theo đuổi lâu dài để dần hoàn thiện.
Điều đáng chú ý là cần chú trọng hơn đến các nghiên cứu và công cụ cơ sở của xử
lý ngôn ngữ tự nhiên tiếng Việt, như từ điển điện tử, phân tích và hiểu tiếng Việt
trên máy tính

2.2. Những nội dung đã thực hiện

2.2.1 Kết quả về Tổng hợp và Nhận dạng tiếng Việt

Khảo sát về ngữ âm tiếng Việt

Để có thể tiến hành nghiên cứu về tổng hợp cũng như nhận dạng tiếng Việt, đề tài
ban đầu phải tập trung vào nghiên cứu các khía cạnh ngữ âm của tiếng Việt. Tiếng
Việt là ngôn ngữ đơn âm (monosyllable) và có thanh điệu (tonal). Tiếng Việt có 6
thanh theo truyền thống (thanh không, hỏi, ngã, nặng, sắc, huyền), và 8 thanh theo

ngữ âm học, có khoảng 6.700 âm tiết có nghĩ
a (trong số hơn 19.000 âm tiết có
thể). Âm tiết nào của tiếng Việt cũng mang một thanh điệu và cấu trúc ổn định.
Cấu trúc tổng quát của âm tiết tiếng Việt được trình bày như sau

Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2). Trong đó C1 là
phụ âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối. Âm đầu thường là
phụ âm, được gọi là phụ âm đầu. Âm đệm nằm giữa âm đầ
u và âm chính làm thay
đổi âm sắc của âm tiết. Âm chính luôn luôn có mặt trong mọi âm tiết và có chức
năng qui định âm sắc chủ yếu của âm tiết. Âm chính luôn là nguyên âm. Âm cuối
Thanh đi
ệ
u
Âm đầu
Phần vần
Âm đệm Âm chính Âm cuối

11
là phụ âm hoặc là bán nguyên âm, có chức năng là cơ sở để phân chia loại hình âm
tiết, để nhận ra sự phân bố, xuất hiện của thanh điệu. Âm đầu, âm đệm và âm cuối
có thể khuyết trong một số trường hợp. Thanh điệu luôn có mặt trong âm tiết và có

chức năng khu biệt âm tiết về cao độ và thanh điệu là yếu tố siêu đoạn tính.

Để xây dựng CSDL âm (cho hai giọng Nam và Nữ chuẩn Hà nội), chia phần vần
thành các nhóm đặc trưng, thu mẫu âm thanh, đo số liệu Pitch bằng máy
Sonagraph, từ đó rút ra số liệu đặc trưng cho 8 thanh tiếng Việt. Đề tài đã tập trung
phân tích âm tiết tiếng Việt, cụ thể phân tích ảnh hưởng thanh điệu của phụ âm dấu
hữu thanh, nguyên âm chính, phụ âm cuối; phân tích các yếu tố âm như sự tắc
họng, yếu t
ố định lượng như trường độ (duration).

Tiếng Việt gồm 22 phụ âm đầu, 20 phần chính (âm đệm và nguyên âm chính) và
155 phần vần không dấu, với các phân tích trên:
• 22 phụ âm đầu chia thành 4 nhóm:
+ vô thanh (stop, voiceless): p, t, k-c-q
+ âm xát (fricative): ph, x, kh, h, v, d, đ, ch, ng-ngh, g-gh, th
+ âm vang (resonant or cororal): m, n, nh, l
+ âm bật đầu lưỡi (retroflex): tr, s, gi, r
• 20 phần chính:
+ âm đệm (zero-/u/) + nguyên âm chính: a, ă, â, e, ê, i, ia, iê, o, oa, oe, ơ,
ô, u, uâ, uyê, uyu, uô, ư, ươ.
• 155 phần vần:
+ Thu phần vần với thanh không dấu và không tận cùng bởi tắc vô thanh,
khoảng gần 100 vần
+ Thu phần vần với các thanh sắc (acute-mark) cho các âm tận cùng là là
p, t, k, khoảng 55 vần

2.2.1.1 Tổng hợp tiếng Việt

Trong thời gian thực hiện Đề tài, đã nghiên cứu 3 phương pháp tổng hợp tiếng

Việt: 1/ghi âm thuần tuý (cho toàn bộ từ điển); 2/ kết nối các đơn vị âm cơ bản của
ngôn ngữ (các âm cơ bản được ghi sẵn) để tạo thành một mẫu âm thanh cho âm
tiết bất kỳ (số đơn vị cơ bản là rất nhỏ, không hạn chế số lượng từ), 3/ tái tạo l
ại
tiếng trên cơ sơ phân tích các tham số âm học của tiếng nói (như các phooc măng,
tần số cơ bản). Sau khi nghiên cứu, đề tài đã lựa chọn phương pháp kết nối các đơn
vị âm cơ bản của ngôn ngữ (PSOLA – Pitch Synchronize OverLap Adding), là
bước đầu nghiên cứu để tìm hiểu bản chất của âm tiết và có thể tạo ra sản phẩm
nhằm đưa tới các định hướng ứng dụ
ng cụ thể, đã tiến hành lựa chọn biểu diễn nhỏ
nhất có thể cho tiếng Việt. Với cách lựa chọn giải pháp trên, vấn đề đặt ra là
nghiên cứu tổng hợp tiếng nói ở mức từ & cụm từ tiếng Việt. Các vấn đề nghiên
cứu và các công cụ sau đã được được thực hiện và phát triển nhằm giải quyết vấn
đề trên:
− Nghiên cứu các bộ đơn vị khác nhau cho tổng hợp tiếng Việt,
− Tìm kiếm từ và gán nhãn từ loại, tích hợp phần phân đoạn từ trong câu tiếng
Việt,

12
− Phân tích hiện tượng từ láy trong ngôn ngữ tiếng Việt,
− Lập bộ các mẫu của cặp các thanh điệu của một từ,
− Khảo sát ban đầu các quy luật về khoảng lặng giữa các từ, giữa các âm tiết,
− Phân tích hiện tượng biến thanh khi phát âm một từ đôi, từ ba,
− Đang tích hợp thuật toán kết nối các âm tiết trong một từ để thể hiệ
n khả năng
đọc dính âm.

Kết quả của các nghiên cứu trên đã làm tăng chất lượng tiếng nói tổng hợp so với
các phiên bản tiếng nói tổng hợp đầu tiên của đề tài. Hiện tại chất lượng tiếng nói
tổng hợp trong phiên bản hiện tại đã đạt khoảng 75-80% tiếng nói tự nhiên (xem

đánh giá). Trong giai đoạn nghiên cứu tiếp theo, để có thể tiến tới giải quyết v
ấn
đề ngôn điệu (prosody), đề tài đang nghiên cứu mô hình Fujisaki, một mô hình đã
được chứng tỏ có hiệu quả cho các ngôn ngữ có thanh điệu.

− Ghi bộ dữ liệu âm cho tổng hợp tiếng Việt
• Lựa chọn các mẫu cộng tác viên (CTV) nói giọng Hà Nội (21 người đọc);
• Ghi âm theo tiêu chuẩn phân tích: 21 CTV x 3 lần người x 9 nguyên âm;
• Phân tích hệ Phooc măng của 21 CTV theo tần số (Hz).
• Tổng kết hệ Phooc măng của nguyên âm tiếng Việt phục vụ cho tổng hợp
tiếng Việt bằng phương pháp Phooc măng.

Sản phẩm phần mềm: Hệ thống Tổng hợp tiếng nói VnVoice 2.0

Phương pháp
Hệ thống tổng hợp tiếng nói (từ văn bản chữ in tiếng Việt thành tiếng nói) dựa trên
kỹ thuật PSOLA - Pitch Synchronize OverLap Adding với bộ đơn vị âm đủ nhỏ
cho phép thực hiện nhanh việc tạo CSDL âm và có khả năng tích hợp vào các ứng
dụng nhúng. Với phiên bản VnVoice 2.0, CSDL âm bao gồm 19 phụ âm đầu có
tính ngữ cảnh, 12 nguyên âm chính, hơn 700 vần với đầy đủ thanh, tổng số hơn
900 đơ
n vị. Phiên bản VnVoice 1.0 có CSDL gồm 330 đơn vị, gồm 19 phụ âm đầu
có tính ngữ cảnh 12 nguyên âm chính và 163 vần không mang thanh hoặc vần
mang thanh sắc cho các vần kết thúc bằng p,t,c-ch, với bộ đơn vị này chương trình
phải thay đổi F0 để tạo các thanh khác nhau từ vần gốc.
• Dựa trên phương pháp ghép nối các đơn vị âm cơ bản, sử dụng phương
pháp PSOLA (khoảng 900 đơn vị) dung lượng bộ nhớ 6MB RAM
• Tổng hợp được tất cả các thanh tiếng Việt, bao gồm cả thanh ngã và thanh
nặng.
• Đọc các khuôn dạng phi từ: biểu thức số, ngày tháng, giờ điện tử, tiền Việt,

các đơn vị đo lường, các xâu viết tắt thông dụng.
• Đọc tự động văn bản hỗn hợp Việt - Anh, hoặc thuần Việt, hoặc thuần Anh.

Chức năng hoạt động

− Giao diện:

13
• Đọc các văn bản từ các nguồn: trên clipboard, các khoản mục trên Menu
của chương trình, văn bản từ bàn phím gõ vào, văn bản trên các Website,
trong các ứng dụng Microsoft Word, Outlook Express.

Phương pháp đánh giá độ hiểu và độ tự nhiên của phần mềm tổng hợp tiếng
Việt VnVoice

− Để đánh giá độ hiểu của tiếng Việt tổng hợp, đề tài đã làm thực hiện những
đánh giá và kết quả thố
ng kê trên 100 đối tượng sau: Nhóm A (50 người, khác
nhau về tuổi và giới tính) là những người nghiên cứu và sử dụng tiếng Việt, do
vậy yêu cầu của họ khi nghe chương trình tổng hợp tiếng Việt là khắt khe hơn,
Nhóm B (50 người, khác nhau về tuổi và giới tính) chiếm số đông trong xã hội,
yêu cầu quan trọng nhất cho việc đánh giá tiếng Việt tổng hợp là mức độ hiểu
của họ là bao nhiêu. Kết quả
cụ thể như sau (đề tài có bản thống kê so sánh chi
tiết) :
 Đối với nhóm A:
Ý kiến thống nhất:
- Đánh giá của cả hai nhóm về chất lượng của nguyên âm và phụ âm cuối
tốt là tương đối thống nhất
- Nhóm A1 (cán bộ nghiên cứu ngôn ngữ): có 68% đánh giá phụ âm đầu

của văn bản tổng hợp có lỗi, nhóm A2 là 58%.
- Nhóm A2 (phóng viên): có 64% đánh giá tốc độ của văn bản tổng hợ
p là
chậm, nhóm A2 là 84%.
Ý kiến khác biệt: Sự khác biệt lớn nhất là đánh giá về lỗi thanh điệu và so sánh
với lời nói thực:
- 100% nhóm A1 cho rằng thanh điệu của lời nói tổng hợp không có lỗi.
Trong khi đó chỉ có 54% của nhóm A2 cho rằng thanh điệu của lời nói
tổng hợp không có lỗi.
- 48% nhóm A1 cho rằng giọng nói tổng hợp đạt tỉ lệ 90% so với tiếng nói
thực, 36% nhóm A2 đánh giá giọng nói t
ổng hợp đạt tỉ lệ 50% so với tiếng nói
thực

 Đối với nhóm B, chia làm 2 nhóm nhỏ B1 (công chức) và nhóm nhỏ B2
(người khiếm thị):
Đánh giá hiểu khi nghe: nhóm B1 có 92% , nhóm B2 có 40%.
Đánh giá giọng nói tốt, dễ hiểu: nhóm B1 có 4%, nhóm B2 có 36%.

Nhận xét tổng quan:

− Về cơ bản giọng nói tổng hợp VnVoice đã thực hiện được một cách cơ bản
chức năng chuyển văn bản sang giọng nói. Gi
ọng nói ở bước đầu đã đạt được ở
mức độ rõ ràng, mạch lạc và người nghe có thể hiểu được đoạn văn bản.Trong
giai đoạn đầu tiên, sản phẩm của đề tài chưa tập trung giải quyết vấn đề ngữ
điệu mà chỉ tập trung giải quyết đọc rõ âm tiết và một phần tính đều trong câu,
do đã có áp dụng việc phân tích câu. Tuy nhiên một s
ố từ ghép chưa đảm bảo
tính đều do giải quyết trường độ trong các cặp âm tiết với kết thúc bằng phụ âm

14
tắc vô thanh p-t-c-ch chưa triệt để do cần có những nghiên cứu sâu sắc hơn.
Việc nghiên cứu mô hình Fujisaki (một mô hình đã được chứng tỏ có hiệu quả
với các ngôn ngữ có thanh điệu như tiếng Trung, tiếng Thái) mà đề tài đang
nghiên cứu và đã có những kết quả ban đầu nhằm giải quyết trong giai đoạn
tiếp theo về ngữ điệu của câu tổng hợp và trường độ trong câu.
− Các lỗi tập trung ở một số phụ âm đầu, thanh điệu (do dữ liệu âm thanh) và tốc
độ đọc chậm (xử lý thuật toán). Những lỗi này có thể sớm khắc phục được
− Vấn đề còn tồn tại lớn nhất là ngữ điệu trong câu: sự kết nối giữ các âm tiết,
ngừng nghỉ sau các dấu câu kể cả trường độ của những âm ti
ết mang trọng âm
câu.
Có thể khẳng định giọng nói tổng hợp VnVoice của đề tài đã giải quyết căn bản
vấn đề tổng hợp âm tiết tiếng Việt. Những vấn đề thuộc phạm vi ngoài âm tiết: từ
láy, ghép, cụm từ (thành ngữ, tục ngữ…) và câu còn cần tiếp tục hoàn thiện.

2.2.1.2 Nhận dạng tiếng Việt

Mục tiêu của đề tài là nghiên cứu các phương pháp nhận dạng câu liên tục tiếng
Việt với lượng từ vựng cỡ nhỏ và trung bình. Sau khi đạt được những kết quả và
kinh nghiệm trong tạo lập CSDL ngữ âm và đánh giá giải pháp, tiến tới nhận dạng
câu liên tục với lượng từ vựng lớn. Các vấn đề sau đã được giải quyết:
− Nghiên cứu, phân tích các đặc trưng ng
ữ âm, thông số của tiếng Việt, văn phạm
tiếng Việt phục vụ cho nhận dạng tiếng nói, đặc biệt là các vấn đề liên quan
đến thanh điệu và độ dài của các phụ âm đầu và vần.
• Xây dựng module xử lý mô hình ngôn ngữ với phân loại nhóm từ và tính
các bảng xác suất chuyển trạng thái âm tiết.

− Nghiên cứu một số khía cạnh của ngôn ngữ tiếng Việt, đặc biệt về từ vựng học
(lexicon), ngữ âm và văn phạm tiếng Việt (grammar).
• Xây dựng module phân tích văn bản tiếng Việt (VTA) chuẩn hoá văn bản,
tìm kiếm kết thúc câu, phân lớp từ sử dụng mô hình ngôn ngữ n-grams với
các phép làm trơn, phân lớp văn bản theo từng chủ đề, tìm kiếm từ khoá
trong văn bản, phân đoạn từ và gán nhãn từ loại trong văn bản, xây dựng bộ
văn phạm tiếng Việt (ứng dụng cho cả tổng hợp và nhận dạng tiếng Vi
ệt).
− Nghiên cứu để tạo lập CSDL các mẫu câu để tạo tham số huấn luyện cho mô
hình 3 mức: âm tiết - âm vị - âm học.
− Nghiên cứu bài toán nhận dạng tiếng nói liên tục trên CSDL từ vựng cỡ nhỏ,
trung bình, tiến tới lớn CSDL lớn. Các mô hình và giải pháp sau đã được khảo
sát và áp dụng cụ thể để phát triển các chưong trình nhận dạng câu lệnh liên
tục, các chữ số tiếng Việ
t phát âm liên tục:
• Nghiên cứu mô hình Markov ẩn và mạng nơ ron nhân tạo, các mô hình lai
ghép giữa mạng nơ ron nhân tạo và mô hình Markov ẩn trong huấn luyện
tham số nhận dạng tiếng nói liên tục.
• Khai thác các bộ mã nguồn mở như CSLU Toolkit, HTK nhằm áp dụng
phương pháp mô hình Markov ẩn và mạng nơ ron nhân tạo để nhận dạng
trên bộ CSDL nhỏ và vừa.
• Nghiên cứu các vấn đề làm trơn xác suất khi tính các bảng chuyển trạng
thái xác suất của các âm tiết tiếng Việt rời.

15
− Nghiên cứu các cách tiếp cận nhận dạng tiếng nói trong thời gian thực, hướng
tói các ứng dụng thực tế.
− Khai thác các môi trường phát triển như MATLAB, PRAAT với các công cụ
về xử lý tín hiệu tiếng nói.
− Xây dựng CSDL ngữ âm

• CSDL tiếng nói gồm 250 giọng với bộ từ vựng là chữ số, chữ cái, lệnh
• CSDL tiếng nói của 1 giọng với hơn 3000 mẫu vần, 3000 mẫu phụ âm đầu.
• Thiết lập được CSDL văn bản gồm 265-800 câu tiếng Việt làm mẫu huấn
luyện, CSDL câu và gán nhãn bằng tay để huấn luyện đơn vị âm trong ngữ
cảnh.

2.2.1.2 Sản phẩm phần mềm

Chương trình nhận dạng lệnh VnCommand

A. Nhận dạng lệnh, trình diễn khả năng điều khiển chương trình ứng dụng trên
Windows.

Mục đích

Phần mềm nhận dạng lệnh ứng dụng trong điều khiển thay thế cho người dùng
nhấn chuột hoặc gõ lệnh từ bản phím. CSDL gồm tập các lệnh nhỏ (dưới 100
lệnh). Kết quả của sản phẩm: chỉ ra khả năng t
ạo ra một hệ thống nhận dạng lệnh
tiếng Việt, độc lập người nói với độ chính xác rât cao trên một tập lệnh với độ
đồng âm giữa các lệnh thấp.

Phương pháp nhận dạng:

Sử dụng mô hình Markov GMM thông thường (Gaussian Markov Model) với huấn
luyện riêng rẽ từng tổ hợp âm và giai đoạn nhận dạng là khá nhanh.

Bước 1. Xử lý tiếng nói trong thời gian thực, theo từng khung cỡ

20 mili giây, mỗi
khung được lấy đặc trưng bởi các hệ số MFCC và hệ số năng lượng.
Vòng lặp xác định điểm kết thúc của một đoạn tiếng nói, nếu tìm thấy thoát
khỏi vòng lặp.
Bước 2. Chuyển qua mô hình GMM của từng tổ hợp âm.
Bước 3. Quyết định nhận dạng.

Chức năng hoạt động

− Điều khiển máy tính thực hiện một số lệnh trong phần mềm ứng dụng phổ dụng
− Nhận dạng độc lập người nói một số lệnh của Internet Explorer bao gồm tích
hợp các modul sau:
• Modul nhận dạng từ đơn lẻ trạng thái tĩnh.
• Tập từ vựng

16
Bảng lệnh Internet Explorer
Ghi Trang ngầm định
In Tải lại trang
Tuỳ chọn in Xem mã nguồn
Xem để in Toàn màn hình
Gửi nội dung Trang ưa thích
Gửi địa chỉ Gửi thư
Thuộc tính Đọc thư
Ngừng kết nối mạng Tuỳ chọn
Xoá Trợ giúp
Copy Ghi tệp
Dán Ghi file
Chọn hết Tìm kiếm

• Modul thu nhận tín hiệu tiếng nói từ các nguồn vào Audio, Headphone, File
• Tìm kiếm các diểm đầu-cuối của một từ (cụm từ) trong môi trờng thời gian
thực.
− Giao diện
• Hệ thống chạy nền, gồm nhiều luồng, màn hình ứng dụng thu gọn gồm
nhiều dịch vụ nền
• Cửa hội thoại cho phép thay đổi tham số nhận dạng, lấy thông số nền như
độ nhiễu của môi trường xung quanh.
− Phạm vi ứng dụng :
• Ứng dụng cho các hệ thống điều khiển bằng giọng nói
• Số lượng từ vựng cho trước, có thể lên đến 200 khẩu lệnh (các lệnh có độ
đồng âm thấp).
• Việc quyết định nhận dạng tương đối dễ dàng, cho phép nhúng vào các hệ
thống với tài nguyên thấp (bộ nhớ, năng lực tính toán )

Đánh giá thực nghiệm module VnCommand

− Môi trường thu tín hiệu : văn phòng, trường học.
− Thiết bị thu nhận tín hiệu: card âm thanh onboard trên máy NoteBook.
− Số lượng giọng và mẫu huấn luyện: 200 người, 100 nam, 100 nữ giọng miền
Bắc. Mỗi người đọc 1 lệnh 1 l
ần. trong đó số lượng âm tiết rời là 40, đọc rời
rạc (có ngừng giữa các âm tiết ) hay dính âm.

17
− Số lượng giọng kiểm tra : 38, một số giọng không đọc đủ mẫu
− Kết quả nhận dạng : sai số 2/695 *100 (sai 2 lỗi trên tổng số 695 âm kiểm tra),
hệ thống cho độ chính xác là 99.7%

Nhận xét :
− Hệ thống huấn luyện từng tổ hợp âm là riêng rẽ, vì thế việc thêm một vài tổ
hợp âm mới là dễ dàng và độc lập với những mô hình của các tổ
hợp âm. Tuy
nhiên độ chính xác sẽ kém đi với những tổ hợp có sự đồng âm.
− Mô hình là bất biến với tốc độ phát âm, có thể đọc nhanh hoặc đọc chậm một tổ
hợp âm, độ chính xác vẫn khá cao.
− Hệ thống là độc lập người nói, độ chính xác sẽ rất cao nếu có một cơ sở dữ liệu
cỡ 1000 giọng khác nhau. Hiện tại chương trình đã xử
lý 240 giọng trên một cơ
sở dữ liệu 300 giọng đọc.

Chương trình nhận dạng lệnh 10 chữ số tiếng Việt liên tục qua điện thoại

Mục tiêu
Xây dựng hệ thống nhận dạng mười chữ số tiếng Việt liên tục qua mạng điện
thoại, dùng hệ thống nhận dạng lai ghép giữa mạng nơ ron nhân tạo và mô hình
Markov ẩn (ANN/HMM)

Phương pháp nhận dạng

Phương pháp nghiên cứu sử dụng hệ thống nhận dạng lai ghép giữa mạng neuron
và mô hình Markov ẩn HMM/ANN (Hidden Markov Model/ Artificial Intelligent
Network). Đây là phương pháp nhận dạng tiên tiến,
đã được sử dụng rộng rãi tại
nhiều trung tâm nghiên cứu trên thế giới, tận dụng hai ưu điểm của HMM và
ANN: khả năng phân lớp của mạng neuron và khả năng mô hình hoá thông tin thời
gian của mô hình Markov ẩn.
Có khá nhiều kiến trúc hệ thống lai ghép HMM/ANN đã được đề xuất, trong đó

thông dụng nhất là kiến trúc dùng mạng MLP làm xác suất phát xạ quan sát trong
các hệ thống mạng lai ghép. Hàm b
j
(k) trong mô hình Markov ẩn không phải hàm
mất độ xác suất mà là giá trị xác suất đầu ra của mạng ANN.
Hình dưới đây miêu tả quan hệ giữa các mô hình HMM và mạng neuron ANN.
Mỗi nút ra của mạng ANN tương ứng với một trạng thái của mô hình HMM.
Trạng thái của âm vị /oo/ trong hai từ ”bốn” và ”một” có chung nhau một nút ra
của mạng ANN. Như vậy mỗi một category của một âm vị tương ứng với mỗi
trạng thái.

b-oo+n m-oo+tc
C¸ c m« h×nh
Markov
C¸ c nót ra cña
ANN
C¸ c nót Èn
cña ANN
C c nót vµo

18
Hệ thống lai ghép HMM/ANN được huấn luyện bằng huấn luyện nhúng
(embedded). Tưng ứng với mỗi phát âm, các mô hình Markov ẩn của các đơn vị
nhận dạng trong phát âm đó được nối ghép lại với nhau tạo thành một mô hình

HMM lớn. Thuật toán forward-backward được áp dụng để điều chỉnh các tham số
của các mô hình lớn này. Các giá trị output của mạng ANN được dùng làm xác
suất phát xạ quan sát của mỗi trạng thái trong mô hình.
Trong mỗi vòng lặp c
ủa huấn luyện forward-backward, thuật toán Viterbi được áp
dụng để tìm ra dãy các trạng thái tốt nhất trong mô hình HMM lớn tương ứng với
phát âm dùng để huấn luyện. Từ dãy trạng thái này, tại mỗi thời điểm tương ứng
với một khung thời gian tín hiệu tiếng nói, ta sẽ có giá trị output của mạng ANN.
Nút output tưng ứng với trạng thái hiện tại có giá trị là 1, các nút output khác có
giá trị 0. Từ các giá trị output này, mạng ANN được huấ
n luyện lại bằng thủ tục
truyền ngược sai số.
Chức năng hoạt động

− Khai thác môi trường tín hiệu tiếng nói trên điện thoại, cụ thể khai thác và lập
trình trên card Dialogic cho môi trường Windows. Với card Dialogic
JCT120LS cung cấp 12 kênh riêng biệt với các khả năng sau:
• Thu, mã hóa và nén âm thanh trong thời gian thực
• Phát những files âm thanh
• Phát / phát hiện các Tones như DTMF, MF
• Khởi động và nhận các cuộc gọi giao diện điện thoại, khởi động lặp vòng
• Thực thi việc phân tích tiến trình cuộc gọi
− Nhận dạng đạt độ chính xác 97,46% ở mức từ gần tương đương với các công
bố về nhận dạng mười chữ số liên tục trên thế giới như tiếng Anh, Ý, Tây ban
nha (cao nhất là 98,01%).

Phương pháp và kết quả đánh giá

− Cơ sở dữ liệu tiếng nói được sử dụng được trích ra từ hai cơ sở
dữ liệu tiếng

nói điện thoại “22 Language v1.2”, và “Multi-Language Telephone Speech
v1.2” của trung tâm CSLU (Center for Speech Language Understanding), Viện
Sau Đại học Oregon, Hoa kỳ. Đề tài đã có hợp tác với trung tâm này trong quá
trình nghiên cứu triển khai nhận dạng mười chữ số liên tục.
− CSDL tiếng nói bao gồm 442 câu, 2345 từ, 243 người nói (165 nam, 78 nữ),
thu âm theo hình thức phỏng vấn qua điện thoại. Câu dài nhất có 18 từ và câu
ngắn nhất có 1 từ. Các câu được thu âm theo PCM 8kHz, 8bit mã hoá. Cơ sở
dữ liệ
u được chia thành ba tập: tập dữ liệu huấn luyện (training set) và tập dữ
liệu kiểm tra (test set). Tập dữ liệu huấn luyện bao gồm 300 câu, 1686 từ, do
158 người nói (104 nam và 54 nữ). Tập dữ liệu phát triển có 74 câu, 342 từ do
38 người nói (27 nam, 11 nữ) , tập dữ liệu kiểm tra có 68 câu, 317 từ do 47
người nói (34 nam, 13 nữ). Để đảm bảo tính khách quan, người nói trong tập
dữ liệu kiểm tra là độc lập với người nói trong tập dữ
liệu huấn luyện. Độ chính
xác 97,58% được thực hiện trên tập dữ liệu thử này.

19
− Người nói phát âm các câu bao gồm các chữ số như: số điện thoại, địa chỉ, số
bưu điện, tuổi, Các câu được thu âm từ nhiều máy điện thoại khác nhau.
Kiểu của máy điện thoại và đặc tính của kênh thoại không được xác định. Các
câu thu được đa dạng và khác nhau về tốc độ phát âm; về độ to nhỏ; có câu
được người nói nói trong văn phòng yên tĩnh, có câu có lẫn nhiều tạ
p âm như
tiếng đài, ti vi xen vào khi người nói ngồi trong nhà, hay tiếng ô tô khi người
nói đứng tại trạm bưu điện công cộng, Tất cả các câu trong cơ sở dữ liệu
tiếng đều được phiên âm chính tả và gán nhãn bằng tay tại mức âm vị.

Chương trình đọc chính tả VnDictator

Đánh giá thực nghiệm Module thử nghiệm VnDictator (chưa thử
nghiệm kết hợp mô hình ngôn ngữ)

Mục đích: Nghiên cứu, đề xuất các cách tiếp cận nhận dạng tiếng nói rời rạc hoặc
liên tục, phụ thuộc hoặc không phụ thuộc người nói với lượng từ vựng lớn (là tòan
bộ từ điển âm tiết, từ tiếng Việt).

Phương pháp nhận dạng:

− Có hai lược đồ đã thử nghiệm:
• Dựa trên từng khung tiếng nói (phương pháp frame-based)
• Dựa trên từng đoạn được gán nhãn (phương pháp segment-based), phát
triển thêm mô hình tích hợp nhận dạng thanh điệu. Các nhãn ở đây là phụ
âm đầu, nguyên âm chính, âm cuối của một âm tiết. Kết quả nhận dạng
riêng rẽ từng thành phần với kết quả đầu ra có thể nhiều hơn 1, sau đó kết
hợp với từ điển âm tiết và mô hình ngôn ngữ để cho ra một câu có nhiều
khả nă
ng nhất.
− Sử dụng mô hình Markov ẩn HMM kiểu cạnh tranh (Có tích hợp phương pháp
học dựa trên sự khác nhau của từng cặp âm tiếng nói).
• Huấn luyện riêng rẽ từng đơn vị âm với mô hình HMM thông thường
• Chia các âm thành các lớp như với phụ âm đầu lớp âm mũi, lớp âm xát vô
thanh, lớp âm xát hữu thanh, lớp âm tắc vô thanh, lớp âm xát hữu thanh.
• Huấn luyện phân biệt theo từng lớp bằng cách chỉnh sửa đồng thời tất cả
các mô hình trong cùng một lớp dựa trên các mẫu huấn luyện được đưa vào
− Mô tả thuật toán

Bước 1. Khởi tạo tham số cho bộ phân tích F0
Bước 2. Tải các tham số của 5 thanh điệu và các phụ âm đầu, nguyên âm,

âm cuối vào bộ nhớ
Bước 3. Xử lý buff bộ đệm trong thời gian thực, ta thu được các tham số

đặc trưnng, mẫu tín hiệu, phần phân đọan các thành phần âm tiết.
Bước 4. Nhận dạng âm tiết từ các thành phần nhận dạng âm đầu, nguyên
âm, âm cuối, tone và kiểm tra trong từ điển âm tiết

Kết quả thử nghiệm: Phương pháp segment-based

20

− Thuật toán phân đoạn âm tiết rời thành các thành phần phụ âm đầu, nguyên âm
chính, âm cuối dựa trên ngưỡng của năng lượng, trong đó phụ âm đầu và âm
cuối có năng lượng thấp, khoảng 10%-15% so với năng lượng của thành phần
nguyên âm.
− Danh sách các đơn vị âm dùng trong chương trình:
• 19 phụ âm đầu: ng-ngh, nh, m, n, l, v, s, ph, kh, g, h, q-c-k, d-r, t, th, ch, đ,
b, không_phụ_âm
• 12 nguyên âm chính: i, ê, e, iê, ư, ơ, a, ươ, u, ô, o, uô
• 7 âm cuối: m, n, i, u, nh, ng, không_âm_cuối
• 8 thanh điệu

Đánh giá độ chính xác :

− Tập huấn luyện: hơn 3970 âm tiết
− Tập kiểm tra : 3500 âm tiết
− Trong phần này có sử dụng một số khái niệm về nhận dạng n-best nếu trong kết
quả nhận dạng đưa ra n phần tử "tốt nhất" của phép quyết định. Thường người
sử dụng chỉ quan tâm tới 1-best tức là buộc kết qu
ả đầu ra là duy nhất, tuy vậy

trong các bài toán nhận dạng tiếng nói, thường phải chia thành nhiều pha nhận
dạng trước khi cho ra kết quả cuối cùng vì vậy người ta thường lấy 1, 2, 3 hoặc
thậm chí 5-best ở các pha trước để chuyển tới pha quyết định tiếp theo.
• Nhận dạng 19 phụ âm đầu: kết quả với 1-best đạt 88%, 2-best là 93%
• Nhận dạng nguyên âm đơn, đôi trong vần: đạt 95,75% cho 3-best,
• Nhận dạng phụ âm cuối đạt 91,7% cho 3-best,
• Nhận dạng thanh điệu: độ chính xác trung bình khoảng 95%. cho âm tiết
đọc rời, một giọng đọc phát thanh viên. Với chỉ 5 thanh (phát thanh viên
này có thanh huyền trùng với thanh hỏi). Phải kết hợp với các điều kiện
khác để phân biệt thanh huyền và thanh hỏi.
− Kết quả nhận dạng cụ thể vầ thanh điệu, 19 phụ âm đầu, 7 phụ âm cuối, 12
nguyên âm chính cho một giọng nữ được chỉ ra trong các Bảng 1
đến Bảng 4
sau:

STT Thanh điệu
Số mẫu
huấn luyện
Số mẫu
kiểm tra
Kết quả
1
Thanh ngã(x)
214 54 96,20%
2
Thanh huyền (f)
422 110 99,00%
3
Thanh hỏi (r)
394 101 93,06%

4
Thanh ngang (midle)
438 215 96,70%
5
Thanh sắc (s)
417 182 98,30%
6
Thanh sắc có kết thúc âm tiết
/p/, /t/, /k/ (s2)
273 78 97,40%
7
Thanh nặng (j)
341 94 98.90%
8 Thanh nặng có kết thúc âm
tiết /p/, /t/, /k/ (j2)
187 46 93,40%

21

Độ chính xác trung bình cho thanh điệu
95,75%

Bảng 1: Kết quả nhận dạng thanh điệu giọng nữ.

Phụ âm
đầu
Tỉ lệ mẫu sai
1-best và đúng
tương ứng (%)
Tỉ lệ mẫu sai

2-best và
đúng tương
ứng (%)
Ng 6/72 ; 91,6 3/72 ; 95,8
Nh 6/74 ; 91,8 0/74 ; 100
M 1/101 ; 99 1/101 ; 99
N 3/78 ; 96 1/78 ; 98,7
L 3/106 ; 97 2/106 ; 98,1
Null 9/100 ; 91 8/100 ; 92
S 5/101 ; 95 2/101 ; 98
Ph 3/53 ; 94,3 1/53 ; 98
Kh 1/90 ; 98,8 0/90 ; 100
G 10/34 ; 70,5 4/34 ; 88,2
H 5/101 ; 95 2/101 ; 98
Q 5/100 ; 95 5/100 ; 95
D 7/103 ; 93,2 0/103 ; 100
T 15/106 ; 85,8 11/106 ; 89,6
Th 0/102 ; 100 0/102 ; 100
Ch 1/100 ; 99 1/100 ; 99
Đ 7/100 ; 93 4/100 ; 96
B 2/100 ; 98 1/100 ; 99
V 10/101 ; 90 6/101 ; 94
Tổng 99/1722 52/1722
Độ chính xác 94,2% 96,9%

Bảng 2: Kết quả nhận dạng 19 phụ âm đầu.

Phụ âm
cuối
Tỉ lệ mẫu sai

1-best(%)
Tỉ lệ mẫu sai
2-best (%)
M 64/300 ; 78,6 31/300 ; 89,6
N 43/300 ; 85,6 12/300 ; 96
I 8/288 ; 97,2 2/288 ; 99,3
U 17/150 ; 88,6 9/150 ; 94
Nh 46/150 ; 69,3 19/150 ; 87,3
Ng 50/300 ; 83,3 16/300 ; 94,6
Null 113/312; 63,7 59/312 ; 81
Tổng 341/1800 148/1800
Độ chính xác 81.% 91,7%

Bảng 3: Kết quả nhận dạng 7 phụ âm cuối.

22

Nguyên
âm chính
Tỉ lệ mẫu sai
1-best(%)
Tỉ lệ mẫu sai
3-best (%)
I 16/100 ; 84 2/100 ; 98
Ê 16/100 ; 84 4/100 ; 96
E 16/100 ; 84 0/100 ; 100
Iê 12/100 ; 88 4/100 ; 96
Ư 22/100 ; 78 6/100 ; 94
Ơ 96/200 ; 52 28/200 ; 86
A 12/200 ; 94 1/200 ; 99,5

Ươ 22/69 ; 68 12/69 ; 82,6
U 35/80 ; 56,2 4/80 ; 95
Ô 3/200 ; 98,5 1/200 ; 99,5
O 2/200 ; 99 2/200 ; 99
Uô 14/50 ; 72 1/50 ; 98
Tổng 266/1499 65/1499
Độ chính xác 82,2% 95,6%

Bảng 4: Kết quả nhận dạng 12 nguyên âm chính.

− Tích hợp từ điển âm tiết: Lọc từ 18 khả năng tổ hợp âm tiết từ kết quả nhận
dạng để rt gọ xuống 1-5best : chưa đánh giá độ rút gọn được là bao nhiêu phần
trăm
− Tích hợp mô hình ngôn ngữ trên toàn bộ câu: chưa thực hiện được để tích hợp
xác định lưới âm vị t
ừ mỗi âm tiết để từ đó nhân ra 1 -3 câu tốt nhất có thể.

Chức năng hoạt động

− Nhận dạng phu thuộc người nói (giọng của phát thanh viên đã được huấn
luyện), lượng từ vựng đọc về cơ bản không hạn chế, thay thế cho việc người
dùng gõ phím:
• Module huấn luyện tham số cho các mô hình nhận dạng.
• Module nhận dạng thanh điệu thử nghiệm.
• Module nhận dạng tiếng nói liên kết (connected speech)
• Module phân lớp người nói ứng dụng cho việc nâng cao chất lượng nhận
dạng tiếng nói độc lập người nói và nhận dạng người nói.
− Giao diện
• Hệ thống chạy nền, gồm nhiều luồng, màn hình ứng dụng thu gọn gồm
nhiều dịch vụ nền,

• Cửa hội thoại cho phép thay dổi tham số nhận dạng, lấy thông số nền như
độ nhiễu của môi trường xung quanh.

23

Nhận xét
:

− Với chương trình nhận dạng toàn bộ âm tiết tiếng Việt, đề tài đã giải quyết ba
vấn đề:
• Huấn luyện âm vị trong ngữ cảnh câu và kết hợp mô hình ngôn ngữ để nhận
dạng câu,
• Cải tiến chất lượng nhận dạng âm vị cho mô hình HMM gồm 19 phụ âm
đầu, 12 nguyên âm chính và các âm cuối,
• Nhận dạng thanh điệu tiếng Việt.
− Mỗi vấn đề trên đều có những đặc điểm khác cơ bản so với tiếng Anh và cả với
các tiếng Trung, Thái gần với tiếng Việt. Cụ thể:
• Các âm vị tiếng Việt ngắn hơn rất nhiều so với âm vị tiếng Anh, một số âm
kết thúc với p, t, c-ch không có trong tiếng Trung, tiếng Thái,
• Thanh điệu tiếng Việt phức tạp hơn so với các ngôn ngữ có thanh điệu
khác.
− Không thể nhận dạng tốt một âm tiết (mặc dù chương trình đã nhận khá chính
xác các âm tiết có phụ âm đầu b, d, đ, c, ch, kh , vì thế để nâng cao độ chính
xác phải tích hợp mô hình ngôn ngữ dù là đang xét với câu đọc rời rạc so với
câu đọc liên tục)
− Bắt buộc phải dùng mô hình ngôn ngữ trong mọi bài tóan nhận d
ạng từ điển
lớn, tuy nhiên cách áp dụng là rất khác nhau giữa tiếng Anh và tiếng Việt, trong
đó âm tiết là một thành phần quan trọng để biểu diễn từ tiếng Việt. Mô hình

ngôn ngữ phải cải tiến cho các từ đôi, ba, …
− Không thể hoàn tòan giao phó cho việc lựa chọn câu tốt nhất dựa trên mô hình
ngôn ngữ, vì nó có thể đưa ra các kết quả rất “ngớ ngẩn” trong một vài trường
hợp, khi mà nếu tích h
ợp mô hình xử lý âm tiết vào ta có thể đóan nhận từng
âm tiết kết quả là gần với kết quả mong muốn hơn.
− Huấn luyện phân biệt các đơn vị âm là yếu tố quan trọng để giảm sự ngẫu
nhiên trong kết quả đưa ra của mô hình Markov ẩn thuần túy dựa trên thống kê.

Đánh giá thực nghiệm Module thử nghiệm VnDictator (thử nghiệm kết
hợp mô hình ngôn ngữ)

Mục tiêu: Xây dựng phần mềm nhận dạng kiểu đọc chính tả tiếng Việt các từ rời
với lượng từ vựng không hạn chế thay thế cho người dùng gõ phím. Phần mềm có
khả năng nhận dạng tiếng nói của phát thanh viên, đọc chậm trong môi trường có
độ nhiễu nhỏ.

Phương pháp nhận dạng

Phuơng pháp nhận dạng dùng Mô hình Markov ẩn trong công cụ HTK của Đại học
Cambridge, xây d
ựng mỗi mô hình Markov cho một đơn vị nhận dạng (phone). Sử
dụng phương pháp HMM cho huấn luyện nhúng, dùng 9/10 file dữ liệu âm thanh

24
và phiên âm văn bản tương ứng cho huấn luyện, 10% còn lại dùng làm dữ liệu
kiểm tra.

− Trích trọn các đặc điểm

Hệ thống nhận dạng làm việc dựa trên các khung tín hiệu (frame) 10ms. Phương
pháp trích trọn đặc điểm PLP (Perceptron) được áp dụng cho mỗi khung tín hiệu
tạo ra một vector gồm 39 đặc tính bao gồm: 12 giá trị hệ số PLP và giá trị năng
lượng, 13 giá trị đạo hàm của các giá trị trên, 13 giá trị
đạo hàm mức 2 của giá trị
trên. Phương pháp xử lý tín hiệu dùng kích thước cửa sổ Hamming là 25sm, số
mạch lọc là 22, hệ số dùng để nhấn mạnh (pre-emphasis) là 0.97, phương pháp
CMS được áp dụng để lọc bỏ nhiễu.

− Mô hình Markov ẩn

Hệ thống nhận dạng dùng các mô hình Markov ẩn cho các đơn vị ngữ âm cơ bản là
âm vị. Mỗi mô hình Markov chứa nhiều trạng thái, trong đó có một trạng thái khởi
đầu và một trạng thái kết thúc là các trạng thái đặc biệt không phát sinh quan sát
(non-emitting), nghĩa là không có xác suất phát xạ quan sát b
j
(ot) kết hợp với các
trạng thái này.
Mỗi mô hình Markov ẩn bao gồm năm trạng thái trong đó có trạng thái khởi đầu
và trạng thái kết thúc.

Mô hình Markov ẩn dùng trong thử nghiệm

Đối với các trạng thái không phải là trạng thái đầu và trạng thái cuối, xác suất phát
xạ quan sát là một hàm mật độ xác suất được xây dựng trên cơ sở các hàm mật độ
xác suất Gauss. Hàm này bao gồm một hoặc nhiều các dòng (stream), mỗi dòng có
th

ể có một hoặc nhiều thành phần trộn bao gồm các hàm mật độ xác suất Gauss.
Cấu trúc nhiều dòng cho phép hệ thống mô hình hoá nhiều dòng thông tin khác
nhau. Thông thường số lượng dòng tối đa là 4 dòng.

− Định nghĩa từ điển

Từ điển được định nghĩa trong một tệp văn bản bao gồm các từ vựng mà hệ thống
có thể nhận dạng được và các phiên âm của các từ này thành các âm vị
của hệ
thống. Một từ điển bao gồm nhiều dòng, mỗi dòng tương ứng với một từ và phiên
âm của nó. Một từ có thể có nhiều phiên âm khác nhau.

Đối với các ngôn ngữ nước ngoài, các bộ từ điển dùng cho các hệ thống nhận dạng
đã được nghiên cứu kỹ từ lâu. Mỗi trung tâm nghiên cứu tự xây dựng một bộ từ
điển của riêng mình, ví dụ như
các bộ từ điển phiên âm nối tiếng của tiếng Anh: bộ

25
từ điển của CMU bao gồm 100 000 từ tiếng Anh; bộ từ điển Beep, bao gồm phiên
âm 250 000 từ tiến Anh.

Đối với ngôn ngữ tiếng Việt, rất tiếc là cho tới thời điểm hiện nay chưa có một bộ
từ điển phiên âm với kích thước lớn nào được công bố cho các hệ thống nhận
dạng. Việc nghiên cứu để xây dựng một bộ từ
điển bao gồm tất cả các âm tiết tiếng
Việt là một vấn đề cần được quan tâm nghiên cứu.

Để tiến hành xây dựng bộ từ điển gồm khoảng 4000 âm tiết cho hệ thống nhận
dạng, chúng tôi xây dựng một chương trình tự động phân tích một âm tiết thành
các âm vị tương ứng. Sở dĩ có thể xây dựng một chương trình tự động như vậy là

do tiế
ng Việt có một cấu trúc bền vững, ổn định. Sự kết hợp giữa các âm vị trong
tiếng Việt để tạo thành từ có qui luật và có thể lập trình được.

Để tiến hành phân tích một từ thành các âm vị, chúng tôi sử dụng các giao trình
sách giáo khoa tiếng Việt, trong đó nếu có sự không thống nhất tạm thời giữa các
giáo trình, chúng tôi sử dụng tài liệu của Nguyễn Thiện Thuật.

Ví dụ về mộ
t phần từ điển như sau:
soo s oo sp
soo s oo sil
ddieen dd ie n sp
ddieen dd ie n sil
thoai th w aw i sp
thoai th w aw i sil
quen k w e n sp
quen k w e n sil
thuooc th uo kc sp
thuooc th uo kc sil
cua k uo sp
cua k uo sil

− Huấn luyện mô hình Markov ẩn
Đầu tiên các âm đơn gồm các đơn vị nhận dạng cơ bản được huấn luyện. Sau một
quá trình gán nhãn cưỡng bức, các âm đơn được huấn luyện lại một lần nữa trước
khi các âm đơn này được sao chép thành các âm ba. Chúng tôi sử dụng các âm ba
giới nội từ (word internal), ngữ cảnh chỉ ảnh h
ưởng tới các âm ba trong một từ, các
từ được coi là cách nhau bởi một khoảng yên lặng. Sau khi các âm ba được huấn

luyện, có khoảng 400 âm ba không có đủ dữ liệu để huấn luyện. Các âm ba này
được buộc (tied) vào nhau để chia xẻ chung nhau dữ liệu huấn luyện.
Để huấn luyện các mô hình Markov ẩn chúng tôi sử dụng hàm trộn gồm 8 hàm
Gauss. Đầu tiên các mô hình với một hàm Gauss được huấn luyện với một hàm
Gauss, sau đó hàm này được sao chép thành 2 hàm Gauss. Sau khi các âm ba được
huấ
n luyện với các hàm vừa được tạo, chúng lại tiếp tục được sử dụng để sao chép

Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về