Tải bản đầy đủ (.pdf) (1,037 trang)

Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (28.37 MB, 1,037 trang )


BỘ KHOA HỌC VÀ CÔNG NGHỆ VIỆN CÔNG NGHỆ THÔNG TIN

CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC01/06-10



BÁO CÁO TỔNG HỢP
KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI
NGHÊN CỨU PHÁT TRIỂN MỘT SỐ SẢN PHẨM
THIẾT YẾU VỀ XỬ LÝ TIẾNG NÓI
VÀ VĂN BẢN TIẾNG VIỆT

MÃ SỐ:
KC 01.01/06-10


Cơ quan chủ trì đề tài:
Viện Công nghệ thông tin,
Viện Khoa học và Công nghệ Việt Nam
Chủ nhiệm đề tài: PGS.TS. Lương Chi Mai












Hà Nội - 2009

2

BỘ KHOA HỌC VÀ CÔNG NGHỆ VIỆN CÔNG NGHỆ THÔNG TIN

CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC01/06-10



BÁO CÁO TỔNG HỢP
KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI
NGHÊN CỨU PHÁT TRIỂN MỘT SỐ SẢN PHẨM
THIẾT YẾU VỀ XỬ LÝ TIẾNG NÓI
VÀ VĂN BẢN TIẾNG VIỆT

MÃ SỐ:
KC 01.01/06-10


Chủ nhiệm đề tài Cơ quan chủ trì đề tài




PGS.TS. Lương Chi Mai PGS.TS. Vũ Đức Thi

Ban chủ nhiệm chương trình Bộ Khoa học và Công nghệ




GS.TS. Nguyễn Thúc Hải


Hà Nội - 2009

3

VIỆN CÔNG NGHỆ THÔNG TIN
VIỆN KHOA HỌC VÀ CÔNG NGHỆ
VIỆT NAM

__________________
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

Hà nội, ngày 28 tháng 07 năm 2009.



BÁO CÁO THỐNG KÊ
KẾT QUẢ THỰC HIỆN ĐỀ TÀI

I. THÔNG TIN CHUNG
1. Tên đề tài: Nghiên cứu và phát triển một số sản phẩm thiết yếu về
tiếng nói và văn bản tiếng Việt
Mã số đề tài: KC01.01/06-10
Thuộc:
Chương trình (tên, mã số chương trình): Nghiên cứu phát triển

và ứng dụng Công nghệ thông tin và Truyền thông, mã số KC01.
2. Chủ nhiệm đề tài:
Họ và tên: Lương Chi Mai
Ngày, tháng, năm sinh: 30/04/1958 Nữ:
Học hàm, học vị: PGS.TS
Chức danh khoa học: Nghiên cứu viên chính
Chức vụ: Trương Phòng chuyên môn, Phó Viện trưởng
Điện thoại: Tổ chức: 04-37563559, Nhà riêng: 04-37163892
Mobile: 0904100610
Fax: 04-37564217 E-mail:
Tên tổ chức đang công tác: Phòng Nhận dạng và Công nghệ tri thức,
Viện Công nghệ thông tin, Viện KHCN VN
Địa chỉ tổ chức: 18 Hoàng Quốc Việt, Cầu Giấy, Hà nội
Địa chỉ nhà riêng: 14 Phan Huy Ích, Ba đình, Hà nội
3. Tổ chức chủ trì đề tài:
Tên tổ chức chủ trì đề tài: Viện Công nghệ thông tin, Viện Khoa học và
Công nghệ Việt nam

4
Điện thoại: 04-37164405 Fax: 04-37564217
E-mail:
Website: www.ioit.ac.vn
Địa chỉ: 18 Hoàng Quốc Việt, Cầu Giấy, Hà Nội
Họ và tên thủ trưởng tổ chức: PGS.TS Vũ Đức Thi
Số tài khoản:
Ngân hàng:
Tên cơ quan chủ quản đề tài: Bộ Khoa học và Công nghệ

II. TÌNH HÌNH THỰC HIỆN
1. Thời gian thực hiện đề tài:

- Theo Hợp đồng đã ký kết: từ tháng 05/2007 – 05/2009
- Thực tế thực hiện: từ tháng 05/2007 đến tháng 31/08/2009
- Được gia hạn (nếu có):
- Lần 1 từ tháng 05/2009 đến tháng 31/08/2009
- Lần 2
2. Kinh phí và sử dụng kinh phí:
a) Tổng số kinh phí thực hiện: 3.000 tr.đ, trong đó:
+ Kính phí hỗ trợ từ SNKH: 3.000 tr.đ.
+ Kinh phí từ các nguồn khác: không
b) Tình hình cấp và sử dụng kinh phí từ nguồn SNKH:
Theo kế hoạch Thực t
ế đạt được
Số
TT
Thời gian
(Tháng,
năm)
Kinh phí
(Tr.đ)
Thời gian
(Tháng, năm)
Kinh phí
(Tr.đ)
Ghi chú
(Số đề nghị
quyết toán)

2007 865,460,000 5/2007 600,000,000

1 2008 1,572,440,000 4/2007 265,460,000

2 2009 562,000,000 6/2008 1,100,000,000
12/2008 472,440,000
3/2009 393,470,000


5
c) Kết quả sử dụng kinh phí theo các khoản chi:
Đối với đề tài:
Đơn vị tính: Triệu đồng
Theo kế hoạch Thực tế đạt được
Số
TT
Nội dung
các khoản chi
Tổng SNKH Nguồn
khác
Tổng SNKH Nguồn
khác
1 Trả công lao động
(khoa học, phổ
thông)
2820.0 2820.0 2680.0 2680.0
2 Nguyên, vật liệu,
năng lượng
20.6 20.6 20.6 20.6
3 Thiết bị, máy móc
16.4 16.4 8.2 8.2
4 Xây dựng, sửa
chữa nhỏ


5 Chi khác
143.0 143.0 114.4 114.4

Tổng cộng 3000.0 3000.0 2823.2 2823.2
- Lý do thay đổi (nếu có):

3. Các văn bản hành chính trong quá trình thực hiện đề tài/dự án:
(Liệt kê các quyết định, văn bản của cơ quan quản lý từ công đoạn xác định nhiệm vụ, xét chọn,
phê duyệt kinh phí, hợp đồng, điều chỉnh (thời gian, nội dung, kinh phí thực hiện nếu có); văn
bản của tổ chức chủ trì đề tài, dự án (đơn, kiến nghị điều chỉnh nếu có)
Số
TT
Số, thời gian ban
hành văn bản
Tên văn bản Ghi chú
1 22/09/2006 Quyết định số 2089/QĐ-BKHCN ngày 22
tháng 9 năm 2006 của Bộ trưởng Bộ Khoa
học và Công nghệ về việc phê duyệt nội
dung và kinh phí các đề tài đã trúng tuyển
thuộc Chương trình khoa học và công
nghệ trọng điểm cấp nhà nước giai đoạn
2006-2010, mã số KC.01.01/06-10;

2 15/5/2007
Hợp đồng “Nghiên cứu phát triển một số
sản phẩm thiết yếu về xử lý tiếng nói và
văn bản tiếng Việt”, mã số KC01.01/06-10
thuộc Chương trình KC.01/06-10 theo các



6
nội dung trong Thuyết minh Đề tài.
10/05/2009
Công văn số 118/CNTT của Viện Công
nghệ thông tin ký ngày 10/05/2009 về việc
xin gia hạn thời gian thực hiện đề tài

3 04/06/2009 Quyết định số 917/QĐ-BKHCN về việc
điều chỉnh thời gian thực hiện của đề tài
KC01.01/06-10 thuộc chương trình
KH&CN trọng điểm cấp nhà nước giai
đoạn 2006-2010, mã số KC01/06-10

4 01/04/2009 Quyết định số 481/QĐ BKHCN về việc cử
đoàn đi công tác nước ngoài

5 17/04/2009 Quyết định số 619/QĐ BKHCN về việc cử
đoàn đi công tác nước ngoài

6 15/06/2009 Bản qui chế chi tiêu kinh phí của đề tài
“Nghiên cứu phát triển một số sản phẩm
thiết yếu về xử lý tiếng nói và văn bản
tiếng Việt”, mã số KC01.01/06-10 giữa
lãnh đạo đơn vị chủ trì và chủ nhiệm đề tài


4. Tổ chức phối hợp thực hiện đề tài, dự án:
Số
TT
Tên tổ chức

đăng ký theo
Thuyết minh
Tên tổ chức
đã tham gia
thực hiện
Nội dung
tham gia chủ yếu
Sản
phẩm
chủ yếu
đạt được
1 Viện Công nghệ
thông tin, Viện
KHCN VN
Viện Công
nghệ thông tin,
Viện KHCN
VN
– Xây dựng Hệ thống tổng hợp
tiếng nói cho người khiếm thị
– Xây dựng Hệ thống tổng hợp
tiếng nói, tích hợp cho các cổng
tiếng nói
– Xây dựng Hệ thống đối thoại
sử dụng công nghệ tổng hợp và
nhận dạng tiếng tiếng Việt trên
môi trường thiết bị di động dòng
công nghệ mới
SP1.1
SP1.2

SP1.3


7
2 Viện Công nghệ
thông tin, Viện
KHCN VN
– Xây dưng kho ngữ liệu cho
tổng hợp tiếng nói
– Xây dựng kho ngữ liệu ngữ
âm cho nhận dạng tiếng Việt
– Xây dựng Kho ngữ liệu ngữ
âm cho đọc chữ số tiếng Việt,
tên người, địa danh trên môi
trường điện thoại
SP6.1
SP6.2
SP6.3

3 Trung tâm
Quốc tế MICA,
ĐHBK HN
Trung tâm
Quốc tế
MICA, ĐHBK
HN
– Hệ thống giám sát và điều
khiển quá trình sử dụng kỹ thuật
nhận dạng tiếng Việt
– Hệ thống phân tích luồng âm

thanh
SP1.4
SP1.5
4 Trung tâm Từ
điển học, Hà
nội
Trung tâm Từ
điển học, Hà
nội
– Xây dựng Từ điển từ tiếng
Việt cho máy tính
SP7.2
5 Khoa CNTT,
ĐH Công nghệ,
ĐHQG HN
Khoa CNTT,
ĐH Công
nghệ, ĐHQG
HN
– Xây dựng Kho ngữ liệu câu
tiếng Việt được chú giải (Viet
Treebank)
SP7.3

6 Khoa CNTT,
ĐH KHTN,
TpHCM
Khoa CNTT,
ĐH KHTN,
TpHCM

– Xây dựng Kho ngữ liệu song
ngữ Anh – Việt.
SP7.4
7 - Khoa CNTT,
ĐH Công nghệ,
ĐHQG HN

- JAIST
- Khoa CNTT,
ĐH Công
nghệ, ĐHQG
HN
- JAIST
– Xây dựng công cụ Phân loại
từ Việt
– Xây dựng công cụ Gộp nhóm
từ Việt
SP8.3
SP8.4
8 Khoa CNTT,
Đại học Bách
Khoa Hà nội
Khoa CNTT,
Đại học Bách
Khoa Hà nội
– Xây dựng công cụ Phân tích
câu Việt
SP8.5
9 Khoa Toán-Cơ-
Tin học,

ĐHKHTN,
ĐHQG HN
Khoa Toán-
Cơ-Tin học,
ĐHKHTN,
ĐHQG HN
– Xây dựng công cụ Phân đoạn
từ Việt
SP8.2
- Lý do thay đổi (nếu có):

8
5. Cá nhân tham gia thực hiện đề tài, dự án:
(Người tham gia thực hiện đề tài thuộc tổ chức chủ trì và cơ quan phối hợp, không quá 10
người kể cả chủ nhiệm)
Số
TT
Tên cá nhân
đăng ký theo
Thuyết minh
Tên cá nhân
đã tham gia
thực hiện
Nội dung tham
gia chính
Sản
phẩm
chủ
yếu đạt
được

Ghi
chú*
1
PGS. TS.
Lương Chi Mai
PGS. TS.
Lương Chi Mai
Chủ nhiệm, phụ trách
phần xử lý tiếng nói
Thiết kế, điều hành
xây dựng kho ngữ
liệu tiếng nói.
Tham gia đóng góp
cho xây dựng SP1.3
Chủ
nhiệm

SP6.x
Chủ
nhiệm,
phụ
trách
phần xử
lý tiếng
nói
2
GS.TSKH. Hồ
Tú Bảo

GS.TSKH. Hồ

Tú Bảo
- Phụ trách khối Xử
lý văn bản và

- Nghiên cứu Dịch tự
động
- Tham gia SP7.2

Phụ
trách
khối Xử
lý văn
bản và
SP3
Phụ
trách
khối Xử
lý văn
bản và

3
KS.Ngô Cao
Sơn

KS.Ngô Cao
Sơn
Thư ký đề tài

Thư ký
Đề tài


4
KS. Ngô
Hoàng Huy
Phát triển SP1.2 và
SP1.2
SP1.1

SP1.2

5
KS. Bùi Quang
Trung
Phát triển SP1.3
SP1.3

6 Phạm Thị Ngọc
Yến
PGS.TS. Phạm
Thị Ngọc Yến
Điều hành và theo
dõi triển khai
SP1.4 và SP1.5

Điều
hành
SP1.4

SP1.5


7 Phạm Thị Ngọc
Yến
TS. Mathias
Rosignol
Nghiên cứu xây dựng
Hệ thống giám sát và
điều khiển quá trình
sử dụng kỹ thuật
nhận dạng tiếng Việt
SP1.4

8 Phạm Thị Ngọc
TS. Nguyễn

SP1.5


9
Yến
Công Phương
9
CN.Vũ Xuân
Lương

CN.Vũ Xuân
Lương
Nghiên cứu, xây
dựng Từ điển từ tiếng
Việt cho máy tính
SP7.2


10
TS. Nguyễn
Phương Thái
Xây dựng Kho ngữ
liệu câu tiếng Việt
được chú giải (Viet
Treebank)
SP7.3

11
TS. Hồ Bảo
Quốc

TS. Hồ Bảo
Quốc
Nghiên cứu xây dựng
Kho ngữ liệu song
ngữ Anh – Việt
SP7.4

12
TS.Nguyễn Thị
Minh Huyền

TS.Nguyễn Thị
Minh Huyền
Nghiên cứu, xây
dựng công cụ Phân
đoạn từ Việt

SP8.2

13
TS. Phan Xuân
Hiếu

TS. Phan Xuân
Hiếu
Nghiên cứu, xây
dựng công cụ Phân
loại từ Việt
SP8.3

14
TS.Nguyễn Lê
Minh
TS.Nguyễn Lê
Minh
Nghiên cứu, xây
dựng công cụ Gộp
nhóm từ Việt
SP8.4

15
TS. Lê Thanh
Hương

TS. Lê Thanh
Hương
Nghiên cứu, xây

dựng công cụ Phân
tích câu Việt
SP.8.5

- Lý do thay đổi ( nếu có):
Đề tài tập hợp đội ngũ cán bộ nghiên cứu tại 8 cơ sở khác nhau với 15 nhánh sản
phẩm, vì vậy Đề tài kiến nghị Bộ Khoa học và Công nghệ xác nhận danh sách
những người thực hiện chính theo các sản phẩm phụ trách như trên. Danh sách được
sắp xếp theo thứ tự Ban Chủ nhiệm và Thư ký, sau đó theo thứ tự đánh số của phân
nhóm theo thiết kế của các sản phẩm. Khi đă
ng ký, chỉ đề 10 người đại diện chính,
một cơ sở có thể thực hiện một số Sản phẩm, nên chỉ nêu danh sách người phụ
trách, chịu trách nhiệm quản lý, tuy nhiên trong Nội dung chi tiết cũng đã nêu
những người thực hiện. Hiện tại trong danh sách trên là những người thực hiện
chính của từng sản phẩm.


6. Tình hình hợp tác quốc tế:
Số
TT
Theo kế hoạch
(Nội dung, thời gian, kinh phí, địa
điểm, tên tổ chức hợp tác, số
đoàn, số lượng người tham gia )
Thực tế đạt được
(Nội dung, thời gian, kinh phí, địa
điểm, tên tổ chức hợp tác, số
đoàn, số lượng người tham gia )
Ghi
chú*


1
Tham dự Hội nghị Khoa học – Trao đổi Khoa học, trình bày Theo kế

10
Quốc tế về tiếng nói tại Châu Âu
hoặc Mỹ
seminar khoa học về Đề tài và
những nghiên cứu liên quan đến
dịch các ngôn ngữ nói, tại Trung
tâm Nghiên cứu Quốc tế về
Công nghệ truyền thông tiến tiến
InterACT (International Center
for Advanced Communication
Technologies), Đại học
Carnegie Mellon, Pittsburgh
– Trình bày seminar khoa học
tại CSLU với các nội dung chủ
yếu như đã trình bày trên, có
điểm nhấn về khía cạnh ứng
dụng của Nh
ận dạng cho
smarrtphone và Tổng hợp tiếng
nói cho người khiếm thị (Center
of Spoken Language
Understanding – Trung tâm
nghiên cứu về hiểu ngôn ngữ
nói), Oregon Graduate
Instiutute, Portland


– Số lượng người: 01, số lượng
đoàn: 01, kinh phí: 36,24 triệu.
hoạch
2
Tham dự Hội nghị quốc tế tại
Châu Á
– Tham dự hội nghị Quốc tế
lần thứ 12 “Oriental-
COCOSDA” 10-12/08/2009 về
thiết kế, xây dựng, CSDL ngữ
âm và các công cụ đánh giá
trong các nước Châu Á, tại Bác
Kinh, Trung Quốc,
– Số lượng người: 01, số lượng
đoàn: 01, kinh phí: 18,4 triệu.

Theo kế
hoạch

3
Tham gia dự án A-STAR ( Asian
Speech Advanced Technology
Research Consortium) ,
Tham gia xây dựng các hệ
thống dịch tiếng nói sang tiếng nói
thông qua mạng máy tính trong
khu vực Châu Á. Đã phát triển các
engine trong lĩnh vực du lịch
1. Nhận dạng tiếng Việt liên
tục

2. Tổng hợp tiêng Việt
3. Dịch tự động Anh – Việt,
Việt – Anh
và đã tích hợp vào Hệ thống
dịch tiêng nói sang tiếng nói
giữa các ngôn ngữ sau: Anh,
Nhật, Trung quốc, Hàn, Thái,
Được
phát triển
trong quá
trình thực
hi
ện Đề
tài

11
Indonessia, Ấn độ, Mã lai, Việt
Nam
4
Đang triển khai hợp tác với Công
ty Axonite (Hoa kỳ) đưa hệ thống
tổng hợp tiếng Việt – VieTalk
trên nền của VOIP.

- Gửi một tin nhắn bằng tiếng
nói tổng hợp đến bất kỳ một
máy điện thoại để bàn hoặc
mobile với nội dung văn bản
được soạn trước.
- Các ứng dụng tiếp theo trong

hợp tác với Công ty Axonite là:
Hệ th
ống Cổng tiếng nói để trả
lời tự động các thông tin được
ghi sẵn trong CSDL bằng giọng
nói tổng hợp, gửi thông điệp
và tin nhắn bằng tiếng nói
trong các ứng dụng của Ngân
hàng, Hàng không để chuyển
các thông tin tới khách hàng.
Được
phát triển
trong quá
trình thực
hiện Đề
tài
5
Tham dự Hội thảo Oriental
COCOSDA 2008 (Kyoto), 2009
(Beijing)
Có 02 báo cáp khoa học về Nhận
dangjt hanh điệu và xây dựng
mạng tìm kiếm
Được
phát triển
trong quá
trình thực
hiện Đề
tài
6

Được mời báo cáo về xây dựng
tài nguyên cho NLP tại
International Symposium on
Asian Language Resources
(ALR) tại Thailand, 20-
21/03/2009
Có báo cáo mời về tài nguyên văn
bản của Đề atif để chia sẻ với
cộng đồng
Được
phát triển
trong quá
trình thực
hiện Đề
tài
7
TCAST (Technology and Corpora
for Asia-Pacific Speech
Translation, 2009, Singapore
Có 01 báo cáo khoa học về nghiên
cứu và phát triển Hệ thống Tổng
hợp tiếng Việt dựa trên mô hình
Markov ẩn
Được
phát triển
trong quá
trình thực
hiện Đề
tài
8

Cử các cán bộ nghiên cứu trẻ
(được tài trợ toàn phần hoặc một
phần) tham dự trường quốc tế
Châu Á về NLP, xử lý tiếng nói,
nhận dạng chữ… tại Thái lan các
năm 2007, 08, 09 (ADD School)

Cử 3 đợt các cán bộ nghiên cứu
trẻ trong 3 năm sang tham dự
khoa học về xử lý ngôn ngữ tự
nhiên và tiếng nói.
Được
phát triển
trong quá
trình thực
hiện Đề
tài
- Lý do thay đổi (nếu có): Hoàn thành theo Đề cương và thực hiện vượt kế hoạch
trong quá trình thực hiện Đề tài.


12
7. Tình hình tổ chức hội thảo, hội nghị:
Số
TT
Theo kế hoạch
(Nội dung, thời gian, kinh phí, địa
điểm )
Thực tế đạt được
(Nội dung, thời gian, kinh

phí, địa điểm )
Ghi chú*
1
Tổ chức Hội nghị Khoa học quốc
tế về nhận dạng, ngôn ngữ, tại Hà
nội.

Tổ chức Hội thảo Quốc tế
khu vực Châu Á lần thứ 10
“Oriental-COCOSDA” 6-
7/12/2007 về thiết kế, xây
dựng, CSDL ngữ âm và
các công cụ đánh giá trong
các nước Châu Á

Thực hiện theo
kế hoạch
2
Trung tâm MICA – ĐHBK
tổ chức SLTU (Spoken
Languages Technologies for
Under-resources
Languages), 5-7/5/2008 tại
ĐHBK Hà nội

Thực hiện vượt
kế hoạch

- Lý do thay đổi (nếu có):


8. Tóm tắt các nội dung, công việc chủ yếu:
(Nêu tại mục 15 của thuyết minh, không bao gồm: Hội thảo khoa học, điều tra khảo sát
trong nước và nước ngoài)
Thời gian
(Bắt đầu, kết thúc
- tháng … năm)
Số
TT
Các nội dung, công việc
chủ yếu
(Các mốc đánh giá chủ yếu)
Theo kế
hoạch
Thực tế
đạt được
Người,
cơ quan
thực hiện
1 Nghiên cứu và triển khai để xây
dựng nhóm hệ chuyên dụng dùng
công nghệ nhận dạng và tổng hợp
tiếng Việt (SP1).
− Khảo sát và nghiên cứu công
nghệ chủ yếu trong nhận dạng
và tổng hợp tiếng nói, nhằm
nắm được bản chất các đặc
trưng của ngữ âm, thanh điệu
và ngôn điệu tiếng Việt.



Nghiên cứu các công nghệ
nhằm tích hợp vào các môi
Trong cả giai
đoạn thực
hiện đề tài

Trong cả
giai đoạn
thực hiện đề
tài

Viện CNTT.
MICA

13
trường ứng dụng: đọc màn
hình cho người khiếm thị, tích
hợp vào cổng tiếng nói, các
thiết bị di động dòng công
nghệ mới, điều khiển thiết bị,
phân tích luồn âm thanh trong
ngôi nhà thông minh…


2 Nghiên cứu và triển khai để xây
dựng các kho ngữ liệu ngữ âm cho
tổng hợp và nhận dạng tiếng nói
− Kho ngữ liệu ngữ âm cho
tổng hợp tiếng Việt
− Kho ngữ liệu ngữ âm từ vựng

lớn
− Kho ngữ liệu ngữ âm đặc thù,
mười chữ số tiếng Việt, tên
người, địa danh.

Trong cả giai
đoạn thực
hiện đề tài

Trong cả
giai đoạn
thực hiện đề
tài

Viện CNTT.
MICA
3 Nghiên cứu và triển khai để xây
dựng các tài nguyên cơ bản cho xử
lý văn bản tiếng Việt
− Từ điển từ tiếng Việt cho máy
tính
− Kho ngữ liệu câu tiếng Việt
được chú giải ngữ pháp (Viet
TreeBank)
Kho ngữ liệu các cặp câu Anh-
Việt được chú giải nghĩa và kho
ngữ liệu các cặp câu song ngữ thô
Anh-Việt
Trong cả giai
đoạn thực

hiện
đề tài
Trong cả
giai đoạn
thực hiện đề
tài

- Trung tâm từ
điển học, - Đại
học Công nghệ
4
Nghiên cứu và triển khai để xây
dựng các công cụ cơ bản của xử
lý tiếng Việt
− Công cụ phân tách từ
− Công cụ gán nhãn từ loại
− Công cụ gộp nhóm từ
− Công cụ phân tích cú pháp
câu tiếng Việt
Trong cả giai
đoạn thực
hiện đề tài

Trong cả
giai đoạn
thực hiện đề
tài




- ĐH KHTN
- JAIST
- JAIST
- ĐH BK HN
- Lý do thay đổi (nếu có):


14
III. SẢN PHẨM KH&CN CỦA ĐỀ TÀI, DỰ ÁN
1. Sản phẩm KH&CN đã tạo ra:
b) Sản phẩm Dạng II: (Phần mềm máy tính)
Yêu cầu khoa học
cần đạt

Số
TT
Tên sản
phẩm

Theo kế hoạch Thực tế
đạt được
1
Hệ thống
tổng hợp
tiếng nói
cho người
khiếm thị
(SP1.1)

Tích hợp bộ đọc tiếng Việt thành một module nhúng

vào phần mềm JAWS cho phép:
- Làm trơn biên ghép các đơn vị theo hai đặc trưng:
o Ghép nối ở mức sóng âm
o Thay đổi trường độ khi đọc cho các âm tiết tận
cùng là p-t-c-ch
o Thay đổi được tốc độ phát âm.
- Nâng cao chất lượng giọng nói tổng hợp so với giai
đoạn 2001-2004
o Chất lượng âm tổng hợp ở mức độ âm tiết tốt
hơn
- Phân tích và chuyển đổi văn bản tiếng Việt với mã
Unicode, VNI thành tiếng nói.
- Phát âm chữ cái, dấu thanh, chữ số, các dấu nhảy
đơn, nhảy kép, mở ngoặc thành tiếng nói khi người
sử dụng đang gõ văn bản trong Word, Outlook, hoặc
một điều khiển sọan thảo bất kỳ của m
ột ứng dụng
đang chạy, hỗ trợ tiếng nói khi duyệt Web.
- Phát âm bằng tiếng Anh các từ tiếng Anh (không
đánh vần từng ký tự)
- .Kết xuất in ra tài liệu chữ nổi: phần mềm chuyển đổi
tệp văn bản được soạn thảo bằng MS Word,
Wordpad … với các bộ font .VnTime (ABC), vni-
times (VNI), Times New Roman (UNICODE) sang
tệp văn bản chữ bơ-rai tiếng Việt, tuân thủ theo luật
ký hiệu ch
ữ bơ-rai do hội người mù Việt nam quy
định, đảm bảo chuyển đổi định dạng cơ bản nhất như
dòng tiêu đề, đoạn văn bản, chữ đậm… Người khiếm
thị có thể đọc được hầu hết các tệp văn bản bao gồm

cả tệp siêu văn bản html, các văn bản bơ-rai có thể
được in ra trên tất cả các máy in chữ nổi phổ bi
ến
trên thế giới.
- Thử nghiệm thêm chức năng phát âm khi ngừời sử
dụng sọan thảo trong Word với phần mềm nguồn mở
Unikey.
Hoàn toàn
đạt được
theo kế
hoạch

15
2
Hệ thống
tổng hợp
tiếng nói,
tích hợp
cho các
cổng tiếng
nói,
(SP1.2)

Tích hợp công nghệ Tổng hợp tiếng Việt thành một
Engine cho phép:
- Làm trơn biên ghép các đơn vị theo hai đặc trưng:
o Ghép nối ở mức sóng âm
o Đường thanh điệu của âm tổng hợp trong ngữ
cảnh từ, cụm từ.
o Thay đổi trường độ khi đọc cho các âm tiết tận

cùng là p-t-c-ch
o Thay đổi bộ đơn vị phụ thuộc ngữ cảnh để tăng
độ tự nhiên khi đọc từ và câu.
- Nâng cao chất lượng giọng nói tổng hợp so với giai
đoạn 2001-2004
o Chất lượng âm tổng hợp ở mức độ âm tiết tốt
hơn
o Phát triển, cài đặt thêm các phương pháp tổng
hợp tốt hơn TD-PSOLA (cộng chồng đồng bộ
miền thời gian)
o Chất lượng âm tổng hợp cho từ, cụm từ và câu
tự nhiên hơn.
o Tổng hợp các đoạn ngắn cho các khuôn mẫu câu
(voice template)
- Tổng hợp được một khuôn mẫu câu có chứa biến
(voice template), là một câu trộn lẫn giữa câu ghi âm
cố định và đọan âm tổng hợp ngắn.
- Chuyển đổi được đọan văn bản tiếng Việt bất kỳ (có
thể có tiếng Anh trộn lẫn) thành âm thanh để phát
trên điện thoại.
- Chạy được trong 2 ch
ế độ: đồng bộ và không đồng
bộ.
- Thay đổi được tốc độ phát âm nhanh hoặc chậm.
- Chương trình trình diễn: Một cổng thoại báo điểm
học tập, tu dưỡng của học sinh. Các thông tin được
lưu trong cơ sở dữ liệu SQL Server với vài chục
nghìn bản ghi.

Đạt được

theo kế
hoạch

3
Hệ thống
đối thoại
sử dụng
công nghệ
tổng hợp
và nhận
dạng tiếng
tiếng Việt
trên môi
- Môi trưòng hoạt động: dòng công nghệ điện thoại di
động Symbian.
- Thiết kế và cài đặt hệ thống đối thoại bằng tiếng nói
sử dụng công nghệ tổng hợp và nhận dạng tiếng Việt
- Nhậ
n dạng:
o Cho phép người dùng đọc mười chữ số tiếng
Việt, kiểu đọc chuỗi số liên tục và một số lệnh
sử dụng trong điện thoại di động, độc lập với
Đạt được
theo kế
hoạch


16
trường
thiết bị di

động dòng
công nghệ
mới
(SP1.3)
người nói
o Độ chính xác nhận dạng khoảng 90% trong môi
trường không quá ồn (môi trường văn phòng
bình thường, môi trường ngoài trời không có
những tín hiệu nhiễu đặc biệt …).
o Tiêu chuẩn đánh giá độ chính xác trên bộ dữ liệu
test đủ lớn về: số lượng câu, số lượng người,
giọng 2 miền Bắc và Nam, giới tính, nói bình
thường không qua nhanh
- Tổng hợp
o Đọc các tin nhắn bằng tiếng Việt, phát âm rõ các
âm tiết tiếng Việt.
o Đánh giá độ hiểu tiếng Việt tổng hợp đạt quãng
90%. Tiêu chuẩn đánh giá: 1/ đánh gía theo các
tham số ngữ âm của tiếng tổng hợp, 2/ đánh giá
theo các nhóm người nghe về học vấn, tuổi, giới
tính, có/không chuyên môn về ngôn ngữ, …

4
Hệ thống
giám sát
và điều
khiển quá
trình sử
dụng kỹ
thuật nhận

dạng tiếng
Việt
(SP1.4)
- Từ vựng điều khiển: khoảng 30 từ (ví dụ: dừng lại,
chạy, sang phải, sang trái, ghi lại, sao chép…)
- Người nói đơn (CSDL được ghi âm bởi một người
nói), hệ thống nhận dạng “có đào tạo” trên cơ sở
tươ
ng thích với từng người nói.
- Các module nhận dạng bao gồm: khối phân tích tín
hiệu tiếng nói (đặc tính phổ) và khối nhận dạng
(bằng HMM hoặc mạng nơ ron).
- Tối ưu hóa để có thể chạy trên các bộ vi xử lý nhúng
như là các DSP (Texas Instruments).
- Khối điều khiển hành động: Có khả năng hoạt động
trong các hệ thống nhúng và hệ thống tự chủ
- Độ chính xác nhậ
n dạng khoảng 90% trong môi
trường không quá ồn, tốc độ nhanh.
- Trình diễn sản phẩm: thực hiện một ứng dụng điều
khiển phần mềm trong môi trường Windows, Unix
để quản lý các tệp hồ sơ tài liệu (mở , đóng , xoá,
lưu giữ tệp ), ra các lệnh điều khiển văn bản đơn
giản (cắt, dán, copy )

Đạt được
theo kế
hoạch

5

Hệ thống
phân tích
luồng âm
thanh
(SP1.5)
Dò tìm tự động trong thời gian thực tiếng nói trong một
luồng âm thanh ứng dụng trong các công việc giám sát:
- Phân loại tiếng nói và các âm thanh khác (với tiếng
ồn và tiếng nhạc): Hệ thống phân tích trong thời
gian thực luồng dữ liệu âm thanh ghi vào từ micro
nhằm mục đích phân loại xem âm thanh ghi được
Đạt được
theo kế
hoạch


17
thuộc loại nào : tiếng người nói, tiếng âm nhạc hay
các loại tiếng động khác trong cuộc sống thường
nhật.
- Quá trình phân tích, dò tìm tự động tiến hành trong
thời gian thực bằng cách khai thác các đặc tính phổ
của âm thanh.
- Độ chính xác phân loại 80%
- Trong trường hợp nhận ra sự có mặt của tín hiệu
giọng nói, hệ thống sẽ có thể kết nối với bộ nhận
dạng các câu lệnh gi
ọng nói (như lmô tả trong
SP1.4) để điều khiển một phần mềm hoặc một thiết
bị máy móc nào đó.

- Trình diễn kết quả : Hệ thống sẽ thực hiện các
nhiệm vụ sau:
• Thực hiện phân tích luồng âm thanh thu thập từ
nhiều micrô cài đặt trong nhà
• Chọn ra tín hiệu có chất lượng tốt nhất
• Áp dụng thuật toán dò tìm sự kiện âm

Áp dụng thuật toán phân tích luồng âm thanh, sử
dụng các kỹ thuật đã liệt kê ở phần trên
• Trong trường hợp dò được tín hiệu tiếng nói thì
kích hoạt hệ thống điều khiển

6
Kho ngữ
liệu ngữ
âm cho
Tỏng hợp
tiếng Việt
(SP6.1)
a. - Dữ liệu văn bản dành cho thu âm:
- Về nguồn dữ liệu, văn bản được chọn để đọc có thể
là đoạn trích văn học hoặc truyện ngắn hoặc các câu
trích từ hai nguồn trên đảm bảo tính phong phú về từ
vựng. Các câu được chọn có độ dài trung bình khoảng
10 âm tiết, d
ễ phát âm (không gồm những câu khó dễ
gây đọc nhầm).
- Về mặt ngữ âm học, dữ liệu đảm bảo cân bằng về:
• Âm tiết: ít nhất bao gồm đủ 300 âm tiết khác
nhau không kể thanh điệu thường xuyên được sử

dụng trong tiếng Việt với số lượng cân bằng.
• Âm vị: đủ tất cả các âm vị khác nhau của tiếng
Việt gồm 22 âm đầu, 16 âm chính, 8 âm cuối và
2 âm đệm với số lượng cân bằng.
• Thanh điệu: đủ 6 thanh điệu của tiếng Việt gồm
ngang (không dấu), hỏi, sắc, nặng, huyền và ngã
với số lượng cân bằng.
b. Độ lớn và chất lượng:
• Số giờ thu âm: 3-5 giờ.
Đạt được
theo kế
hoạch


18
• Số lượng âm tiết là khoảng 3000 tương đương
với số lượng 300 câu với độ dài trung bình 10-15
âm tiết.
• Chất lượng âm thanh ghi ở dạng PCM, tần số lấy
mẫu 16kHz và mã hoá 16 bit.
c. Người nói và điều kiện thu âm:
• Người nói gồm 01 nam giọng cao và 01 nữ giọng
trầm tình trạng sức khoẻ tốt, tuổi trong khoảng
18-45, giọng phát thanh viên miền Bắc Hà nội
chuẩn, tố
c độ đọc chuẩn của phát thanh viên.
• Điều kiện thu âm: Môi trường phòng thu tiêu
chuẩn cách âm.
d. Gán nhãn:
• Yêu cầu gán nhãn cơ sở dữ liệu ở mức từ, âm

tiết, âm vị và thanh điệu tạo điều kiện khảo sát
âm điệu của âm, thanh điệu âm tiết và trường độ
âm vị khi cần.
e. Tổ chức cơ sở dữ liệu:

Mỗi đơn vị dữ liệu gồm 01 file âm thanh và một
số file gán nhãn dạng text tương ứng. Tổ chức
bằng cách sử dụng cơ sở dữ liệu quan hệ với mỗi
đơn vị là một bản ghi trong bảng. Các trường của
bảng là metadata của dữ liệu và link tới file dữ
liệu

7
Kho ngữ
liệu ngữ
âm cho
nhận dạng
với từ
vựng lớn
(SP6.2)
a. Dữ liệu văn bản dành cho thu âm:
• Về nguồn dữ liệu, văn bản được chọn để đọc là
các câu trong đoạn văn gồm những từ được
thường xuyên sử dụng trong nhiều lĩnh vực khác
nhau như tin tức thời sự, văn hoá xã hội, th

thao, khoa học công nghệ, chính trị, sức khoẻ,
kinh doanh, thời tiết. Dữ liệu có thể dưới dạng
đoạn hội thoại, đoạn văn bản và các chữ số lấy từ
website, sách hoặc báo chí. Các câu được chọn

bởi chuyên gia hoặc tự động đảm bảo cân bằng
về ngữ âm và dễ phát âm.
• Về mặt ngữ âm học, cơ sở dữ liệu bao gồ
m một
số lượng từ vựng lớn, kỳ vọng đạt gần đủ tất cả
âm tiết khác nhau theo thống kê xuất hiện trong
tiếng Việt. Cụ thể số lượng âm tiết khác nhau
khoảng 5.000, số lượng âm tiết không thanh điệu
khác nhau khoảng 2.000. Tần số xuất hiện của
mỗi âm tiết thể hiện đúng mức độ phổ biến của
âm tiế
t theo thống kê thực tế từ dữ liệu thu được
Đạt được
theo kế
hoạch


19
một cách ngẫu nhiên qua các websites .
b. Độ lớn và chất lượng:
• Số giờ thu âm: 100 giờ.
• Số câu trên 20.000 với độ dài trung bình 10 âm
tiết mỗi câu.
• Chất lượng âm thanh ghi ở dạng PCM, tần số lấy
mẫu 16kHz và mã hoá 16 bit.
c. Người nói và điều kiện thu âm:
• Số lượng đối tượng thu âm khoảng 50-60 người,
trong đó 50% nam và 50% nữ, độ tuổi từ 18 đến
45, sức khoẻ
tốt, giọng đọc với tỷ lệ cân bằng

miền Bắc và miền Nam, tốc độ đọc bình thường.
Mỗi câu đọc 3 lần cho mỗi giọng đọc, tốc độ đọc
bình thường.
• Điều kiện thu âm là điều kiện phòng thu đạt tiêu
chuẩn về cách âm.
d. Gán nhãn:
• Yêu cầu gán nhãn ở dữ liệu ở mức âm tiết.
e. Tổ chức cơ
sở dữ liệu:
Tương tự như đối với SP6.1.
8
Kho ngữ
liệu ngữ
âm đặc thù
cho Nhận
dạng mười
chữ số
tiếng Việt
nói liên
tục, tên
người Việt
và địa
danh
(SP6.3)
a. Dữ liệu văn bản dành cho thu âm:
• Đối với 10 chữ số: Nguồn dữ liệu là các chuỗi số
ngẫu nhiên được đọc liên tục lấy từ các số điện
thoại cố định và di
động. Về mặt ngữ âm học,
ngoài cách đọc chuẩn, dữ liệu còn bao gồm các

biến thể khác của các chữ số, ví dụ: 5 có thể đọc
là “lăm”, “nhăm” và “năm”. Do đó, bộ dữ liệu
gồm 17 âm vị khác nhau. Tần suất xuất hiện của
các âm vị là tương đương nhau.
• Về tên người Việt: nguồn có thể là họ tên đầy đủ
lấy danh sách cán bộ hoặc danh sách h
ọc sinh
đảm bảo thu thập đủ những tên phổ biến trong
tiếng Việt.
• Tên địa danh: tên các tỉnh, thành phố và địa
phương cấp thấp hơn của Việt nam.
b. Độ lớn và chất lượng:
• Về dữ liệu chữ số: Số lượng chuỗi số trên 1000,
mỗi chuỗi có độ dài 10 âm vị.
• Về tên người Việt: Số lượng từ vự
ng khoảng
2000 từ khác nhau.
• Về tên địa danh: Khoảng 100 tên khác nhau.
Đạt được
theo kế
hoạch


20
• Chất lượng âm thanh ghi ở dạng PCM, tần số lấy
mẫu 16kHz và mã hoá 16 bit.
c. Người nói và điều kiện thu âm:
• Số lượng người nói 30-50 người với tỷ lệ nam nữ
cân bằng, độ tuổi 18-45, sức khoẻ tốt, giọng đọc
Hà nội chuẩn và địa phương miền Bắc. Thu âm 3

lần mỗi câu cho mỗi giọng đọc.
• Điều kiện thu âm là phòng thu tiêu chuẩn. Riêng
đối với chữ số có thêm dữ liệu thu ở điều kiện
văn phòng, mức độ tiếng ồn thấp, không có
nhiễu đặc biệt và thiết bị thu là điện thoại di
động với tiêu chuẩn kỹ thuật của âm thanh tương
đương.
d. Gán nhãn:
• Yêu cầu gán nhãn ở mức âm tiết.
e. Tổ chức cơ sở dữ liệu:
Tương tự như
đối với SP6.1.
9
Từ điển
tiếng Việt
dùng cho
XLNN
(SP7.2)
- Khoảng 35.000 từ, với các thông tin ngữ pháp, ngữ
nghĩa dùng cho XLNNTN
- Chứa đựng đủ lớp từ thông dụng trong tiếng Việt
hiện đại
- Mô hình từ điển theo chuẩn quốc tế nhằm sử
dụng/trao đổi được giữa nhiều hệ thống, thuận tiện
cho nghiên cứu đối sánh các ngôn ngữ

- Mã hoá chuẩn (XML)
- Mô tả nhất quán, tránh nhập nhằng
- Dễ cập nhật khi cần thiết
Tài liệu hướng dẫn

Đạt được
theo kế
hoạch

10
Kho ngữ
liệu câu
tiếng Việt
có chú giải
(VieTree
Bank)
(SP7.3)
- Tài liệu mô tả tập nhãn cú pháp và tập qui tắc gán
nhãn cú pháp
- Kho ngữ liệu 10.000 câu được gán nhãn cú pháp đầy
đủ, khuôn dạng như các TreeBank khác.
- Tài liệu hướng dẫn.

Đạt được
theo kế
hoạch

11
Hai kho
ngữ liệu
câu Anh-
Việt phổ
quát và
chuyên
ngành

- Bộ tiêu chí chọn mẫu ngữ liệu song ngữ Anh-Việt
- Bộ nhãn ngôn ngữ
- Công cụ chuẩn hóa ngữ liệu song ngữ
- 100,000 cặp câu song ngữ thô cho 2 ngôn ngữ Anh
và Việt, trong đó có 10,000 câu về một lĩnh vực
chuyên ngành (CNTT).
Đạt được
theo kế
hoạch


21
(SP7.4)

12
Hệ phân
tách từ
Việt
(SP8.2)
- Quy ước chuẩn về “đơn vị từ” trong xử lý ngôn ngữ
- Hệ phân tách từ đạt độ chính xác cao, xấp xỉ 99%
- Mã nguồn mở với khả năng kết nối trong các phần
mềm khác.
- Kho ngữ liệu đã phân tách từ, biểu diễn theo sơ đồ
biểu diễn chuẩn quốc tế.
- Mã hóa chu
ẩn (XML)
- Tài liệu hướng dẫn sử dụng

Đạt được

theo kế
hoạch

13
Hệ phân
loại từ
Việt
(SP8.3)
- Tập quy tắc phân loại từ tiếng Việt thống nhất với
Viet TreeBank
- Hệ phân loại từ tiếng Việt dạng phần mềm mã nguồn
mở xây dựng các hệ phân lớp từ loại từ tiếng Việt
(Bộ phân lớp từ loại đến mức 4)
- Mã nguồn mở với khả nă
ng kết nối trong các phần
mềm khác.
- Độ chính xác dự kiến khoảng 90% trở lên, huấn
luyện bộ phân lớp trên tập dữ liệu câu gắn nhãn sẵn
(khoảng 10.000 câu)
- Tài liệu đặc tả chính xác quá trình phát triển, các
nguyên lý, quy tắc tuân theo và tài liệu hướng dẫn sử
dụng đi kèm.
Đạt được
theo kế
hoạch

14
Hệ phân
cụm từ
Việt

(SP8.4)
- Các qui tắc cho tập gán nhãn chuẩn
- Hệ phân cụm từ Việt
- Mã nguồn mở với khả năng kết nối trong các phần
mềm khác.
- Độ chính xác 85%
- Giao diện thân thiện với người dùng
Tài liệu hướng dẫn.
Đạt được
theo kế
hoạch

15
Hệ phân
tích cú
pháp tiếng
Việt
(SP8.5)
- Câu vào đã được phân tích từ loại (POS)
- Hệ phân tích cú pháp tiếng Việt (syntax parser): hệ
cho phép phân tích các loại câu tiếng Việt (câu thông
báo – câu đơn và câu ghép, câu hỏi, câu cảm thán,
…) với độ chính xác trên 80%. Phân tích cú pháp
dựa trên bộ luật theo văn phạm LCFG.
- Mã nguồn mở với khả năng kết nối trong các phần
mềm khác.
- Tập luật ngữ pháp tiếng Việt dùng cho xử lý t
ự động
ngôn ngữ: Có sự đồng thuận với các nhà ngôn ngữ
học.

- Tài liệu hướng dẫn.
Đạt được
theo kế
hoạch


22
- Lý do thay đổi (nếu có):

c) Sản phẩm Dạng III:
Yêu cầu khoa học
cần đạt

Số lượng, nơi công
bố
(Tạp chí, nhà xuất bản)
Số
TT
Tên sản phẩm

Theo
kế hoạch
Thực tế đạt được

Các bài báo công bố trong
các tuyển tập Hội nghị, hội
thảo:
- Quốc tế:
- Trong nước:
Số lượng bài theo đăng

ký là 04: 02 bài báo
đăng trên các kỷ yếu
Hội nghị Quốc
tế/Trong nước liên
quan đến Xử lý tiếng
nói, 02 bài báo đăng
trên các kỷ yếu Hội
nghị Quốc tế/Trong
nước liên quan đến Xử
lý văn bản.
22 bài, trong đó:
- Xử lý tiếng nói: 09
- Xử lý văn bả
n: 13

TT Tên bài, nơi công bố,
Phần xử lý tiếng nói
1
Thang Tat Vu, Mai Chi Luong, Satoshi Nakamura, “An HMM-based Vietnamese
Speech Synthesis System”, O-COCOSDA 2009 proceedings, also be included in IEEE
Xplorer, 10-13 August, 2009, China.
2
Thang Tat Vu, Khanh Tang Nguyen, Le Thanh Ha, Mai Chi Luong, Satoshi
Nakamura, “Toward Asian Speech Translation: The Development of Speech and Text
Corpora for Vietnamese language”, Accepted to the Proceeding of Workshop on
Technologies and Corpora for Asia-Pacific Speech Translation (TCAST 2009), August
2, 2009, Suntec, Singapore.
3
Thang Tat Vu, Khanh Nguyen Tang, Son Hai Le, Mai Chi Luong, “Vietnamese tone
recognition based on Multi-layer Perceptron network”, Proceedings of Oriental

COCOSDA, Kyoto, 25-27 December 2008, pp.242-45
4
Bui Quang Trung, Luong Chi Mai, Le Hai Son, “A Lexical Tree Based Search Network
in Continuous Vietnamese Speech Recognition”, Proceedings of Oriental COCOSDA,
Kyoto, 25-27 December 2008, pp.253-256.
5
Tran Do Dat, Eric Castelli, “Register of Vietnamese tone in continuous speech”,
The first International Workshop on Spoken Languages Technologies for Under-
resourced languages (SLTU - 2008), Hanoi, 3/2008.

23
6
Viet-Bac Le, Laurent Besacie, Sopheap Seng, Brigitte Bigi, Thi-Ngoc-Diep Do,
“Recent advances in automatic speech recognition for Vietnamese”, The first
International Workshop on Spoken Languages Technologies for Under-resourced
languages (SLTU - 2008), Hanoi, 3/2008.
7
ROSSIGNOL, Mathias and TRẦN, Đỗ Đạt, “Introducing Hoa Sen, a modular and
portable software toolkit for speech analysis and recognition”, in: ICT.rda '08, 2008
8
NGUYỄN, Thị Minh Tuyền and ROSSIGNOL, Mathias, “ADRPhone: a Lightweight,
Standalone Phonetizer for Vietnamese and its Dialects”, in: 10th Worksphop of the
Oriental chapter of the International Committee for the Co-ordination and
Standardization of Speech Databases and Assessment Techniques (Oriental
COCOSDA ’07), 2007.
9
Bui Quang Trung, Luong Chi Mai, Vu Tat Thang, Nguyen Trung Thanh, Nguyen Tien
Dung, “ A smartphone Spoken Dialog System using Vietnamese Text-To-Speech and
Speech recognition”, Proceeding of FAIR, Nha trang, 10-12 August, 2007.
Phần xử lý Văn bản

10
Nguyen, L.M., Nguyen, H.T., Nguyen, P.T., Ho, T.B., Shimazu, A., “An Empirical
Study of Vietnamese Noun Phrase Chunking with Discriminative Sequence Models”,
7th Workshop on Asian Language Resources at 47th Annual Meeting of the
Association for Computational Linguistics, ACL-IJCNLP 2009, 2-7 August,
Singapore, 2009.
11
Phuong-Thai Nguyen, Xuan-Luong Vu, Thi-Minh-Huyen Nguyen, Van-Hiep Nguyen,
Hong-Phuong Le. “Building a Large Syntactically-Annotated Corpus of Vietnamese”.
Proceedings of the 3rd Linguistic Annotation Workshop (LAW) at ACL-IJCNLP 2009.
12
Anh-Cuong Le, Phuong-Thai Nguyen, Hoai-Thu Vuong, Minh-Thu Pham, Tu-Bao Ho,
“An Experimental Study on Lexicalized Statistical Parsing for Vietnamese”. The First
International Conference on Knowledge and System Engineering (KSE 2009).
13
Huong-Thao Nguyen, Phuong-Thai Nguyen, Quang-Thuy Ha, and Le-Minh Nguyen,
“Vietnamese Noun Phrase Chunking based on Conditional Random Fields”. The First
International Conference on Knowledge and System Engineeing, KSE, 2009.
14
Nguyen, P.T., Shimazu, A., Ho, T.B., Nguyen, L.M., Nguyen, V.V., “A Tree-to-String
Phrase-based Model for Statistical Machine Translation”, Twelfth Conference on
Computational Natural Language Learning, Manchester, 16-17 August, 143-150, 2008
15
Nguyen, P.T., Le, A.C., Shimazu, A., Ho, T.B., “Intergration of Word sense
Disambiguation into Pharse base”Empirical Md Statistical Machine Translation”
Empirical Methods for Asian Language Processing Workshop (EMALP 2008), in
conjunction with Tenth Pacific Rim International Conference on Artificial Intelligence
(PRICAI-08), December 16-19, Hanoi, 114-122, 2008., 114-122
16
Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền, “Xây dựng treebank

tiếng Việt”, In Proc. of the 4rd National Symposium on Research, Development and
Application of Information and Communication Technology (ICTrda'2008, August 8-
9, Ha Noi, Viet Nam), Science and Technics Publishing House, 249-257
17
Phan Xuân Hiếu, Lê Minh Hoàng, Nguyễn Cẩm Tú, “Gắn nhãn từ loại tiếng Việt dựa

24
trên các phương pháp học máy thống kê”, ICT.rda 2008, Hà Nội, Việt Nam.
18
Ho, T.B., Pham, N.K., Ha, T.L., Nguyen, P.T., “Issues and First Phase Development of
the English-Vietnamese Translation System EVSMT1.0”, Special Issue in Journal of
Science, Natural Sciences and Technology, Vol. 24, N3S, Vietnam National
University- Hanoi Publishers, 59-66, 2008.
19
Ho, T.B., “Vietnamese Language Processing: Issues and Challenges”, Special Issue in
Journal of Science, Natural Sciences and Technology, Vol. 24, N3S, Vietnam National
University- Hanoi Publishers, 10-16, 2008.
20
N.T.M. Huyen, R. Mathias, L.H. Phuong, D.Q. Thang, V.X. Luong, N.C. Tu, “Word
segmentation of Vietnamese texts: a comparison of approaches”, Proceedings of the
6th Language Resources and Evaluation Conference LREC 2008, 2008.
21
P. T. Ha, N. T. M. Huyen, L. H. Phuong, L. V. Tang, “Building a Syntactic Annotation
Framework for Vietnamese”, Proceedings of the National Symposium on Research,
Development and Application of Information and Communication Technology
ICT.rda, Vietnam, 8/2008.
22
Đỗ Bá Lâm, Lê Thanh Hương. 2008. Xây dựng hệ thống phân tích cú pháp tiếng Việt
sử dụng văn phạm HPSG. Kỷ yếu hội thảo ICT.rda’08, Hà Nội, Việt Nam.



Số lượng bài theo đăng ký là 04:
02 bài báo đăng trên các kỷ yếu Hội nghị Quốc tế/Trong nước liên quan đến Xử lý
tiếng nói, 02 bài báo đăng trên các kỷ yếu Hội nghị Quốc tế/Trong nước liên quan đến
Xử lý văn bản.
• Số lượng bài trên thực tế tổng cộng là 22 bài, trong đó đăng ở nước ngoài: 10,
với 3 bài ở Hội nghị lớn có tầm quốc tế và rất khó được nhận: ACL-IJCNLP
2009, CoNLL (Conference on Computational Natural Language Learning),
trong nước: 7

d) Kết quả đào tạo:
Số lượng
Số
TT
Cấp đào tạo, Chuyên
ngành đào tạo
Theo kế
hoạch
Thực tế đạt
được
Ghi chú
(Thời gian kết
thúc)
1 Thạc sỹ
04 04 2008, 2009
2 Tiến sỹ
0 03 2008, 2009
Đào tạo:
- Thạc sỹ: đã hoàn thành
Nguyễn Thị Thanh Mai, 2008

Nguyễn Thị Phương Thảo, 2008
Nguyễn Cẩm Tú, 2008

25
Nguyễn Thị Hương Thảo, 2009

- Tiến sỹ (đã thực hiện trước khi bắt đầu đề tài nhưng theo hướng nghiên cứu của Đề tài):
Phan Xuân Hiếu, 2008
Nguyễn Phương Thái, 2008
Nguyễn Công Phương, 2009
Đang thực hiện:
Ngô Hoàng Huy

đ) Tình hình đăng ký bảo hộ quyền sở hữu công nghiệp
Kết quả
Số
TT
Tên sản phẩm
đăng ký
Theo
kế hoạch
Thực tế
đạt được
Ghi chú
(Thời gian kết
thúc)
1
0
2




- Lý do thay đổi (nếu có):
e) Thống kê danh mục sản phẩm KHCN đã được ứng dụng vào thực tế
Số
TT
Tên kết quả
đã được ứng dụng
Thời gian
Địa điểm
(Ghi rõ tên, địa
chỉ nơi ứng dụng)
Kết quả
sơ bộ
1 Phần mềm tổng hợp
tiếng nói cho người
khiếm thị
Hội người mù
Việt Nam


2

2. Đánh giá về hiệu quả do đề tài, dự án mang lại:
a) Hiệu quả về khoa học và công nghệ:
(Nêu rõ danh mục công nghệ và mức độ nắm vững, làm chủ, so sánh với trình độ công
nghệ so với khu vực và thế giới…)

Các sản phẩm của đề tài đều không mua được từ bên ngoài. Các chỉ tiêu kỹ thuật,
công nghệ nghiên cứu đều theo các chỉ tiêu của các sản phẩm cùng loại làm tại

nước ngoài. Dưới đây là một vài thí dụ:
● Kho ngữ liệu có chú giải (VieTreebank)

×