Tải bản đầy đủ (.pdf) (765 trang)

Nghiên cứu, xây dựng một số hệ thống khai thác thông tin đa phương tiện có hỗ trợ tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (30.86 MB, 765 trang )


BỘ KHOA HỌC VÀ CÔNG NGHỆ TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

CHƢƠNG TRÌNH KHCN CẤP NHÀ NƢỚC KC01



BÁO CÁO TỔNG HỢP
KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI/DỰ ÁN
NGHIÊN CỨU, XÂY DỰNG MỘT SỐ HỆ THỐNG KHAI THÁC
THÔNG TIN ĐA PHƢƠNG TIỆN CÓ HỖ TRỢ TIẾNG VIỆT
KC01.16/06-10



Cơ quan chủ trì đề tài : Trƣờng ĐH Khoa học Tự nhiên TP.HCM
Chủ nhiệm đề tài : PGS.TS. Dƣơng Anh Đức













TP.HCM 12 - 2010



BỘ KHOA HỌC VÀ CÔNG NGHỆ TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

CHƢƠNG TRÌNH KHCN CẤP NHÀ NƢỚC KC01



BÁO CÁO TỔNG HỢP
KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI/DỰ ÁN
NGHIÊN CỨU, XÂY DỰNG MỘT SỐ HỆ THỐNG KHAI THÁC
THÔNG TIN ĐA PHƢƠNG TIỆN CÓ HỖ TRỢ TIẾNG VIỆT
KC01.16/06-10








Chủ nhiệm đề tài/dự án Cơ quan chủ trì đề tài/dự án:
(ký tên) (ký tên và đóng dấu)







PGS.TS Dƣơng Anh Đức TS. Lâm Quang Vinh




TP.HCM 12 - 2010


Trang: 3

MỤC LỤC


BÁO CÁO THỐNG KÊ 8
I. THÔNG TIN CHUNG 8
Tên đề tài/dự án: 8
Mã số đề tài, dự án: KC01.16/06-2010 8
Chủ nhiệm đề tài/dự án: 8
Tổ chức chủ trì đề tài/dự án: 8
II. TÌNH HÌNH THỰC HIỆN 9
Thời gian thực hiện đề tài/dự án: 9
Kinh phí và sử dụng kinh phí: 9
Các văn bản hành chính trong quá trình thực hiện đề tài/dự án: 10
(1) (Liệt kê các quyết định, văn bản của cơ quan quản lý từ công đoạn xác định
nhiệm vụ, xét chọn, phê duyệt kinh phí, hợp đồng, điều chỉnh (thời gian, nội dung,
kinh phí thực hiện nếu có); văn bản của tổ chức chủ trì đề tài, dự án (đơn, kiến
nghị điều chỉnh nếu có) 10
Tổ chức phối hợp thực hiện đề tài, dự án: 10
Cá nhân tham gia thực hiện đề tài, dự án: 10
Tình hình hợp tác quốc tế: 11
Tình hình tổ chức hội thảo, hội nghị: 11
Tóm tắt các nội dung, công việc chủ yếu: 11

III. SẢN PHẨM KH&CN CỦA ĐỀ TÀI, DỰ ÁN 20
Sản phẩm KH&CN đã tạo ra: 20
Đánh giá về hiệu quả do đề tài, dự án mang lại: 26
Tình hình thực hiện chế độ báo cáo, kiểm tra của đề tài, dự án: 27
CHƢƠNG 1. TỔNG QUAN VỀ ĐỀ TÀI 3
CHƢƠNG 2. TÓM TẮT KẾT QUẢ ĐẠT ĐƢỢC 3

Trang: 4
2.1. NHÁNH A: HỆ THỐNG TRUY VẤN THÔNG TIN VĂN BẢN HƯỚNG NGỮ
NGHĨA 35
2.1.1. Đây là một nhánh đề tài thực hiện nghiên cứu về xây dựng hệ thống khai
thác thông tin hƣớng ngữ nghĩa trong văn bản tiếng Việt. 35
2.1.2. Trang thông tin giới thiệu đề tài 35
2.1.3. Nghiên cứu và xây dựng hệ thống khai thác thông tin hƣớng ngữ nghĩa
gồm: 35
2.1.3.1. Phân hệ 1: Hệ thống truy vấn thông tin hƣớng đến ngữ nghĩa (VIRS). 35
2.1.3.1.1. 35
2.1.3.1.2. 35
2.1.3.2. Phân hệ 2: Hệ thống hỏi đáp hƣớng đến ngữ nghĩa (VQAS) 35
2.1.3.2.1. 35
2.1.3.3. Phân hệ 3: Cơ sở tri thức tiếng Việt (VKB) để phục vụ việc hiện thực
hệ thống VIRS và VQAS 35
2.1.4. Nhóm nghiên cứu 35
2.1.5. Sản phẩm đăng ký và đạt đƣợc 36
2.1.5.1. Sản phẩm 1: 36
2.1.5.2. Sản phẩm 2: 36
2.1.5.3. Sản phẩm 3: 36
2.1.5.4. Đăng ký bằng độc quyền giải pháp hữu ích: 37
2.1.5.5. Bài báo: 37
2.1.5.6. Đào tạo: 38

2.1.6. Kết quả chi tiết của các sản phẩm đạt đƣợc: 38
2.1.6.1. Phƣơng pháp đánh giá kết quả 38
2.1.6.2. Chƣơng trình máy tính: Hệ thống truy vấn thông tin hƣớng đến ngữ
nghĩa (VIRS) 38
2.1.6.2.1. [A] Tiền xử lý truy vấn tiếng Việt đầu vào để phục vụ khai thác
thông tin văn bản và khai thác thông tin video. 38

Trang: 5
2.1.6.2.2. [B] Truy vấn thông tin (dạng tiếng Anh, hay dạng tiếng Việt theo
cách so trùng từ chính xác) trên Internet (Web) bởi kết hợp với một động cơ
tìm kiếm thông tin sẵn có trên Internet (Google, Yahoo…). Đầu vào là truy
vấn tiếng Việt của ngƣời dùng dạng câu đơn/cụm danh từ đơn/từ khóa đơn.
Đầu ra là danh mục các kết quả cần tìm trả về bởi công cụ tìm kiếm thông tin
đã dùng. 39
2.1.6.2.3. [C] Truy vấn thông tin (tiếng Anh) trên kho tài liệu tiếng Anh xác
định trƣớc (các bài báo khoa học có cấu trúc quy ƣớc). Đầu vào là truy vấn
tiếng Anh của ngƣời dùng dạng cụm danh từ đơn/từ khóa đơn. Đầu ra là danh
mục tài liệu tiếng Anh tìm đƣợc 41
2.1.6.3. Chƣơng trình máy tính: Hệ thống hỏi đáp hƣớng đến ngữ nghĩa
(VQAS) 42
2.1.6.4. Chƣơng trình máy tính: Cơ sở tri thức tiếng Việt (VKB) để phục vụ
việc hiện thực hệ thống VIRS và VQAS 43
2.1.6.4.1. Huấn luyện VKB từ kho dữ liệu các bài báo khoa học ACM,
Science-Direct, IEEE, Springer-Velag – 31.679 bài báo (tổng dung lƣợng
149MB) và danh mục sách từ thƣ viện Đại học Bách khoa TpHCM với kết
quả chi tiết: 43
2.1.6.4.2. VKB – Tổ chức & số lƣợng 43
2.1.6.4.3. Khai thác VKB để phục vụ hệ thống VIRS 44
2.1.6.4.4. Khai thác VKB để phục vụ hệ thống VQAS 45
2.1.7. Hƣớng dẫn ngƣời dùng 46

2.1.7.1. Chƣơng trình máy tính: Hệ thống truy vấn thông tin hƣớng ngữ nghĩa
(VIRS) 46
2.1.7.1.1. Mô-đun: Chƣơng trình tìm kiếm thông tin bài báo khoa học 46
2.1.7.1.2. Mô-đun: Chƣơng trình truy xuất thông tin xuyên ngôn ngữ 52
2.1.7.2. Chƣơng trình máy tính: Hệ thống hỏi đáp thông tin hƣớng ngã nghĩa
(VIRS) 56
2.2. NHÁNH B: HỆ THỐNG KHAI THÁC THÔNG TIN VIDEO 62

Trang: 6
2.2.1. Tóm tắt kết quả đạt đƣợc nhánh đề tài hệ thống khai thác thong tin video
hƣớng ngữ nghĩa 62
2.2.1.1. Giới thiệu đề tài 62
2.2.1.2. Sản phẩm đăng ký 63
2.2.1.3. Sản phẩm hoàn thành 64
2.2.1.3.1. Mƣời bảy báo cáo chi tiết các chuyên đề 65
2.2.1.3.2. Báo cáo tổng hợp về đề tài 66
2.2.1.3.3. Chƣơng trình SEClassification 67
2.2.1.3.4. Chƣơng trình SERetrieval 67
2.2.1.3.5. Chƣơng trình SESummarization 68
2.2.1.3.6. Hai bài báo khoa học 69
2.2.1.4. Hƣớng dẫn ngƣời dùng 69
2.2.1.4.1. Phần mềm SEClassification 69
2.2.1.4.2. Phần mềm SESummarization 74
2.2.1.4.3. Phần mềm SERetrieval 78
2.2.2. Tóm tắt kết quả đạt đƣợc của nhánh đề tài xây dựng hệ thống truy vấn video
dựa vào văn bản trích 80
2.2.2.1. Tổng quan 80
2.2.2.2. Sản phẩm đã đăng ký và kết quả đạt đƣợc 80
2.2.2.2.1. Sản phẩm phần mềm 80
2.2.2.2.2. Tài liệu kỹ thuật và bài báo khoa học 82

2.2.2.3. Kết luận 83
2.2.2.4. Hƣớng dẫn ngƣời dung 83
2.2.2.4.1. Giao diện chính của chƣơng trình: 84
2.2.2.4.2. Tab “Video” 84
2.2.2.4.3. Tab “News” 85
2.2.2.4.4. Tab “Voice” 85
2.2.2.4.5. Tab “Video_Emotion” 87
2.2.3. Tóm tắt kết quả đạt đƣợc của nhánh đề tài hệ thống truy vấn chuyển động 87

Trang: 7
2.2.3.1. Tổng quan 87
2.2.3.2. Các sản phẩm đã đăng ký và đã đạt đƣợc 88
2.2.3.2.1. Sản phẩm phần mềm 88
2.2.3.2.2. Tài liệu kỹ thuật và bài báo khoa học 90
2.2.3.3. Một số kết quả mở rộng khác 91
2.2.3.4. Kết luận 92
2.2.3.5. Hƣớng dẫn ngƣời dùng 93
2.2.3.5.1. Theo vết đơn đối tƣợng trong video thể thao (single object
tracking): 93
2.2.3.5.2. Phát hiện cầu thủ trên sân bóng đá (multi-player detection): 94
2.2.3.5.3. Theo vết cầu thủ trên sân bóng đá (multi-player tracking): 96

Trang: 8

ĐẠI HỌC QUỐC GIA TP.HCM
TRƢỜNG ĐH KHOA HỌC TỰ NHIÊN
__________________
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc


TP.HCM, ngày 8 tháng 12 năm 2010


BÁO CÁO THỐNG KÊ
KẾT QUẢ THỰC HIỆN ĐỀ TÀI/DỰ ÁN SXTN

I. THÔNG TIN CHUNG
Tên đề tài/dự án:
Mã số đề tài, dự án: KC01.16/06-2010
Thuộc:
- Chƣơng trình (tên, mã số chƣơng trình): Nghiên cứu, phát triển và
ứng dụng Công nghệ Thông tin & Truyền thông, KC01.
- Dự án khoa học và công nghệ (tên dự án): Nghiên cứu, xây dựng một
số hệ thống khai thác thông tin đa phƣơng tiện có hỗ trợ tiếng Việt.
- Độc lập (tên lĩnh vực KHCN):
Chủ nhiệm đề tài/dự án:
Họ và tên: Dƣơng Anh Đức
Ngày, tháng, năm sinh: 24/08/1968 Nam/ Nữ: Nam
Học hàm, học vị: PGS.TS
Chức danh khoa học: Chức vụ: Phó Hiệu trƣởng
Điện thoại: Tổ chức: 38355269 Nhà riêng: Mobile: 0903937827
Fax: 38350096 E-mail:
Tên tổ chức đang công tác: Trƣờng ĐH Khoa học Tự nhiên TP.HCM
Địa chỉ tổ chức: 227 Nguyễn Văn Cừ, Quận 5.
Địa chỉ nhà riêng: 68/10B Trần Quang Khải, P. Tân Định, Q. 1
Tổ chức chủ trì đề tài/dự án:
Tên tổ chức chủ trì đề tài: Trƣờng ĐH Khoa học Tự nhiên TP.HCM
Điện thoại: 38353193 Fax: 38350096
E-mail:


Trang: 9
Website: www.hcmus.edu.vn
Địa chỉ: 227Nguyễn Văn Cừ, Quận 5.
Họ và tên thủ trƣởng tổ chức: Dƣơng Ái Phƣơng
Số tài khoản: 931.01.05.00005, Trƣờng ĐH Khoa học tự nhiên
Tại: Kho bạc Nhà nƣớc quận 5, TP.HCM
Tên cơ quan chủ quản đề tài: Đại học Quốc gia TP.Hồ Chí Minh
II. TÌNH HÌNH THỰC HIỆN
Thời gian thực hiện đề tài/dự án:
- Theo Hợp đồng đã ký kết: từ tháng 01/2009 đến tháng 12/ 2010
- Thực tế thực hiện: từ tháng 01/2009 đến tháng 12/2010
- Đƣợc gia hạn (nếu có): không
Kinh phí và sử dụng kinh phí:
a) Tổng số kinh phí thực hiện: 2300 tr.đ, trong đó:
+ Kính phí hỗ trợ từ SNKH: 2300 tr.đ.
+ Kinh phí từ các nguồn khác: 0 tr.đ.
+ Tỷ lệ và kinh phí thu hồi đối với dự án (nếu có):
b) Tình hình cấp và sử dụng kinh phí từ nguồn SNKH:
Số
TT
Theo kế hoạch
Thực tế đạt được
Ghi chú
(Số đề nghị
quyết toán)
Thời gian
(Tháng, năm)
Kinh phí
(Tr.đ)
Thời gian

(Tháng, năm)
Kinh phí
(Tr.đ)
1
03/2009
840
840
840

2
10/2009
360
360
360

3
03/2010
770
770
770

4
10/2010
330
330
330

c) Kết quả sử dụng kinh phí theo các khoản chi:
Đối với đề tài:
Đơn vị tính: Triệu đồng

Số
TT
Nội dung
các khoản chi
Theo kế hoạch
Thực tế đạt được
Tổng
SNKH
Nguồn
khác
Tổng
SNKH
Nguồn
khác
1
Trả công lao động
(khoa học, phổ
thông)
1870
1870

1870
1870

2
Nguyên, vật liệu,
50
50

50

50


Trang: 10
năng lƣợng
3
Thiết bị, máy móc
40
40

40
40

4
Xây dựng, sửa chữa
nhỏ






5
Chi khác
340
340

280
280



Tổng cộng
2300
2300

2240
2240

- Lý do thay đổi (nếu có):

Các văn bản hành chính trong quá trình thực hiện đề tài/dự án:
(1) (Liệt kê các quyết định, văn bản của cơ quan quản lý từ công
đoạn xác định nhiệm vụ, xét chọn, phê duyệt kinh phí, hợp đồng,
điều chỉnh (thời gian, nội dung, kinh phí thực hiện nếu có); văn
bản của tổ chức chủ trì đề tài, dự án (đơn, kiến nghị điều chỉnh
nếu có)
Số
TT
Số, thời gian ban
hành văn bản
Tên văn bản
Ghi chú
1



2









Tổ chức phối hợp thực hiện đề tài, dự án:
Số
TT
Tên tổ chức
đăng ký theo
Thuyết minh
Tên tổ chức đã
tham gia thực
hiện
Nội dung
tham gia chủ
yếu
Sản phẩm
chủ yếu đạt
được
Ghi
chú*
1
Trƣờng ĐH
Bách Khoa
TP.HCM
Trƣờng ĐH
Bách Khoa
TP.HCM
Theo thuyết

minh
Theo thuyết
minh

- Lý do thay đổi (nếu có):
Cá nhân tham gia thực hiện đề tài, dự án:
(Ngƣời tham gia thực hiện đề tài thuộc tổ chức chủ trì và cơ quan phối hợp, không quá 10
ngƣời kể cả chủ nhiệm)
Số
TT
Tên cá nhân
đăng ký theo
Thuyết minh
Tên cá nhân đã
tham gia thực
hiện
Nội dung tham
gia chính
Sản phẩm chủ
yếu đạt được
Ghi
chú*
1
Dƣơng Anh Đức
Dƣơng Anh Đức
Theo thuyết
minh
Theo thuyết
minh


2
Phan Thị Tƣơi
Phan Thị Tƣơi
_nt_
_nt_

3
Ng. Chán Thành
Ng Chánh
Thành
_nt_
_nt_


Trang: 11
4
Ng. Quang Châu
Ng. Quang Châu
_nt_
_nt_

5
Phan Phƣơng
Lan
Phan Phƣơng
Lan
_nt_
_nt_

6

Ng. Đức Dân
Ng. Đức Dân
_nt_
_nt_

7
Lý Quốc Ngọc
Lý Quốc Ngọc
_nt_
_nt_

8
Ng. Đình Thúc
Ng. Đình Thúc
_nt_
_nt_

9
Đinh Bá Tiến
Đinh Bá Tiến
_nt_
_nt_

10
Vũ Hải Quân
Vũ Hải Quân
_nt_
_nt_

- Lý do thay đổi ( nếu có):

Tình hình hợp tác quốc tế:
Số
TT
Theo kế hoạch
(Nội dung, thời gian, kinh phí,
địa điểm, tên tổ chức hợp tác,
số đoàn, số lƣợng ngƣời tham
gia )
Thực tế đạt được
(Nội dung, thời gian, kinh phí,
địa điểm, tên tổ chức hợp tác,
số đoàn, số lƣợng ngƣời tham
gia )
Ghi
chú*
1
Tham gia Hội nghị Quốc tế
Thƣợng Hải, 01, 03.
Tham gia Hội nghị Quốc tế
Thƣợng Hải, 01, 01.

2
Đón đoàn ĐH AUT, New
Zealand, 01, 03
Đón đoàn ĐH AUT, New
Zealand, 01, 03

- Lý do thay đổi (nếu có):
Tình hình tổ chức hội thảo, hội nghị:
Số

TT
Theo kế hoạch
(Nội dung, thời gian, kinh phí,
địa điểm )
Thực tế đạt được
(Nội dung, thời gian, kinh
phí, địa điểm )
Ghi chú*
1
Hội thảo chuyên môn, ĐH
Bách Khoa Tp.HCM, 12/2010
Hội thảo chuyên môn, ĐH
Bách Khoa Tp.HCM,
12/2010

2
Hội thảo chuyên môn, ĐH
Khoa học Tự nhiên Tp.HCM,
11/2010
Hội thảo chuyên môn, ĐH
Khoa học Tự nhiên
Tp.HCM, 11/2010





Tóm tắt các nội dung, công việc chủ yếu:
(Nêu tại mục 15 của thuyết minh, không bao gồm: Hội thảo khoa học, điều tra khảo
sát trong nƣớc và nƣớc ngoài)

Số
TT
Các nội dung, công việc
chủ yếu
(Các mốc đánh giá chủ yếu)
Thời gian
(Bắt đầu, kết thúc
- tháng … năm)
Người,
cơ quan
thực hiện

Theo kế
Thực tế đạt

Trang: 12
hoạch
đƣợc
A. HỆ THỐNG TRUY VẤN THÔNG TIN VĂN BẢN HƯỚNG NGỮ NGHĨA
1.1
HỆ THỐNG TRUY VẤN
THÔNG TIN HƢỚNG ĐẾN
NGỮ NGHĨA VIRS


ĐHBK
(N.C.Thành,
P.T.Tƣơi)
1.1.1
* Mô-đun Xử lý truy vấn (hỗ

trợ phần Video)
1/2009-
6/2009



-Phát triển định dạng truy vấn
quy ƣớc




-Phát triển phƣơng thức tiền
xử lý truy vấn tiếng Việt




-Phát triển hệ thống xử lý truy
vấn dựa trên cơ sở tri thức
tiếng Việt (VKB)



1.1.2
* Mô-đun Truy vấn thông tin
xuyên ngôn ngữ Việt – Anh
6/2009-
12/2009




-Phát triển phƣơng thức truy
vấn thông tin xuyên ngôn ngữ
Việt – Anh




-Hiện thực động cơ truy vấn
thông tin tích hợp



1.1.3
* Mô-đun Truy vấn thông tin
bài báo khoa học tiếng Anh
1/2010-
6/2010



-Phát triển phƣơng thức tạo
chỉ mục hƣớng đến ngữ nghĩa
và tìm kiếm thông tin trong
chỉ mục.





-Phát triển phƣơng thức truy
vấn dựa trên chỉ mục hƣớng
đến ngữ nghĩa




-Hiện thực động cơ truy vấn
thông tin cục bộ



1.1.4
* Triển khai thực nghiệm hệ
6/2010-



Trang: 13
thống VIRS ở một số đơn vị
hợp tác và đánh giá
12/2010

- Tích hợp các mô-đun, cài đặt
hệ thống và thử nghiệm liên
quan tại đơn vị NACESTI





- Tích hợp các mô-đun, cài đặt
hệ thống và thử nghiệm liên
quan tại đơn vị ChipSang



1.2
HỆ THỐNG HỎI ĐÁP
HƢỚNG ĐẾN NGỮ
NGHĨA VQAS
9/2009-
12/2010

ĐHBK
(N.Q.Châu,
P.T.Tƣơi,
N.C.Thành)
ĐH Cần Thơ
(P.P.Lan)
1.2.1
* Mô-đun Hỏi đáp thông tin
tiếng Việt
9/2009-
6/2010



-Nghiên cứu phát triển khả
năng hỗ trợ tiếng Việt trong
hỏi đáp





-Phát triển phƣơng thức nhận
dạng câu hỏi bởi tập các mẫu
hƣớng đến ngữ nghĩa




-Phát triển phƣơng thức tạo
nội dung trả lời dựa trên cơ sở
tri thức tiếng Việt (VKB)




-Phát triển phƣơng thức đánh
giá và chọn lọc câu trả lời
tiếng Việt hƣớng ngữ nghĩa




-Hiện thực động cơ hỏi đáp hỗ
trợ tiếng Việt





Thử nghiệm, hiệu chỉnh động
cơ hỏi đáp tiếng Việt




Trang: 14
1.2.2
* Triển khai thực nghiệm hệ
thống VQAS ở một số đơn vị
hợp tác và đánh giá
6/2010-
12/2010



-Tích hợp các mô-đun, cài đặt
hệ thống và thử nghiệm liên
quan tại đơn vị NACESTI




- Tích hợp các mô-đun, cài đặt
hệ thống và thử nghiệm liên
quan tại đơn vị ChipSang




1.3
CƠ SỞ TRI THỨC TIẾNG
VIỆT VKB ĐỂ PHỤC VỤ
HỆ THỐNG VIRS VÀ
VQAS
1/2009-
12/2009

ĐHBK
(P.T.Tƣơi,
N.C.Thành,
N.Q.Châu)
ĐH Cần Thơ
(P.P.Lan)
ĐH XHNV
(N.Đ.Dân)
1.3.1
* Nghiên cứu phát triển phần
cấu trúc VKB
1/2009-
4/2009



-Khảo sát đánh giá WordNet,
PROTON





-Nghiên cứu phát triển giải
pháp tổ chức dữ liệu hỗ trợ
tiếng Việt phục vụ hệ thống
VIRS




-Nghiên cứu phát triển giải
pháp tổ chức dữ liệu hỗ trợ
tiếng Việt phục vụ hệ thống
VQAS



1.3.2
* Mô-đun huấn luyện VKB
5/2009-
9/2009



-Phát triển giải pháp nhận
dạng cụm từ đặc trƣng tiếng




Trang: 15
Việt


-Phát triển giải pháp ứng dụng
mở rộng cho tiếng Việt trong
một số ứng dụng mã nguồn
mở GATE, Lucene




-Phát triển phƣơng thức huấn
luyện tiếng Việt




-Hiện thực động cơ huấn
luyện cơ sở tri thức và thử
nghiệm



1.3.3
* Mô-đun Khai thác cơ cở tri
thức VKB
10/2009-
12/2009



-Phát triển phƣơng thức khai

thác cơ sở tri thức tiếng Việt
phục vụ hệ thống VIRS và
VQAS




-Hiện thực các giải pháp kỹ
thuật khai thác dữ liệu VKB
và thử nghiệm



1.4
BÁO CÁO NGHIỆM THU
Đề TÀI LIÊN QUAN ĐẾN
HỆ THỐNG TRUY VẤN
THÔNG TIN VĂN BẢN
HƢỚNG NGỮ NGHĨA
9/2010-
12/2010

ĐHBK
(P.T.Tƣơi,
N.C.Thành,
N.Q.Châu)
ĐH Cần Thơ
(P.P.Lan)
ĐH XHNV
(N.Đ.Dân)

B. HỆ THỐNG KHAI THÁC THÔNG TIN VIDEO
B1. Hệ thống truy vấn thông tin video hướng ngữ nghĩa.
1
Xây dựng bộ dữ liệu thử
nghiệm và bộ dữ liệu học

1/2009-
6/2009

ĐHKHTN
(L.Q.Ngọc,
D.A.Đức)

- Chọn lọc bộ dữ liệu thử




Trang: 16
nghiệm và bộ dữ liệu học

- Chú thích thủ công trên bộ
dữ liệu học.



2
Xây dựng mô hình tổ chức
dữ liệu video


1/2009-
6/2009

ĐHKHTN
(L.Q.Ngọc,
D.A.Đức)

-Phân đoạn video thành các
đoạn cơ sở (Shot detection)




-Phân đoạn video thành các
đoạn chƣơng trình (Program
detection)




- Xác định các khung hình
chính của đoạn cơ sở, đoạn
chƣơng trình.




- Rút trích đặc trƣng cho các
khung hình chính, đoạn cơ sở.




3
Xây dựng mô hình học khái
niệm (concept detector)
1/2009-
12/2009

ĐHKHTN
(L.Q.Ngọc,
D.A.Đức)

- Xây dựng tập các khái niệm
cần học.




- Xác định các đặc trƣng thị
giác về màu, vân, hình dáng,
chuyển động cần thiết.




- Xác định phƣơng pháp học.
(SVM, Cây quyết định,
Bayes)




4
Xây dựng hệ thống truy vấn
video dựa vào văn bản trích
1/2009-
11/2010

ĐHKHTN
(V.H.Quân)

- Thu thập và xây dƣng kho
ngữ liệu tiếng nói và văn bản
1/2009-
6/2009



Trang: 17

- Xây dựng và cài đặt mô hình
phân đoạn và gom nhóm âm
thanh
1/2009-
6/2009



- Nghiên cứu và cài đặt các
phƣơng pháp rút trích đặc
trƣng tiếng nói

- Xây dựng và cài đặt mô hình
chuyển đổi tiếng nói sang văn
bản, cài đặt thử nghiệm
6/2009-
12/2009



1/2010-
6/2010



- Xây dựng công cụ lập chỉ
mục tự động giữa tiếng nói và
văn bản
1/2010-
6/2010



- Cài đặt thử nghiệm
6/2010-
12/2010


5
Xây dựng mô hình truy vấn
video ở mức ngữ nghĩa dựa
vào hình ảnh và kết hợp với

văn bản và âm thanh.
1/2010-
11/2010

ĐHKHTN
(L.Q.Ngọc,
D.A.Đức,
V.H.Quân)

- Xây dựng và cài đặt mô hình
truy vấn video ở mức ngữ
nghĩa dựa vào hình ảnh.




- Xây dựng và cài đặt mô hình
truy vấn video ở mức ngữ
nghĩa dựa vào văn bản, âm
thanh.




- Xây dựng và cài đặt mô hình
truy vấn video ở mức ngữ
nghĩa kết hợp hình ảnh, văn
bản và âm thanh.




B2. Hệ thống truy vấn chuyển động
1
Tìm hiểu, nghiên cứu và
phân tích các kỹ thuật và
các kết quả
1/2009 –
6/2009

ĐHKHTN
(Đ.B.Tiến)

Trang: 18
1.1
Tìm kiếm, khảo sát và sƣu tập
các tài liệu của các hệ thống
thực tế có liên quan đến lĩnh
vực này



1.2
Nghiên cứu các kĩ thuật phát
hiện đối tƣợng bằng phƣơng
pháp so khớp đặc trƣng



1.4
Tìm hiểu phƣơng pháp lọc và

các phƣơng pháp khác có liên
quan(optical flow, online
selection ) cho bài toán theo
vết đối tƣợng



1.5
Tìm hiểu việc kết hợp các
phƣơng pháp hiện có để giải
quyết bài toán theo vết đối
tƣợng



2
Cài đặt thử nghiệm 1 số kỹ
thuật theo kết quả đã tìm
hiểu ở trên
7/2009 –
10/2009

ĐHKHTN
(Đ.B.Tiến)
2.1
Thu thập dữ liệu liên quan cho
bài toán thuộc mảng thể thao
và 1 số bộ dữ liệu đơn giản
liên quan




2.2
Nghiên cứu và cài đặt phần
phát hiện đối tƣợng



2.3
Nghiên cứu và cài đặt kĩ thuật
theo vết đối tƣợng dựa trên
phƣơng pháp lọc (filter)



2.4
Nghiên cứu và cài đặt phƣơng
pháp KLT, meanshift, online
selection



2.5
Thử nghiệm các phƣơng pháp
đối với bộ dữ liệu ở trên và




Trang: 19

cân chỉnh các tham số của
chƣơng trình
3
Thiết kế và đƣa ra mô hình
11/2009 –
2/2010

ĐHKHTN
(Đ.B.Tiến &
V.H.Quân)
3.1
Thiết kế tổng thể về chức
năng của hệ thống theo vết đối
tƣợng



3.2
Thiết kế giao diện hệ thống
phát hiện và theo vết đối
tƣợng



3.3
Dựa trên các kết quả thử
nghiệm ở mục trên, đƣa ra
hƣớng tiếp cận mới và mô
hình tƣơng ứng để giải quyết
bài toán theo vết đối tƣợng




4
Xây dựng bộ dữ liệu và các
module tƣơng ứng cho phần
phát hiện và theo vết đối
tƣợng
2/2010 –
7/2010

ĐHKHTN
(Đ.B.Tiến &
V.H.Quân)
4.1
Xây dựng bộ dữ liệu hoàn
chỉnh cho bài toán và chuẩn
hóa dữ liệu



4.2
Cài đặt giao diện của hệ thống



4.3
Cài đặt module phát hiện đối
tƣợng




4.4
Cài đặt module theo vết đối
tƣợng theo mô hình đề xuất ở
trên



4.5
Tổng hợp và ghép các module
trên thành một hệ thống hoàn
chỉnh




Trang: 20
5
Cài đặt, chạy thực tế, và so
sánh với các kết quả liên
quan. Điều chỉnh các tham
số cho phù hợp hơn
7/2010 –
9/2010

ĐHKHTN
(Đ.B.Tiến,
V.H.Quân)
5.1

Chạy thử nghiệm thực tế trên
bộ dữ liệu và lập các báo cáo
kết quả



5.2
Phân tích các kết quả để tinh
chỉnh các tham số và cải tiến
thuật giải bên dƣới nâng cao
kết quả



6
Rút trích các thông tin liên
quan đến quá trình theo vết
đối tƣợng
9/2010 –
11/2010

ĐHKHTN
(Đ.B.Tiến,
V.H.Quân)
6.1
Dựa trên thông tin thu đƣợc
trong quá trình theo vết đối
tƣợng, phân tích các thông tin
có ý nghĩa mà ngƣời dùng
quan tâm




6.2
Cài đặt module rút trích các
thông tin có ý nghĩa này



7
Tổng hợp toàn bộ hệ thống,
hoàn thiện chƣơng trình và
các báo cáo liên quan
11/2010-
12/2010

ĐHKHTN
(Đ.B.Tiến,
V.H.Quân)

III. SẢN PHẨM KH&CN CỦA ĐỀ TÀI, DỰ ÁN
Sản phẩm KH&CN đã tạo ra:
a) Sản phẩm Dạng I: không có

b) Sản phẩm Dạng II:
Số
TT
Tên sản phẩm

Yêu cầu khoa học

cần đạt

Ghi chú

Theo kế hoạch
Thực tế

Trang: 21
đạt đƣợc
A. HỆ THỐNG KHAI THÁC THÔNG TIN VĂN BẢN HƢỚNG NGỮ
NGHĨA
1
Chƣơng trình
máy tính: Hệ
thống truy
vấn thông tin
hƣớng đến
ngữ nghĩa
(VIRS)
VIRS thực hiện các chức năng
sau:
[A] Tiền xử lý truy vấn tiếng
Việt đầu vào để phục vụ khai
thác thông tin văn bản và khai
thác thông tin video.
-Độ chính xác:~55%, Độ bao
phủ:~50%
[B] Truy vấn thông tin (dạng
tiếng Anh, hay dạng tiếng Việt
theo cách so trùng từ chính xác)

trên Internet (Web) bởi kết hợp
với một động cơ tìm kiếm thông
tin sẵn có trên Internet (Google,
Yahoo…). Đầu vào là truy vấn
tiếng Việt của ngƣời dùng dạng
câu đơn/cụm danh từ đơn/từ
khóa đơn. Đầu ra là danh mục
các kết quả cần tìm trả về bởi
công cụ tìm kiếm thông tin đã
dùng.
-Độ chính xác:~55%, Độ bao
phủ:~50%
-Từ điển máy khả đọc Việt-Anh
trong lĩnh vực kỹ thuật (máy
tính, phần cứng, phần mềm và
viễn thông) có khoảng 4000
mục từ tiếng Việt và 4000 mục
từ tiếng Anh
[C] Truy vấn thông tin (tiếng
Anh) trên kho tài liệu tiếng Anh
xác định trƣớc (các bài báo
khoa học có cấu trúc quy ƣớc).
Đầu vào là truy vấn tiếng Anh
của ngƣời dùng dạng cụm danh
từ đơn/từ khóa đơn. Đầu ra là
danh mục tài liệu tiếng Anh tìm
đƣợc.
-Độ chính xác:~55%, Độ bao
Nhƣ thuyết
minh



Trang: 22
phủ:~50%
-Tập tài liệu huấn luyện gồm
các bài báo khoa học thuộc lĩnh
vực kỹ thuật có cấu trúc quy
ƣớc (IEEE, ACM, Springer)
tiếng Anh, có khoảng 750MB
-Tập chỉ mục hƣớng ngữ nghĩa
khởi đầu có khoảng 4 nét ngữ
nghĩa.
* Sản phẩm có bộ tài liệu kỹ
thuật/hƣớng dẫn sử dụng
2
Chƣơng trình
máy tính: Hệ
thống hỏi đáp
hƣớng đến
ngữ nghĩa
(VQAS)
VQAS thực hiện chức năng hỏi
đáp thông qua việc tƣơng tác
với cơ sở tri thức VKB để thực
hiện trả lời câu hỏi.
-Độ chính xác:~50%, Độ bao
phủ:~50%
- Tập dạng câu hỏi tiếng Việt
đầu vào của hệ thống khởi đầu
có 6 dạng câu hỏi WH (who/ai,

which/cái nào-ngƣời nào,
what/cái gì, when/khi nào,
where/ở đâu, why/tại sao)
- Đầu ra là câu trả lời tiếng Việt
phù hợp nhất hƣớng đến ngữ
nghĩa.
-Miền thông tin tri thức tiếng
Việt cho câu hỏi và trả lời giới
hạn trong lĩnh vực công nghệ
thông tin và viễn thông.
* Sản phẩm có bộ tài liệu kỹ
thuật/hƣớng dẫn sử dụng.
Nhƣ thuyết
minh

3
Chƣơng trình
máy tính: Cơ
sở tri thức
tiếng Việt
(VKB) để
phục vụ việc
hiện thực hệ
thống VIRS
và VQAS
VKB gồm các chức năng:
[A] Cấu trúc tổ chức của cơ sở
tri thức
-Miền thông tin tri thức tiếng
Việt giới hạn trong lĩnh vực

công nghệ thông tin và viễn
thông.
-Có 20 phân lớp chính, mỗi
phân lớp chính có khoảng 25



Trang: 23
phân lớp con, mỗi phân lớp con
có khoảng 7 tính chất.
-Có khoảng 2000 đầu mục
(entry) phục vụ cho hệ thống
VIRS và VQAS. Trong đó
VQAS có 6 dạng câu hỏi WH
(who/ai, which/cái nào-ngƣời
nào, what/cái gì, when/khi nào,
where/ở đâu, why/tại sao).
[B] Công cụ hỗ trợ huấn luyện
cơ sở tri thức
-Độ chính xác:~60%, Độ bao
phủ: ~50%
[C] Công cụ hỗ trợ khai thác
thông tin.
-Độ chính xác:~80%, Độ bao
phủ:~80%
* Sản phẩm có bộ tài liệu kỹ
thuật/hƣớng dẫn sử dụng.
B. HỆ THỐNG KHAI THÁC THÔNG TIN VIDEO
B1. Hệ thống truy vấn video hƣớng ngữ nghĩa
4

Chƣơng trình
máy tính: Hệ
thống học
khái niệm dựa
vào hình
ảnh(VR1 )
Đạt đƣợc độ chính xác
(Precision) và độ phủ (Recall)
từ 60% trở lên, có thể so sánh
với thế giới (hoặc thấp hơn một
chút), trong các điều kiện ràng
buộc sau:
 Tập dữ liệu huấn luyện,
thuộc chủ đề thể thao, có
kích thƣớc 100 giờ.
 Tập dữ liệu kiểm tra,
thuộc chủ đề thể thao, có
kích thƣớc 2 giờ.
Các dữ liệu đƣợc thu từ đài
truyền hình HTV hoặc VTV
Nhƣ thuyết
minh

5
Chƣơng trình
máy tính: Hệ
thống truy
vấn video dựa
vào tiếng nói
tiếng Việt

Đạt đƣợc độ chính xác
(Precision) và độ phủ (Recall)
từ 50% trở lên, có thể so sánh
với thế giới, trong các điều kiện
ràng buộc sau:
 Tập dữ liệu huấn luyện,
Nhƣ thuyết
minh


Trang: 24
(VR2)
thuộc chủ đề thể thao, có
kích thƣớc 100 giờ.
 Tập dữ liệu kiểm tra,
thuộc chủ đề thể thao, có
kích thƣớc 2 giờ.
Các dữ liệu đƣợc thu từ đài
truyền hình HTV hoặc VTV
6
Chƣơng trình
máy tính: Hệ
thống truy
vấn video ở
mức ngữ
nghĩa dựa vào
hình ảnh, âm
thanh (văn
bản trích -
VR3)

Đạt đƣợc độ chính xác
(Precision) và độ phủ (Recall)
từ 60% trở lên, có thể so sánh
với thế giới.
trong các điều kiện ràng buộc
sau:
 Tập dữ liệu huấn luyện,
thuộc chủ đề thể thao, có
kích thƣớc 100 giờ.
 Tập dữ liệu kiểm tra,
thuộc chủ đề thể thao, có
kích thƣớc 2 giờ.
Các dữ liệu đƣợc thu từ đài
truyền hình HTV hoặc VTV
Nhƣ thuyết
minh

B2. Hệ thống truy vấn chuyển động
7
Chƣơng trình
máy tính:
Công cụ theo
vết đối tƣợng
sau khi đã
đƣợc phát
hiện - DP1
- Có độ chính xác cao, đạt từ
90% trở lên
- Thực thi theo thời gian thực.
trong các điều kiện ràng buộc

sau:
 Tập dữ liệu huấn luyện,
thuộc chủ đề thể thao, có
kích thƣớc 100 giờ.
 Tập dữ liệu kiểm tra,
thuộc chủ đề thể thao, có
kích thƣớc 2 giờ.
Các dữ liệu đƣợc thu từ đài
truyền hình HTV hoặc VTV
Nhƣ thuyết
minh

8
Chƣơng trình
máy tính:
Công cụ theo
vết đối tƣợng
sau khi đã
- Có độ chính xác cao, đạt từ
80% trở lên cho dữ liệu bản tin
thể thao và số lƣợng chuyển
động là biết trƣớc.
- Có độ chính xác cao, đạt từ
Nhƣ thuyết
minh


Trang: 25
đƣợc phát
hiện – DP2

60% trở lên cho dữ liệu bản tin
thể thao và số lƣợng chuyển
động là không biết trƣớc
trong các điều kiện ràng buộc
sau:
 Tập dữ liệu huấn luyện,
thuộc chủ đề thể thao, có
kích thƣớc 100 giờ.
 Tập dữ liệu kiểm tra,
thuộc chủ đề thể thao, có
kích thƣớc 2 giờ.
Các dữ liệu đƣợc thu từ đài
truyền hình HTV hoặc VTV

c) Sản phẩm Dạng III:
Số
TT
Tên sản phẩm

Yêu cầu khoa học
cần đạt

Số lượng, nơi
công bố
(Tạp chí, nhà
xuất bản)
Theo
kế hoạch
Thực tế
đạt đƣợc

1
Các bài báo khoa học về
mô hình hệ thống truy
vấn thông tin hƣớng đến
ngữ nghĩa có hỗ trợ
tiếng việt
Đƣợc đăng
toàn văn
04


07
Các hội nghị
khoa học
(trong và
ngoài nƣớc)
2
Các báo các khoa học về
chủ đề hệ thống khai
thác thông tin video.
Đƣợc đăng
toàn văn
03

11
Các hội nghị
khoa học
(trong và
ngoài nƣớc)


d) Kết quả đào tạo:
Số
TT
Cấp đào tạo, Chuyên
ngành đào tạo
Số lượng
Ghi chú
(Thời gian kết
thúc)
Theo kế hoạch
Thực tế đạt
đƣợc
1
Thạc sỹ - Khoa học máy
tính
06
06

2
Tiến sỹ - Khoa học máy
tính
02
02


đ) Tình hình đăng ký bảo hộ quyền sở hữu công nghiệp, quyền đối với giống cây
trồng:

×