Tải bản đầy đủ (.pdf) (166 trang)

Nghiên cứu phát triển mô hình và giải pháp xây dựng hệ thống tìm kiếm thực thể tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (76.6 MB, 166 trang )

DẠI HỌC Ọl <>( (ỈIA MẢ NỘI
I RƯỜNG DẠI MỌC ('ÔNG N( ìl II
NGHIÊN CỬU PHÁT TRIÈN MÔ HÌNH VÀ GIẢI PHÁP
XÂY DựNG HỆ THÓNG TÌM KIẾM THỤC THẾ TIẾNG VIỆT
Mã số: QG. 10.38
Chủ nhiệm đề tài: PGS. TS. Hà Quang Thụy
Hà Nội - 2011
DẠI HOC Ọl (H (ilA BÀ NỘI
1'KU'ỔNCi DẠI I IỌC CỔNG NGl II
BẢO CẢO TÔNG HỢP NGHIỆM TIIU
ĐÈ TÀI NCHIÊN cứ u KHOA HỌC CÁP ĐẠI HỌC QUỐC GIA HÀ NỘI
LOẠI B
DO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ QUẢN LÝ
MỤC LỤC
GIAI THÍCH CÁ C CHÙ' VI! I TẢ I 4
DA NH SÁCH NH Ừ NG NG Ư ỜI TH AM GIA T H ỤC HIỆN DẺ T A I 5
DANH M ỤC CÁ C BA N G SỒ L IỆ U 6
DA NH M ỤC C ÁC H Ì N H 7
T ÓM TẮT C ÁC K Ế T Q U Ả NG HIÊN c ử u CH ÍN H C ỦA ĐỀ T À I 8
1. Ket quả về khoa h ọ c 8
2. Ket quá phục vụ thực tế 8
3. Kết quả đào tạ o 9
4. Ket quả nâng cao tiềm lực khoa học 10
I. DẶ T VẨN Đ Ề II
II. TỔN G Q UAN C ÁC VÁN ĐỀ N GH IÊN c ử u 13
III. MỤC TIÊU, ĐỊA ĐIẾM, T H ỜI GIA N VÀ PH ƯƠ NG PH ÁP NG HIÊN c ú u

16
IV. NỘI DU NG NG HIÊN c ử u 17
1. X ử lý tiếng Việt trong tìm kiếm thực th ể 1 8
2. Các m ô hình, siài pháp tìm kiếm thực thể !9


2.1. Mô hình, giải pháp trích xuất thông tin thực th ể 19
2.2. Mô hình, giải pháp khai phá quan điểm theo đặc trưng sản phẩm từ các đánh e,iá tiếng
V iệ t

.

.

.
'


.

.

21
2.3. M ột số mô hình, giải pháp tìm kiếm thực thể tiếng Việt k h ác 21
3. Triển khai các thành phần và hệ thống tìm kiếm thực thể tiếng Việt 24
3.1. Phát triển nâng cấp Hệ thống tìm kiếm giá cả VN Gia (V nG ia.co m)
24
3.2. Hệ thống hỏi đáp ngưòi tiếng Việt đã chạy thử nghiệm quảng b á 26
3.3. Hệ thống thử nghiệm khai phá quan điểm theo đặc tnrng sản phẩm tiếng V iệ t

27
3.4. Phần m ềm tìm kiếm ngưòi cùng tên tiếng V iệt 27
3.5. Phần mềm tìm kiếm ảnh theo nội d u ng 28
V. KÉT QU Ả N GH IÊN c ử u 29
1. Ket quả công bổ khoa học cùa đề tà i 29
2. Ket quả đào tạo cùa đề tài 29

2.1. Đào tạo sau đại học 29
2.2. Đào tạo đại h ọc 30
3. Ket quả ứng dụng cùa đề t ài 30
VI. T HẢ O LUẬN VÀ ĐÁ NH G I Á 31
1. Thảo luậ n 31
2. Đánh giá 3 1
VII KẾT LU ẬN VÀ KI ÉN N G H Ị 33
1. Kết lu ận 33
2. Kiến n g hị 33
TÀI LIỆU TH AM K H Ả O 34
I’llỤ I ụ c
37
Phụ lục I. Các phụ lục chuyên môn liên quan đến nội dung cua dê tà i 38
Phụ lục 1.1. Các bài báo khoa học 39
Phu lục 1.2. Quyết định công trình sinh vicn nghiên cứu khoa học hai năm 2010, 201 1 (cấp
Trường DHCN và cấp DI IỌ GHN )

r.
1 35
Phụ lục 1.3. Bản sao bìa luận văn cao h ọ c 149
Phụ lục 1.4. Danh sách 23 đề tài khóa luận đại học bảo vệ Irong hai năm 2010-201 1 168
Phụ lục 1.5. Chương trình hội thảo W orkshop On Domain-Specific Intelligent Search Engine
.

.7

.
171
Phụ lục i .6. Chủ đề họp tác nghiên cứu giữa Trườna Đ HC N và Viện rin học Quốc aia Nhật
B ản

.

.

.

.




173
Phụ lục 2. Bản sao đề cương đề tài QG. 10.38 174
Phụ lục 3. Bản tóm tất kết quả đề tồi bằng tiếng A n h 197
Phụ lục 4. Phiếu đăne ký kết quả nghiên cứu K H -C N 199
GIẢI THÍCH CÁC CHỮ VIÉT TẤT
C1CC
Center of the International Cooperation for Computerization, Japan
CNTT Công nchệ thông tin
CRFs Conditional Random Fields
CSDL Cơ sỏ' dữ liệu
ĐHCN Đại học Gông nghệ
ĐHQGHN Đại học Quốc gia Hà Nội
JAIST Japan Advanced Institute of Science and Technology
KH-CN
Khoa học - Công nghệ
kNN k Nearest Neighbor
KTLab
The Knowledge Technology Laboratory
Nil

National Institute of Informatics, Japan
POS
Part Of Speech
SEM Search engine marketing
SEO Search engine optimization
SVM
Support Vector Machine
SVNCKH Sinh viên nghiên cứu khoa học
UGC
User Generated Content
UIUC University of Illinois at Urbana-Champaign, USA
VNQA
Vietnam Question Answering
VNSEN VietNam Search ENgine
WePS
Web Person Search
-4-
DANH SÁCH NHỮNG NGƯỜI THAM GIA THỤC HIỆN ĐÈ TÀI
Chu trì. Th ư ký cua đẽ tài:
■ C hủ trì: PG S. TS. Hà Q ua ng T hụ y (Trườnt> Đ H C N )
■ ! hu ký: Lê ỉ loảng Q uỳnh (G iàng viên tạo nguồn, nvcn. T ru ồn g D H C N )
* N hữ ng người thực hiện:
ST ĩ
Cơ quan phối
hợp
Côìỉiĩ tác viên
Họ và tên Trình độ Chuyên
ngành
1.
Khoa CNTT,

ĐHCN
Hà Quang Thụy (CT)
PGS.TS
CNTT
2. -nt- Lê Hoàng Quỳnh (TK) HVCH CNTT
3. -nt-
Nguyễn Trí Thành
TS CNTT
4.
-nt-
Nguyễn Cầm Tú
TS
CNTT
5. -nt- Trần Mai Vũ ThS
CNTT
6. -nt-
Nguyễn Thu Trang ThS
CNTT
7. -nt-
Vũ Tiến Thành HVCH CNTT
8. -nt-
Trần Nam Khánh
HVCH
CNTT
9. -nt-
Nguyễn Thanh Sơn HVCH
CNTT
10.
-nt-
Nguyễn Tiến Thanh HVCH CNTT

11. -nt- Nguyễn Đạo Thái
HVCH
CNTT
12. -nt- Phạm Huyền Trang Cử nhân CNTT
13. -nt- Lê Đức Trọng Cử nhân
CNTT
14.
-nt-
Trần Xuân Tứ
Cử nhân CNTT
15.
-nt-
Nguyễn Tiến Tùng Cử nhân CNTT
16. -nt- Lưu Công Tố
Cử nhân CNTT
17.
-nt- & NII Đoàn Sơn
TS CNTT
18. -nt- & JAIST
Nguyễn Việt Cường
TS
CNTT
19. -nt- Phan Xuân Hiếu
TS
CNTT
DAN H MUC CAC BANC SÔ LIEU
Bàng
irang
B àn g 1. Câtig bô kl 10 a hoc co giâ tri cao cûa h an g Google toi tigcn 18/ ! 1 7011
I 1

Rang 2. Sô lucmg bai viêt dura cac cum tir t'un kiêm tlitre ihê theo Google
Scholar
13
31
B àng 3. So semh son phâm âê tài theo âcïng ki và theo tlurc hiên
DANH MỤC CÁC HÌNH
Hình
Train;
Hình 1. Mô hình lim kiêm thông thường và mô hình tìm kiêm thực thê 14
Hình 2. Trang u:8080/r\\'iki/bin/vie\\'/ vỡ dư án TÌViki
phoi hợp giữa nhóm đê lài với nhóm c. Kevin Chung tụi UIÍỈC
16
Hình 3. Mô lúnh quy nạp sinh Xpath-wrapper để trích xuất đặc trung thực thể
20
Hình 4. Mô hình đôỉi% tham chiêu trích chọn đặc trưng người
20
Hình 5. Mô hình CRFs trích chọn đặc trưng người
20
Hình 6. Mô hình mở rộng thực thể dựa trên luật cú pháp và cấu trúc wrapper 22
Hình 7. Mỏ hình trích xuất và tổng hợp quan điếm theo đặc trưng từ đánh giá
sản phấm
22
Hình 8. Mô hình gom nhóm lừ đặc trưng tronç khai phá quan điếm theo đặc
trưng
22
Hình 9. Mô hình tìm kiếm người cùng tên tiếng Việt 22
Hình 10. Mô hình trích xuât chủ đê ưa thích cùa người dùng
23
Hình 1 1. Mô hình hệ thống hỏi đáp ve người
23

Hình 12. Mô hình hệ thống tìm kiêm ảnh lớp trên
23
Hình 13 .Mô hình phân cụm ánh theo tập đặc trưng kết hợp văn bản
23
Hình 14.Sơ đồ hệ thống tìm kiếm giá CCI VNGia 24
Hình 15.Hình ảnh hệ thong tìm kiếm giá củ VNGia (htíp:/www. VNGia.com)
25
Hình 16. Giao diện cài đặt thử nghiệm VNQA
26
Hình 17. Kết quà tổn g hợp đánh giá sàn phẩm Nokia C5-03
27
Hình 18. Cấu trúc thành phần một phan mềm tìm kiếm người cùng tên
28
Hình 19. Trả về theo truy van “Pluto” cùa Google (trên cùng), của Yahoo
(giữa) và phần mềm thử nghiệm của để tài fdưới cùng)
28
-7-
TÓM TẤT CÁC KÉT QUẢ NÍỈIIIÊN cử u CHÍNH ('H A DỀ TẢI
/. hết qitti vé khoa học
* C ô ne bố tám (8) bài báo khoa học thuộc hệ thốim IBIiR /Sprinuer d ượ c dưa vào C ơ
sờ d ữ liệu Scopus (7 bài háo đã đăng. 1 hài báo dược nhận đăng):
I ]|. Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran, Quatm-Tluiy Ha (201 1). A
Solution for Grouping Vietnamese Synonym Feature Words in Product
Reviews, JEEE_APSC X ' 'Jill I. Jeju, Korea (in press) (IEEE, Scopus, DBLP).
[2J. Hoang-Quynh Lc. Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan, Quang-
Thuy Ha (2011). An Integrated Approach Using Conditional Random Fields
for Named Entity Recognition and Person Property Extraction in Vietnamese
Text, /ALP 201 / : 115-118 (IEEE, Scopus, DBLP).
[3], Duc-Trong Le, Mai-Vu Tran, Tri-Thanh Nguyen, Quang-Thuy Ha (2011). Co
reference Resolution in Vietnamese Documents Based on Support Vector

Machines, I ALP 2011: 89-93 (IEEE, Scopus, DBLP).
[4]. Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu (2011).
An Upgrading Feature-based Opinion Mining Model on Product Reviews in
Vietnamese, AMT'201 J: 173-185, Lanzhou, China (Springer, Scopus, DBLP)
[5], Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu, Quang-Thuy Ha (2011). A
Feature-based Opinion Mining Model on Product Reviews in Vietnamese,
Studies in Computational Intelligence, SCI 381
(
Semantic Methods for
Knowledge Management and Communication): 23-33 (Springer. Scopus.
DBLP)
[6], Nam-Khanh Tran, Kim-Cuong Pham, Quang-Thuy Ha (2010). XPath-Wrapper
Induction for Data Extraction. 1ALP 2010 (Harbin, Heilongjiang China;
December 28-30, 2010): ] 50-153 (IEEE, Scopus, DBLP)
[7].Mai-Vu Tran, Tien-Tung Nguyen, Thanh-Son Nguyen, Hoang-Quynh Le
(2010). Automatic Named Entity Set Expansion Using Semantic Rules and
Wrappers for Unary Relations, I ALP 2010: 170-173 (IEEE, Scopus, DBLP)
|8].Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong (2010). User Interest Analysis
with Hidden Topic in News Recommendation System, IALP 2010: 211-214
(IEEE, Scopus, DBLP).
* Một so báo cáo học thuật về hệ thống tim kiếm thực thể người tiếng Việt, tìm kiếm
đa phương tiện, hòi-đáp về người, khai phá quan điểm dược trình bày tại Phòng
Thí nghiệm Công nghệ tri thức (KTLab), tại Viện Tin học Quốc gia Nhật Bản (Nil)
và Viện KH&CN tiên tiến Nhật Bản (JAIST).
* Giáo trình Khai phá dữ liệu (theo hop đồng riêng, dự kiến nghiệm thu cấp Khoa
CNTT vào tháng 12/201 1) và Bải giảng Nhập môn Khoa học dịch vụ (đã có, xem
lại trang web />2. Ke/ quả phục vụ thực tế
* Phát triển nâng cấp Hệ thống tỉm kiếm giá cả VNGia (VnGia.com).
■ Hệ hỏi đáp người tiếng Việt đã chạy thử nghiệm quảng bá.
" Hệ thống thừ nghiệm khai phá quan điểm theo dặc trưng sản phẩm.

■ Phần mềm thử nghiệm tìm kiếm người cùng tên tiếng Việt.
* Phần m ềm thừ nghiệm tìm kiếm ảnh, video theo nội dung.
-8-
J. Ket qua dào tạo
(nội (hunĩ M Ịhicn cứu Iro n y luận án, luân văn, khỏa ỉuận lôl H íịhiệp Ví/ CÔHỊỊ trình s iìiỉì
viên nghiên cứu khoa học ẹă/ỉ Hên với nội lỉu nạ nghiên cửu thực hiện đê lù i ì:
* C ó 5 côn g Irình S V N C K H với I dạt giải nhất, 3 giải nhì, và I giải ba cấp trườn ti
Đ H C N (tronu số 10 cô ng trình S V N C K H đã báo cáo lại hội nahị các cap):
I 11 Mở rộnỉỊ tập thực thế định danh dựa vào luật wrapper và luật nẹừ nghĩa. Nhóm
sinh viên Nguyễn Thanh Son, Nguvễn Tiến Tùng, Chu Thị Thủy: đạt giải Nhì cấp
Trường ĐHCN 2010;
ị 2] Một mò hình xây dựng tự độngOntoỉogy dựa vào Wikipedia tiénq Việt trên miên
ứng dụng các trường đại học Việt Nam. Nhóm sinh viên Nguyễn Tiến Thanh. Vũ
Xuân Sơn, Lê Thu Hà: đạt giải Nhì cấp Trường ĐHCN, 2010;
Ị 3] Mô hình ứng dụng tư vấn dựa trên phân tích sự quan tâm của nẹười dung. Nhóm
sinlì viên Nguyễn Đao Thái, Uông Huy Long, Trần Xuân Tứ: đạt giải Ba cấp
Trường ĐHCN, 2010;
[ 4 Ị Mô hình hệ thông hỏi đáp thực thê tên người cho liêng Việt, Nhỏm sinh viên Lê
Đức Trọng, Trần Xuân Tứ, Nguyễn Tiến Tùng: đạt Giải NHÁT, Trường ĐHCN
năm 2011 và đạt giải BA cấp ĐHQGHN năm 2011;
[5] Mô hình trích chọn quan hệ tương tác protein và gen dựa trên kỹ thuật
boostrappinẹ và học máy SVM, Nhúm sinli viên: Chu Thị Thủy, Đào Minh Tùng,
Hà Thị Oanh, Trần Phi Dũng. Giải NHÌ, Trường ĐHCN năm 2011.
■ 23 khóa luận tốt nghiệp đại học (6 sinh viên K51 và 17 sinh viên K52),
* 06 luận văn Thạc sỹ:
[1]. Nguyễn Đình Văn (2011). Một số thuật toán khai phá luật dãy và ứng dụng thử
nghiệm vào hệ thống quản lý khách hàng và tính hóa dơn nước. Luận văn Thạc sỹ,
Trường Đại học Công nghệ - ĐHQGHN, 6-2011.
|2J Phạm Thị Ánh (201 1). Phương pháp phân cụm tích lũy và áp dụng tại ngân hàng
TMCP Quân đội. Luận văn Thạc sỹ, Trường Đại học Công nghệ - ĐI1QGHN, 6-

2011.
[3] Trần Mai Vũ (2010). Tóm tat da văn bản dựa vào trích xuất câu, Luận văn Thạc
sỹ, Trường Đại học Công nghệ - ĐHQGHN, 2-2010.
ị41 Nguyễn Đức Vinh (2011). Nghiên cứu dộ đo tin cậy và áp dụng vào hệ thống tư
vấn, Luận văn Thạc sỹ, Trường Đại học Công nghệ - ĐHQGHN, 11-201 ].
|5] Phạm Thị Thu Uyên (2011). Nghiên cứu, cải tiến phương pháp mở rộng truy vấn
và tích hợp vào hệ thống tìm kiếm tiếng Việt, Luật 1 văn Thạc sỹ, Trường Đại học
Công nghẹ - ĐHQGHN, ll -2011.
[6] Nguyễn Thị Thu Chung (20ll). Nghiên cửu, phát triển phương pháp tính độ
tương tự câu hỏi trong hệ tìm kiếm và ứng dụng thử nghiệm vào một hệ thống tìm
kiếm tiếng Việt, Luận văn Thạc sỹ, Trường Đại học Công nghệ - ĐHQGHN, l l-
20ll.
ỉ lon nữa, học viên Vũ Tiến Thành đã hoàn thành thủ tục bảo vệ luận văn đợt tháng
12/201 (công bố 4 bài báo khoa học quốc tế); học viên Lê Hoàng Quỳnh đane viết
luận văn (công bố 2 bài báo khoa học quốc tể).
-9-
M ột thành vièn NC S. Trằn Mai Vũ côn g bố ba bài báo quốc tế năm 201 I: Hai (hành
viên báo vệ luận án TS lại Nhật Ban (N iụiyen Việt C ườ ng - JA IST . N g uvễ n c ẩ m Tú
T oh o ku U niversity).
4. Ket quả nâng cao tiềm lục khoa học
■ De lài Kil-C N' Ọ G. 10.38 thu hút đư ợc hoạt độ ng nghiên cứ u cua các cán hộ, cán
bộ tạo nguồn của Kh oa C N T T (thành viên th ườ ng xuyên):
6 cán bộ có trình độ Tiến sỹ (H à Q u an g Thụy, Ng uy ễn Trí T hành . Phan X uân
Hiểu. Đ oàn Sơn, N guy ễn c ẩ m Tú. N gu yễn Việt C ườ ng ), trong dó có 3 nu ười là
TS. Đ oàn Sơn. TS. N gu yễn c ẩ m T ú. TS. N gu yễ n Việt C ườ ng đ an g c ônc tác
các cơ quan khoa học tiên tiến ở nư ớc neoài.
] cán bộ có trình độ T hạc sỹ, làm N C S T S là T hS T rần Mai Vũ.
6 học viên cao học là giảng viên tạo n guồ n, 5 cử nhân (tốt nghiệp năm 2011).
C ó 4 học viên cao học, cử nhân tốt nghiệp n ăm 201 1 là thành viên cùa đề tài
(V ũ Tiến T hành, Lê H oàn g Q uỳn h. L ê Đ ức T rọ ng , P hạm H uyề n T rang ) đ ượ c

Q uỹ nghiên cứu cơ bản quốc gia N afo sted hỗ trợ kinh phí đi báo cáo khoa học
tại các hội nghị khoa họ c quốc tế thuộc h ệ thố ng A C M /IE EE /S p ring er.
■ N â ng cao trình độ hợp tác quốc tế về ng hiên cứu: T iếp tục hợp tác K H -C N với
Ph òn g Thí ng hiệm của G S. A kira Sh im azu (JA 1ST, Japan) về xử lý ngô n ng ữ tự
nhiên và khai ph á w eb, với nh óm n ghiên cứu cùa PG S. TS. Kevil C han g
(University Illinois at U rb an a-C ha nnp ain , U S A ) về m áy tìm kiếm thực thể nói
riêng và m áy tỉm kiếm ng ữ nghĩa nói chung. X úc tiến họp tác với nhó m ng h iên cứu
của PG S. N igel C ollier (Viện Tin học Q u ố c gia N hật Bản) về xây dự ng hệ thô n g
thông tin thực thể từ p hư ơn g tiện xã hội (social media).
■ T ổ chức sem inar khoa học h àng tuần tại Phòn g Thí nghiệm C ôn g ng hệ tri th ức
(K TL ab ), K ho a C N T T
-10-
Xây dự n g và nâng câp các hộ thòng lìm kiêm luôn là một nội dun lí khoa học-
cô ne ng hệ thời sự của các n hóm Iiuhiên cửu, các CÙIUỈ ty vê lĩnh vục lim kiêm trên thể
Liiới. đặc biệt dối với các hãng tỉm kiếm hàná, đầu thế giới n hư Google. Y ah oo
T hành côrìg của hệ thôn g tìm kiếm B aidu cùa T ru ng Qu ốc (m ột hệ th ống tìm
kiếm nội dịa) và thành cô ng bước đầu cùa các tiện ích m ới đư ợc bô su ng vào các hệ
th in g tìm kiếm hiện hành đã thế hiện tính cần thiết n âng cấp hệ th ố nu tim kiếm. Các
thành cônũ nói trên đượ c bắt nguồn từ các n ghiên cứu c ôn u phu về m ô hỉnh và uiải
pháp. T hố ng kê số liệu từ trang w eb /piibs/papers.htm l ngày
18/11/201 I cho thấv, h ãng tìm kiếm h àng đầu thế giới G o og le đã côn g bố 1505 côn g
trình kho a học có giá trị cao (B ản g ] ), tăng 223 cô ng trình so với thống kê số liệu ngày
27/5/2011.
I. DẠT VẤN ĐÈ
Bảng ì. Công bố khoa học cỏ giả trị cao của hãng Google tới ngày 18/1 ỉ/20ỉ ]
Sít
Nhỏm chủ đê
Số bài báo
1
A lgorith ms and T he ory 199

2 Artificial Intelligence and Data M in in s
100
3
Data and Sy stem M an ag em en t
53
4
Distributed Sy ste ms and Parallel C om p uting
153
5
E con om ics and Electronic C o m m erc e
36
6
Education
8
7 General Science
33
8
H u m an -C om pu te r Interaction and Visualization
102
9 Hy pertex t and the W eb 37
10
Inform ation Retrieval
76
1 1
M ach ine Learning 186
12 M ac hine Perception
123
13
M a ch ine Translation 34
14

Natural L an gua ge Processing
146
15 Security, C ryp tograp hy , and Privacy 112
16
Softw are Engineering
62
17
Speech Processing
16
18
System s
29
Tốnẹcộnẹ
ì 505
G ần đ ây (tháng 11/2011), M assim o M archiori. m ộ t nhà khoa học Ý đề xuất
thuật toán siêu tìm kiếm từ năm 1997 [M arch 97], cô ng bố thôn g tin về m ột hệ thống
tìm kiếm m ới có tên là Volunia, làm việc với 12 ngôn ngữ, d ự kiến bắt đầu ho ạt độ ng
tư dâu năm 2012. Massimo Marchioii cho biết Volunia dược tièp cận theo một quan
CÜC111 câp tiên nhăm đáp ứng nhu cầu tìm kiếm của tirưnụ (ai .
Tìm kiếm lliực the (entity object search engine) là thố hệ lim kiểm tiên tiến,
trong đó đối tượng tìm kiếm là thực thế mà không phải là Iranu web. Nhiều công trình
nglìicn cứu về tìm kiếm thực thê; dã được côim bố, không ít các hệ thấitt» tìm kiếm
thực thê đã dược xây dựng và đi vào hoạt độníỉ. Tìm kiếm na ười và tồ chức là các loại
tìm kiếm thực thổ quan trọng.
Trong hệ thống tìm kiếm thực thể, một bài toán CƯ bản là trích xuất thông tin
thực thế (nhận diện thực thế, tìm kiếm đặc trưng, phát hiện quan hệ, xếp hạng thực
thê,,,), vì vậy, yêu cầu xử lý văn bản trong bài toán tìm kiếm thực thể công phu hơn
nhiều so với bài toán tìm kiếm trang web. Trong thời kỳ các mạng xã hội trực tuyến
phát triển nhanh như hiện nay, nội dung được người dùng tạo ra (UGC: User
Generated Content) đang tăng trưởng với tốc độ cao và tiềm ẩn nhiều thông tin có giá

trị thì ý nghĩậ khoa học và công nghệ của bài toán tìm kiếm thực thể ngày càng được
nâng cao.
Đe tài QG. 10.38 tập trung nghiên cứu vấn đề tìm kiếm thực thể, hướng tới mục
tiêu phát triển mô hình và giải pháp tìm kiếm thực thể tiếng Việt và cố gắng thi hành
một hệ thống thử nghiệm. Phát huy các kinh nghiệm và kết quả nghiên cứu vốn có về
hệ thống tìm kiếm, nhóm thực hiện đề tài (Phòng Thí nghiệm Công nghệ tri thức) tại
Trượng ĐHCN đã tiến hành nghiên cứu, đề xuất, đánh giá một so mô hình và giải
pháp tìm kiếm thực thể tiếng Việt.
Phần còn lại của báo cáo tổng kết này được tổ chức như sau. Mục 2 Tổng quan
các vấn đề nghiên cứu cùa để tài cung cấp thông tin về xu hướng nghiên cứu về tìm
kiếm thực thể trên thế giới và trong nước, các vấn đề nghiên cứu được đặt ra và khái
quát về các kết quả dạt được của đề tài. Mục tiêu, địa điểm, thời gian và phương pháp
nghiên cửu cùa đề tài dược giới thiệu tại Mục 3. Mục 4 trình bày các nhóm chù đề
được tập trung nghiên cứu trong đề tài (còn được gọi là “chương*5 trong thuyết minh
đề tài). Đầu tiên (Mục con 4.1), một số kết quả nghiên cứu về tìm kiểm thực thể tiếng
Việt được giới thiệu. Sau đó, Mục con 4.2 giới thiệu các kết quả nghiên cứu về một số
mô hình trích chọn thông tin, mô hình thực thể và quan hệ thực thể . Ket thúc Mục 4
(Mục con 4.3), báo cáo trình bày kết quả triển khai một số hệ thống thử nghiệm: máy
tìm kiếm giá tiếng Việt () và các hệ thống tìm kiếm thực thể tiếng
Việt thử nghiệm khác. Mục 5 tổng hợp các kết quả nghiên cứu của đề tài. Mục 6 dưa
1 ¡mp://lechie-buzz.com/iech-news/volunui-inas;;ỉmo-marchiori.lu nil: The Father Of Hyper Search Is
Preparine A “Google- o r The Future" và hllp://www A■ietnamnelAM^/vn/cong-]^üh^-'-lhol^<.^lirl-vit.‘n-
^l^one/49?ü5/eooglc-coHloMllu lllTl-kie^^ xun;Man^-euoi-2()ỉ 1 - .hlml: Google cc dôi thủ "lìm kicm"
\imii tarn cuoi 2011 ?
-12-
ra một sô linio luận vê nội dimu cùa dề lài và tụ dánh ciá kêt qua thực hiện Je tài. Mục
cuối cùn 52 trình bày kết luận và kiến null ị cua đề tài.
II. TONG QUAN CÁC VÁN ĐÈ NGHIÊN c ừ u
Tìm kiểm thục thê/tìm kiếm người là nội dung nghiên cứu nhận đưọc sụ quan
tâm cùa nhiều nhóm nghiến cứu trên thế giới và nhiều kết quả nghiên cửu dã được

công bố. Bảng 2 cung cấp số liệu thặng kê về số bài báo được Google Scholar đánh
chi mục mà ticu dề/nội dung của các bài báo dó chứa một vài cụm từ dặc trưiiR cho tìm
kiếm thực thế/tìm kiếm neười. Hàng trăm bài viết có tiêu dề chứa một cụm từ trong số
các cụm từ "entky search"/’’object search'V'people search", "enterprise search" và hàng
chục nghìn bài viết có nội dung chứa một cụm từ nói trên. Hơn nữa. số lượng bài viết
©ông bố từ năm 2007 tới nay chiếm một tv lệ đáng kể cho thấy chủ đề nghiên cửu về
tìm kiếm thực thể/tìm kiếm người đang ngày càng được quan tâm hơn.
Báng 2, So lượng bài viết chứa các cụm từ tìm kiếm thực thế theo Gooẹle Scholar
Stt
Truy van
Ỏ tiêu đê Ó mọi nơi
Mọi lúc
2007-
nay
Mọi lúc
2007-nay
1. "entity search" OR "object search" 290 ! 16 5.780 2.330
9
"people search" OR "enterprise
search"
323
193 16.200 15.700
Tìm kiếm thực thể là một mức “tìm kiếm thông minh” nhằm tìm ra các thực thể
(dối tượng) từ các trang web mà không phải là tìm ra các trang web như tỉm kiếm
thông thường. Hình 1 mô tả sự phát triển (và khác biệt) từ tìm kiếm thông thường tới
tìm kiếm thực thề. Hệ thống tìm kiếm thực thể, đầu tiên, trích xuất thông tin thực thể
trong nội dung Irang web, tiếp theo đó, tích hợp các thông tin thuộc cùng một thực thể
ờ các Irang web khác nhau (cần xác nhận các thông tin được coi là thuộc cùng một
thực thể), vờ sau cùng, xếp hạng các thực thể kết quả để cung cấp cho ngưòi dùng.
Theo Chang c. Kevin và cộng sự [CC07, Cha08, CYC07b], tìm kiếm thực thể khác

với tìm kiếm thông thường ở các khía cạnh:
- Thực thể có tính khả năng (thực thể được tim ra với một giá trị xác suất) còn
trang web có tính chắc chan,
Tìm kiếm thực thể là tìm kiếm mẫu theo ngữ cảnh còn tìm kiếm thông
thường là sánh truy vấn với nội dung trang web.
- Tìm kiếm thực thể đòi hỏi thu thập thõng tin toàn diện từ nội dung nhiều
trang vveb còn trong tìm kiếm thông thường, môi trang web dược xuất hiện
một lần.
-13-
7 j m A ¡('III t rit u a l t 'j i o j j x I /III k j c i L L H u l l U l i i
Hình J. Mô lĩình tìm kiêm thông thường và mô hình tìm kiêm thực thể
/>- Tìm kiếm thực thể đòi hỏi tích họp kết quả từ nhiều trang vveb còn tìm kiếm
thông thường không đòi hỏi tích hợp kết quả từ các trang web khác nhau.
Do thực thể tìm được là kết quả tích hợp từ nhiều trang web cho nên bài toán
xếp hạng thực thể phức lạp hơn nhiều so với bài toán xếp hạng trang web trong tìm
kiếm thông thường. Chẳng hạn, thuật toán EntityRank [Cha08, CYC07a] đòi hỏi việc
xếp hạng thực thể cần phải qua ba mức là mức truy cập (access layer), mức đoán nhận
(recognize layer) và mức xác nhận (validation layer). Tính nhập nhằng cao của thông
tin thực thể cũng làm cho bài toán tìm kiếm thục thể càng phức tạp. Theo Javier
Artiles và cộng sự ỊABGS10]. ở nước Mỹ. có tới hơn 100 triệu người chia sẻ khoảng
90.000 cái tên, và vỉ vậy, bài toán tìm người theo tên có độ nhập nhằng rất cao; và như
vậy có thể thấy rằng, chỉ riêng bài toán con phân biệt các cá nhân người cụ thể khác
nhau cùng dùng chung một cái tên cũng đã là một bài toán khó.
Tim kiếm thực thể nhận được sự quan tâm đặc biệt của nhiều nhóm nghiên cứu,
nhiều công ty trên thế giới. Một số hãng tìm kiếm đã tích hợp các thành phần tìm kiếm
thực thể theo lĩnh vực vào máy tìm kiếm thông thường, một số hãng khác xây dựng
các hệ thống tim kiếm thực thể mói. Một số hệ thống tìm kiếm thực thể điển hình có
thể được kể tới là Cazoodle Apartment Search (
Ametminer (hltp://w ww.arnetminer.org/), BioCaster (
index.php?page= about) Tìm kiếm thực thể góp phần tăng cường doanh số tiếp thị

trên máy tìm kiếm (Search engine marketing: SEM và Search engine optimization:
SIX)), theo đó chỉ tính riêng khu vực Bắc MỸ, doanh số SEM đã tăng từ 13,5 tỷ đô la
Mỹ (năm 2008) lên 14.6 tv đô la Mỹ (năm 2009) và đạt 16,6 tỷ đô la Mỹ (năm 2010)”.
Chris Sherman (2010). The Stale or Search Engine Marketing 2010, l n t|): / / se n r ch e n » i n e la n d . CO m/ll 111
statc-0 1’-search-c n tĩinc-market ins;-2010-38826
-14-
I'lurc thê người lả một trang, các loại thực thề. (đối tirọnc) dược quan lâm tim
kiếm nhiều Iihàt. Theo Javier Artiles và cộng sự ỊABGSI()|. lliếng kê tông họp từ các
hệ thốn« lìm kiếm phổ dụni’ cho thấv có tói 11% đến 17% truy vấn chứa một lên
nu ười và 4% truy vấn là truy vấn theo một ten ngươi. Vì vậy, các hội thào khoa Họe
llurờne niên về lìm: kiếm nuười và tổ chức (WePS 1,2,3: b11 p://n 1 p.uned.es/weps) dã
thu hút sụ quan tâm cua hàng chục tổ chức khoa học - cọng nghệ hàng đầu trên thế
giói, đồnẹ thòi, nhiều hệ thống tìm kiếm người và tổ chức đã hoạt động, nổi bật là
zoominfo (http://w\vw.zoominio.com) và iSearch (http:/Avww■ isearch■ com)■
Tại Việt Nam, một số hệ thống tìm kiếm tiếng Việt thông thường đã đượe thi
hành và đưa vào hoạt động (cao trào là vào các giai đoạn 2000-2002 hoặc 2006-2008),
tuy nhiên, ơ Việt Nam, rất ít tổ chức, công ty tiến hành việc nghiên cứu và triển khai
tìm kiếm thực thể; trên thực tế, Phòng Thí nghiệm Công nghệ Tri thức, Trường ĐHCN
là đơn vị dầu tiên ở Việt Nam hướng tới lĩnh vực này. Trên cơ sỏ' các kết quả nehiên
cứu và triển khai đã có về máy tìm kiếm ("Nhóm đề tài được tố chức CICC - Center of
the International Cooperation for Computerization - Nhật Bản ghi nhận là một trong
vài nhóm nổi bật về máy tìm kiếm tại Việt Nam iD/iaDanese/
tyousa/pdt' ppt/hi 8/18-R-13.zip)' nhóm đề tài đã xúc tiến học hỏi, cộng tác nghiên cứu
về tìm kiếm thực thể với nhóm nghiên cứu của PGS. Kevin Chang tại University of
Illinois at Urbana-Champaign (U1ƯC), Mỹ từ tháng 7/2008. Nhóm nghiên cứu của
PGS. Kevin Chang là một nhóm nehicn cứu mạnh trên thế giới về tìm kiếm thực thể
[CC07. CC10, CYC07a, CYC07b] và PGS. Kevin Chang đã làm việc trực tiếp với
nhóm thực hiện đề tài về tìm kiếm thực thể ỊChaOS]. Quá trình cộne; tác khoa học nói
trên đã được khởi động (Hình 2). Ket quả cộng tác nghiên cứu được ghi nhận bước đầu
|PCNN09| với đề xuất giải pháp nâng cao chất lượng trích chọn thông tin cho ba loại

thực thể là camera, laptop và professor. Trong quá trình thực hiện đề tài QG. 10.38.
việc cộng tác này tiếp tục được tiến hành theo nội dung trích chọn thực thể từ các văn
bản web ịNKỌlO].
Năm 2011, Bộ Khoa học và Công nghệ đã phê duyệt một đề tài Nghị định thư
với Truna Quốc về tìm kiếm thông minh. Ngày 03/10/2011 vừa qua, trong quá trình
khởi động đề tài Nghị định thư về lìm kiếm thông minh nói trên, Trường Đại học Bách
khoa Hà Nội đã phối hợp với Trường Đại học Giao thông Bắc Kinh, Trune Quốc tổ
chức hội thảo khoa học Workshop on domain-specific intelligent search engine và
nhóm thực hiện đề tài đã đóng góp đáng ghi nhận vào nội dung chuyên môn cùa 1 lội
thào (Phu Iuc 1.5).
- 15-
j ¿ T W r l< I
C o i i i i h i Io iik V H U S IS I.« !
'

Connections: VNU s IS Lab •+■ UIUC Forward Group

© r ™ 5
m
. ,,, W e C o n n e c t o r s
•' ■ - S t u f f
M e e t l n y S u m m arie s
ES5S3
t ’ -T T '-T B T T .
Hình 2. Trang :8080/twi'ki/bì'n/viexv/ vê dự án TWikiphôi hợp giữa
nhóm để tài vén nhỏm c. Kevin Chang tai UJUC
Như đã được giới thiệu, đề tài QG. 10.38 tập trung nghiên cứu các mô hình và
thuật toán thuộc chủ đề tìm kiếm thực thể. Các nội dung nghiên cứu chính được thực
hiện trong khuôn khố đề tài là:
- Nội dune nghiên cứu đầu tiên là các giải pháp xử lý tiếng Việt trong hệ thống tìm

kiếm thực thể. Để trích xuất được thông tin thực thể trong nội dung các trang web,
các giải pháp xử lý tiếng Việt phục vụ việc trích xuất thông tin thực thể cần được
thực hiện. Đề tài khảo sát các giải pháp tương ứng đã được thi hành đối với tiếng
Anh và các ngôn ngữ khác tiếng Anh (đính hướng tốt cho áp dụng vào tiếng Việt),
tìm hiểu các đặc thù tiếng Việt để lựa chọn phương án giải pháp thích hợp cho trích
xuất thông tin thực thể tiếng Việt.
- Nội dung nghiên cứu tiếp theo là xây dựng các mô hình thành phần và toàn bộ của
hệ thống tìm kiếm thực thể. Các mô hình thành phần định hướng tới trích xuất
thông tin, trích xuất thực thể và quan hệ thực thể, xếp hạng thông tin thực thể tìm
kiếm dược.
- Nội dung thứ ba là triển khai thử nghiệm các thành phấn, đánh giá các giải pháp và
xây dựng hệ thống tim kiếm thực thể tiếng Việt thừ nghiệm.
III. MỰC TIÊU, ĐỊA ĐIẺM, THỜI G IAN VÀ PHU ONG PHÁP
NGHIÊN CỨU
Đề tài QG . 10.38 được tiến hành tại T rư ờng Đại học Cô ng nghệ (Đ H C N ).
Đ H Q G H N trong thời gian từ tháng 1/2010 (ký hợp đồn g tháng 7/2010) đ ến tháng
II 201 I. trực liếp lại Plìòim Thí nghiệm "Cône imhệ Tri llúrc". Khoa CNTT. !)ề tài có
mực tiêu góp phần tăng c ườn li năng lực Iiííhiên cứu, triển khai cùa nhóm nehiên cửu
Khai phú dừ liệu VCI ứng dụng tại DI ICN llico một số ticu chí cụ thổ như sau:
Nghiên cứu, phát Iriên ÌÌ1ỎÍ sổ mó hình, giai pháp trong hệ ihống lìm kicni ¡hực
thê đê vù xây dựng mội hệ thong tìm kiếm thực /hê liểriiỉ Việt thử nghiệm thuộc
miên ứng trong Thương mại điên lư. y Sinh học và Chăm sóc sức khỏe. Biển đôi
khi hậu và Bào vệ môi trường.
- Dào tạo nhõn lực trình độ Thạc sỹ và Tiến sỹ chất lượng cao, công bổ quốc tế
các kêt quả nghiên cứu vé trích chọn
t h ô n i Ị
tin và hệ thống lìm kiếm thực thể
ì
rên
Internet.

Đe tài kết họp các phương pháp nghiên cứu là (1) khảo sát phân tích và hệ thống
hóa nội dung các tài liệu KH-CN cập nhật trên thế giới để đảm bào tính tiên tiến của
các mô hình, giải pháp được đề xuất, (2 ) đánh giá, chọn lựa và cải tiến mô hình và
giai pháp đã có để phát triển thành các mô hình, giải pháp mới và (3) thực nghiệm
đánh giá mô hỉnh được lựa chọn.
Hướng nghiên cứu của đề tài là thời sự, vì vậy tài liệu KH-CN liên quan là phong
phủ và thời sự, tạo điều kiện thuận lợi cho nhóm nghiên cứu khi tiến hành khảo sát
phân tích, đánh giá và lựa chọn mô hình. Môi trường làm việc dễ dàng triển khai thực
nghiệm tại Phòng Thí nghiệm "Công nghệ tri thức" đã khắc phục phần nào khó khăn
về nguồn dữ liệu chuẩn khi nghiên cứu áp dụng cho dữ liệu của Việt Nam. Được truy
nhập trực tiếp tới các kho lưu trừ các còng bố khoa học của ACM, Springer. IEEE
Xpore trong mạng của ĐHQGHN cũng là một điều kiện thuận lợi cùa nhóm thực
hiện đề tài.
IV. NỘI DUNG NGHIÊN cứ u
Phát triển mô hình và giải pháp dối với các hệ thống tìm kiếm thực thể tiếng
Việt trong đề tài QG. 10.38 được định hướng theo ba nội dung nghiên cứu chính, đó là
xử lý liếng Việt trong tìm kiếm thực thể, đề xuất mô hình và giải pháp tim kiếm thực
thể tiếng Việt và thi hành thử nghiệm các hệ thống tìm kiếm thực thể tiếng Việt. Nội
dung xử lý liếng Việt trong tìm kiểm thực thể là khảo sát các yếu tố của xử lý ngôn
ngữ tự nhiên trong tìm kiếm thực thể trên thế giới vẫn còn phù hợp với tìm kiểm thực
thể tiếng Việt và phát hiện những yếu tố xử lý tiếng Việt đặc thù cho tìm kiếm thực
thể. Nội dung mỏ hình và giải pháp tìm kiếm thực thể tiếng Việt hướng tới xây dựng
các mô hình, giải pháp tìm kiếm thực thể tiếng Việt. Nội dung nghiên cứu cuối cùng lủ
thực thi kết quả nội dung nghiên cứu thứ hai thông qua một vài hệ thống tìm kiếm thực
thể thử nghiệm hoặc thành phần của các hệ thống như vậy.
-17-
Kêl quà khoa học của dề tài dược mô la tron tỉ các hài báo khoa học. tron ti dỏ
nôi bặl nhai là các bài báo khoa học CỎI12 hố quốc tế. Mồi bài háo khoa học đều bao
I’ói kct quà thực hiện ba nội duim imhiên cứu nói tren. De phù họp với đề cương
ill II yet minh dề tài. thay vì cách trình bảy nội dung của tìrnu bài báo khoa học. háo cáo

Iiàv trình bày ba nội dung nghiên cứu trong ba mục con dưới đày. Tron tỉ mồi mục con.
kết quả Iiíỉhièn cửu theo nội dune tương ứng dược giới thiệu một cách sơ bộ theo nội
dung các bài báo liên quan. Toàn văn các bài báo được tập hợp trong Phụ lục 1.
L Xử lý tiếng Việt trong tìm kiểm thực thể
Nlnr trình bày tone quan về vấn đề nghiên cứu. tìm kiếm thực thể là phức lạp hơn
so với tìm kiếm thông thường, đòi hỏi sụ tham gia cúa không chì các giải pháp cơ bàn
mà còn các giải pháp nâng cao trong xử lý ngôn ngũ' tự nhiên. Trích chọn thực thể, đặc
trưng thực thế, quan hệ thực thể trở thành các bài toán cơ bản cùa tim kiếm thực the,
mỗi trong các bài toán này dòi hỏi sự tích hợp một số giải pháp CO' bản trong xử lý
ngôn ngữ tụ nhiên.
* Các mô hình tìm kiếm tlụrc thể do đề tài tiến hành trong giai đoạn tiền xử lý tiếng
Việt bao £ồm các buó'c tách từ, phân đoạn từ sau khi tách văn bản từ nội dung trang
web. Một số công cụ xử lý tiếng Việt vốn có của nhóm nghiên cửu được công bố dưới
dạng phần mềm tự do đã được sử dụng là http://ịvnsegmenter.sourceforge.neƯ,
hũp://itextpro.sourceforge.net/,
* Khai thác bổ sung tri thức miền ứng dụng (các tù điển, các kho ngữ liệu) để tăng
hiệu quà tìm kiếm thực thể tiếng Việt là một giải pháp được đề tài quan tâm nghiên
cứu và thực hiện.
Trong giải pháp tích hợp dùng rnô liìnli trường ngẫu nhiên có diều kiện đế đoán
nhận thực thể định danh và trích xuất thuộc tính người [Ỉ1MN1M111, từ điển tên người
Pacebook cùng với ba từ điển do chúng tôi xây dựng (từ dien 20.669 tên người Việt
Nam, từ điển 18.331 địa danh Việt Nam. từ điển 790 tiền tố cho thực thể người) đã
dược sử dụrm.
Trong các mô hình khai phá quan điểm dựa trên đặc trưng sản phẩm theo đánh giá
người dùng [THCQ11, QTHC1 ]], kho ngữ liệu VietSenti WorcFNet với 9333 synset và
9533 từ dã được dề tài xây dựng để phục vụ cho trích xuất từ quan điểm và xác định
trọng số quan điểm. Phục vụ gom nhóm các từ đặc trưng cùa sản phẩm [HTMQ1 I], tù
điển tra từ trực tuyến được sử dụng để làm giàu ngữ nghĩa phục vụ
phân cụm các từ đặc trưng có trong đánh giá người dùng. Mơn nữa, web tiếng Việt,
đặc biệt là wiki tiếng Việt cũng là một kho ngữ liệu tiếng Việt được đề tài khai thác

[MTTH10Ị. Mô hình chủ đề ẩn cho tiếne Việt đối với miền ứng dụng tư vấn cũng
đưọc quan tâm sử dụng dề nânu cao chất lượng tư vấn cho người dùng [MXH10J.
-1 8-
* Sir dwTg một Sổ quy tắc cú pháp tiéiiL’ Việt thích hợp d ể nâne CÍIO chất lượim trích
chọn thưc ihê tiến í! Việt. I rong I ! TỊCỌI 1. ỌTHCl 1 |. một số C|UY tác cú pháp xấc định
tù: đặc trung sàn phâm. từ quan diêm và mối quan hệ giũa lừ quan diêm vả từ dộc
trưng sàn phàm ngâm dã dược khai thác. Mô hình hán giám sát cho uiai pháp dồng
tham chiếu tiếng Việt [DMTQI1 I có sư dụng giãi pháp làm phù hợp tiếng Việt đối với
các quan hệ cụm danh từ trong giai pháp đồng tham chiếu tiếng Anh [RN09],
2. Các mô hình, giai pháp tìm kiếm thực thể
Nhóm thực hiện đề tài đã tiến hành nghiên cứu để đề xuất một số mỏ hình và giài
pháp thực hiện một số chức năne trong tìm kiếm thực thể như trình bày dưới đây.
2.1. Mò hình, gỉài pháp tricli xuất thống tin thực thể
Đe trích xuất đặc trưng thực thể, nhóm đề tài đã đề xuất mô hình và giai pháp
sinh Xpath-wrapper [NKQ10], mô hình và giải pháp đồng tham chiếu [DMTQ11], và
mô hình CRFs trích chọn đặc trưng người [HMMN 11],
Hình 3 trình bày mô hình sinh Xpath-wrapper phục vụ trích xuất đặc trưng thực
thê [NKQ10]. Từ câu hỏi của người dùng, hệ thống xác định và tinh chình dần các X-
path ứng viên để xác định được các ứng viên X-path cho các đặc trưng. Sau đó các X-
patli đặc trưng ứng viên được xếp hạng để thu được cặp (giá trị thuộc tính, X-path) dế
áp dụng trích chọn câu trà lời cho tìm kiếm thực thế.
Mỏ hình đồng tham chiếu trích chọn thực thể người [DMTQ11] gom ba eiai
đoạn. Giai đoạn tiền xử lý tiến hành trích chọn các cụm từ liên quan tới thực thể người
và đặc trưng người. Giai đoạn sinh vector đặc trưng tiến hành việc xây dựng vector
đặc trưng cho một văn bản. Giai đoạn đoán nhận thực thể kết hợp các đặc trưng cùa
cùng một thực thể người vào thực thể người này. Quá trình thực hiện mô hỉnh được
trình bày tại Hình 4.
Mô hình CRFs trích chọn đặc trưng người [HMMN11] được trình bày tại Hình
5, thể hiện một quá trình thực hiện gồm ba giai đoạn là Xây dựng bộ CRFs gán thẻ đặc
trưng người, Gán thẻ, và Lọc các dặc trưng người sau khi gán thè. Nhu được giới thiệu

ở phần trên, một số từ điển được sử dụng trong giai đoạn gán thẻ.
Hình 6 trình bày một mô hình mở rộng thực thể người sử dụng các luật cú pháp
và cấu trúc Wrapper trong các trang web ỊMTTH10]. Một số quy tắc cú pháp được áp
dụng (chẳng hạn, tính tương đồna vị thế giữa các đối tượng trong danh sách liệt kê,
trong cùng một cột của các cấu trúc bảng) dược sử dụng để tìm thêm các ứng viên thực
thể mở rộng. Sau đó các ứng viên được tính hạng để chọn lựa các ứng viên tin tưởng
nhất.
-1 9-
I- e n t IU *“ CỈ -
X P i i l l i
c m i d i d i i t ự»
Hình 3. Mó hình quy nạp sinh Xpath-xvrapper để trích xuất đặc trưng thực thế
[NKỌlOị
Ĩ ^ c ĩ c t r n ì p
V<?C'
Ĩ O /
g G * ' t G f a r t c M p h a s c
P a i r m g ;
P e n tx ir tr
s e l c c t i c m
F e a t u i e
v e c t o r s

T
ị . _ .
N

S V I v l
c l n s s i t ' i c r
J ĩ< * < ~ ơ í ĩ7 ĩi. r /C ?>i j . ’> ỉ> a s G

Hình 4. Mô hình đồng tham chiếu trích chọn đặc trưng người [HMNN1 1 ]
i 1___ T i a m n Ị
o c t j Ị Ị | p>r n _ 1 . F e r ti v i r o r . 1 Ị
1—t—ả I p r o c e iM í i r i u 1 e a l r B C Ii o ii 1 1
i
C R F I r c a n lr io 1 _ 1 F e a Iu < « A 1
1 1 o e l « ; i l o n 1
I L _

_
C . R F m < x k f l 1 [ D IC IIC H IC IIIO Đ ị
!oo«*no I
m
i
DI
^ ~ Ĩ Ú
p r o c A n a t i- iQ
H e o ỉu t 0 9
TU
P h u « » "1
P h o s e 2*
P h n « e 3
Hình 5. Mó hình CRFs trích chọn đặc trưng người ỊDMTQ1 11
Hình 6. Mỏ hình mở rộn% thực thê dựa trên luật cú pháp và cấu trúc ìvrapper
ỊMTTH10]
2.2. \l() /linh, giai pháp khai phá (¡11(111 iỉiêm llico đặc rnniíỉ san phâììì tie các íỉánh íỉiá
íic iì ị ỉ 17(7
Mô hình khai phá quan điổm theo dặc truna sản phẩm Ị0TI1C1 1. '1IICQ1 I Ị
bao gồm -1 giai đoạn dược trình bày tại Hình 7. Giai đoạn I là tỉiai doạn tiền xử lý.
tlieo dó các văn bàn đánh giá sàn phẩm của người dùng trên các website bán hàng

dược tải về. tách thè siêu ngôn niiữ. chuẩn hóa và được gán thè (POS). Giai đoạn 2 tiến
hành việc ních chọn tập các lừ đặc Irưna sản phẩm (feature wolds) và các từ đánli giá
(opinion words) tương ứng trong mỗi văn bản đánh giá của người dùng. Giai đoạn 3
ihực hiện việc định hướng (khen, chê. trunu gian) đối với mỗi dặc trưng trong một
nhận xét người dùng. Trong giai đoạn này, kho ngữ liệu VietSentiWordNel dược sử
dụng. Giai đoạn 4 tích hợp kết quả cùa mọi đánh giá người dùng.
Một bài toán con cần giải quyết trong mô hình này là gom nhóm từ đặc trưng
san phẩm. Đe chi về cùng một đặc trưng sàn phẩm, các ngưòĩ dùna khác nhau có thể
sử dụng các từ khác nhau, và vì vậy, cần phải góm nhóm từ đặc trưng này về cùng một
từ đặc trưng đại diện. Nhóm thực hiện đề tài sử dụng giải pháp bán giám sát SVM-
kNN để eiài quyết bài toán con này (Hình 8). Như đã được giói thiệu, từ điển tra từ
trực tuyến được chúng tôi sử dụng.
2.3. MỘI so mô hình, giải pháp lìm kiếm thực thể tiếng Việt khác
Trong quá trình thực hiện đề tài. nhóm thực hiện dã tiến hành một số mô hình,
giải pháp khác cho một lóp đa dạng các bài toán thành phần troiiR tìm kiếm thực thể
nhằm thi hành từng bộ phận mô hỉnh tìm kiếm thực thể chung.
Hình 9 mô tả một mô hình tim kiếm người theo một tên người tiếng Việt cho
trước. ĩ lệ thống hoạt động theo kiểu hệ thống tìm kiếm lớp trên (Meta-Search Engine).
Với một tên người tiếng Việt, hệ thống đi tìm các trang web có chứa tên người này
thông qua các máy tìm kiếm phổ dụng (Google, Yahoo ). Sau đó. hệ thống biểu diễn
trang web theo mô hình thông tin người, tiến hành phân cụm để có được các cụm văn
bản (các cụm này định hướng tới một người). Tiến hành trích chọn và xếp hạng thực
thể. hệ thống cung cấp những người khác nhau cùng sừ dụng một tên dầu vào.
Mô hình trích xuất chủ đề ưa thích của người dùng [MXH10] được trình bày tại
Hình 10. Phương pháp chủ đề ẩn được sử dụng để làm giàu thông tin hỗ trợ việc làm
phù hợp giữa các chủ đề chung và chủ đề người dùng quan tâm trong quá khứ dê tim
ra chủ đề ưa thích.
Hình 1 1 mô tả mô hình hệ thống hòi - đáp về người tiếng Việt. Vói một truy
vấn người dùng, đầu tiên, hệ thống tim câu trả lời phù hợp trong CSDL để cung cấp
cho người dùng; sau đó nếu không có sẵn câu trả lời, hệ thống tìm kiêm trên Internet

câu trả lời (nếu có). Một bài toán cơ bản nhất ở đây là tìm kiêm và xêp hạng thực thê .
-2 1-
p.evtews CE online
ssls websrtí
V ietnam ese
cu 'to m er review s
D ĩtĩ stsiidîrdüna
n r
Token Seementine
~ H T~
Phase 4: Resuks Summaiizatiou
“ Z Z Í T " — :~
O rien tation o f op inion
Id entificatio n
VietSentiWoidNet
Dictionary
Phase 3: Orientation of opinion Identification
' '
__
' - ~
_
_

-



-
— .
_

Frequent Feature Set
Opinion Word Set 1
Svnonvm Feature Grouping
%
>
POS tsEĩine
Pilase 1: Pre-processing ;
Explicit F eature I
Words Extractas 4-
i Opinion Words 1
T Extractáis T
1 Implicit F esture
Y Words Extrsctine
Phase 2: Feature and ooinio nv ord eiiracrins
Hình 7. Mô hình trích xuất và tổng hợp quan điéni theo đặc inmẹ lừ đánh giả sàn
phẩm [QTHC11, THCQ11]
decenary
Co« ot
«*l*evfcorik
Sntc-i
pu.Mom*
reviews
feilte*« «atc-res-sjon
F éa 'u re çroup»
i S ef r * n ct s cor'lötf»
Ị Ị :oJTeic*3n<í»ng f«a turiỉ Ị
I ***pfr«;'VKvr
111
fifc wv.vi


___
R e m o v í $-iữữA'ũỉữ ^ __________ị
R ep res ent THO*"

F i l l
U t e
#
5
«p<*®-slOr-
r ÍA / T I-« !!'« IrtT ftw
K f f ' r r n - t t n
C tts s-Itv U ft*tg
R S SV W .fcïJN
CtâSSKv us=rvj
sss vu -fcíJfi
J-».
3«I»
Stiio» Jiita
bel 0* êxéirpMÌ* ị Đ*«w» »
5>elorft lo ro iv ; Cluster b«lur»ữ le
fringi* cluste r i •
rn+ n ĩ: ĩtuàtrng * rf f i ư M 1/ A V V Kr,
Hình 8. Mỏ hình gom nhóm từ đặc trims; trong khai phá
Tè n ngư ời
T h u thập dữ
rà p các trang Web
T iề n xừ lv
_ _ Tậ p vân

liệ u

chứ a tên người
-
bảru-

M ô tã
cụm
Đ ặ c ư \ni2; tương
ứ ng vớ i m ỗ i cụm
TYích cho n
đ ặc trưng
C ụm c ác trang
w e b
___
Ph ân
cụ m
M ò h ìn h thòne
tin Ngư ời
B iề u diễ n các
đặc trưng
T ậ p c ác đặc
trưng
____
Hìnli 9. MÔ hình tìm kiếm người cùng tên tiêng Việí
ĨH Ívrn » !
Daravpf
ị linfa
s \
Ị Mod. i L Ki i ml
I ’. • ' rr « T Ji SI~T\
r n{or lnf,

iiua.1
c M o c il í
Î: ; £ tl ũ u & tf d
^Topic —
I
ĩ:-,: -
H •«!.«•.
'"''•'•“i U il a s c i •-’•itli
V »r: ỉ Pi . f.lci i Ị
Hình 10. Mủ hình trích xuất chù đẻ ưa thích cùa niỊtrời (lililí* IMXH1ÜJ
_ ! „ ■ ' " ị
; 1- ị
Hình 12. Mỏ hình hệ thống tìm kiếm ảnh lớp trên
T U K J
»H kxi r-gom.*-
tvj
V o u t M b «
■'•■'»■li««» 1- à
k-iiLn đi kÁru
T « -ic Ị> x a i Ị v ầ o l> i* 3 <3 4
i
T ậ p W v á w w « W :
C Ã C c:u 1X1 v i d « o «ửx>| tù
t
l v'S k . ) p k i n C V H > " V
mõ t*. ■
._ì
__
T i p c«.c '' i đ « o c ó i l .
k h ó « V .' b i n l i i n < ju u r. ( w , k . )

’**> ' *>“ "■*" Os. * K )
ị __ t
cáo c i p t u khca
M o n g
w
___________
_
—_ k, li -»n qu«Ji nhái V
K . w -e \v
//;/;/? /3. A/õ /77/7/7
phân cum ảnh theo tân đũc Inmợ kêt hơD văn bàn
-23-
Hình 12 mô tả một hệ thống tìm kiếm da phưong tiện. MỘI hệ thống như vậy cỏ
thê dược tích hợp làm một thành phân của hệ thống tìm kiểm thực thế với chức năng
tìm kiêm các đặc trưng đa phương tiện lương ứng với thực thê đối tượng (chăng hạn,
lìm ảnh cùa thực thể người, thực thê doanh nghiệp ). Hệ ihống tìm kiếm đa phương
tiện ở dây cũng cũng hoạt động theo mô hình hệ thống lìm kiếm lớp trên. Tính đa hình
cưa Iruy vấn tim kiếm ánh được xem xét trong mô hỉnh phân cụm anh với mục đích
gợi V người dùng trong tìm kiếm ảnh (Hình 13).
3. Trìến khai các thành phần và hệ thong tìm kiếm thực thế tiếng Việt
Trong cả 8 công trình khoa học, nhóm thực hiện đề tài đã tiến hành xây dựng
các hệ thong thực nghiệm đánh giá kết quả các mô hỉnh và giải pháp đề xuất. Ngoài ra,
nhóm thực hiện đề tài đã tiến hành phát triển, nâng cấp Hệ thống tìm kiếm giá cả
VNGia và xây dựng vài hệ thống thử nghiệm khác. Dưới đây mô tả một số hệ thống
thực nghiệm quan trọng được thực hiện trong đề tài.
3.1. Phát triền nâng cấp Hệ thống tìm kiếm giá cả VNGia (VnGia.com)
M oriiilcTỉni kỉốm MocluleTlm kiếm
trên Web trèncỉiđộng
Hình 14. Sơ đồ hệ thống tìm kiếm giá cả VNGia
Trong phiên bản nâng cấp, các giải thuật xử lý trong hệ thống lìm kiếm giá cả

VNGia được nâng cấp có hiệu quả lốt hơn, các thành phần xử lý được thiết kề lại theo
mô hình phân tán và mô hình High Availability, bên cạnh đấy, chúng tôi lích hợp thêm
một sổ thành phần xử lý như phân lớp tự động SVM, gom cụm mờ. Hệ thống mới bao
gồm tám thành phần chính như Hình 14, các thành phần thể hiện ba nhóm chức năng
chính:
-24-

×