ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Quốc Đạt
PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ
TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Quốc Đạt
PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ
TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS. Nguyễn Trí Thành
HÀ NỘI – 2009
Lời cảm ơn
!"#$%
& '()*+& ,,-./0123&4)
56()&&.378)"9/&:
;,<#=>?*<:#8=>@AB@&#C'+?;D
,*.)?"
,&;E,. '.F+4()G C
3H,I :3&J?JK"9/-J?L,
:J?M,N-;D ;8*.)OC
"
<P /,IL,I QC
33&R3O, 3&&C4()&::383&C
"
!3
SOA>?
Tóm tắt nội dung
%*:&T341,*;,)5-8 E%
*4M&CJ& JE3,UD1,*"#EE
MF5VMWF)))I;XI;4M
3&E))1,*38/54YJ-T,.
<E+)))).;,J&%*4M
)))*@ZZ [;E,.&IJ&C)))
M%*thực thể tên tổ chức tiếng Việt37JS8:
\J"]))&54,2^L,!_&VM&.
`a]b938%*c)1,8tên sách và tác giảL,-
d:\J"eML,)))&&%4,8)L,
;:4WFL,D5V)V/fH?g]h!X,i"j
14837JS8)))&;
1,"
Mục lục
k"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""l
EC5""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""m
_,
n
o
3
p
7
p
"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""q
Z^"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""r
<@es#Bt"!skeu<_vahw#bx<@<@y#@z<@{|#}<@~<""""""•
<@es#B€"@e•#Ba‚]<ƒ#_vahw#bx<@<@y#@z<@{"""""""""""""""t€
€"t"b(%c)1,8g ,iL,&8YJ"""""""""""""""""""t€
€"€".)3&+DH.)&8YJ""""""""""""""""""""""""""""""""""""""""""""""t„
€"l"@8!YJ,"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""t…
€"m"R;""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""€€
l"m"A†,""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""lm
<@es#Bm"@z<#B@a‡Z"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""l…
m"t"<ˆJf3&"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""l…
m"t"t".)5-8""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""l…
m"€"Z:48""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""l•
m"l"j148"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""m‰
m"m"#./0"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""m€
jk.""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""m€
&8,;Š""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""m„
Ba
̉
ng tư
̀
viê
́
t tă
́
t
Tư
̀
hoă
̣
c cu
̣
m tư
̀
Viê
́
t tă
́
t
`, a,3],b,
9/),
`a]b9
Z:‹
o
Z,;3
n
@ZZ
Mở đầu
%*4M&J&J&%*:"
J?E3,U;1,* WF8E37J
4C D5VI;4M[_&%*4M
S8'FD3&7 E+)))1F,
,3-;1F;1,";E,.& ,,C
)))Œ*;:•M)5VJ&"
)?3L,;E,.&†48(%C?4ME&4MR
D"k.37F,&mŠ
<tB81,3+%*:3&J&%*4M
RDO2T,L,E"
<€IJ&).M1J&"<,,lJ&
(%c)1,88;,.)&8g1,8Žauthor, title•
Žcategory, named entity• Žorganization, location•i"•^%L,J&
&&&54,3&:-L,F(%MJM5$
(55?6g),i H6&(%,F"_&J
&L,_X(%c)1,8Žauthor, title•"j‘.1,3UF)
5VM(%4M 54,3&.`a]b9"SUc),5V;1
L,3Uc)&3&"<4MFF(%^W3U ;
(3Uc);’,'+;85H'"ZWJ&,,+E
JM5$6 )PF)3-L,H1,8(%"HJ&
L,],,',2T3+C)))*;:M)
5VJ&;E,.&"@8!YJ,C3JM
5$),3&)DFL,4MF"
<lIJ&:IR13&JL,J&(%4
MRD"Z:IR154,J&L,_3+(%c)1,
8Ž, • cJ8&;‘.`a]b9" M/)J,
3J&L,],,X/)&),"S/)&IE
MF3Uc)48"<J48&Š_,
C6g),iM.+RD“FC/gF;”
3*&ED,4Mi,,+EҠ,/F4
r
M“**-4M?58H.)4MF“/?F4
M?583&5-8MI/+“,),H.)/+
E“)V3Uc)[<OIJ&.),H
+L,4M“P&,C.)•JM5$ H
E/54F†,MFF)2"
<m&)48"`-8ˆJf :483&;
148"<†,,C;148?58MM8%
L,J&"
…
CHƯƠNG 1. SƠ LƯỢC BÀI TOÁN TRÍCH CHỌN THỰC
THỂ TÊN TỔ CHỨC
1.1. Tổng quan về trích chọn thông tin
S4JPRL,a3&)8-'?,CF:
;RQ"_?E3+C/2: O%%/&
&7"`EJ&c,3&D&I,-)))
8138/2:)D5V"@8, I
;g,i4838I-,YJ)PF)3’
5P"J^3IFCL,E&,\J8&
8 +DEF:;;:LM)DI;L,
5P"S6U+ˆ-f JC).L,,\J"`E
;,F-DEN,?+:JR%">E&T34&
Œ%*:•D"
%*:&CT341,*;,)5-8 4838
(%,:E(H.)&8:X;:E("j:
M&JC37J 8%*:†.JC:
1,^CT34&E"@,EC; C6g),i
J,Q4M 1,84M[" 8%*:E8
3V)%&8:MI,:%F)+3&D
6E"
S%5V3+8%*:Š
•
Hình 1 : Hệ thống trích chọn thông tin
@848(%,JCJ,1,8ŽNAME, TITLE, ORGANIZATION•
H.)&8YJ3&JRJlE3&^5-8"
1.2. Bài toán rút trích thực thể tên tổ chức
RD&C-FJ/837J cJ8&
YJ3+; /'C [<P34)ML,?8
4&E,[IM3+RDS8#,O&
3+F1,"b(%RD&8;,5,RD
/837J"
_&(%4Mg&VM^;E,.&&J&%*4
MRDi&J&JJ&%*:"_^3I
;;,)FD3+C% %L,4M I(,
)(%,F%/L,4ME"E&J&J Q
?+3+.)•&38(%c);E;7">cJ83:-
S8 ,5?3 :;.)•3+-)) 3&,ECˆ
t‰
&VM3+-, -S8O/8+HŒH,•
†,%8; JRT,"""
<E+)))F)5VJ&(%4M)
))*@ZZ–m—[;E,.& 5V)))Œ*
;:Œ54,.`a]b93&2^(%c)1,8gauthor, titlei
L,_–r— ;F).WFM(%4MRD" EC?
&.`a]b9)5VJ&(%c)1,8g
i gRD V^%L,RDi[" UC5;E,.&†&%
*4MXRD"#FL,`a]b9&%4Cg,,i
%,L:L, EM)5V+5-8"@-,
RDEŒ1,8•&E3Œ+•D+E">&-+
+M)5V;‘.`a]b93&J&;E,.&"<)N
+.)"
1.3. Ý nghĩa của bài toán rút trích thực thể tên tổ chức
ZC8(%?4MM1EME+D5V4
Š
= @WF/5\J-T,"
= ˜ 54 I ; 4 M" S% 5V 3 H ;E,
Œ\,ŒEM3+-,YJE3+3fR
Z‘ c3+&]\,XL:Z‘ c3+C:&
E[`E,+;N;E4F()L,8%
*4M"
= @WF8E37J4C"
[""
_&(%4MRD;E,.&,,†&J&
J ,ED+4"Z†5H?^D&&&:5-
8"E&^M)MJ&)D?) -%"
tt
CHƯƠNG 2. HƯỚNG TIẾP CẬN BÀI TOÁN TRÍCH
CHỌN THỰC THỂ
@*&).)RJJ&%*4M"_&
;E,.N).C;"<&N8CJ&
MI'F48M(%c)1,8 HEEM(,2^)5V
J&(%4MRD"
2.1. Rút trích cặp quan hệ (title, author) của cuốn sách trong tài
liệu web
#.•:\\\;:)†^5?: &(U+
ˆ-1,8 (&E"#;,)F-c%EIN-%
38/2:"!_',,C2^&(%,c)“title, ”
3&“author”L,">cML,c)F(%&&(E1,83
,X3&3">MRJ.D&&.
`a]b9NFIJ&5"
>8C;8EJ& ,EN,,1I(
%R13&.5VJ&"
2.1.1. Occurrences của sách
hL,FM&:3+4Œ/8•L,
gQ title 3& authori.)5-8">M.838/2 _JM5$
L,&CJCQrŠ
(author,title,order,url,prefix,middle,suffix)
order ŠD4/8L,author 3&title"
url Š >f,†,YJ&C5ED,author, title "
prefix Š˜;24Dauthor ,title gPD4L, author, titlei
middleŠ˜•-,author3&title.
suffix Š˜D,author ,title.
t€
2.1.2.Patterns của sách
],NFŒ/?•F3&.)&8M(%,.)1,8g^
&Œtitle•3&Œauthor•i"],FŒ,•H.) h^C
% 1&EgNFIJ&^5i"],E2T,1,*
38(%"],N7FOFI; (%"],
-&CJCQ„
gorder,urlprefix,prefix,middle,suffix)
order :B^h
ZCc)(author, title) F(%EC™bkYJF)gmatchsi 3
urlprefix*3&C5L,EED,?F)3JMD%1Œ*prefix, author,
middle, title, suffix*” ,Q;EJorder = true. _MD1author
3&title F&Š
–d=š—–d=š,=›" œ—
„“l‰
–d=š,=›"—
–d=š‰=•—–d=š,=›‰=•" Š•žŸ “œ—
m“m„
–d=š,=›‰=• Ÿ—
2.1.3. Quy trình rút trích
AI(%54,.`a]b9"•^&Š
ti _J•6’b¡X.)„3&D"Z6&
F,4)J•,"
€i h¢5hgb¡“`i
IŒ4/8L,JC(author, title)L,b¡`"~3W
JCI ? url3& text /1,g^-, €Ji “author•3&
“title”"
li ]B],ghi
`4,3&.)/8L,c)g, iM,6g),i"Z6,
);:F1J8 ,1I&6"
mi b¡Z
`
g]i
H-),/54F I;<!`k-JCg)i&F)
36E"
tl
„i #b¡LI;("#F?3+J€
j‘.EMF:I5Š
Hình 2: Quy trình rút trích
2.1.4. Thuật toán sinh Patterns
#'IJ&V LVB],E83V,),
54,3&"#E&C1I1,*`a]b9"B(,E
CJCoccurrences 3&NΥ54Cpattern HJCE"j'ELV,t
), ILV),EMON4 FIJ&5
Š
2.1.4.1. Sinh một Pattern
<JLVBh],ghiXt),,Š
ti <)•order3&middleL,4/8goccurrencesi)
,"# ;:I ;: , F pattern M , 3
occurrences">coutpattern.order3&outpattern.middleD3order3&middle.
€i I?)£/5&L,&(,">coutpattern.urlprefix =
prefix
li >coutpattern.prefix&/5&L,prefixs&(,%H
gsuffixiL,+gprefixsiE"
mi >coutpattern.suffix&/5&L,suffix&(,%H
gprefixiL,.gsuffixsiE"
tm
j1FC),"
2.1.4.2. Sinh tập Patterns
.B],gOi54,3&.Bh],gOi'F
8^Š
ti #E4/8gioh53&55">F;
1EO
t
[ O
k"
€i SWO
i
, pBh],gO
i
i"#p'+;83+CŒ
J8•I.p,,&"#;:Š
= #occurrences o O
i
Eurl IJ’O
i"
= #F?ŠoO
i
&-E54,3&
cM urls L,(X1, p.urlprefix"kc)?LV^J€
-E&"
•^L,LV),&,’urls;patterns,;:
LŒJ8•"#IOEM5V;‘.,’prefix,suffix"
†&-))J MEFt;‘.I)
D";1&;‘.3H,,,OEC;14
8).F"
2.2. Thu thập tên và miền tương ứng từ tập tài liệu web
< , f,M[&-4MJ37J5P^JD
:-&"#3HŒ&•,T34I36Q?+
4M3&+L,4ME"S%5V+Œ™3•E4MŒ@,3,5•
Œ<,J5•[" ,+Œ],•EŒ<¤¤ ¥,3,[•"#(%Fc)
+3&4MgC, NiQ%F)3&8\5#–t—IN?,
^D-%"
`4,`a]b9 Z,],,,,C:IMFc)(C,N) H&.)
8YJ–q—"C3&ND3 Category3&named Entityg+3&4
Mi"],F5VE5?Š
–StartOfSent— X–,|5— N–,5|,|.—
t„
¦X&CŒ,,£,”?ME&C/&F&ED,+C.
N &Œ),,,”?M&4MIC+C.ZCcMM
.5?N E&E&C5,HF3,"w/?),&
3&&8NFc)(X,N)"S%5V,Š
“That is because software firewalls, including Zone Alarm, offer some semblance of this
feature”.
<c)(X,N )F&gThat is because software firewalls, Zone Alarm)"
<P HX(%,V5,H’,'&+CL,N"#EF
F&V5,H;:81) ,&)PL,E&C
5,H+"#3%5V N(%FV5,HŒsoftware firewalls”
E%+C"<FF&C1Š
= #;:EV5,H5?+•L,Œcategorical
fact” Ic)gX, NiJf?J’"
= ZCV5,H5?+•L,Œ,,£,•
,EO&CV5,H+ Ic)gX, NiJf?J’"
= F)U?IgX, Ni&)PF)3&Fc)gC,Ni"
_5:;1)5V1EŠ
Bảng 1: Sự lựa chọn cateogries từ cateogrical facts
tq
Categorical fact and instance name Selection
Anti-GMO food movements sprouted up `,5
in European nations in the 1990s, 5B,
`,5
Our customers’ chipsets compete with `,5
products from other vendors of standardsbased
and ADSL chipsets, 5d,
`,5
The venture is supported by a number of academics, 5
#,<;
b,
gacademics
Noam Chomskyi
API Adapter can be written in other
programming languages ,<¤¤
b,
gprogramming
languages C++i
>M7Fc)gC, Ni(%F :I,,)DMŒ4C•
,-),"_•Œ/?•-c)gC, Ni'F(%^3U
c)3&5-8"•^F:I5Š
Hình 3: Rút trích Patterns mới
ZW),E5?Š
ŽLeftContext < InnerPattern # RightContext•
tr
LeftContext, InnerPattern 3&RightContext &5'-))"],
†./HJ8,E;W),Œ••&
&t"48&LeftContext, RightContext FJM5$
5?H?g]h!X,iJ^]J,;–„—"j1/)?)t„),F8
;JJ5Š
Bảng 2 : Phân hạng các Pattern rút trích được
LeftContext
(POS tags)
InnerPattern
(words)
RightContext
(POS tags)
!,h£! !,
J
##]##] ##]
##] ##] ,5
,
"95h£!
a###] ##] ,5
,
"95h£!
!,h£! ,
J
"95h£!
!,h£! ,
J
##] ##]
!,h£! 5
J
##] ##] ##]
!,h£!a# ,
J
##]##] ##]
!,h£!` 5
J
##] ##]
!,h£! 5
J
<<##]##]##]##]
##] ##]##] ,5
,
"95h£!
!,h£!¥¥ 5
J
<<##]##] S_]
!,h£!¥¥ 5
J
##]##]<<##]
!,h£!` ,
J
##] ##]
#I3&J, &38I?F•InnerPaternsQ&Œsuch
as•3&Œincluding•LVUŒ;)•,-InnerPatterns-%;
Œand other• Œinclude•3&Œare•"#-),&?F5VM(%4
M3Uc))"
2.3. Hệ thống Snowball
<O54,^L,`a]b9 9d3&kB,3,'/54
8!YJ,–l—M(%c)1,8(organization, location)XRD3&f,
t…