I H C QU C GIA TP. HCM
IH
NGUY N KIM HUY N
M T
MC
MT
N
: 60.48.01
LU
TP. H
2013
i:
iH
-HCM
ng d n khoa h
ch m nh
......................................................
GS.TS. Phan Th
........................................................
ch m nh
Lu
...............................................................
cb ov t
..12..
..2013..
..25..
nH
1. PGS.TS. Qu
iH
m:
..................................................................................................
2. TS. Nguy n H
.....................................................................................................
3. GS.TS. Phan Th
.....................................................................................................
4. TS. H B o Qu c .............................................................................................................
5.
khi lu
..................................................................................................
n c a Ch t ch H
c s a ch a (n
CH T CH H
NG
ng Khoa qu
-
-
............................ MSHV: 11070455..........
16/07/1983 ........................................
..............................
I.
: 604801 ...........
............................................................................................................
...........................................................................................................................
II.
.................................................................................
........................................................................................................................................
........................................................................................................................................
III.
: 02/07/2012 ................................................................
IV.
:21/06/2013 .................................................
V.
:
..........................................
........................................................................................................................................
T
L IC
ng h
t om i
u ki
t vi c h c t
y,
s ch d n t
r . Nh ng l
c a th y
t lu
ib nc
n trong su t th i gian th c hi n lu
t
ih
uc
gi ng d
c bi
.
c at tc
i
thu t
L
ng, ngo i tr
th c hi
m
nn
t qu tham kh o t
a lu
cn
l y b ng c p
Nguy n Kim Huy n
MT T
C mt
ng t hay c m t
li u
i di n cho n
ng ti p c
th
ng h c
tc
mt
ng h c
hai
m quan h ng
mt v
.M
c s quan
i ti n hi u su t c a SemiRank, m
mt d
c mt
m i quan h ng
xu t hai p
t p
c i ti n t
u
c m t tr
c i ti n t p
c i thi n
nh ng
mt
t
m i quan h ng
y r ng hi u su t c a SemiRank
ng h p
it p
gi
v i nhau
p WikiHai p
mt
t qu th c nghi
im ts
xu t
u
u c i ti n hi u su t c a SemiRank
c
mt
k t qu t t
.
SUMMARY
Keyphrases are single or multiple words summarizing the main contents of a
document. There are two main approaches for keyphrase extraction: supervised and
unsupervised learning. However, semantic relations between phrases have not been
adequately considered in both approaches. In this thesis, we proposed two methods
to improve performance of SemiRank, an approach to extract keyphrases based on
initial keyphrases and semantic relations between phrases in the document. The two
methods are: Core Phrases and Information Features methods. Our methods
outperform SemiRank with intitial keyphrases from title and two derivatives of
KEA and KEA++ on F1 measure. In addition, we show that, the new methods give
better results to SemiRank in the case that initial keyphrases are re-ranked based on
their semantic relations.
.
i
N I DUNG
M
U ............................................................................................. 1
1.1
1.2
........................................................................................ 1
M
m vi ................................................................................... 2
...................................................... 4
2.1.
T
................................................................................................... 4
2.2.
mc ac mt
................................................... 5
T ........................................................................ 10
3.1.
Wikipedia ...................................................................................................... 10
3.2.
ng m i quan h ng
i nh p nh ng ................... 12
3.3.
th (hyper-graph).............................................................................. 15
3.4.
(community) .................................................................. 17
XU T ............................................................. 18
4.1
SemiRank ................................................................................................. 18
4.2
m t tr
4.3
d
4.4
Ti n x
li
................................................................. 25
ac mt
....................... 28
........................................................................ 29
TH C NGHI M ............................................................................... 32
5.1.
Wiki-20 .................................................................................................... 32
5.2.
.............................................................................. 32
5.3.
Hi n th c
...................................................................... 35
Hi n th c SemiRank ....................................................................................... 36
Hi n th c ti n x
li u ............................................................................ 38
ii
Hi n th
m t tr
Hi n th
d
5.3.
..................................................... 38
ac mt
........ 39
hi u qu ..................................................................................... 39
nh s
ng c m t
u ....................................................... 39
Hi u qu khi k t h p v i m i quan h ng
............. 42
................................................................ 43
S d
................................................. 44
T NG K T ....................................................................................... 46
6.1
........................................................................................... 46
6.2
n ...................................................................................... 46
THAM KH O ...................................................................................................... 48
iii
DANH M
v
n trong Wikipedia ............................................... 11
v bi u di
th G1 ........................................................... 16
mt
.................................... 18
4.2. Gi i thu t PhraseRank trong SemiRank ................................................. 22
4.3. Minh h a m t s
c l p trong gi i thu t PhraseRank. ......................... 23
mt
t tr
m
. .......................................................................................................... 25
th bi u di n hi u su
tr
u
c khi s d
mt
............................................................................................................... 40
iv
DANH M C B NG
2-
c s d ng trong m t s h th
3-1. Tr
ng c
9
......................................... 13
5-1. Hi u su t c a SemiRank khi s d
c m t tr
mt
d
................................................................................................... 41
5-2. Hi u su t c a SemiRank khi s d
d
c
....................................................................................................... 42
5-3. Hi u su t c a t
mt
u so v i t
mt
.................................................................................... 43
5-4. Hi u su t c
mt
p
d li u Wiki-20 ..................................................................................................... 44
5-5. Hi u su
c khi s d ng gi i thu
........... 44
1
M
1.1
nh
C mt
li u.
U
ng t hay c m t
i di n cho n
di n t n
u, nh ng c m t
d
cs
m
i s d ng d
dung
li u (metadata)
i dung c
h p [9].
u
c
[6].
b t
ng ngh a (thesaurus) [19].
is
nc
nt
c
vi
mt
mt
c, v
i
mt
u
ng
tc
i nhi u th i gian
,
ng tr
t l a ch n mang l i nhi u
h a h n.
ng ti p c
c m t thu c m t b t v
mt
c n th nh t,
c ki
t (controlled vocabulary
m duy nh t n
c ch n l a k
hi ch
1
/>
c ki
.B
ng, m i c m t di n
u, nh ng c m t
t v ng ki
c (domain) c th
ng ti p
v ng trong b t v
m nh ng c m t
c a
ng s d
trong n i dung c
mt
t v ng ki
t m
gi i quy t
ng nh t gi
t v ng ki
mt
c t o ra cho m t
c gi i h n
1
t
2
d ng c a b t v ng ki
cung c p nh ng c m t
c y khoa.
ng ti p c n th
b n. So v
mt
trong n i dung c
ng ti p c n th nh t nh ng c m t
gi i h n.
c ch
ng nh t gi a
gi
u
nhau.
mt
c ch n
n nh
trong n i dung c a
1.2 M
mt
u.
m vi
ct
mt
i di n cho n
t h p nh
tc
a nh ng c m t
ng m t t p
mt
ti
i ng
ud
mt
ng
th
h
i quan h
v i nhau.
B
d ng l
ph m vi c
ng l i t
mt
a c m t
H
xu
c m t tr
d ng
a
c mt
SemiRank
m t trong
mt
it
pv i
c mt
,
i quan h ng
mt
m r ng t p t
a
m i quan h ng
i di
ng c m t
ng c m t
mt
i nhau.
nv
a vi
t
mt
:
mt
v a
3
Khi x
n d li u,
mt
c mt
ng v i
bu c
ti ng Anh.
n nh
t
c m t tr
trong ti
n vi
.
cl
ng c m t
ng
cl
d ng m t s m
u
4
mt
sau:
th
ng ti
c
mt
t
l c ra t
nh ng c m t
th
m
p
mt
t
th
cs d
l
mt
2.1. T
h th
mt
mt
cl
bi n nh
ng tr
c:
mt
mt
n.
-gram [3, 5, 11, 23], c t tu n t n t
ng
k ti
mc
t
ng k
mt
kh c ph
y theo m u (POS
s d ng [5, 18]
tb
nh t lo i c
m
c ch
c
nh ng c m t
m u t lo i
mt
Trong nh
i s l n m nh c
mt
t trong Wikipedia (article) [4, 8, 14],
i di n cho ng
th y m t hay nhi
M
a c m t . Ch nh ng c m t
ng v
ct
c mt
mt
th ng t
m tc mt
c ch
mt
m
ch
ng s d ng nh
l c. Nh ng
m
m
5
c do s
t t nh
c th c hi n b ng
tay.
ng h th
m
nhau, m i h th ng s
ng m t s
c
ib
qua nh
th
d
d ng
d ng
[5, 11, 14, 23] s d ng m t t p d li u hu n luy n
p d li u hu n luy
g
mt
ng tay. Nh ng
ng
c
[18, 23] hay
(decision tree) [11, 14, 18].
nh
mc
i t p d li u
hu n luy n ph i l n [14].
ng ti p c n h
i ph
nh ng h th ng c
p hu n luy
t m quan tr ng c
id
u, [1, 3, 24]
m t ti
[8, 15] bi u di n n i dung c
th ng
quan h
u
am tc mt
i
.
2.2.
mc ac mt
m
am tc mt
th
u
m t n m trong c m t
a
t
ng
cho c m t
mt
cl pv
cv .
ac m
mt
ac mt
c mt
i quan h ng
gi a
s
m xem
c m t tro
n.
6
m t n m trong c m t
M
n m trong m t c m t
k
trong
c di
t c
nh m
c
m
k
xu t hi
ng
i nhau trong m t c m t . P
c mt
i thi
k
mt
m
n
c mt
u
u nh
th
ts
k
.
ng.
m ph bi n
i
s xu t hi n l p l i c a c m t
frequency
c
t ng su t xu t hi n c a m t c m t ), TF d
c mt
s
thi
ck th p
rse document
t n su t ngh ch c a m t c m t
cl pl
ng c m t
y
ng h p nh ng c m t
bi n
nt n
nhi
K
mv
v
IDF ph thu
p th
ac mt ,
m t xu t hi n FOC (first of occurrence
thi
u
s l n c m t xu t hi
a m t t p th
n i dung c
n. TF
n ho c ch
n.
li
um t
c l p l i nhi u l n trong n i dung c
u bi n th
frequency
TF (term
uc mt
u
v
quan tr ng,
u. M t bi n th c
xu t hi
u xu t hi n
c nh
v
n s m trong
l n cu
mt
ph c a c m t (occurrence spread) trong n i
n
ph
t xu t hi
c m t xu t hi n trong m
t t hay ph n gi i thi u.
nh kho
al
n cu
t d ng bi n th n
n c th c
u
m
7
M
cs d
c mt
th
c th
chi
ac mt
ng di n t
t c m t di n t
ng c m t
th
c
bao g m nhi u t g p l i
ng c m t ng
i
ac mt
m k ti p
[23].
d
hi m t c m t
ch
kh
c ch
.
cd
t t p th
c
.V
y, m
l nm tc mt
t
c ch
, keyphraseness ph thu c
c a t p th
mt
c mt
m ts
mm
Wiki-keyphraseness d
di n t n i dung c
xu t,
Wiki-keyphraseness,
thi t r ng n u c m t
il
xu t hi n trong m
kh
t tham
t di n t
cn
Wiki-
t bi n th c a
Wiki-keyphraseness cho m
t c m t (inverse Wikipedia frequency).
m m i quan h ng
Khi s d ng m i quan h ng
thi t r ng nh ng t
gi
nh t b
c h tr v
u. [10, 15]
k t nh ng t
C as
i quan h
u t hi n trong m t c a s
cc
c ch y d c n
k tt ot
di n cho n i dung c
n.
t v t (lexicon). M
tr
c mt
t s h th ng d
th
i
t ng ngh a ho c
a TextRank [15]
th
t
nh.
nh ng t
n
[10]
m
m t ch a ch
[11]
nh m i quan h ng
a hai
t hi n trong m
u. M i quan h ng
a hai
8
c mt
l i
c
c b ng
c ch
t
.
c mt
m tc mt
mt
i quan h ng
u kh
Maui [14]
tv
tr
coi c m t
i quan h ng
mt
hai c m t d
uc mt
s
Maui
ng m i quan h ng
a
ng
hai c m t
i di n cho
t tham kh o. M i quan h ng
am tc mt
mt
h
i nhi
l nl pl ic ac mt .
, [4, 8] d
vi
t Wikipedia chung c
i di n cho hai c m t c
ng m i quan h ng
m quan tr
t
c
ct im
ng c
i quan h ng
t chung
am
m t b ng
ng
Tuy
mt
m quan tr ng c a c
c m t kh
h pv it
i ph n t
tc mt
mt
i
i quan h ng
u.
c s d ng k t h p v
sau khi ch
mt
IDF, FOC
[18]
i m TF,
c m t ti
c s d ng trong m t s h th
Vi
ac
mt
m t . C th
ng 2.1 li
m
mt
m ng
p l c ra c
ng.
TF
ic mt
h ng
c
c m t ti
c c m t con trong
trong vi
th ng t
n
[7],
t
tr
n m i quan
c m i quan h ng
9
trong [8] b
k th pm ts
c tr
a c m t kh
g
KEA [23]
x
x
KEA++ [13]
x
x
x
x
x
WINGNUS [18]
x
x
x
MAUI [14]
x
x
x
KP-MINER [3]
x
x
x
DERIUNLP [1]
x
x
x
COREWORD [13]
x
x
x
x
TEXTRANK [15]
-
Wikipedia
keyphraseness
-
-
Keyphraseness
-
HUMB [11]
v
x
S
x
x
x
x
x
x
x
x
U
U
x
c s d ng trong m t s h th
S: h
U
x
x
2-1.
S
U
x
TOPIC [4]
S
S
x
SEMIRANK [8]
S
U
x
mt
U
.
10
T
nt
ng m i quan h ng
cs d
i nh p nh ng,
th
.
3.1. Wikipedia
ng m
t tc
c tuy n mi
gi
m t trong nh ng trang tr c tuy
470 tri
c tham kh o nhi u nh
i tham kh o m
gi i, kho ng
i
vi t (article)
286
ng ti ng Anh.
C
a Wikipedia bao g
t
tham kh o, th lo i c a
n
a Wikipedia:
t Wikipedia (article):
M
m
ng d n v so n th
n ch
m duy nh
ng
mb ov n
cc
t cho m
t.
m
nh danh
t
Trang chuy
ng (redirect): trang chuy
n
bao g m m t tham kh
t hay m t trang chuy
t b im
t duy nh
th
tham kh o
o c a Wikipedia.
nm t
ng m i). B
nh ng c m t di n t
b ng nh ng trang chuy
n
t
t
m ch
t
m
ch a li
m.
t
11
L
t (hyper-link): trong n i dung c
quan tr
t, n
c khuy
tc mt
o ra m
tt c mt
m
c ac mt
C mt
cg
c mt
ct o
m tc mt
k
t t t neo
vi
d
n
t
,
vi t
nt
[14].
Trang
ng (disambiguation page):
n nh
c mt
ng ch
t
nt
.T
c am t
i s d ng ch n l
mu n
tham kh o.
Th lo i (category):
n
nn
lo
c p.
th lo
c khuy
t. M t th lo
thu c v m t th lo
n gi ng c
3.1.
3.1
v
v
u
lo i.
n trong Wikipedia
n c a Wikipedia [14]. L
vi
vi
, R
B
,
.
t
thu c v th
12
lo i L
, th lo
lo i con c
th lo i:
informati
,
)
ns
v
c s
Digital
n h c thu
d ng trong
22/07/2011. B n Wikipedia
.
b
bao g
bao g m kho ng 3.5 tri
Buildings and
lo
A
B
ibrary and
t b ng ti ng Anh. S
u trang chuy
ng
ng
ng
700,000 th lo i (category).
3.2.
ng m i quan h ng
h
gi i nh p nh ng
ng m i quan h ng
a hai c m t ,
th
Wikipedia
trong [22],
c m i quan h ng
i di n cho hai c m t
. [22]
i di n cho ng
t
at
xu
ng m i quan h gi
ph
p theo sau
M
t Wikipedia bao g
n (incoming link).
n nh
t Wikipedia.
t
t
m t
ph i
t xu
c tham kh o
i dung
nm
t.
tr
t
t
k t trong
y, [22]
thu c m
See Also): h u h
t v i nh
Xem t
nm t
n nhau, [22] nh n th y r ng s tham kh o
ng m
t
cd
(See Also). M
)
t
t
n i dung
tn
g i
(g
cao nh t, b
c l i,
13
n
i thu
vi
n
(g
tt
c am
)
t
c
ng, b ng 2.
t hai chi u: n
am
vi
t Wikipedia d
i
vi
(g
t chi u
t hai chi u)
ch
cl i
t
t th lo i:
n
b ng 2.
t th lo i n u
t tham kh o v
nm
t Wikipedia
c tham kh
n thu
m t th lo i.
n. Nh
k
b ng 1.5.
L
t thu c b n m u (template):
nt im
d
t
m t th
1977
t thu c b n m
ki n quan tr ng di
t n m trong m t b n m
t
ng s d ng chung m t s b n m
th ng nh
. C hai lo
tr th p nh t, b ng 0.1.
t tham kh o: t t c
n
B ng 3.1
t
i
i
c
b
tc
b ng 0.5.
t
.
t trong
5
tt
2
t
1
0.1
3-1. Tr
ng c
t hai chi u
th lo i
2
1.5
n
0.5
tb nm u
0.1
14
M i quan h ng
ng
t chung
i nhau (bao g m c
d
Dice
ng, m i quan h ng
ng c a nh
c
n).
t chung c a
, [22]
, [22]
d
ng
theo
c
t. Trong ph n
t
t,
sau:
( ,
Ai, Aj
(3.1)
+
t Wiki
tt
)
+
)(
(
)=
ng c a
.
t Ai.
N
i di n cho ng
am t
c mt
i di n
t d ng c
vi
p nh
p nh t cho c m t
gi i quy t v
ng s d ng n i dung c
t
c mt
c ac mt
t
y duy nh t m
c gi
.C mt
p nh
ng c m
ac mt
i ng c nh c a
.B
c ch
xu t s d
t
t Wikipedia gi
i di n cho
ac m
ng ng
ki
p cho c m t theo ng c nh c
Nh
c tr
cx
cm
t
t
i quan h t t nh t v i ng c
t . [22]
m nh ng c m
c nh, t
i di n cho
i quan h ng
i ta
xu t hi n
p nh ng xung quanh c m t
c
bi
n ch
t thu c ki
.
ng c a c
i dung c
am t
n thi
t trong
n
n ph i
c
bi
c
15
m
c ki
n
tt
c
N um
c
tt
t Wikipedia di n t m
r t nhi
t
c
v y vi c ph
nh tr
Kingdom
i c n ph
3.3.
n i dung
ng c
United
i gian x
th (hyper-graph)
th
m t
th
i c nh c
th G = (V, E),
th . M i c nh e (e
thu c e: 1 |e|
nh e
|V|
cg
nh tr
V
i thi u m
nh). Cho
E
nh
nh thu
(
nh
)
s
t tc
ng
nh c
nh
th .
nh b c cao (hyper-edge).
th c a G1
c bi u di
u di n
G1 g
c nh e2 bao g m t
M t
mt m
t t p bao g m
th G1
d
n [22]
nh (V
nh {v3, v4, v8}
nh b c cao (E
c nh
th
t
th
i di n cho tr
i.
c nh c
ng c a c
c
ng
th G
ng c
nh
ng trong E.
bi u di n m
gi
nh v (
( , )=
T
n H bi u di n m
3.2(B) bi u di n d ng ma tr n m
nh e (e
1,
0,
(3.2)
gi a t
gi a t
nh V
p c nh E
p c nh trong G1.