Tải bản đầy đủ (.pdf) (79 trang)

Rút trích các cụm từ khóa dựa trên vai trò và đặc điểm của các cụm từ trong văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.28 MB, 79 trang )

I H C QU C GIA TP. HCM
IH

NGUY N KIM HUY N

M T
MC

MT

N

: 60.48.01

LU

TP. H

2013


i:

iH

-HCM

ng d n khoa h

ch m nh


......................................................

GS.TS. Phan Th

........................................................

ch m nh

Lu

...............................................................

cb ov t
..12..
..2013..

..25..
nH
1. PGS.TS. Qu

iH

m:
..................................................................................................

2. TS. Nguy n H

.....................................................................................................

3. GS.TS. Phan Th


.....................................................................................................

4. TS. H B o Qu c .............................................................................................................
5.

khi lu

..................................................................................................
n c a Ch t ch H
c s a ch a (n
CH T CH H

NG

ng Khoa qu


-

-

............................ MSHV: 11070455..........
16/07/1983 ........................................
..............................
I.

: 604801 ...........

............................................................................................................

...........................................................................................................................

II.

.................................................................................

........................................................................................................................................
........................................................................................................................................
III.

: 02/07/2012 ................................................................

IV.

:21/06/2013 .................................................

V.

:

..........................................

........................................................................................................................................

T


L IC
ng h
t om i


u ki

t vi c h c t
y,

s ch d n t

r . Nh ng l

c a th y

t lu

ib nc
n trong su t th i gian th c hi n lu
t
ih

uc

gi ng d
c bi

.
c at tc

i
thu t



L
ng, ngo i tr
th c hi
m

nn

t qu tham kh o t
a lu

cn

l y b ng c p

Nguy n Kim Huy n


MT T
C mt

ng t hay c m t

li u

i di n cho n

ng ti p c

th


ng h c

tc
mt

ng h c

hai

m quan h ng

mt v

.M

c s quan

i ti n hi u su t c a SemiRank, m
mt d

c mt

m i quan h ng

xu t hai p

t p

c i ti n t


u

c m t tr
c i ti n t p
c i thi n

nh ng

mt
t

m i quan h ng

y r ng hi u su t c a SemiRank
ng h p

it p

gi

v i nhau

p WikiHai p

mt
t qu th c nghi

im ts
xu t


u

u c i ti n hi u su t c a SemiRank

c
mt
k t qu t t

.

SUMMARY
Keyphrases are single or multiple words summarizing the main contents of a
document. There are two main approaches for keyphrase extraction: supervised and
unsupervised learning. However, semantic relations between phrases have not been
adequately considered in both approaches. In this thesis, we proposed two methods
to improve performance of SemiRank, an approach to extract keyphrases based on
initial keyphrases and semantic relations between phrases in the document. The two
methods are: Core Phrases and Information Features methods. Our methods
outperform SemiRank with intitial keyphrases from title and two derivatives of
KEA and KEA++ on F1 measure. In addition, we show that, the new methods give
better results to SemiRank in the case that initial keyphrases are re-ranked based on
their semantic relations.

.


i

N I DUNG


M

U ............................................................................................. 1

1.1
1.2

........................................................................................ 1
M

m vi ................................................................................... 2
...................................................... 4

2.1.

T

................................................................................................... 4

2.2.

mc ac mt

................................................... 5
T ........................................................................ 10

3.1.

Wikipedia ...................................................................................................... 10


3.2.

ng m i quan h ng

i nh p nh ng ................... 12

3.3.

th (hyper-graph).............................................................................. 15

3.4.

(community) .................................................................. 17
XU T ............................................................. 18

4.1

SemiRank ................................................................................................. 18

4.2

m t tr

4.3

d

4.4


Ti n x

li

................................................................. 25
ac mt

....................... 28

........................................................................ 29

TH C NGHI M ............................................................................... 32
5.1.

Wiki-20 .................................................................................................... 32

5.2.

.............................................................................. 32

5.3.

Hi n th c

...................................................................... 35

Hi n th c SemiRank ....................................................................................... 36
Hi n th c ti n x

li u ............................................................................ 38



ii

Hi n th

m t tr

Hi n th

d

5.3.

..................................................... 38

ac mt

........ 39

hi u qu ..................................................................................... 39
nh s

ng c m t

u ....................................................... 39

Hi u qu khi k t h p v i m i quan h ng

............. 42


................................................................ 43

S d

................................................. 44

T NG K T ....................................................................................... 46
6.1

........................................................................................... 46

6.2

n ...................................................................................... 46

THAM KH O ...................................................................................................... 48


iii

DANH M

v

n trong Wikipedia ............................................... 11

v bi u di

th G1 ........................................................... 16

mt

.................................... 18

4.2. Gi i thu t PhraseRank trong SemiRank ................................................. 22
4.3. Minh h a m t s

c l p trong gi i thu t PhraseRank. ......................... 23
mt

t tr

m

. .......................................................................................................... 25
th bi u di n hi u su

tr

u

c khi s d

mt

............................................................................................................... 40


iv


DANH M C B NG

2-

c s d ng trong m t s h th

3-1. Tr

ng c

9

......................................... 13

5-1. Hi u su t c a SemiRank khi s d
c m t tr

mt

d

................................................................................................... 41

5-2. Hi u su t c a SemiRank khi s d

d

c

....................................................................................................... 42

5-3. Hi u su t c a t

mt

u so v i t

mt

.................................................................................... 43
5-4. Hi u su t c

mt

p

d li u Wiki-20 ..................................................................................................... 44
5-5. Hi u su

c khi s d ng gi i thu

........... 44


1

M

1.1

nh


C mt
li u.

U

ng t hay c m t

i di n cho n

di n t n

u, nh ng c m t

d

cs

m
i s d ng d

dung

li u (metadata)

i dung c

h p [9].

u


c

[6].

b t

ng ngh a (thesaurus) [19].

is

nc

nt
c

vi

mt

mt
c, v

i

mt
u

ng


tc

i nhi u th i gian

,

ng tr

t l a ch n mang l i nhi u

h a h n.
ng ti p c
c m t thu c m t b t v
mt
c n th nh t,

c ki

t (controlled vocabulary

m duy nh t n

c ch n l a k

hi ch

1

/>
c ki


.B

ng, m i c m t di n
u, nh ng c m t

t v ng ki

c (domain) c th

ng ti p

v ng trong b t v
m nh ng c m t

c a

ng s d

trong n i dung c

mt

t v ng ki
t m

gi i quy t

ng nh t gi
t v ng ki


mt

c t o ra cho m t
c gi i h n

1

t


2

d ng c a b t v ng ki

cung c p nh ng c m t

c y khoa.
ng ti p c n th
b n. So v

mt

trong n i dung c

ng ti p c n th nh t nh ng c m t

gi i h n.

c ch


ng nh t gi a

gi

u

nhau.

mt

c ch n

n nh

trong n i dung c a

1.2 M

mt

u.

m vi
ct

mt

i di n cho n


t h p nh

tc

a nh ng c m t

ng m t t p

mt

ti

i ng

ud
mt

ng

th

h

i quan h

v i nhau.
B

d ng l


ph m vi c

ng l i t

mt

a c m t

H

xu

c m t tr

d ng

a

c mt
SemiRank

m t trong
mt

it
pv i

c mt
,


i quan h ng

mt

m r ng t p t
a

m i quan h ng
i di

ng c m t

ng c m t

mt

i nhau.
nv

a vi

t
mt

:

mt
v a



3

Khi x

n d li u,

mt

c mt

ng v i

bu c

ti ng Anh.

n nh

t
c m t tr

trong ti

n vi
.

cl

ng c m t


ng

cl

d ng m t s m
u


4

mt
sau:

th

ng ti

c

mt

t

l c ra t
nh ng c m t

th

m


p
mt

t

th

cs d

l

mt

2.1. T
h th

mt

mt

cl

bi n nh

ng tr

c:

mt


mt

n.

-gram [3, 5, 11, 23], c t tu n t n t

ng

k ti

mc

t

ng k

mt

kh c ph

y theo m u (POS

s d ng [5, 18]

tb

nh t lo i c
m

c ch


c

nh ng c m t

m u t lo i

mt

Trong nh

i s l n m nh c

mt

t trong Wikipedia (article) [4, 8, 14],
i di n cho ng
th y m t hay nhi

M

a c m t . Ch nh ng c m t
ng v

ct

c mt

mt
th ng t


m tc mt

c ch

mt

m

ch
ng s d ng nh
l c. Nh ng

m
m


5

c do s

t t nh

c th c hi n b ng

tay.
ng h th

m


nhau, m i h th ng s

ng m t s

c

ib

qua nh

th
d

d ng
d ng
[5, 11, 14, 23] s d ng m t t p d li u hu n luy n
p d li u hu n luy

g

mt

ng tay. Nh ng

ng

c

[18, 23] hay


(decision tree) [11, 14, 18].

nh

mc

i t p d li u

hu n luy n ph i l n [14].
ng ti p c n h
i ph

nh ng h th ng c

p hu n luy

t m quan tr ng c
id

u, [1, 3, 24]

m t ti

[8, 15] bi u di n n i dung c

th ng

quan h

u


am tc mt

i

.

2.2.

mc ac mt
m

am tc mt

th

u

m t n m trong c m t
a

t

ng

cho c m t
mt

cl pv


cv .

ac m

mt

ac mt

c mt
i quan h ng

gi a

s

m xem
c m t tro

n.


6

m t n m trong c m t
M

n m trong m t c m t

k


trong

c di

t c

nh m

c

m

k

xu t hi

ng

i nhau trong m t c m t . P

c mt

i thi

k

mt

m


n

c mt

u

u nh

th

ts
k

.

ng.

m ph bi n

i

s xu t hi n l p l i c a c m t

frequency

c

t ng su t xu t hi n c a m t c m t ), TF d

c mt


s

thi

ck th p

rse document

t n su t ngh ch c a m t c m t

cl pl

ng c m t
y

ng h p nh ng c m t

bi n

nt n

nhi

K

mv

v


IDF ph thu

p th

ac mt ,

m t xu t hi n FOC (first of occurrence
thi

u

s l n c m t xu t hi

a m t t p th

n i dung c

n. TF

n ho c ch
n.

li

um t

c l p l i nhi u l n trong n i dung c

u bi n th


frequency

TF (term

uc mt

u
v

quan tr ng,

u. M t bi n th c

xu t hi

u xu t hi n
c nh
v

n s m trong

l n cu

mt

ph c a c m t (occurrence spread) trong n i
n

ph


t xu t hi
c m t xu t hi n trong m
t t hay ph n gi i thi u.

nh kho

al

n cu

t d ng bi n th n
n c th c

u

m


7

M

cs d

c mt

th
c th

chi


ac mt

ng di n t

t c m t di n t
ng c m t

th

c

bao g m nhi u t g p l i

ng c m t ng

i

ac mt
m k ti p

[23].

d

hi m t c m t

ch

kh


c ch

.

cd

t t p th

c

.V

y, m

l nm tc mt
t

c ch

, keyphraseness ph thu c

c a t p th
mt
c mt

m ts

mm


Wiki-keyphraseness d

di n t n i dung c

xu t,

Wiki-keyphraseness,

thi t r ng n u c m t

il

xu t hi n trong m
kh

t tham

t di n t

cn

Wiki-

t bi n th c a

Wiki-keyphraseness cho m
t c m t (inverse Wikipedia frequency).
m m i quan h ng

Khi s d ng m i quan h ng

thi t r ng nh ng t

gi

nh t b

c h tr v

u. [10, 15]

k t nh ng t
C as

i quan h

u t hi n trong m t c a s

cc

c ch y d c n

k tt ot

di n cho n i dung c

n.

t v t (lexicon). M
tr


c mt

t s h th ng d

th

i

t ng ngh a ho c
a TextRank [15]

th

t

nh.

nh ng t

n

[10]

m

m t ch a ch

[11]

nh m i quan h ng


a hai

t hi n trong m

u. M i quan h ng

a hai


8

c mt
l i

c

c b ng

c ch

t

.

c mt

m tc mt

mt


i quan h ng

u kh

Maui [14]

tv

tr

coi c m t

i quan h ng

mt
hai c m t d

uc mt

s

Maui

ng m i quan h ng

a

ng


hai c m t

i di n cho
t tham kh o. M i quan h ng

am tc mt

mt
h

i nhi

l nl pl ic ac mt .
, [4, 8] d

vi

t Wikipedia chung c

i di n cho hai c m t c

ng m i quan h ng

m quan tr

t

c

ct im


ng c
i quan h ng

t chung
am

m t b ng

ng

Tuy

mt
m quan tr ng c a c
c m t kh
h pv it

i ph n t

tc mt
mt

i

i quan h ng
u.

c s d ng k t h p v
sau khi ch


mt

IDF, FOC

[18]

i m TF,

c m t ti

c s d ng trong m t s h th
Vi

ac

mt
m t . C th

ng 2.1 li

m

mt

m ng
p l c ra c

ng.


TF

ic mt

h ng

c

c m t ti
c c m t con trong

trong vi

th ng t

n
[7],

t

tr

n m i quan

c m i quan h ng


9

trong [8] b


k th pm ts

c tr

a c m t kh

g

KEA [23]

x

x

KEA++ [13]

x

x

x

x

x

WINGNUS [18]

x


x

x

MAUI [14]

x

x

x

KP-MINER [3]

x

x

x

DERIUNLP [1]

x

x

x

COREWORD [13]


x

x

x

x

TEXTRANK [15]

-

Wikipedia
keyphraseness

-

-

Keyphraseness

-

HUMB [11]

v

x


S
x

x

x

x

x

x

x

x

U
U
x

c s d ng trong m t s h th
S: h

U
x

x

2-1.


S
U

x

TOPIC [4]

S
S

x

SEMIRANK [8]

S

U
x

mt

U

.


10

T


nt
ng m i quan h ng

cs d
i nh p nh ng,

th

.

3.1. Wikipedia
ng m
t tc

c tuy n mi

gi

m t trong nh ng trang tr c tuy
470 tri

c tham kh o nhi u nh

i tham kh o m

gi i, kho ng

i
vi t (article)


286

ng ti ng Anh.
C

a Wikipedia bao g

t

tham kh o, th lo i c a

n

a Wikipedia:
t Wikipedia (article):
M

m
ng d n v so n th

n ch
m duy nh

ng

mb ov n

cc


t cho m

t.

m

nh danh

t

Trang chuy

ng (redirect): trang chuy

n

bao g m m t tham kh
t hay m t trang chuy

t b im

t duy nh

th
tham kh o

o c a Wikipedia.

nm t


ng m i). B
nh ng c m t di n t

b ng nh ng trang chuy
n

t

t
m ch
t

m
ch a li

m.

t


11

L

t (hyper-link): trong n i dung c

quan tr

t, n


c khuy

tc mt

o ra m

tt c mt
m

c ac mt

C mt
cg

c mt

ct o

m tc mt

k

t t t neo

vi

d

n


t

,

vi t

nt
[14].

Trang

ng (disambiguation page):

n nh
c mt

ng ch

t

nt
.T

c am t

i s d ng ch n l

mu n

tham kh o.

Th lo i (category):

n

nn

lo

c p.

th lo

c khuy

t. M t th lo

thu c v m t th lo

n gi ng c

3.1.
3.1

v
v

u

lo i.


n trong Wikipedia
n c a Wikipedia [14]. L

vi
vi

, R
B

,

.

t

thu c v th


12

lo i L

, th lo

lo i con c

th lo i:

informati


,
)
ns

v

c s

Digital

n h c thu
d ng trong

22/07/2011. B n Wikipedia

.

b

bao g

bao g m kho ng 3.5 tri

Buildings and

lo

A

B


ibrary and

t b ng ti ng Anh. S

u trang chuy

ng

ng
ng

700,000 th lo i (category).

3.2.

ng m i quan h ng
h

gi i nh p nh ng
ng m i quan h ng

a hai c m t ,
th

Wikipedia

trong [22],

c m i quan h ng


i di n cho hai c m t

. [22]

i di n cho ng

t

at

xu

ng m i quan h gi
ph

p theo sau
M

t Wikipedia bao g

n (incoming link).

n nh

t Wikipedia.
t

t


m t

ph i

t xu

c tham kh o

i dung

nm

t.

tr

t

t

k t trong

y, [22]
thu c m

See Also): h u h
t v i nh

Xem t


nm t

n nhau, [22] nh n th y r ng s tham kh o

ng m

t

cd

(See Also). M
)

t

t
n i dung

tn

g i
(g

cao nh t, b

c l i,


13


n

i thu

vi

n

(g

tt

c am
)

t

c

ng, b ng 2.
t hai chi u: n

am

vi

t Wikipedia d

i


vi

(g

t chi u

t hai chi u)

ch

cl i

t

t th lo i:

n

b ng 2.
t th lo i n u

t tham kh o v

nm

t Wikipedia

c tham kh

n thu


m t th lo i.

n. Nh

k

b ng 1.5.

L

t thu c b n m u (template):
nt im

d

t

m t th

1977
t thu c b n m

ki n quan tr ng di
t n m trong m t b n m

t

ng s d ng chung m t s b n m
th ng nh


. C hai lo

tr th p nh t, b ng 0.1.
t tham kh o: t t c
n
B ng 3.1

t

i

i

c

b

tc

b ng 0.5.

t

.

t trong

5


tt

2

t

1
0.1
3-1. Tr

ng c

t hai chi u
th lo i

2
1.5

n

0.5

tb nm u

0.1


14

M i quan h ng


ng

t chung

i nhau (bao g m c
d

Dice

ng, m i quan h ng

ng c a nh
c

n).

t chung c a

, [22]

, [22]
d

ng

theo

c


t. Trong ph n

t

t,

sau:

( ,
Ai, Aj

(3.1)

+

t Wiki

tt

)

+

)(

(

)=

ng c a


.

t Ai.

N

i di n cho ng

am t

c mt

i di n
t d ng c

vi

p nh

p nh t cho c m t

gi i quy t v

ng s d ng n i dung c
t

c mt

c ac mt


t

y duy nh t m
c gi

.C mt

p nh

ng c m

ac mt

i ng c nh c a

.B
c ch

xu t s d

t

t Wikipedia gi
i di n cho

ac m

ng ng


ki

p cho c m t theo ng c nh c

Nh

c tr
cx
cm

t

t

i quan h t t nh t v i ng c
t . [22]

m nh ng c m

c nh, t

i di n cho

i quan h ng

i ta

xu t hi n

p nh ng xung quanh c m t


c

bi

n ch

t thu c ki

.

ng c a c
i dung c

am t
n thi

t trong
n

n ph i
c

bi

c


15


m

c ki
n

tt
c

N um

c

tt

t Wikipedia di n t m

r t nhi
t
c

v y vi c ph

nh tr

Kingdom

i c n ph

3.3.


n i dung

ng c

United

i gian x

th (hyper-graph)
th

m t

th

i c nh c

th G = (V, E),

th . M i c nh e (e
thu c e: 1 |e|
nh e

|V|
cg

nh tr

V


i thi u m

nh). Cho

E
nh

nh thu

(

nh

)

s

t tc

ng

nh c

nh
th .

nh b c cao (hyper-edge).

th c a G1


c bi u di

u di n

G1 g

c nh e2 bao g m t
M t

mt m

t t p bao g m

th G1
d

n [22]

nh (V

nh {v3, v4, v8}

nh b c cao (E
c nh

th

t

th


i di n cho tr

i.
c nh c

ng c a c

c
ng

th G

ng c

nh

ng trong E.
bi u di n m

gi

nh v (
( , )=

T

n H bi u di n m

3.2(B) bi u di n d ng ma tr n m


nh e (e

1,
0,

(3.2)
gi a t

gi a t

nh V

p c nh E

p c nh trong G1.


×