Tải bản đầy đủ (.pdf) (67 trang)

Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.44 MB, 67 trang )

B

GIÁO D

O

I H C DÂN L P H I PHÒNG
-------o0o-------

ISO 9001:2008

ÁN T T NGHI P
NGÀNH CÔNG NGH THÔNG TIN

H I PHÒNG - 2016


B

GIÁO D

O

I H C DÂN L P H I PHÒNG
-------o0o-------

ÁP D NG K THU T PHÂN TÍCH NG

M
N


ÁN T T NGHI P

I H C H LIÊN THƠNG

Ngành Cơng ngh thơng tin

H I PHÒNG

2016


B

GIÁO D

O

I H C DÂN L P H I PHÒNG
-------o0o-------

ÁP D NG K THU T PHÂN TÍCH NG

M
N

ÁN T T NGHI

I H C H LIÊN THƠNG

Ngành Cơng ngh thơng tin


Sinh viên th c hi n: Nguy n Minh Thành
Mã s sinh viên:

1513101003

ng d n: Nguy n Tr

H I PHÒNG

2016


do

-------o0o-------

NHI M V T T NGHI P

SINH VIÊN: NGUY N MINH THÀNH
MÃ S :

1513101003

L P:

CTL901

NGÀNH:


CÔNG NGH THÔNG TIN

TÀI:
ÁP D NG K THU T PHÂN TÍCH NG
TI M

N

phúc


NHI M V

TÀI

N I DUNG VÀ YÊU C U C N GI I QUY T TRONG NHI M V

TÀI

T T NGHI P
A. N I DUNG.
- Tìm hi

m.

- Tìm hi u m t s
-

o các lu


n và các gi i thu t liên quan.

ng h th ng.

- Th nghi m v i các công c
B. K T QU C N

gi i quy t bài toán.
C:

a. Lý thuy t
- N
m d li u.
- N
c và các gi i thu t liên quan.
- Áp d ng ki n th c trong xâp d ng ph n m m th nghi m.

-

b. Th c nghi m
Th nghi m v

h mã ngu n m .

C. CÁC YÊU C U V I SINH VIÊN
- Có tinh th n trách nhi

i v i công vi c.

- Bi t ít nh t m t ngơn ng l p trình.

- Kh

c và t ng h p d li u.


NG D

CÁN B

TÀI T T NGHI P

ng d n th nh t :
H và tên :

Nguy n Tr

H c hàm, h c v :

Th
:

N

i H c Dân L p H i Phịng

ng d n :

- Tìm hi

m.


- Tìm hi u m t s

o các lu

-

n và các gi i thu t liên quan.

xâp d ng h th ng.

- Th nghi m v i các công c

g i quy t bài toán.

ng d n th hai :
H và tên
H c hàm, h c v
:
N i

ng d n

tài t t nghi
Yêu c

c ngày 30
n nhi m v

n nhi m v :


Sinh viên

Cán b

H i Phòng, ngày........tháng........n
HI

NG

n H u Ngh

ng d n .T.T.N


PH N NH N XÉT TÓM T T C A CÁN B
Tinh th

c

NG D N

án

.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
............................................................................................
ng c


tài (so v i n i dung yêu c

ra trong nhi m v

án)
........................................................................................................................................
........................................................................................................................................
........................................................................................................................................
........................................................................................................................................
...........................................................................................
m c a cán b

ng d n

m ghi b ng s và ch ):

.........................................................................................................................
Ngày........ tháng........ n
CÁN B

NG D N CHÍNH

( Ký, ghi rõ h tên )

7


PH N NH


1.

A CÁN B

CH M PH N BI

tài t t nghi p (v các m

TÀI T T NGHI P

lý lu n, thuy t minh

giá tr th c t , ...)
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
...............................................................
2.

m c a cán b ph n bi n (

m ghi b ng s ,ch ):

.......................................................................................................................................
.......................................................................................................................................

...............................................................................................................
Ngày........ tháng........ n
CÁN B CH M PH N BI N
(Ký, ghi rõ h tên )

8


M CL C
M CL C 9
DANH M C HÌNH.......................................................................................12
DANH M C B NG .....................................................................................13
DANH M C T VI T T T.........................................................................14
...............................................................................................15
Gi i thi
n.......................................................17
1.1 Gi i thi u................................................................................................17
1.2 Phân tách tài li u thành các t khóa (Filter)......................................17
1.2.1

Các nghiên c u v c u trúc c a các nhà nghiên c u Vi t Nam 17

1.2.2

Tách tài li u thành các t khóa. .............................................22

1.2.3

Gi i pháp tách t Ti ng Anh ..................................................23


1.2.4

Gi i pháp cho Ti ng Vi t ........................................................23

1.3 Các h th ng g i ý (recommender systems - RS) ...............................25
1.3.1

Các khái ni m v Recommender System ..............................25

1.3.2

X lý tài li u ti ng Vi t............................................................26

1.3.3

X lý tài li u theo ng

..................................................27
m n ..................................30

2.1 Ti n x lý................................................................................................30
b n .............................................................................30
p...................................................30
p .......................................30
2.2 Tách t ...................................................................................................30
2.2.1

Ti ng trong ti ng Vi t..............................................................31

2.2.2


T trong ti ng Vi t ..................................................................31

2.2.3

T d ng và t g c....................................................................31

2.3

ph bi n .....................................................32
........................................32

2.3.1
2.3.2

TF-IDF Term Frequency

Inverse Document Frequency ..33

2.3.3

based Learning (TBL) .....34

2.3.4

Mơ hình tách t b ng WFST và m ng Neural .....................34

2.3.5
ti ng Vi t d a trên th ng kê t Internet và
thu t gi i di truy n .......................................................................................35

2.4

phân tích ng

m n ........................................36
9


2.4.1

Gi i thi u..................................................................................36

2.4.2

Khái ni m .................................................................................37

2.4.3

Cách th c ho

ng ...............................................................38

n ...................................................................................46

2.5
2.5.1

ng..........................................................................46

2.5.2


n trong Ti ng Vi t ..............................49

2.6

ng cho toàn b

n ...........................................52

Bài toán áp d ng........................................................................53
3.1 Gi i thi u ngôn ng R...........................................................................53
3.1.1

Gi i thi u R ..............................................................................53

3.1.2

Các l n trong gói phân tích ng

3.2

t và ch

3.2.1
3.2.2

m n trong R ......54

...............................................................57


t.......................................................................................57
Ch

.................. Error! Bookmark not defined.

...................................................................................................65
.............................................................................66

10


L IC
Em xin chân thành c
b

y giáo Ths. Nguy n Tr

ng, góp ý cho em trong su t th i gian qua.

án t t nghi p.

c

n tình ch
em có th

y, cô trong Khoa công ngh
em.

n bè, nh


i luôn

il ic

ng viên

i gia

em trong su t th i

án.
án này không th

c s có nhi u thi u sót. Em r t mong nh n

c nh ng l i nh n xét, góp ý t các th y, cô và các b n.
H
Sinh viên
Nguy n Minh Thành

11


DANH M C HÌNH
c u trúc t c a Nguy n Tài C n ...........................................18
Hình 2: Hình minh h a t

n .....................................................23


Hình 3: Gi i thu t tách t t câu..................................................................24
Hình 4: C u trúc gi i thu t LSA ..................................................................29
Hình 5: S d ng các khái ni

i di n cho tài li u ............................37

SVD c a ma tr n thu t ng tài li u ......................................42
c gi

c c a ma tr n thu t ng - tài li u .........44

Hình 8: C a s làm vi c c a Rstudio ..........................................................58
Hình 9:
Hình 10:

n lsa .........................................................................60
n lsa ............................................................................61

Hình 11: File lsa_plot.R ...............................................................................62
Hình 12: L nh return....................................................................................62
Hình 13: Các thu t ng -tài li u....................................................................63
Hình 14: Ma tr n thu t ng tài li u..............................................................63
Hình 15: Ma tr n gi m chi u .......................................................................64
Hình 16: Ma tr n tài li u-tài li u .................................................................64
Hình 17: Bi

t ng -tài li u ..........................................65

12



DANH M C B NG
B ng 1: B ng m t s ví d v c

t

n................................25

B ng 2: S l n xu t hi n c a thu t ng trong m i tài li u ..........................41

13


DANH M C T

VI T T T

LSA

Latent Semantic Analysis

Ph n tích ng

m n

SVD

Singular Value Decompotision

Tách giá tr s ít ho c tách giá tr

riêng

TF-IDF

Term Frequency Inverse

Gi

ng s k t h p

Document Frequency

tính ch t quan tr ng c a m t t
trong tài li u ch a nó (TF-t n su t
xu t hi n c a t trong tài li u) v i
tính phân bi t c a t trong t p tài
li u ngu n (IDF-ngh

o t n su t

tài li u).

14


Trong th

i công ngh s hi n nay, các ngu n tài li u là vô cùng phong phú.

Vi c tìm ki m m t tài li u tr


n gi n h n bao gi h t, r t nhi u tài li u, thông

tin tri th c m i m


b tc

n t ng gi , giúp chúng ta thu nh n tri th c m i lúc

L i ích là không th bàn cãi. N

quy mô r ng l n
th

y

tc am tv

n t ngày càng nhi u, m t tài li u có

c phát hành trên internet nhi u l n t nhi u ngu n, theo nhi u

nhau, trong nhi

,

nh d ng khác

n t khác nhau, trên nh ng trang web khác nhau. Tìm


ki m là d

c thơng tin chính xác và h u ích l i là v

khơng h d dàng.
Làm th

có th nh n bi

là tài li

là tài li

sao chép, góp nh t t các tài li u khác mà tính chính xác khơng h

c ki m ch ng.

Ch

t s gi i pháp

c nghiên c u t g

khá h u hi u cho v

nt

này và m t vài công c ph n m m cho phép phát hi n, tìm


ki m m t tài li u ho c m t t p h p các tài li u ngu n phù h p v i yêu c u. T p h p
các tài li u ngu n có th

- t c là các tài li u t p h

n t ho c là m , ch ng h
t s nghiên c
m

p tài li

c trong m

n

n trên internet.

xu t c

nh xem

n c a m t tài li u có n m trong có n m trong m t tài li u khác hay
y u d a trên tìm ki m và so kh p chu i. Tuy nhiên,
p chu i ch hi u qu n u t ho c t p t
. Do v y, m t yêu c

li u có liên quan khi các tài li

t ra là làm th
có s


i th t t ,
tìm ki

phát hi n vi c

là nguyên
c các tài

m t s t b ng t
n. T

t

n d a trên n

ng
u r ng

cho hi u qu

i

m và so kh p chu i.
Xu t phát t nh ng lý do trên, em ch
tích ng

m n

tài: Áp d

n
15


M c tiêu c

n áp d

ti m n.

Gi i thi u: Phát bi u bài tốn
Trình bày các khái ni m và ki n th

i sánh

b n.
i
n.
n th c nghi
tích ng

a trên phân

m

K t lu n
Tài li u tham kh o

16



GI I THI

N

1.1 Gi i thi u
Trong các lo i d li u thì d li

n là d ng ph bi n nh t. Ngày nay, v i s

phát tri n m nh m c a Internet, d li
s

nên phong phú v n i dung và

ng. Ch b ng m t

th

n, t i b

nh n v m t kh

tài li

nt

ng kh ng l các trang web và các

n n i dung tìm ki m. Chính s d


cho chúng ta r t nhi

n

vi c ch t l

riêng, là h u ích gi a các tài li u y. Và vi
d

i b t kì

c coi là m i, là
u tiên ta ph

bi

i các

n ngôn ng t nhiên thành d ng d li u có c u trúc, hay nói cách khác là

x lý d li

u vào.

1.2 Phân tách tài li u thành các t khóa (Filter)
Các tài nguyên là các tài li

c th hi


sách, t p chí, hay m t bài báo, bài di
Anh, m t t

id

t cu n

nt

i nh ng tài li u ti ng

ng có m t âm ti t, ta có th d

cách (space) ho c d u câu. Vi
i nh

n ti ng Anh thành các t khóa khơng

n ti ng Vi t, m i t có th có m t, hai ho c nhi

ng âm ti t. Vi c phân tách thành t
n và các thu

nh m t t d a vào d u

iv

ct

n ti ng Vi t ph i d a trên t

t c a câu.

Thí d : H c sinh h c sinh h c thì h th ng s tách thành H c sinh/h c/sinh
h
t

i b các t d ng (Stopword
anh, b

Nh ng t

i

ng t không mang nhi

n i dung.

1.2.1 Các nghiên c u v c u trúc c a các nhà nghiên c u Vi t Nam
m trong nghiên c u v ng pháp ti ng Vi t, chúng ta có th th y r ng
n th ng nh t v cách g i c a t lo
ng c a ti ng Vi
c nhi u tác gi

i vi t lu

u trúc các

ch

ng nh

17


h p v i ng pháp ti ng Vi t hi n t
gi

ng th i, trong quá trình xây d

án, tác

n hành so sánh và b sung thêm nh ng ph n lý thuy t thu

m

c a Nguy n Tài C n và Di p Quan Ban.
Nguy n Tài C n (1975)
có ba ph n: ph
Ph

ng Th

ng] cho r ng c m danh t (danh ng ) g m

u, ph n trung tâm và ph n cu

u

Ph n trung tâm

Ví d : Ba

C hai
T t c nh ng cái
Hình 1

Ph n sau

i

này
nh y
chính xác

t nh
ch

c u trúc t c a Nguy n Tài C n

Trong th c t danh ng cịn có th xu t hi n c
ph n: ph

sau:

i d ng nh ng d ng ch có hai

u+ph n trung tâm, ph n trung tâm + ph n sau ho c ph

u + ph n sau.

Ph n trung tâm c a danh ng khơng ph i ch có m t t trung tâm mà bao g m c
b ph n trung tâm ghép g m hai trung tâm T1 và T2, v i hai v trí T1, T2 b ph n

trung tâm có th xu t hi

i 3 bi n d ng :

: T1T2, ví d : con chim ( này)
o D ng thi u T1 : -T2, ví d : - chim (này)
o D ng thi u T2: T1-, ví d : con
- Ph

u c a danh ng có t t c 3 lo i thành t ph (3 lo
nh t

o

( này)
nh t ) :

: cái c u h c sinh y

nh t ch s

ng, ví d : m y cái c u h c sinh y

nh t ch

, ví d : t t c m y cái c u h c sinh y

- Ph n cu i c a danh ng , có th có 2 lo

nh t có t ch c hồn tồn khác nhau:


o Lo

nh t ch g m m t t , ví d : m t quy n sách quý

o Lo

nh t do m t m

m nhi m, ví d : cu n sách tôi v a mua hôm qua
18


Trong ti ng Vi t có th dùng nh ng t lo
+ Danh t , ví d

nh t cu i :

n cau

+ Tính t , ví d : gh dài, m t cái gh r t t t
ng t , ví d : bàn h c
+ T ch tr , ví d

i y

+ T ch v trí, ví d : nhà trong, c
+ T ch con s

c


ng m t, ngày 27

H Lê (1992) cho r ng v trí c a s

ng t

i t ch

nh và s ki n t xoay

xung quanh danh t theo mơ hình sau :
D1

D2

D1: g m nh ng danh t
n, bu i, hôm, ngày, gi , khi, lúc...

i, th , h

D2: g m nh ng danh t cịn l i.
Ví d :
-

nr i

- Cơ y tá
- Phía ngồi sân
Nguy n Kim Th n (1997) cho r ng vi c nghiên c u c m danh t chính là vi c

nghiên c u t t danh t , lo i t chi
có th ghép v i danh t , th i v t , s t
i, d o, thu , kho

tuy
ng t , tính t
, b a, bu

i trong nhóm danh t . Danh t
i t và m t s t ph khác
,

l i, h ng, cái, lo i, c , kh , b c, ng nh...
-T t danh t + danh t (N):
o T t N1 N2, ví d : cân g o, bó rau, hịm sách, chùm cau, tóc mây, ti n nghìn,
sơng H ng, huy n Gia L

19


o T t N1 z N2, ví d : quê c a m , nhà b ng g ch, k ho ch v kinh t , sách cho
thi u nhi, nhãn
oT t N1 (z) N2, ví d : quê m , nhà g ch, k ho ch kinh t , sách thi u nhi, nhãn
i t ).
-T t danh t + th i v t (E):
oT t N E, ví d

ng mình n m

oT t N (z) E, ví d


nh (c

nào ?

-T t danh t + s t (F): t ch s

ng bao gi

ví d : hai cái bàn. T ch th t bao gi

c danh t (FN),

t sau danh t (NF), ví d : bàn s hai,

quy n th
o T t danh t

ng t , ví d : cá s

c sơi, gió lùa, k ho ch làm

vi
o T t danh t + tính t , ví d : qu táo vàng, cái áo tr
o T t danh t

i t ch

Di
trung tâm, ph n ph


nh, ví d : con mèo
u t o chung c a c m danh t có ba ph n: ph n

c, ph n ph sau. Ph n trung tâ

ng là m t danh t ho c

m t ng danh t . Trong ph n ph
s p x p theo m t tr t t nh
t

nh. Ph n ph

nh.

c ba v trí khác nhau
ph n ph

ng nh

c c m danh t chuyên dùng ch m t s

trung tâm, ph n ph sau ch y u dùng ch m t ch

c hai v trí có tr t
ng c a s v t nêu

ng c a s v t nêu


trung

tâm.

20


-3

-3

-2

-1

0

1

2

-2

con
-1

mèo
0

1


2

V trí 0 là v trí c a danh t chính
V trí -1 là v trí c a t ch xu t cái
V trí -2 là v trí c a t ch s
m i, t ng, m

ng, các, m

ng, ví d : m
y

V trí -3 là v trí c a t ch t

ng, ví d : h t th y, t t c , c

V trí 1 là v trí c a t

có th g p nhi u lo i t khác nhau

ng t , tính t , s t

i t và th i v t .

Ví d :
phịng t

c, phịng h p, phịng chúng tơi...


V trí 2 là v trí c a t ch
- Tóm t

nh, ví d : cái máy này, qu táo kia...

a c u trúc ng pháp ti ng Vi t, Anh
m trong câu c a ti ng Vi t:
cc ut

i gi n.

c phân tách b ng các d u ch m câu.
Câu hoàn ch nh có ho c khơng s d ng các tr ng t , t c m thán (các
stopword, s

c lo i b

l c thơng tin).

c hình thành t các t , ho
M i câu mang m

nh.

trên, ngày nay, các tài li u vi t ti ng Vi
khai thác trên font ch chung, tuân theo chu
vi

c chính xác các tài li u ti ng vi t c


n sang

u này có l i r t nhi u cho
c.
21


V i các tài li u ti ng Anh, các t
phân tách t t

c phân cách nhau b i d u cách. Vi c x lý

n ti

i d dàng.

Trong ti ng Vi t không th

c thành nh ng t riêng b i d u cách. Vì

t có th g m m t, hai ho c nhi
vi c tách t

ng âm ti t (s

ng t ghép). Vì th ,

i gi i thu t tách t t t.

1.2.2 Tách tài li u thành các t khóa.

Mơ hình này áp d ng cho nh ng l n g

i dùng nh p t

khóa.
Gi i thu t tách t khóa:
Input: t p tài nguyên là sách, t p chí, trang thơng tin (html)

nh d ng tài

li u.
Output: T p các t khóa v
Q trình tìm ki m s

ng.
i nh

c l c ra

t p khóa có m

ng c a chúng.
Gi i thu

c thi t k

c p nh t tài li
m t cu

ch y offline trong phiên b


u tiên. Quá trình

i qu n tr nh p. Chi phí th i gian cho modul này là khá l n,
nt t

ng là 3 phút cho h th

c và tách

thành t khóa.
T

n ngu n

T

c phân tách

22


Hình 2: Hình minh h a t

n

1.2.3 Gi i pháp tách t Ti ng Anh
V i các tài li u ti ng Anh, t c a ti

c phân cách v i nhau b ng d u

tách t ti ng Anh b ng d u phân tách là d u

cách. Vi c x lý các stopword c a ti
t stopword c a ti

t file g

ph c v cho vi c lo i b stopword kh

tách ra nh ng t quan tr ng, tránh nh ng t

là c m thán.

1.2.4 Gi i pháp cho Ti ng Vi t
1.2.4.1 Các gi
Hi n có r t nhi

tr vi c phân tích cú pháp, tách t , gán nhãn t

ti ng Vi t cùng v i các gi i thu t thu t toán khác nhau. Nh

c tham kh o là

n d a vào t p hu n luy
trình VNSegment c a tác gi

nh trong vi c tách

t và phân lo i t ti ng Vi t. Ch


u vi t trên n

s

c cung c p
c p t i m t s nghiên c u

h u ích cho vi c tác t ).
1.2.4.2 Gi i pháp s d ng và nh n xét
Gi
n ti ng Vi

cs d

c mô t b ng gi i thu
g mh

i. D a trên m t b t

và c m t .

23


Hình 3: Gi i thu t tách t t câu

Tài li

c tách thành các câu chu n (hoàn ch nh). Gi i thu t tách các t khóa


t

trong câu s

b ng các so sánh nó v i các t trong t
t

c ki m tra xem có t n t i trong t
n. N

m tra ti p. Gi i thu t trên gi m thi u t

trong t

n khơng
n, thì tách

ng nh p nh ng. Tuy

ng h p câu này thì gi i thu t tách sai: H c sinh h c sinh h c
H c|sinh h c|sinh h
t t (thu

ng này (thu

a bàn) thì l i gi i quy t

a bàn).

24



Chi phí v th i gian cho gi i thu t trên là r t l n
trong t

n hay không. T

v i ki u d li

nv

c ki m tra t tách ra có
c load vào b nh

i

c t ch c theo 2 ki

M t là m ng các string. M i ph n t là t hay c m t c a t
n. M
s p x p theo th t
n c a mã ASCII (Trong C#, ki u d li u m ng).

c

T ch c thành m t arraylist mà m i ph n t c a nó là m ng các string. M ng các
string thu c 1 ph n t nó gi ng nhau v âm ti
u tiên c a t . Ví d
T ,c mt


Âm ti t
u

Ái

ái

u

hồn

Ái ân

Ái chà

c

ng

Anh hàng

Anh hùng

an

Ái

Ái nam

qu c


ái n

Anh hùng

Anh

Anh linh

ch

ki t

Ái th n

Ái tình

An gi c

nghi p
Anh

p

m

B ng 1: B ng m t s ví d v c

c m t t , ta tách âm ti
u tiên c a m

s

tìm ki

u tiên c a nó và ki

t

n

c v i các ph n t

m tra ti p v i các ph n t trong m ng c
.

1.3 Các h th ng g i ý (recommender systems - RS)
1.3.1 Các khái ni m v Recommender System
Recommender Systems (RS) là m t h th ng l
c bi t, h th ng cho
phép l c thông tin d a trên s quan tâm c
i dùng và n i dung c
n. có hai
25


×