B
GIÁO D
O
I H C DÂN L P H I PHÒNG
-------o0o-------
ISO 9001:2008
ÁN T T NGHI P
NGÀNH CÔNG NGH THÔNG TIN
H I PHÒNG - 2016
B
GIÁO D
O
I H C DÂN L P H I PHÒNG
-------o0o-------
ÁP D NG K THU T PHÂN TÍCH NG
M
N
ÁN T T NGHI P
I H C H LIÊN THƠNG
Ngành Cơng ngh thơng tin
H I PHÒNG
2016
B
GIÁO D
O
I H C DÂN L P H I PHÒNG
-------o0o-------
ÁP D NG K THU T PHÂN TÍCH NG
M
N
ÁN T T NGHI
I H C H LIÊN THƠNG
Ngành Cơng ngh thơng tin
Sinh viên th c hi n: Nguy n Minh Thành
Mã s sinh viên:
1513101003
ng d n: Nguy n Tr
H I PHÒNG
2016
do
-------o0o-------
NHI M V T T NGHI P
SINH VIÊN: NGUY N MINH THÀNH
MÃ S :
1513101003
L P:
CTL901
NGÀNH:
CÔNG NGH THÔNG TIN
TÀI:
ÁP D NG K THU T PHÂN TÍCH NG
TI M
N
phúc
NHI M V
TÀI
N I DUNG VÀ YÊU C U C N GI I QUY T TRONG NHI M V
TÀI
T T NGHI P
A. N I DUNG.
- Tìm hi
m.
- Tìm hi u m t s
-
o các lu
n và các gi i thu t liên quan.
ng h th ng.
- Th nghi m v i các công c
B. K T QU C N
gi i quy t bài toán.
C:
a. Lý thuy t
- N
m d li u.
- N
c và các gi i thu t liên quan.
- Áp d ng ki n th c trong xâp d ng ph n m m th nghi m.
-
b. Th c nghi m
Th nghi m v
h mã ngu n m .
C. CÁC YÊU C U V I SINH VIÊN
- Có tinh th n trách nhi
i v i công vi c.
- Bi t ít nh t m t ngơn ng l p trình.
- Kh
c và t ng h p d li u.
NG D
CÁN B
TÀI T T NGHI P
ng d n th nh t :
H và tên :
Nguy n Tr
H c hàm, h c v :
Th
:
N
i H c Dân L p H i Phịng
ng d n :
- Tìm hi
m.
- Tìm hi u m t s
o các lu
-
n và các gi i thu t liên quan.
xâp d ng h th ng.
- Th nghi m v i các công c
g i quy t bài toán.
ng d n th hai :
H và tên
H c hàm, h c v
:
N i
ng d n
tài t t nghi
Yêu c
c ngày 30
n nhi m v
n nhi m v :
Sinh viên
Cán b
H i Phòng, ngày........tháng........n
HI
NG
n H u Ngh
ng d n .T.T.N
PH N NH N XÉT TÓM T T C A CÁN B
Tinh th
c
NG D N
án
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
............................................................................................
ng c
tài (so v i n i dung yêu c
ra trong nhi m v
án)
........................................................................................................................................
........................................................................................................................................
........................................................................................................................................
........................................................................................................................................
...........................................................................................
m c a cán b
ng d n
m ghi b ng s và ch ):
.........................................................................................................................
Ngày........ tháng........ n
CÁN B
NG D N CHÍNH
( Ký, ghi rõ h tên )
7
PH N NH
1.
A CÁN B
CH M PH N BI
tài t t nghi p (v các m
TÀI T T NGHI P
lý lu n, thuy t minh
giá tr th c t , ...)
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
...............................................................
2.
m c a cán b ph n bi n (
m ghi b ng s ,ch ):
.......................................................................................................................................
.......................................................................................................................................
...............................................................................................................
Ngày........ tháng........ n
CÁN B CH M PH N BI N
(Ký, ghi rõ h tên )
8
M CL C
M CL C 9
DANH M C HÌNH.......................................................................................12
DANH M C B NG .....................................................................................13
DANH M C T VI T T T.........................................................................14
...............................................................................................15
Gi i thi
n.......................................................17
1.1 Gi i thi u................................................................................................17
1.2 Phân tách tài li u thành các t khóa (Filter)......................................17
1.2.1
Các nghiên c u v c u trúc c a các nhà nghiên c u Vi t Nam 17
1.2.2
Tách tài li u thành các t khóa. .............................................22
1.2.3
Gi i pháp tách t Ti ng Anh ..................................................23
1.2.4
Gi i pháp cho Ti ng Vi t ........................................................23
1.3 Các h th ng g i ý (recommender systems - RS) ...............................25
1.3.1
Các khái ni m v Recommender System ..............................25
1.3.2
X lý tài li u ti ng Vi t............................................................26
1.3.3
X lý tài li u theo ng
..................................................27
m n ..................................30
2.1 Ti n x lý................................................................................................30
b n .............................................................................30
p...................................................30
p .......................................30
2.2 Tách t ...................................................................................................30
2.2.1
Ti ng trong ti ng Vi t..............................................................31
2.2.2
T trong ti ng Vi t ..................................................................31
2.2.3
T d ng và t g c....................................................................31
2.3
ph bi n .....................................................32
........................................32
2.3.1
2.3.2
TF-IDF Term Frequency
Inverse Document Frequency ..33
2.3.3
based Learning (TBL) .....34
2.3.4
Mơ hình tách t b ng WFST và m ng Neural .....................34
2.3.5
ti ng Vi t d a trên th ng kê t Internet và
thu t gi i di truy n .......................................................................................35
2.4
phân tích ng
m n ........................................36
9
2.4.1
Gi i thi u..................................................................................36
2.4.2
Khái ni m .................................................................................37
2.4.3
Cách th c ho
ng ...............................................................38
n ...................................................................................46
2.5
2.5.1
ng..........................................................................46
2.5.2
n trong Ti ng Vi t ..............................49
2.6
ng cho toàn b
n ...........................................52
Bài toán áp d ng........................................................................53
3.1 Gi i thi u ngôn ng R...........................................................................53
3.1.1
Gi i thi u R ..............................................................................53
3.1.2
Các l n trong gói phân tích ng
3.2
t và ch
3.2.1
3.2.2
m n trong R ......54
...............................................................57
t.......................................................................................57
Ch
.................. Error! Bookmark not defined.
...................................................................................................65
.............................................................................66
10
L IC
Em xin chân thành c
b
y giáo Ths. Nguy n Tr
ng, góp ý cho em trong su t th i gian qua.
án t t nghi p.
c
n tình ch
em có th
y, cô trong Khoa công ngh
em.
n bè, nh
i luôn
il ic
ng viên
i gia
em trong su t th i
án.
án này không th
c s có nhi u thi u sót. Em r t mong nh n
c nh ng l i nh n xét, góp ý t các th y, cô và các b n.
H
Sinh viên
Nguy n Minh Thành
11
DANH M C HÌNH
c u trúc t c a Nguy n Tài C n ...........................................18
Hình 2: Hình minh h a t
n .....................................................23
Hình 3: Gi i thu t tách t t câu..................................................................24
Hình 4: C u trúc gi i thu t LSA ..................................................................29
Hình 5: S d ng các khái ni
i di n cho tài li u ............................37
SVD c a ma tr n thu t ng tài li u ......................................42
c gi
c c a ma tr n thu t ng - tài li u .........44
Hình 8: C a s làm vi c c a Rstudio ..........................................................58
Hình 9:
Hình 10:
n lsa .........................................................................60
n lsa ............................................................................61
Hình 11: File lsa_plot.R ...............................................................................62
Hình 12: L nh return....................................................................................62
Hình 13: Các thu t ng -tài li u....................................................................63
Hình 14: Ma tr n thu t ng tài li u..............................................................63
Hình 15: Ma tr n gi m chi u .......................................................................64
Hình 16: Ma tr n tài li u-tài li u .................................................................64
Hình 17: Bi
t ng -tài li u ..........................................65
12
DANH M C B NG
B ng 1: B ng m t s ví d v c
t
n................................25
B ng 2: S l n xu t hi n c a thu t ng trong m i tài li u ..........................41
13
DANH M C T
VI T T T
LSA
Latent Semantic Analysis
Ph n tích ng
m n
SVD
Singular Value Decompotision
Tách giá tr s ít ho c tách giá tr
riêng
TF-IDF
Term Frequency Inverse
Gi
ng s k t h p
Document Frequency
tính ch t quan tr ng c a m t t
trong tài li u ch a nó (TF-t n su t
xu t hi n c a t trong tài li u) v i
tính phân bi t c a t trong t p tài
li u ngu n (IDF-ngh
o t n su t
tài li u).
14
Trong th
i công ngh s hi n nay, các ngu n tài li u là vô cùng phong phú.
Vi c tìm ki m m t tài li u tr
n gi n h n bao gi h t, r t nhi u tài li u, thông
tin tri th c m i m
và
b tc
n t ng gi , giúp chúng ta thu nh n tri th c m i lúc
L i ích là không th bàn cãi. N
quy mô r ng l n
th
y
tc am tv
n t ngày càng nhi u, m t tài li u có
c phát hành trên internet nhi u l n t nhi u ngu n, theo nhi u
nhau, trong nhi
,
nh d ng khác
n t khác nhau, trên nh ng trang web khác nhau. Tìm
ki m là d
c thơng tin chính xác và h u ích l i là v
khơng h d dàng.
Làm th
có th nh n bi
là tài li
là tài li
sao chép, góp nh t t các tài li u khác mà tính chính xác khơng h
c ki m ch ng.
Ch
t s gi i pháp
c nghiên c u t g
khá h u hi u cho v
nt
này và m t vài công c ph n m m cho phép phát hi n, tìm
ki m m t tài li u ho c m t t p h p các tài li u ngu n phù h p v i yêu c u. T p h p
các tài li u ngu n có th
- t c là các tài li u t p h
n t ho c là m , ch ng h
t s nghiên c
m
p tài li
c trong m
n
n trên internet.
xu t c
nh xem
n c a m t tài li u có n m trong có n m trong m t tài li u khác hay
y u d a trên tìm ki m và so kh p chu i. Tuy nhiên,
p chu i ch hi u qu n u t ho c t p t
. Do v y, m t yêu c
li u có liên quan khi các tài li
t ra là làm th
có s
i th t t ,
tìm ki
phát hi n vi c
là nguyên
c các tài
m t s t b ng t
n. T
t
n d a trên n
ng
u r ng
cho hi u qu
i
m và so kh p chu i.
Xu t phát t nh ng lý do trên, em ch
tích ng
m n
tài: Áp d
n
15
M c tiêu c
n áp d
ti m n.
Gi i thi u: Phát bi u bài tốn
Trình bày các khái ni m và ki n th
i sánh
b n.
i
n.
n th c nghi
tích ng
a trên phân
m
K t lu n
Tài li u tham kh o
16
GI I THI
N
1.1 Gi i thi u
Trong các lo i d li u thì d li
n là d ng ph bi n nh t. Ngày nay, v i s
phát tri n m nh m c a Internet, d li
s
nên phong phú v n i dung và
ng. Ch b ng m t
th
n, t i b
nh n v m t kh
tài li
nt
ng kh ng l các trang web và các
n n i dung tìm ki m. Chính s d
cho chúng ta r t nhi
n
vi c ch t l
riêng, là h u ích gi a các tài li u y. Và vi
d
i b t kì
c coi là m i, là
u tiên ta ph
bi
i các
n ngôn ng t nhiên thành d ng d li u có c u trúc, hay nói cách khác là
x lý d li
u vào.
1.2 Phân tách tài li u thành các t khóa (Filter)
Các tài nguyên là các tài li
c th hi
sách, t p chí, hay m t bài báo, bài di
Anh, m t t
id
t cu n
nt
i nh ng tài li u ti ng
ng có m t âm ti t, ta có th d
cách (space) ho c d u câu. Vi
i nh
n ti ng Anh thành các t khóa khơng
n ti ng Vi t, m i t có th có m t, hai ho c nhi
ng âm ti t. Vi c phân tách thành t
n và các thu
nh m t t d a vào d u
iv
ct
n ti ng Vi t ph i d a trên t
t c a câu.
Thí d : H c sinh h c sinh h c thì h th ng s tách thành H c sinh/h c/sinh
h
t
i b các t d ng (Stopword
anh, b
Nh ng t
i
ng t không mang nhi
n i dung.
1.2.1 Các nghiên c u v c u trúc c a các nhà nghiên c u Vi t Nam
m trong nghiên c u v ng pháp ti ng Vi t, chúng ta có th th y r ng
n th ng nh t v cách g i c a t lo
ng c a ti ng Vi
c nhi u tác gi
i vi t lu
u trúc các
ch
ng nh
17
h p v i ng pháp ti ng Vi t hi n t
gi
ng th i, trong quá trình xây d
án, tác
n hành so sánh và b sung thêm nh ng ph n lý thuy t thu
m
c a Nguy n Tài C n và Di p Quan Ban.
Nguy n Tài C n (1975)
có ba ph n: ph
Ph
ng Th
ng] cho r ng c m danh t (danh ng ) g m
u, ph n trung tâm và ph n cu
u
Ph n trung tâm
Ví d : Ba
C hai
T t c nh ng cái
Hình 1
Ph n sau
i
này
nh y
chính xác
t nh
ch
c u trúc t c a Nguy n Tài C n
Trong th c t danh ng cịn có th xu t hi n c
ph n: ph
sau:
i d ng nh ng d ng ch có hai
u+ph n trung tâm, ph n trung tâm + ph n sau ho c ph
u + ph n sau.
Ph n trung tâm c a danh ng khơng ph i ch có m t t trung tâm mà bao g m c
b ph n trung tâm ghép g m hai trung tâm T1 và T2, v i hai v trí T1, T2 b ph n
trung tâm có th xu t hi
i 3 bi n d ng :
: T1T2, ví d : con chim ( này)
o D ng thi u T1 : -T2, ví d : - chim (này)
o D ng thi u T2: T1-, ví d : con
- Ph
u c a danh ng có t t c 3 lo i thành t ph (3 lo
nh t
o
( này)
nh t ) :
: cái c u h c sinh y
nh t ch s
ng, ví d : m y cái c u h c sinh y
nh t ch
, ví d : t t c m y cái c u h c sinh y
- Ph n cu i c a danh ng , có th có 2 lo
nh t có t ch c hồn tồn khác nhau:
o Lo
nh t ch g m m t t , ví d : m t quy n sách quý
o Lo
nh t do m t m
m nhi m, ví d : cu n sách tôi v a mua hôm qua
18
Trong ti ng Vi t có th dùng nh ng t lo
+ Danh t , ví d
nh t cu i :
n cau
+ Tính t , ví d : gh dài, m t cái gh r t t t
ng t , ví d : bàn h c
+ T ch tr , ví d
i y
+ T ch v trí, ví d : nhà trong, c
+ T ch con s
c
ng m t, ngày 27
H Lê (1992) cho r ng v trí c a s
ng t
i t ch
nh và s ki n t xoay
xung quanh danh t theo mơ hình sau :
D1
D2
D1: g m nh ng danh t
n, bu i, hôm, ngày, gi , khi, lúc...
i, th , h
D2: g m nh ng danh t cịn l i.
Ví d :
-
nr i
- Cơ y tá
- Phía ngồi sân
Nguy n Kim Th n (1997) cho r ng vi c nghiên c u c m danh t chính là vi c
nghiên c u t t danh t , lo i t chi
có th ghép v i danh t , th i v t , s t
i, d o, thu , kho
tuy
ng t , tính t
, b a, bu
i trong nhóm danh t . Danh t
i t và m t s t ph khác
,
l i, h ng, cái, lo i, c , kh , b c, ng nh...
-T t danh t + danh t (N):
o T t N1 N2, ví d : cân g o, bó rau, hịm sách, chùm cau, tóc mây, ti n nghìn,
sơng H ng, huy n Gia L
19
o T t N1 z N2, ví d : quê c a m , nhà b ng g ch, k ho ch v kinh t , sách cho
thi u nhi, nhãn
oT t N1 (z) N2, ví d : quê m , nhà g ch, k ho ch kinh t , sách thi u nhi, nhãn
i t ).
-T t danh t + th i v t (E):
oT t N E, ví d
ng mình n m
oT t N (z) E, ví d
nh (c
nào ?
-T t danh t + s t (F): t ch s
ng bao gi
ví d : hai cái bàn. T ch th t bao gi
c danh t (FN),
t sau danh t (NF), ví d : bàn s hai,
quy n th
o T t danh t
ng t , ví d : cá s
c sơi, gió lùa, k ho ch làm
vi
o T t danh t + tính t , ví d : qu táo vàng, cái áo tr
o T t danh t
i t ch
Di
trung tâm, ph n ph
nh, ví d : con mèo
u t o chung c a c m danh t có ba ph n: ph n
c, ph n ph sau. Ph n trung tâ
ng là m t danh t ho c
m t ng danh t . Trong ph n ph
s p x p theo m t tr t t nh
t
nh. Ph n ph
nh.
c ba v trí khác nhau
ph n ph
ng nh
c c m danh t chuyên dùng ch m t s
trung tâm, ph n ph sau ch y u dùng ch m t ch
c hai v trí có tr t
ng c a s v t nêu
ng c a s v t nêu
trung
tâm.
20
-3
-3
-2
-1
0
1
2
-2
con
-1
mèo
0
1
2
V trí 0 là v trí c a danh t chính
V trí -1 là v trí c a t ch xu t cái
V trí -2 là v trí c a t ch s
m i, t ng, m
ng, các, m
ng, ví d : m
y
V trí -3 là v trí c a t ch t
ng, ví d : h t th y, t t c , c
V trí 1 là v trí c a t
có th g p nhi u lo i t khác nhau
ng t , tính t , s t
i t và th i v t .
Ví d :
phịng t
c, phịng h p, phịng chúng tơi...
V trí 2 là v trí c a t ch
- Tóm t
nh, ví d : cái máy này, qu táo kia...
a c u trúc ng pháp ti ng Vi t, Anh
m trong câu c a ti ng Vi t:
cc ut
i gi n.
c phân tách b ng các d u ch m câu.
Câu hoàn ch nh có ho c khơng s d ng các tr ng t , t c m thán (các
stopword, s
c lo i b
l c thơng tin).
c hình thành t các t , ho
M i câu mang m
nh.
trên, ngày nay, các tài li u vi t ti ng Vi
khai thác trên font ch chung, tuân theo chu
vi
c chính xác các tài li u ti ng vi t c
n sang
u này có l i r t nhi u cho
c.
21
V i các tài li u ti ng Anh, các t
phân tách t t
c phân cách nhau b i d u cách. Vi c x lý
n ti
i d dàng.
Trong ti ng Vi t không th
c thành nh ng t riêng b i d u cách. Vì
t có th g m m t, hai ho c nhi
vi c tách t
ng âm ti t (s
ng t ghép). Vì th ,
i gi i thu t tách t t t.
1.2.2 Tách tài li u thành các t khóa.
Mơ hình này áp d ng cho nh ng l n g
i dùng nh p t
khóa.
Gi i thu t tách t khóa:
Input: t p tài nguyên là sách, t p chí, trang thơng tin (html)
nh d ng tài
li u.
Output: T p các t khóa v
Q trình tìm ki m s
ng.
i nh
c l c ra
t p khóa có m
ng c a chúng.
Gi i thu
c thi t k
c p nh t tài li
m t cu
ch y offline trong phiên b
u tiên. Quá trình
i qu n tr nh p. Chi phí th i gian cho modul này là khá l n,
nt t
ng là 3 phút cho h th
c và tách
thành t khóa.
T
n ngu n
T
c phân tách
22
Hình 2: Hình minh h a t
n
1.2.3 Gi i pháp tách t Ti ng Anh
V i các tài li u ti ng Anh, t c a ti
c phân cách v i nhau b ng d u
tách t ti ng Anh b ng d u phân tách là d u
cách. Vi c x lý các stopword c a ti
t stopword c a ti
t file g
ph c v cho vi c lo i b stopword kh
tách ra nh ng t quan tr ng, tránh nh ng t
là c m thán.
1.2.4 Gi i pháp cho Ti ng Vi t
1.2.4.1 Các gi
Hi n có r t nhi
tr vi c phân tích cú pháp, tách t , gán nhãn t
ti ng Vi t cùng v i các gi i thu t thu t toán khác nhau. Nh
c tham kh o là
n d a vào t p hu n luy
trình VNSegment c a tác gi
nh trong vi c tách
t và phân lo i t ti ng Vi t. Ch
u vi t trên n
s
c cung c p
c p t i m t s nghiên c u
h u ích cho vi c tác t ).
1.2.4.2 Gi i pháp s d ng và nh n xét
Gi
n ti ng Vi
cs d
c mô t b ng gi i thu
g mh
i. D a trên m t b t
và c m t .
23
Hình 3: Gi i thu t tách t t câu
Tài li
c tách thành các câu chu n (hoàn ch nh). Gi i thu t tách các t khóa
t
trong câu s
b ng các so sánh nó v i các t trong t
t
c ki m tra xem có t n t i trong t
n. N
m tra ti p. Gi i thu t trên gi m thi u t
trong t
n khơng
n, thì tách
ng nh p nh ng. Tuy
ng h p câu này thì gi i thu t tách sai: H c sinh h c sinh h c
H c|sinh h c|sinh h
t t (thu
ng này (thu
a bàn) thì l i gi i quy t
a bàn).
24
Chi phí v th i gian cho gi i thu t trên là r t l n
trong t
n hay không. T
v i ki u d li
nv
c ki m tra t tách ra có
c load vào b nh
i
c t ch c theo 2 ki
M t là m ng các string. M i ph n t là t hay c m t c a t
n. M
s p x p theo th t
n c a mã ASCII (Trong C#, ki u d li u m ng).
c
T ch c thành m t arraylist mà m i ph n t c a nó là m ng các string. M ng các
string thu c 1 ph n t nó gi ng nhau v âm ti
u tiên c a t . Ví d
T ,c mt
Âm ti t
u
Ái
ái
u
hồn
Ái ân
Ái chà
c
ng
Anh hàng
Anh hùng
an
Ái
Ái nam
qu c
ái n
Anh hùng
Anh
Anh linh
ch
ki t
Ái th n
Ái tình
An gi c
nghi p
Anh
p
m
B ng 1: B ng m t s ví d v c
c m t t , ta tách âm ti
u tiên c a m
s
tìm ki
u tiên c a nó và ki
t
n
c v i các ph n t
m tra ti p v i các ph n t trong m ng c
.
1.3 Các h th ng g i ý (recommender systems - RS)
1.3.1 Các khái ni m v Recommender System
Recommender Systems (RS) là m t h th ng l
c bi t, h th ng cho
phép l c thông tin d a trên s quan tâm c
i dùng và n i dung c
n. có hai
25