B GIÁO D
O
I H C DÂN L P H I PHÒNG
-------o0o-------
ÁN T T NGHI P
NGHÀNH CÔNG NGH THÔNG TIN
H I PHÒNG 2016
B GIÁO D
O
I H C DÂN L P H I PHÒNG
-------o0o-------
PHÁT HI N T
M M I CHO PHÂN TÍCH
C M XÚC
ÁN T T NGHI
I H C H CHÍNH QUY
Nghành : Công Ngh Thông Tin
H i Phòng 2016
B GIÁO D
O
I H C DÂN L P H I PHÒNG
-------o0o-------
PHÁT HI N T
M M I CHO PHÂN TÍCH
C M XÚC
ÁN T T NGHI
I H C H CHÍNH QUY
Nghành : Công Ngh Thông Tin
Sinh viên th c hi n : Nguy n Danh Long
ng d n : Ths. Nguy n Th
Mã s sinh viên : 1413101003
O
B GIÁO D
I H C DÂN L P H I PHÒNG
-------o0o-------
C NG HÒA XÃ H I CH
T NAM
c l p T do H nh phúc
NHI M V THI T K T T NGHI P
Sinh viên : Nguy n Danh Long
Mã s : 1413101003
L p: CLT 801
Nghành: Công Ngh Thông Tin
tài : Phát hi n t
m m i cho phân tích c m xúc
NHIÊM V
1. N i dung và các yêu c u c n gi i quy t trong nhi m v
a. N i dung
b. Các yêu c u c n gi i quy t
2. Các s li u c n thi
3.
m th c t p
thi t k , tình toán
TÀI
tài t t nghi p
CÁN B
NG D
TÀI T T NGHI P
ng d n th nh t:
H và tên:....................................................................................................................
H c hàm, h c v :.........................................................................................................
N
ng d n:
ng d n th hai:
H và tên:
H c hàm, h c v
N
ng d n:
tài t t nghi
Yêu c u ph
n nhi m v
Sinh viên
n nhi m v
Cán b
ng d
HI
NG
n H u Ngh
PH N NH N XÉT TÓM T T C A CÁN B
NG D N
Tinh th
c
tài t t nghi p:
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
ng c
tài t t nghi p (so v i n i dung yêu c u
ra trong nhi m v
tài t t nghi p)
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
m c a cán b
ng d n:
m ghi b ng s và ch )
...................................................................................................................
...................................................................................................................
Ngày.......tháng.........
Cán b
ng d n chính
( Ký, ghi rõ h tên )
7
PH N NH
BI
A CÁN B
TÀI T T NGHI P
CH M PH N
1.
.)
m c a cán b ph n bi n
(
m ghi b ng s và ch )
..............................................................................................................
..............................................................................................................
Cán b ch m ph n bi n
( Ký, ghi rõ h tên )
8
M CL C
DANH M C B NG..........................................................................................11
L IC
L
....................................................................................................12
U.....................................................................................................13
NG QUAN V PHÂN
1.1 Nhu c u v
M ..................15
m và nh n xét..................................... 15
1.2 L ch s c
m ................. 17
1.3 M t s nghiên c
m................................... 18
nh c m t
m....................................................... 18
1.3.2 S d ng tính t và phó t ........................................................... 19
1.3.3 S d
ng t ................................................................... 20
nh chi
ng, c m t
1.4. Nhi m v c
m................................................... 21
1.5. Bài toán phân l
1.5.1 Phân c
m................................. 21
m............................................................. 21
m và m
phân c c .................................. 22
1.5.2 Nhi m v c a bài toán phân l
NT M
2.1. Gi i thi
m ............................... 23
M .25
.................................................................... 25
....................................................................................... 28
........................................................................... 28
2.2.2. T ng quan thu t toán ................................................................. 28
u ích c a m t m u ............................................... 29
là các t m i........................................................ 31
2.3.1. Ki m tra t l thích h p (LRT) .................................................. 31
2.3.2. Entropy m u bên trái (Left pattern Entropy) ............................. 32
2.3.3. Xác xu t c a m t t m i............................................................ 32
c không c u thành. .................................... 33
9
2.3.5 C
k t h p các y u t khác nhau ................................. 34
2.4. Th c nghi m ..................................................................................... 35
2.4.1 Chu n b d li u.......................................................................... 35
................................................................................... 35
v
n .... 36
u ch nh tham s ..................................................................... 37
2.4.5. D
2.4.6.
c m xúc c a các t
ng d ng c a các t
m m i................ 37
m m i cho phân tích c m xúc.... 38
NG D NG TÌM T
M M I CHO D LI U
TI NG VI T...................................................................................................................40
tv
......................................................................................... 40
...................................................................................... 41
3.3. Th c nghi m ..................................................................................... 44
3.3.1. D li u ....................................................................................... 44
3.3.2. X lý d li u .............................................................................. 45
K T LU N .........................................................................................................49
PH L C.............................................................................................................50
TÀI LI U THAM KH O.................................................................................55
10
DANH M C B NG
B
B
B
B
B
ng 1 : Các ví d c a t
m m i ................................................. 27
ng 2: T n xu t c a m t m u t v ng trên các bình lu n c a m ng Weibo... 28
ng 3: B ng ng u nhiên ki m tra t l thích h p. ................................... 30
ng 4: Các k t qu v i vi c có s và không s d
p.. 39
ng 5: Các nhãn t lo i Ti ng Vi t. ........................................................ 42
11
L I C M
c tiên, em xin g i l i c
c nh t t i
Cô Nguy n Th
i h c Dân l p H
b o
ng d n t n tình cho em trong su t quá trình tìm hi u và th c hi n khóa
lu n này.
Em xin chân thành c
y, Cô trong Khoa Công ngh Thông
n tình gi ng d y và truy n cho em nh ng ki n th c quý báu cho em
trong su t quá trình h c t p và làm lu
t nghi p
c
l
Em xin chân thành c
i h c Dân L p H
h c t p và nghiên c u.
i các Th y, Cô và các Cán b , Nhân viên
o cho em nh
u ki n thu n
Cu i cùng em mu n g i l i c
n bè nh
i
ng viên trong su t quá trình h c t p và làm khóa
lu n t t nghi p.
M
mong nh
các b n.
t c g ng hoàn thành lu
m vi và kh
c ch n s không tránh kh i nh ng thi u sót. Em kính
c s c m thông và t n tình ch b o, góp ý c a quý Th y Cô và
Em xin chân thành c
H i Phòng
Sinh viên
Nguy n Danh Long
12
L
U
Ngày nay, v i s phát tri n m nh m c a Internet, các hình th c k t n i
và chia s thông tin trong c
ng m ng ngày càng phát tri
t
ng l
i dùng tham gia.
, h có th d
i, chia s
thông tin, th o lu n các v
và s thích cùng quan tâm. M t s m ng xã h i
ph bi n trên th gi
, twitter và Vi
o. Các bài nh n xét th o luân trên các
trang m ng tin t c, d ch v hay các di
t hình th c th hi n
khác r t phát tri n.
c chia s và th o lu n trên các trang m ng xã h i, trên
các di
c r t nhi u ch
t
c kinh t , chính tr , xã h
n các v
k thu t, d ch v , cu c s ng hàng ngày.... T
ành
ng,
mc ac
i v i vi
n xét
m tv
,m
ng, m t s n ph m hay m t hi
. Các
m,
ng này s
ng m nh m
ng,
m
c
i dùng khác.
i dùng, hay chính các nhà cung c p s n ph m, d ch v
ng khai thác ý ki
s d ng vào nhi u m c
.
i dùng c n bi t nh n xét v s n ph m, d ch v cho l a
ch n c a mình, còn các nhà s n xu t, cung c p d ch v thì thu th p thông tin
phân tích nhu c u, th hi u c
i th c nh
t
c nâng cao ch
ng s n ph m và d ch v c a
ng d li u kh ng l
c t o ra m i ngày thì nhu c u c n
có các h th ng khai thác
m m t cách t
ng là r t c n
thi t.
m ta c n ph i trích các thông tin ch
m
phân lo
m hay không.
m có th là
t ho c m t c m t có ch
m c m xúc tích c c, tiêu c c, trung l p.
i dùng c p nh t và chia s thông tin c a h trên các trang web
13
xã h i h
ng s d ng l i
do theo phong cách ngôn ng riêng
c ah
xu t hi n các t m i th hi
m
c.
Vi c xu t hi n ngày càng nhi u các t
m m i nên vi c nghiên c u các
p
ng các t
m m i là r t c n thi t.
Chính vì lý do trên,
phân tích c
án t t nghi p c a mình.
N
nt
m m i cho
án bao g
: T ng quan v
m
: Phát hi n t m
:
i m
ng d ng tìm t
m m i cho d li u Ti ng Vi t
Cu i cùng là ph n k t lu n.
14
NG QUAN V PHÂN TÍCH
M
1.1 Nhu c u v
m và nh n xét
Nh ng thông tin nh n xét góp ý
thân gi i thi u m t th
n xin vi c t
t ph n quan tr
ng ho c yêu c u tài li u tham kh o liên
ng nghi p, ho
a nh
ng
l
cl
Theo hai cu c kh o sát c
iM
ng thành m i: 81%
i dùng Internet (ho
iM
c hi
c tuy n
v m t s n ph m ít nh t m t l n; 20% (15% c a t t c
iM
v y trong m t ngày. Trong s
c gi
c tuy n c a nhà hàng,
khách s
ch v khác nhau (ví d
ch ho c bác
t
mua
hàng c a h
i tiêu dùng s n sàng tr t
n 99% m t m
im tm
pm t
m t s n ph m, d ch v thông qua m t h th ng x p h ng tr c
tuy
c a công dân tr c tuy n cao c
t bình
lu n tr c tuy n ho c xem xét v m t s n ph m hay d ch v .
ch v không
c th hi
tr c
ph
tuy
, trong m t cu c kh
Rainie và Horrigan nghiên c
i M
ng thành,
i M - trên 60 tri
i - 2006
i thu th p thông tin v
15
cu c b u c
s này:
c tuy
ng tr c tuy
m t bên trong c
ng c a h , và 34% cho bi t m t
m t bên ngoài c
ng c a h .
c tuy n cho s tán thành ho c x p h ng c a
các t ch c bên ngoài.
th
ki
t r ng h u h t các trang web mà h s d
chia s
ng ph n l n các trang web mà h s d ng thách
m c a h , ch ra r ng nhi
i không ch
n là tìm
c tuy n bình lu n chính tr riêng c a h .
ng
i s d ng internet c a M
m tích c
c tuy n, 58% cho r ng thông tin tr c tuy
quan tâm mà
n xét tr c tuy n v s n ph m và
d ch v
V i s bùng n c a n n t ng Web 2.
peer-to-peer m ng, và các lo i khác nhau c
ng kê c
ho
ng (active) m
trên 900 tri
ng.
o lu n,
i dùng
i có trung bình 130 b
tr ng thái
i qua l i
i dùng. M
u tin nh n, x lý trung bình
nghìn tài kho n m
kho ng 1,6 t câu h i.
16
Vi t Nam: các m ng xã h
i dùng tham gia.
n
chia s kinh nghi m và nh n xét c a riêng h
ch c c hay tiêu c c. Khi các công ty l
n ra,
nh ng ti ng nói c
i tiêu dùng có th v n d ng r t l n
ng trong
vi c hình thành nh n xét c
uc ah
nh mua, và v
hi u c a h ... Công ty có th
ng v i nh
i tiêu
dùng mà h t
n truy n thông xã h
Tuy nhiên, các nhà phân tích ngành công nghi
n truy n thông m i cho m
m i.
d
ph
ng vi c t n
nh s n
Các nhà ti p th luôn luôn c
n truy n thông
u c a mình i v i các
ho
ng quan h công chúng, vi ph m gian l n, ho c tình báo c nh tranh.
n truy n t
i hành vi c a
n th ng.
c tính r ng 75. 000 blog m
c t o ra m i ngày, cùng v i 1,
2 tri u bài vi t m
u nh n xét
i tiêu dùng th o
lu n v s n ph m và d ch v .
Vì v
th ng có kh
i tiêu
dùng.
1.2 L ch s c
m
c s quan tâm r
ng nh n th c v các v n
nghiên c
i nâng
17
c máy, x lý ngôn ng t nhiên
và khôi ph c thông tin.
s n có c
a Internet, c th
li
t toán h
phát tri
c hi n nh ng thách th c trí tu
nh
i và các ng d
lý m t t p h p các k t qu tìm ki m cho m
nh, sinh ra m t danh sách các thu c tính s n ph m (ch
t ng h
m t song song c
nh ng khía c nh nh
u th cùng m
1.3 M t s nghiên c
c nghiên c u.
m
thành ch
nóng gi a các nhà
nghiên c u x lý ngôn ng t nhiên và trích ch
u các
c xu t b n và nh ng ng d ng khác nhau có s d ng h th ng
c phát tri
, c m t ch
1.3
nh c m t
m
m
Nh ng t , c m t ch
m là nh ng t ng
cs d
di n
t c m xúc, ý ki
i vi t, nh
m ch
a trên nh ng
v
h lu n. Vi c rút ra nh ng t , c m t ch
u tiên trong h th
m, vì nh ng
18
t , c m t này là nh ng chìa khóa cho công vi c nh n bi t và phân lo i tài
li
ng d ng d a trên h th
m hi n nay t p trung vào
các t ch n i dung câu: danh t
ng t , tính t và phó t . Ph n l n công
vi c s d ng t lo
rút chúng ra (Hu và Liu, 2004, Turney, 2002). Vi c
gán nhãn t lo
c s d ng trong công vi
u này có th giúp
cho vi c nh n bi
n ti p theo. Nh
thu t phân tích ngôn ng t
stopwords, stemming
cs d
n ti n x
rút ra t , c m t ch
m
1.3.2 S d ng tính t và phó t
Nh ng h th ng hi n t
nh n bi t nh ng t ch
m hay
m t p trung ch y u vào các tính t và phó t vì chúng
c xem là s bi u l rõ ràng nh t c a tính ch quan ( Hatzivassiloglou and
McKeown, 1997, Wiebe and Bruce, 1999 ).
Hu và Liu (2004) áp d ng vi c gán nhãn t lo
ng t nhiên nh m rút ra nh ng tính t
t x lý ngôn
ng t ch
t câu mà ch a m t hay nhi u d u hi u s n ph m và t
c xem là m t câu ch
m.
ch
i câu trong d li u ch
c coi là nh ng t ch
m, rút ra t t c nh ng tính t
m.
K t qu th c nghi m vi c rút ra nh
chính xác (precision) kho ng 64.2% và recall là 69.3%.
S d
mang chi
nh các tính t
ng tích c c (positive) hay tiêu c c (negative).
Trong WordNet, các tính t
c t ch c thành các c m t
n a c m th hai ph
u là t
a c m th nh t. M i n
ph
uc at pt
p theo là t p t
i di n cho ng
ng tính t quan tr
cách ti p c n d a trên t
n, h s d
mc
t
d
ng c a các tính t
19
c rút ra
ng c c,
a c m là
cv i
a nh ng
.H b t
u v i m t danh sách kh
u g m 30 tính t thông d
c ch n th
công (b
d
d
nh
ng c a t t c
các tính t trong danh sách t
c rút ra b ng cách tìm ki m qua
c
ng c
tìm ra li u các t
sách kh
ng c a tính t
cd
c b sung vào danh sách kh
u và có th
cs d
nh
ng c a các tính t
u
s d
ng c a các tính t
c nh n d ng, và khi nó
ng
c qui mô c a danh sách kh
u trùng v i qui mô c a danh
sách t ch
m, thì t t c
ng c a các tính t
c nh n bi t
và quá trình này k t thúc.
Nh ng t
ng t p trung ch y
và phó t vì v y càng nh n d
c nhi u hai lo i t này h
th
chính xác cao
1.3.3 S d
ng t
Các tính t và phó t
t vai trò quan tr ng trong vi c phân tích
m và là các lo i t có l i th trong vi c nh n bi
ng và rút ra
các t ch
m trong các nghiên c u hi n nay. Tuy nhiên, các lo i t
khác, ví d
ng t
cs d
di n t c m xúc hay ý ki n
trong các bài vi t.
Nasukawa và Yi (2003) xem xét r ng bên c nh các tính t và phó t ,
ng t
di n t
m trong h th
m c a h . H phân lo
ng t
lo i. Lo i th nh t tr c ti p th hi
gi i c a h
m tr c ti
n nh
.
m thành 2
m tích c c hay tiêu c c, theo lý
. Lo i th hai không th hi n quan
m, gi
H s d
a trên mô hình Markov (HMM)
(Manning and Schutze, 1999) và phân tích cú pháp nông d a trên lu t (Neff et
c ti n x lý. Sa
phân tích tính ph thu c v m t cú
pháp gi a các c m t và tìm ki m các c m t có m t t ch
m mà nó
b
cb
i m t thu t ng ch th .
20
1.3.4
nh chi
ng, c m t
m
ng c a nh ng t , c m t tr c ti p
th hi
m, c m xúc c
i vi
nh n
bi
m c a nh ng t , c m t ch c
a trên th ng
kê ho c d a trên t v ng.
1.4. Nhi m v c
m
Phân tích
:
Sentiment
Sentiment Classification
Extraction).
m 3 nhi m v chính là:
po
1.5. Bài toán phân l
Phân l
d
ng ti m
quan tr
t các l p giúp cho tri th
m
ng "gi
tl
li u c a chúng. Tuy nhiên, phân l p là m t ho t
i khi nh n d ng th gi i th
báo, các quy
nh. Phân l p và cách mô
nh d
t
.
Khi nghiên c u m
ng, hi
ng, chúng ta ch có th d a vào
m ts h uh
a chúng. Nói cách khác, ta ch xem xét bi u
di n c
ng, hi
ng trong m t không gian h u h n chi u, m i
chi u ng v i m
c l a ch
p d li u tr thành
phân ho ch t p d li u thành các t p con theo m t tiêu chu n nh n d
c.
Nhi m v
21
Phân l p câu/tài li u ch
c(positive) hay tiêu c c
(negative), h
neutral).
Theo Bo Pang và Lillian Lee (2002) phân l p câu/tài li u ch
m
không có s nh n bi t c a m i t / c m t ch
m. H s d ng h c máy
phân lo i nh ng nh n xét v phim nh. Không c n ph i phân
l p các t hay c m t ch
m, h rút ra nh
m khác nhau c a
m và s d ng thu t toán Naïve Bayes (NB), Maximum Entropy
phân l
chính xác t
n 82, 9%.
Input:
Output:
(polarity) v ti p c n ng
Phân l p tài li
m th t s là v
thách th c và
x lý ngôn ng
n ch t ph c t p c a ngôn
ng c
c bi t là s
p nh
a ngôn ng .
S nh p nh ng này rõ ràng s
chính xác b phân l p c a
chúng ta m t m
nh
nh. M t khía c nh thách th c c a v
này
t nó v i vi c phân lo i ch
theo truy n th
trong khi nh ng ch
c nh n d ng b i nh ng t
ng m t
mình, qu
m có th di n t m t cách tinh t
Làm th
ng i xem h t b phim này ?
nh
is
hi u bi t nhi
.
1.5.1 Phân c
-
m và m
phân c c
positive/negative/neutral
22
Liberal/conservative
-
VD: Thông qua
Rating inference (ordinal regression
positive, negative, neutral
positive negative.
neutral
neutral
negative
negative
1.5.2 Nhi m v c a bài toán phân l
m
Bài toán phân l
c bi
li u v i m c tiêu là phân lo i các tài li
lo
t nhi u ti p c
th c hi n, v
p tài
m.
c nghiên c
gi i quy t cho
n có th chia thành hai nhi m v
23
ph c v m
- Xây d
m khai thác các thông tin ch
i tài li
ng ng
phân l p các tài li u.
24
m
NT
M I CHO PHÂN
M
T
ng trích các t m i là s c n thi
c tiên cho m t s nhi m v
x lý ngôn ng t
(ngôn ng Ti ng Trung, Ti ng Vi t),
trích tên c a th c th và phân tích tình c
m.
i thi u m
m m i t d li u l
i dùng t o ra.
gi i thi u m
c hoàn toàn không giám sát và m
hoàn toàn d a trên d li u cho trích t
m m i và ng d
m. Các tác gi
tl
nh tính phù h p c a m t m u t v
tt
trích các t
c tác gi
t Framwork
ng nó trong
là t m i.
ch s d ng r t ít các thông tin ngôn ng (g n v i các
ngu n tài nguyên ngôn ng t do)
s d ng thông tin gán nhãn t
lo i POS, và không yêu c u ph i xây d ng quy t c ngôn ng . Các tác gi
ch ng minh t c m xúc
m) m i s mang l i l i ích trong phân tích
c
m. Các k t qu th c nghi m ch ng minh tính
hi u qu c
xu t.
2.1. Gi i thi u
Các t m i trên Internet xu t hi n ngày càng nhi
c bi t là trong
n
i dùng t
i dùng mu n c p nh t và chia s thông
tin c a h trên các trang web xã h i v i phong cách ngôn ng riêng c a h ,
t hi n các t m i trong các
c
chính tr , kinh t ,
hóa, xã h i.
Tuy nhiên, nh ng t m
o ra nh ng thách th c cho m t
s nhi m v x lý trong ngôn ng t nhiên. Vi c t
ng trích các t m i là
không th thi
i v i nhi u công vi
n t (Ti ng Trung hay
Ti ng Vi t..), d ch máy, trích xu t th c th có tên, h i và tr l i, và phân tích
c
m. Phát hi n t m i là m t trong nh ng v
quan tr ng nh t trong tách t Ti ng Trung. Các nghiên c u g
ra r
t k t qu c a t
25