Tải bản đầy đủ (.pdf) (55 trang)

Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.03 MB, 55 trang )

B GIÁO D

O

I H C DÂN L P H I PHÒNG
-------o0o-------

ÁN T T NGHI P
NGHÀNH CÔNG NGH THÔNG TIN

H I PHÒNG 2016


B GIÁO D

O

I H C DÂN L P H I PHÒNG
-------o0o-------

PHÁT HI N T

M M I CHO PHÂN TÍCH
C M XÚC

ÁN T T NGHI

I H C H CHÍNH QUY

Nghành : Công Ngh Thông Tin


H i Phòng 2016


B GIÁO D

O

I H C DÂN L P H I PHÒNG
-------o0o-------

PHÁT HI N T

M M I CHO PHÂN TÍCH
C M XÚC

ÁN T T NGHI

I H C H CHÍNH QUY

Nghành : Công Ngh Thông Tin

Sinh viên th c hi n : Nguy n Danh Long
ng d n : Ths. Nguy n Th
Mã s sinh viên : 1413101003


O
B GIÁO D
I H C DÂN L P H I PHÒNG
-------o0o-------


C NG HÒA XÃ H I CH
T NAM
c l p T do H nh phúc

NHI M V THI T K T T NGHI P

Sinh viên : Nguy n Danh Long

Mã s : 1413101003

L p: CLT 801

Nghành: Công Ngh Thông Tin

tài : Phát hi n t

m m i cho phân tích c m xúc


NHIÊM V
1. N i dung và các yêu c u c n gi i quy t trong nhi m v
a. N i dung

b. Các yêu c u c n gi i quy t

2. Các s li u c n thi

3.


m th c t p

thi t k , tình toán

TÀI
tài t t nghi p


CÁN B

NG D

TÀI T T NGHI P

ng d n th nh t:
H và tên:....................................................................................................................
H c hàm, h c v :.........................................................................................................
N

ng d n:

ng d n th hai:
H và tên:
H c hàm, h c v
N

ng d n:

tài t t nghi
Yêu c u ph

n nhi m v
Sinh viên

n nhi m v
Cán b
ng d

HI

NG

n H u Ngh


PH N NH N XÉT TÓM T T C A CÁN B

NG D N

Tinh th
c
tài t t nghi p:
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................


ng c
tài t t nghi p (so v i n i dung yêu c u
ra trong nhi m v
tài t t nghi p)
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................

m c a cán b
ng d n:
m ghi b ng s và ch )
...................................................................................................................
...................................................................................................................

Ngày.......tháng.........
Cán b

ng d n chính

( Ký, ghi rõ h tên )

7


PH N NH

BI

A CÁN B
TÀI T T NGHI P

CH M PH N

1.
.)

m c a cán b ph n bi n
(
m ghi b ng s và ch )
..............................................................................................................
..............................................................................................................

Cán b ch m ph n bi n
( Ký, ghi rõ h tên )

8


M CL C
DANH M C B NG..........................................................................................11
L IC
L

....................................................................................................12
U.....................................................................................................13
NG QUAN V PHÂN


1.1 Nhu c u v

M ..................15

m và nh n xét..................................... 15

1.2 L ch s c

m ................. 17

1.3 M t s nghiên c

m................................... 18

nh c m t

m....................................................... 18

1.3.2 S d ng tính t và phó t ........................................................... 19
1.3.3 S d

ng t ................................................................... 20
nh chi

ng, c m t

1.4. Nhi m v c

m................................................... 21


1.5. Bài toán phân l
1.5.1 Phân c

m................................. 21

m............................................................. 21
m và m

phân c c .................................. 22

1.5.2 Nhi m v c a bài toán phân l

NT M
2.1. Gi i thi

m ............................... 23

M .25

.................................................................... 25
....................................................................................... 28
........................................................................... 28

2.2.2. T ng quan thu t toán ................................................................. 28
u ích c a m t m u ............................................... 29
là các t m i........................................................ 31
2.3.1. Ki m tra t l thích h p (LRT) .................................................. 31
2.3.2. Entropy m u bên trái (Left pattern Entropy) ............................. 32
2.3.3. Xác xu t c a m t t m i............................................................ 32

c không c u thành. .................................... 33

9


2.3.5 C

k t h p các y u t khác nhau ................................. 34

2.4. Th c nghi m ..................................................................................... 35
2.4.1 Chu n b d li u.......................................................................... 35
................................................................................... 35
v

n .... 36

u ch nh tham s ..................................................................... 37
2.4.5. D
2.4.6.

c m xúc c a các t
ng d ng c a các t

m m i................ 37

m m i cho phân tích c m xúc.... 38

NG D NG TÌM T
M M I CHO D LI U
TI NG VI T...................................................................................................................40

tv

......................................................................................... 40
...................................................................................... 41

3.3. Th c nghi m ..................................................................................... 44
3.3.1. D li u ....................................................................................... 44
3.3.2. X lý d li u .............................................................................. 45

K T LU N .........................................................................................................49
PH L C.............................................................................................................50
TÀI LI U THAM KH O.................................................................................55

10


DANH M C B NG
B
B
B
B
B

ng 1 : Các ví d c a t
m m i ................................................. 27
ng 2: T n xu t c a m t m u t v ng trên các bình lu n c a m ng Weibo... 28
ng 3: B ng ng u nhiên ki m tra t l thích h p. ................................... 30
ng 4: Các k t qu v i vi c có s và không s d
p.. 39
ng 5: Các nhãn t lo i Ti ng Vi t. ........................................................ 42


11


L I C M
c tiên, em xin g i l i c
c nh t t i
Cô Nguy n Th
i h c Dân l p H
b o
ng d n t n tình cho em trong su t quá trình tìm hi u và th c hi n khóa
lu n này.
Em xin chân thành c
y, Cô trong Khoa Công ngh Thông
n tình gi ng d y và truy n cho em nh ng ki n th c quý báu cho em
trong su t quá trình h c t p và làm lu
t nghi p

c
l

Em xin chân thành c
i h c Dân L p H
h c t p và nghiên c u.

i các Th y, Cô và các Cán b , Nhân viên
o cho em nh
u ki n thu n

Cu i cùng em mu n g i l i c

n bè nh
i
ng viên trong su t quá trình h c t p và làm khóa
lu n t t nghi p.
M
mong nh
các b n.

t c g ng hoàn thành lu
m vi và kh
c ch n s không tránh kh i nh ng thi u sót. Em kính
c s c m thông và t n tình ch b o, góp ý c a quý Th y Cô và

Em xin chân thành c
H i Phòng
Sinh viên

Nguy n Danh Long

12


L

U

Ngày nay, v i s phát tri n m nh m c a Internet, các hình th c k t n i
và chia s thông tin trong c
ng m ng ngày càng phát tri
t

ng l
i dùng tham gia.
, h có th d
i, chia s
thông tin, th o lu n các v
và s thích cùng quan tâm. M t s m ng xã h i
ph bi n trên th gi
, twitter và Vi
o. Các bài nh n xét th o luân trên các
trang m ng tin t c, d ch v hay các di
t hình th c th hi n
khác r t phát tri n.
c chia s và th o lu n trên các trang m ng xã h i, trên
các di
c r t nhi u ch
t
c kinh t , chính tr , xã h
n các v
k thu t, d ch v , cu c s ng hàng ngày.... T
ành
ng,
mc ac
i v i vi
n xét
m tv
,m
ng, m t s n ph m hay m t hi
. Các
m,
ng này s

ng m nh m
ng,
m
c
i dùng khác.
i dùng, hay chính các nhà cung c p s n ph m, d ch v
ng khai thác ý ki
s d ng vào nhi u m c
.
i dùng c n bi t nh n xét v s n ph m, d ch v cho l a
ch n c a mình, còn các nhà s n xu t, cung c p d ch v thì thu th p thông tin
phân tích nhu c u, th hi u c
i th c nh
t
c nâng cao ch
ng s n ph m và d ch v c a
ng d li u kh ng l
c t o ra m i ngày thì nhu c u c n
có các h th ng khai thác
m m t cách t
ng là r t c n
thi t.
m ta c n ph i trích các thông tin ch
m
phân lo
m hay không.
m có th là
t ho c m t c m t có ch
m c m xúc tích c c, tiêu c c, trung l p.
i dùng c p nh t và chia s thông tin c a h trên các trang web

13


xã h i h
ng s d ng l i
do theo phong cách ngôn ng riêng
c ah
xu t hi n các t m i th hi
m
c.
Vi c xu t hi n ngày càng nhi u các t
m m i nên vi c nghiên c u các
p
ng các t
m m i là r t c n thi t.
Chính vì lý do trên,
phân tích c
án t t nghi p c a mình.
N

nt

m m i cho

án bao g
: T ng quan v

m

: Phát hi n t m

:

i m

ng d ng tìm t

m m i cho d li u Ti ng Vi t

Cu i cùng là ph n k t lu n.

14


NG QUAN V PHÂN TÍCH
M
1.1 Nhu c u v

m và nh n xét

Nh ng thông tin nh n xét góp ý

thân gi i thi u m t th
n xin vi c t

t ph n quan tr

ng ho c yêu c u tài li u tham kh o liên
ng nghi p, ho

a nh

ng
l

cl

Theo hai cu c kh o sát c
iM
ng thành m i: 81%
i dùng Internet (ho
iM
c hi
c tuy n
v m t s n ph m ít nh t m t l n; 20% (15% c a t t c
iM
v y trong m t ngày. Trong s
c gi
c tuy n c a nhà hàng,
khách s
ch v khác nhau (ví d
ch ho c bác
t
mua
hàng c a h
i tiêu dùng s n sàng tr t
n 99% m t m
im tm
pm t
m t s n ph m, d ch v thông qua m t h th ng x p h ng tr c
tuy
c a công dân tr c tuy n cao c

t bình
lu n tr c tuy n ho c xem xét v m t s n ph m hay d ch v .
ch v không
c th hi
tr c

ph
tuy
, trong m t cu c kh
Rainie và Horrigan nghiên c

i M
ng thành,
i M - trên 60 tri
i - 2006
i thu th p thông tin v
15


cu c b u c
s này:

c tuy

ng tr c tuy
m t bên trong c
ng c a h , và 34% cho bi t m t
m t bên ngoài c
ng c a h .
c tuy n cho s tán thành ho c x p h ng c a

các t ch c bên ngoài.

th
ki

t r ng h u h t các trang web mà h s d
chia s
ng ph n l n các trang web mà h s d ng thách
m c a h , ch ra r ng nhi
i không ch
n là tìm

c tuy n bình lu n chính tr riêng c a h .

ng
i s d ng internet c a M
m tích c
c tuy n, 58% cho r ng thông tin tr c tuy

quan tâm mà
n xét tr c tuy n v s n ph m và
d ch v
V i s bùng n c a n n t ng Web 2.
peer-to-peer m ng, và các lo i khác nhau c
ng kê c
ho
ng (active) m
trên 900 tri
ng.


o lu n,

i dùng
i có trung bình 130 b

tr ng thái
i qua l i

i dùng. M
u tin nh n, x lý trung bình

nghìn tài kho n m
kho ng 1,6 t câu h i.
16


Vi t Nam: các m ng xã h
i dùng tham gia.
n
chia s kinh nghi m và nh n xét c a riêng h
ch c c hay tiêu c c. Khi các công ty l
n ra,
nh ng ti ng nói c
i tiêu dùng có th v n d ng r t l n
ng trong
vi c hình thành nh n xét c
uc ah
nh mua, và v
hi u c a h ... Công ty có th
ng v i nh

i tiêu
dùng mà h t
n truy n thông xã h

Tuy nhiên, các nhà phân tích ngành công nghi
n truy n thông m i cho m
m i.

d
ph

ng vi c t n
nh s n

Các nhà ti p th luôn luôn c

n truy n thông
u c a mình i v i các
ho
ng quan h công chúng, vi ph m gian l n, ho c tình báo c nh tranh.
n truy n t
i hành vi c a
n th ng.
c tính r ng 75. 000 blog m
c t o ra m i ngày, cùng v i 1,
2 tri u bài vi t m
u nh n xét
i tiêu dùng th o
lu n v s n ph m và d ch v .
Vì v

th ng có kh

i tiêu

dùng.
1.2 L ch s c

m
c s quan tâm r
ng nh n th c v các v n

nghiên c

i nâng
17


c máy, x lý ngôn ng t nhiên
và khôi ph c thông tin.
s n có c
a Internet, c th

li

t toán h
phát tri

c hi n nh ng thách th c trí tu

nh


i và các ng d

lý m t t p h p các k t qu tìm ki m cho m
nh, sinh ra m t danh sách các thu c tính s n ph m (ch
t ng h
m t song song c

nh ng khía c nh nh
u th cùng m
1.3 M t s nghiên c

c nghiên c u.
m

thành ch
nóng gi a các nhà
nghiên c u x lý ngôn ng t nhiên và trích ch
u các
c xu t b n và nh ng ng d ng khác nhau có s d ng h th ng
c phát tri

, c m t ch

1.3

nh c m t

m


m

Nh ng t , c m t ch
m là nh ng t ng
cs d
di n
t c m xúc, ý ki
i vi t, nh
m ch
a trên nh ng
v
h lu n. Vi c rút ra nh ng t , c m t ch
u tiên trong h th
m, vì nh ng
18


t , c m t này là nh ng chìa khóa cho công vi c nh n bi t và phân lo i tài
li
ng d ng d a trên h th
m hi n nay t p trung vào
các t ch n i dung câu: danh t
ng t , tính t và phó t . Ph n l n công
vi c s d ng t lo
rút chúng ra (Hu và Liu, 2004, Turney, 2002). Vi c
gán nhãn t lo
c s d ng trong công vi
u này có th giúp
cho vi c nh n bi
n ti p theo. Nh

thu t phân tích ngôn ng t
stopwords, stemming
cs d
n ti n x
rút ra t , c m t ch
m
1.3.2 S d ng tính t và phó t
Nh ng h th ng hi n t
nh n bi t nh ng t ch
m hay
m t p trung ch y u vào các tính t và phó t vì chúng
c xem là s bi u l rõ ràng nh t c a tính ch quan ( Hatzivassiloglou and
McKeown, 1997, Wiebe and Bruce, 1999 ).
Hu và Liu (2004) áp d ng vi c gán nhãn t lo
ng t nhiên nh m rút ra nh ng tính t

t x lý ngôn
ng t ch

t câu mà ch a m t hay nhi u d u hi u s n ph m và t
c xem là m t câu ch
m.

ch

i câu trong d li u ch
c coi là nh ng t ch

m, rút ra t t c nh ng tính t
m.


K t qu th c nghi m vi c rút ra nh
chính xác (precision) kho ng 64.2% và recall là 69.3%.
S d
mang chi

nh các tính t
ng tích c c (positive) hay tiêu c c (negative).

Trong WordNet, các tính t
c t ch c thành các c m t
n a c m th hai ph
u là t
a c m th nh t. M i n
ph
uc at pt
p theo là t p t
i di n cho ng
ng tính t quan tr
cách ti p c n d a trên t
n, h s d
mc
t
d
ng c a các tính t
19

c rút ra

ng c c,

a c m là
cv i
a nh ng
.H b t


u v i m t danh sách kh
u g m 30 tính t thông d
c ch n th
công (b
d
d
nh
ng c a t t c
các tính t trong danh sách t
c rút ra b ng cách tìm ki m qua
c
ng c
tìm ra li u các t
sách kh
ng c a tính t
cd
c b sung vào danh sách kh
u và có th
cs d
nh
ng c a các tính t
u
s d
ng c a các tính t

c nh n d ng, và khi nó
ng
c qui mô c a danh sách kh
u trùng v i qui mô c a danh
sách t ch
m, thì t t c
ng c a các tính t
c nh n bi t
và quá trình này k t thúc.
Nh ng t
ng t p trung ch y
và phó t vì v y càng nh n d
c nhi u hai lo i t này h
th
chính xác cao
1.3.3 S d

ng t

Các tính t và phó t
t vai trò quan tr ng trong vi c phân tích
m và là các lo i t có l i th trong vi c nh n bi
ng và rút ra
các t ch
m trong các nghiên c u hi n nay. Tuy nhiên, các lo i t
khác, ví d
ng t
cs d
di n t c m xúc hay ý ki n
trong các bài vi t.

Nasukawa và Yi (2003) xem xét r ng bên c nh các tính t và phó t ,
ng t
di n t
m trong h th
m c a h . H phân lo
ng t
lo i. Lo i th nh t tr c ti p th hi
gi i c a h
m tr c ti
n nh
.

m thành 2
m tích c c hay tiêu c c, theo lý
. Lo i th hai không th hi n quan
m, gi

H s d
a trên mô hình Markov (HMM)
(Manning and Schutze, 1999) và phân tích cú pháp nông d a trên lu t (Neff et
c ti n x lý. Sa
phân tích tính ph thu c v m t cú
pháp gi a các c m t và tìm ki m các c m t có m t t ch
m mà nó
b
cb
i m t thu t ng ch th .
20



1.3.4

nh chi

ng, c m t

m

ng c a nh ng t , c m t tr c ti p
th hi
m, c m xúc c
i vi
nh n
bi
m c a nh ng t , c m t ch c
a trên th ng
kê ho c d a trên t v ng.
1.4. Nhi m v c

m

Phân tích
:
Sentiment

Sentiment Classification
Extraction).
m 3 nhi m v chính là:
po


1.5. Bài toán phân l
Phân l
d
ng ti m
quan tr
t các l p giúp cho tri th

m
ng "gi
tl
li u c a chúng. Tuy nhiên, phân l p là m t ho t
i khi nh n d ng th gi i th
báo, các quy
nh. Phân l p và cách mô
nh d
t
.

Khi nghiên c u m
ng, hi
ng, chúng ta ch có th d a vào
m ts h uh
a chúng. Nói cách khác, ta ch xem xét bi u
di n c
ng, hi
ng trong m t không gian h u h n chi u, m i
chi u ng v i m
c l a ch
p d li u tr thành
phân ho ch t p d li u thành các t p con theo m t tiêu chu n nh n d

c.
Nhi m v
21


Phân l p câu/tài li u ch
c(positive) hay tiêu c c
(negative), h

neutral).

Theo Bo Pang và Lillian Lee (2002) phân l p câu/tài li u ch
m
không có s nh n bi t c a m i t / c m t ch
m. H s d ng h c máy
phân lo i nh ng nh n xét v phim nh. Không c n ph i phân
l p các t hay c m t ch
m, h rút ra nh
m khác nhau c a
m và s d ng thu t toán Naïve Bayes (NB), Maximum Entropy
phân l
chính xác t
n 82, 9%.
Input:

Output:
(polarity) v ti p c n ng

Phân l p tài li


m th t s là v
thách th c và
x lý ngôn ng
n ch t ph c t p c a ngôn
ng c
c bi t là s
p nh
a ngôn ng .
S nh p nh ng này rõ ràng s
chính xác b phân l p c a
chúng ta m t m
nh
nh. M t khía c nh thách th c c a v
này
t nó v i vi c phân lo i ch
theo truy n th
trong khi nh ng ch
c nh n d ng b i nh ng t
ng m t
mình, qu
m có th di n t m t cách tinh t
Làm th
ng i xem h t b phim này ?
nh
is
hi u bi t nhi
.
1.5.1 Phân c
-


m và m

phân c c

positive/negative/neutral

22


Liberal/conservative
-

VD: Thông qua

Rating inference (ordinal regression

positive, negative, neutral
positive negative.
neutral

neutral

negative

negative
1.5.2 Nhi m v c a bài toán phân l

m

Bài toán phân l

c bi
li u v i m c tiêu là phân lo i các tài li

lo

t nhi u ti p c
th c hi n, v

p tài
m.
c nghiên c
gi i quy t cho
n có th chia thành hai nhi m v

23


ph c v m
- Xây d

m khai thác các thông tin ch
i tài li
ng ng
phân l p các tài li u.

24

m



NT

M I CHO PHÂN
M

T
ng trích các t m i là s c n thi
c tiên cho m t s nhi m v
x lý ngôn ng t
(ngôn ng Ti ng Trung, Ti ng Vi t),
trích tên c a th c th và phân tích tình c
m.
i thi u m
m m i t d li u l
i dùng t o ra.
gi i thi u m
c hoàn toàn không giám sát và m
hoàn toàn d a trên d li u cho trích t
m m i và ng d
m. Các tác gi
tl
nh tính phù h p c a m t m u t v
tt

trích các t
c tác gi
t Framwork
ng nó trong
là t m i.


ch s d ng r t ít các thông tin ngôn ng (g n v i các
ngu n tài nguyên ngôn ng t do)
s d ng thông tin gán nhãn t
lo i POS, và không yêu c u ph i xây d ng quy t c ngôn ng . Các tác gi
ch ng minh t c m xúc
m) m i s mang l i l i ích trong phân tích
c
m. Các k t qu th c nghi m ch ng minh tính
hi u qu c
xu t.
2.1. Gi i thi u
Các t m i trên Internet xu t hi n ngày càng nhi
c bi t là trong
n
i dùng t
i dùng mu n c p nh t và chia s thông
tin c a h trên các trang web xã h i v i phong cách ngôn ng riêng c a h ,
t hi n các t m i trong các
c
chính tr , kinh t ,
hóa, xã h i.
Tuy nhiên, nh ng t m
o ra nh ng thách th c cho m t
s nhi m v x lý trong ngôn ng t nhiên. Vi c t
ng trích các t m i là
không th thi
i v i nhi u công vi
n t (Ti ng Trung hay
Ti ng Vi t..), d ch máy, trích xu t th c th có tên, h i và tr l i, và phân tích
c

m. Phát hi n t m i là m t trong nh ng v
quan tr ng nh t trong tách t Ti ng Trung. Các nghiên c u g
ra r
t k t qu c a t
25


×