Tải bản đầy đủ (.pdf) (50 trang)

Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.34 MB, 50 trang )

I H C DÂN L P H I PHÒNG
-------o0o-------

NGÀNH CÔNG NGH THÔNG TIN

H I PHÒNG 2016


I H C DÂN L P H I PHÒNG
-------o0o-------


I H C DÂN L P H I PHÒNG
-------o0o-------

Sinh viên th c hi n: Nguy n Ti

Mã s sinh viên: 1413101001



-

-

-------o0o-------

NHI M V THI T K T T NGHI P

Sinh viên: Nguy n Ti


Mã s : 1413101001

L p: CTL 801
tài: Tìm hi
m

Ngành: Công ngh Thông tin
px

c

hi n quan


NHI M V

TÀI

1. N i dung và các yêu c u c n gi i quy t trong nhi m v
a. N i dung:
c tài li u Ti ng Anh

tài t t nghi p

Tìm hi
Tìm hi u ng li u

b. Các yêu c u c n gi i quy t
Trình bày và gi


c các yêu c u c

pháp trên d li u tìm hi u
t th nghi m thu t toán

2. Các s li u c n thi

m th c t p

thi t k , tính toán

c áp d


CÁN B

NG D

TÀI T T NGHI P

ng d n th nh t:
H và tên:....................................................................................................................
H c hàm, h c v :.........................................................................................................
N

ng d

ng d n th hai:
H
H c hàm, h c v

N

ng d

tài t t nghi
Yêu c u ph
n nhi m v
Sinh viên

n nhi m v
Cán b
ng d

HI

NG


Tinh th
c
tài t t nghi p:
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
ng c

tài t t nghi p (so v i n i dung yêu c
ra trong
nhi m v
tài t t nghi p)
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
m c a cán b
ng d n:
m ghi b ng s và ch )
..........................................................................................................................................
..........................................................................................................................................

Cán b

ng d n chính

( Ký, ghi rõ h tên )


1.

tài t t nghi p (v các m
th c t , ...)


thuy

lý lu n,

m c a cán b ph n bi n
(

m ghi b ng s và ch )

.....................................................................................................................................
.....................................................................................................................................

Cán b ch m ph n bi n
( Ký, ghi rõ h tên )


M C L C............................................................................................. 1
L I C

.................................................................................... 12

L

U .................................................................................... 13

NG QUAN V
M
PHÂN TÍCH C M XÚC ............................................................................ 16
1.1.


............................. 16

1.2 L ch s c a phân tích c
1.3.

m ........... 19
-

............................. 20

1.3.1.

:........................... 20

1.3.2. Bi u di n c

....... 21

1.3.3.
1.4.

ng:..................... 21

M t s nghiên c

1.4.1.

nh c m t

1.4.2.


nh chi

1.5.

Bài toán phân l

m ..................... 22
m ........................................... 23
ng, c m t

m ..................... 25

m ................................................ 28

P H
S N PH M CHO X P H NG CÁC S N PH M................................... 31
2.1. Gi i thi u.................................................................................. 31
ng x p h ng d

a các s n ph m ... 32

2.2.1 Các th c nghi m................................................................. 38
2.2.2. Các k t qu ....................................................................... 39


2.3. T ng k t.................................................................................... 41
NGHI M TRÊN D
3.1. D li u th nghi


LI U ................................ 43

án................................................. 43

3.2.

......................................................................... 46

3.3.

Gi i thi u công c JFSA ....................................................... 46

K T LU N......................................................................................... 49
TÀI LI U THAM KH O................................................................... 50


L I C
c tiên, em xin g i l i c
c nh t
t i Cô Nguy n Th
i h c Dân l p H
ch b
ng d n t n tình cho em trong su t quá trình tìm hi u và th c
hi n khóa lu n này.
Em xin chân thành c
các Th y, Cô trong Khoa Công ngh
n tình gi ng d y và truy n cho em nh ng ki n th c quý báu
cho em trong su t quá trình h c t p và làm lu
t nghi p.
Em xin chân thành c

i các Th y, Cô và các Cán b , Nhân viên
c
i h c Dân L p H
o cho em nh
u ki n
thu n l
h c t p và nghiên c u.
Cu i cùng em mu n g i l i c
n bè nh ng
bên c
ng viên trong su t quá trình h c t p và
làm khóa lu n t t nghi p.
M
kính mong nh
Th y Cô và các b n.

t c g ng hoàn thành lu
m vi và kh
c ch n s không tránh kh i nh ng thi u sót. Em
c s c m thông và t n tình ch b o, góp ý c a quý

Em xin chân thành c
H i Phòng, ngày 08 tháng 07
Sinh viên

Nguy n Ti

2016



i dùng khi mu n mua m t s n
ph m hay s d ng d ch v
ng tìm hi u thông tin
qua nh
i s phát tri n c
hi n nay, h l
ng tìm hi u thông tin qua m ng.
-

nào. M

ch s ch n khách s n có các tiê

c

c

c.

thu c r t nhi u ch
m tv
này s
khác.
M

c chia s và th o lu n thông quan m ng xã h i
c kinh t , chính tr , xã h i. T
mc ac
i v i vi
giá

, hay m t s n ph m, d ch v
ng
ng m nh m
mc
i dùng

i v i các nhà s n xu t, các nhà cung c p d ch v

tìm


hi
i dùng v s n ph m và d ch v c a mình, thay vì
ph i l y phi
u tra cho s n ph m m t cách th công, h có th thu th p
các thông tin th
i dùng thông qua các
trang m ng. T
giúp các nhà s n xu t, các nhà cung c p d ch v
ho
nh các chính sách c n thi
phát tri n s n ph
ng phù
h p nhu c u c a th
ng.
có th

mc

i dùng,


vi c tìm ki

n các s n ph m, d ch v
ng ph c v cho h th ng x
m
v s n ph m d ch v
i dùng hay nhà s n xu t quan tâm.
V i vi c m r ng nhanh chóng c
n t trong vòng 15
n ph
c bán ngày càng nhi
và ngày càng có nhi
n ph m tr c tuy
nâng
cao kinh nghi m mua s m c a khách hàng, các trang Web cho phép khách
hàng c a h
vi t nh n xét v s n ph m mà h
t s s n ph m
ph bi n có th nh
n khác nhau. T
mc
n t , vi c ti p nh n thông tin ph n h i c a
i dùng có th c i thi n chi
c và phát tri n các s n ph m cho các
doanh nghi p. V y làm th
bi
c s n ph
t
c

a s n ph
i dùng
quan tâm nhi
u t s ng còn cho s n ph m?
ti p c n khác nhau s d
x p th h ng cho các s n ph m. Vi c x p h ng t
th b ng nh ng bi u hi n c th
a s n ph m r i k t h p
các x p h ng cho t
cho chúng ta x p h ng c a s n ph m
h ng c
c s d
nh nh
ng c a m
ng x p h ng t ng th .
án này, em nghiên c u v
trích và s p x
a s n ph m, t
t ng s n ph m trong bài toán x p h ng s n ph m.

h ng c a


N

án bao g
Gi i thi u v bài toán phân tích
M ts
D li u th c nghi m và k t qu


Cu i cùng là ph n k t lu n

m
px


1.1.
Thông tin
S ki n: là nh ng bi u hi n khách quan v
s ki

c th , các

a chúng.

Ví d v câu ch a thông tin khách quan:
hi

n tho i này có màu xanh
:

u hi n ch quan mô t tình c m,
m xúc c

i v i các th c th ,

s ki

Ví d câu th hi
Chi


n tho i này r

m:
t

Nh ng thông tin nh n xét góp ý hay nh ng thông tin ch quan ch a
m
t ph n quan tr

th
t

i thi u m t
n xin vi c

ng ho c yêu c u tài li u tham kh
ng nghi p, ho

a
nh
ng l n. Và
cl

81

Theo hai cu c kh o sát c
i dùng Internet (ho

iM

iM

ng thành m i:
c hi

tr c tuy n v m t s n ph m ít nh t m t l n; 20% (15% c a t t c

i


M
y trong m t ngày. Trong s
c gi
c tuy n
c a nhà hàng, khách s
ch v khác nhau (ví d
du l ch ho
t nh
mua hàng c a h
i tiêu dùng s n sàng tr t
n
99% m t m
im tm
ng c p m
m t s n ph m, d ch v thông qua m t h
th ng x p h ng tr c tuy
a công dân tr c tuy n cao
c
t bình lu n tr c tuy n ho c xem xét v m t s n ph m hay
d ch v .

ch v không
c th hi
c

ph
tuy
, trong m t cu c kh
Rainie và Horrigan nghiên c
tin v cu c b u c
email. Trong s này:

c tuy

m t bên trong c
bi t m
c ah .

iM
ng thành,
i M - trên 60 tri
ii thu th p thông
i

ng tr c tuy
ng c a h , và 34% cho
m t bên ngoài c
ng

c tuy n cho s tán thành ho c x p h ng c a
các t ch c bên ngoài.


thách th
tìm ki

t r ng h u h t các trang web mà h s d
chia s
ng ph n l n các trang web mà h s d ng
m c a h , ch ra r ng nhi
i không ch
n là

c tuy n bình lu n chính tr riêng c a h .


r
tích c c trong
tuy

i s d ng internet c a M
m
c tuy n, 58% cho r ng thông tin tr c

quan tâm mà
nh n xét tr c tuy n v s n ph m và
d ch v
V i s bùng n c a n n t
lu n, peer-to-peer m ng, và các lo i khác nhau c
ng kê c
ho
ng (active) m

l i trên 900 tri

o

i dùng
i có trung bình 130 b

tr ng thái
i qua

ng.

nghìn tài kho n m
kho ng 1,6 t câu h i

i dùng. M
u tin nh n, x lý trung bình

Vi t Nam: các m ng xã h
i dùng tham gia.
n
chia s kinh nghi m và nh n xét c a riêng h
c hay tiêu c c. Khi các công ty l
nh ng ti ng nói c
i tiêu dùng có th v n d ng r t l n
trong vi c hình thành nh n xét c
uc ah
u c a h ... Công ty có th
i tiêu dùng mà h t
thông xã h


d
ph

nh mua, và v
ng v i nh

Tuy nhiên, các nhà phân tích ngành công nghi
n truy n thông m i cho m
m i.

n ra,
ng
ng cho
n truy n

ng vi c t n
nh s n


Các nhà ti p th luôn luôn c

n truy n thông
u c a mình i v i các
ho
ng quan h công chúng, vi ph m gian l n, ho c tình báo c nh tranh.
n truy
i hành vi c a
n th ng.
Techno

c tính r ng 75.000 blog m
c t o ra m i ngày, cùng v i
1, 2 tri u bài vi t m
u nh n xét
i tiêu dùng
th o lu n v s n ph m và d ch v .
Vì v

tiêu dùng.

th ng có kh

i

1
c phân tích c m xúc (sentiment analysis) hay khai thác quan
m (opinion mining) g
c s quan tâm r ng rãi c a
các nhà nghiên c
các v
nghiên c
m.
Các nhân t

u s lan r ng nh n th c v
i nâng cao phân tích tình c m và khai thác

c nghiên c u g m:

S

và khôi ph c thông tin.

c máy, x lý ngôn ng t nhiên

S s n có c a các t p d li
o cho các thu t toán h c máy, s
phát tri n c a Internet, c th là s phát tri n c a t p h p các trang Web thu
th p các ý ki
m.
Th c hi n nh ng thách th c trí tu
c này.

ng m i và các ng d ng

Thu t ng
m (Dave et al. 2003) là các công c khai
thác
m s x lý m t t p h p các k t qu tìm ki m cho m
i
ng nh
nh, sinh ra m t danh sách các thu c tính s n ph m (ch t


m t ng h p v chúng (kém, bình
ng, t t).
m t song song c
nh ng khía c nh nh
u th cùng m

c nghiên


c u.
m: sentiment

Hai ti p c
classification và opinion extraction.

Sentiment classification: khai thác các k thu
phân lo i
n ho c thông qua ti p c n semantic/sentiment
postive, negative [Dave et al., 2003; Pang and Lee, 2004;
Turney, 2002, etc.].
m bao g m các
thông tin v
cc
ng nghiên
c u quan tâm. [Hu and Liu, 2004; Kanayama and Nasukawa,
2004; Popescu and Etzioni, 2005, etc.].
1.3.

-

mc am
b ng các thành ph n sau:
-

-

i dùng v m


ng có th

c th hi n


Chúng ta có th bi u di n thông tin c

ng hay th c th

c

-

-

-

Ví d : bi u di n cho m t th c th là máy nh Cannon S500:

M t nh
th hi n qua mô hình sau:

c

ng O có th

c

F = {f1, f


fn}.

i

Wi

Synonyms)
W ={W1, W

Wn}


j

Sj

k

+

k

+
trong fk.

(oj, fjk, soijkl, hi, tl),
oj
fjk
soijkl
fjk


o j.

oj

tl. soijkl

hi
-

hi
tl
1.4.
thành ch
nóng gi a các nhà
nghiên c u x lý ngôn ng t nhiên và trích ch
u
c xu t b n và nh ng ng d ng khác nhau có s d ng h
th
c phát tri
ng
, c m t ch quan
m


Trích các thông tin ch
Tóm t

m


m

Nh ng t , c m t ch
m là nh ng t ng
cs d
di n t c m xúc, ý ki
i vi t, nh
m ch
a trên
nh ng v
n. Vi c rút ra nh ng t ,
c m t ch
u tiên trong h th
m, vì nh ng t , c m t này là nh ng chìa khóa cho công vi c nh n bi t
và phân lo i tài li
ng d ng d a trên h th
m hi n nay t p trung
vào các t ch n i dung câu: danh t
ng t , tính t và phó t . Ph n l n
công vi c s d ng t lo
rút chúng ra (Hu và Liu, 2004 , Turney, 2002).
Vi c gán nhãn t lo
c s d ng trong công vi
u này có
th giúp cho vi c nh n bi
n ti p theo.
Nh
t phân tích ngôn ng t
stopwords,
stemming

cs d
n ti n x
rút ra t , c m t
ch
m

Nh ng h th ng hi n t

nh n bi t nh ng t ch

m

m t p trung ch y u vào các tính t và phó t vì
c xem là s bi u l rõ ràng nh t c a tính ch quan (
Hatzivassiloglou and McKeown, 1997, Wiebe and Bruce, 1999 ).
Hu và Liu (2004) áp d ng vi c gán nhãn t lo
ng t nhiên nh m rút ra nh ng tính t

ch

t x lý ngôn
ng t ch

t câu mà ch a m t hay nhi u d u hi u s n ph m và t
c xem là m t câu ch quan m.


i câu trong d li u ch
c coi là nh ng t ch


m, rút ra t t c nh ng tính t
m.

K t qu th c nghi m vi c rút ra nh
chính xác (precision) kho ng 64.2% và recall là 69.3%.
S d ng WordNet (F
nh các tính t
c rút
ra mang chi
ng tích c c (positive) hay tiêu c c (negative).
Trong WordNet, các tính t

c t ch c thành các c m t

ng c c,

n a c m th hai ph
u là t
a c m th nh t. M i n a c m
là ph
uc at pt
p theo là t p t
i di n cho ng
ng tính t quan tr
c
v i cách ti p c n d a trên t
n, h s d
mc a
nh ng t
d

ng c a các tính
t .H b
u v i m t danh sách kh
u g m 30 tính t thông d
c
ch n th công (b
d
d
ng
c a t t c các tính t trong danh sách t
c rút ra b ng cách
tìm ki m qua c
ng c
tìm ra li u các t
có trong danh sách kh
ng c a tính t
c
d
c b sung vào danh sách kh
u và có th
cs
d
ng c a các tính t
danh sách kh
us d
ng c a các tính t
c
nh n d ng, và khi nó ng
c qui mô c a danh sách kh
u

trùng v i qui mô c a danh sách t ch
m, thì t t c
ng c a
các tính t
c nh n bi t và quá trình này k t thúc.
Nh ng t
ng t p trung ch y
và phó t vì v y càng nh n d
c nhi u hai lo i t này h
th
chính xác cao

Các tính t và phó t
t vai trò quan tr ng trong vi c phân tích
m và là các lo i t có l i th trong vi c nh n bi
ng và
rút ra các t ch
m trong các nghiên c u hi n nay. Tuy nhiên, các


lo i t khác, ví d
ng t
ý ki n trong các bài vi t.

cs d

di n t c m xúc hay

Nasukawa và Yi (2003) xem xét r ng bên c nh các tính t và phó t ,
ng t

di n t
m trong h th
m c a h . H phân lo
ng t
n quan m thành 2
lo i. Lo i th nh t tr c ti p th hi
m tích c c hay tiêu c c, theo
lý gi i c a h
i th hai không th hi n
m tr c ti
n nh
m , gi

H s d
a trên mô hình Markov (HMM)
(Manning and Schutze, 1999) và phân tích cú pháp nông d a trên lu t (Neff
c ti n x
phân tích tính ph thu c v m t
cú pháp gi a các c m t và tìm ki m các c m t có m t t ch
m
mà nó b
cb
i m t thu t ng ch th

ng c a nh ng t , c m t tr c ti p
th hi
m, c m xúc c
i vi
nh n bi
m c a nh ng t , c m t ch c

a
trên th ng kê ho c d a trên t v ng
trong d li

-

c

y)
Trong phân m

th hi

các t th hi
p
ct ,c
th là t ch quan

m (polarity classification) vi c
m (Pang et al., 2002
ch
(topic)
.
l i có
(Wiebe et al., 2004); Yang et al.,


×