I H C DÂN L P H I PHÒNG
-------o0o-------
NGÀNH CÔNG NGH THÔNG TIN
H I PHÒNG 2016
I H C DÂN L P H I PHÒNG
-------o0o-------
I H C DÂN L P H I PHÒNG
-------o0o-------
Sinh viên th c hi n: Nguy n Ti
Mã s sinh viên: 1413101001
-
-
-------o0o-------
NHI M V THI T K T T NGHI P
Sinh viên: Nguy n Ti
Mã s : 1413101001
L p: CTL 801
tài: Tìm hi
m
Ngành: Công ngh Thông tin
px
c
hi n quan
NHI M V
TÀI
1. N i dung và các yêu c u c n gi i quy t trong nhi m v
a. N i dung:
c tài li u Ti ng Anh
tài t t nghi p
Tìm hi
Tìm hi u ng li u
b. Các yêu c u c n gi i quy t
Trình bày và gi
c các yêu c u c
pháp trên d li u tìm hi u
t th nghi m thu t toán
2. Các s li u c n thi
m th c t p
thi t k , tính toán
c áp d
CÁN B
NG D
TÀI T T NGHI P
ng d n th nh t:
H và tên:....................................................................................................................
H c hàm, h c v :.........................................................................................................
N
ng d
ng d n th hai:
H
H c hàm, h c v
N
ng d
tài t t nghi
Yêu c u ph
n nhi m v
Sinh viên
n nhi m v
Cán b
ng d
HI
NG
Tinh th
c
tài t t nghi p:
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
ng c
tài t t nghi p (so v i n i dung yêu c
ra trong
nhi m v
tài t t nghi p)
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
..........................................................................................................................................
m c a cán b
ng d n:
m ghi b ng s và ch )
..........................................................................................................................................
..........................................................................................................................................
Cán b
ng d n chính
( Ký, ghi rõ h tên )
1.
tài t t nghi p (v các m
th c t , ...)
thuy
lý lu n,
m c a cán b ph n bi n
(
m ghi b ng s và ch )
.....................................................................................................................................
.....................................................................................................................................
Cán b ch m ph n bi n
( Ký, ghi rõ h tên )
M C L C............................................................................................. 1
L I C
.................................................................................... 12
L
U .................................................................................... 13
NG QUAN V
M
PHÂN TÍCH C M XÚC ............................................................................ 16
1.1.
............................. 16
1.2 L ch s c a phân tích c
1.3.
m ........... 19
-
............................. 20
1.3.1.
:........................... 20
1.3.2. Bi u di n c
....... 21
1.3.3.
1.4.
ng:..................... 21
M t s nghiên c
1.4.1.
nh c m t
1.4.2.
nh chi
1.5.
Bài toán phân l
m ..................... 22
m ........................................... 23
ng, c m t
m ..................... 25
m ................................................ 28
P H
S N PH M CHO X P H NG CÁC S N PH M................................... 31
2.1. Gi i thi u.................................................................................. 31
ng x p h ng d
a các s n ph m ... 32
2.2.1 Các th c nghi m................................................................. 38
2.2.2. Các k t qu ....................................................................... 39
2.3. T ng k t.................................................................................... 41
NGHI M TRÊN D
3.1. D li u th nghi
LI U ................................ 43
án................................................. 43
3.2.
......................................................................... 46
3.3.
Gi i thi u công c JFSA ....................................................... 46
K T LU N......................................................................................... 49
TÀI LI U THAM KH O................................................................... 50
L I C
c tiên, em xin g i l i c
c nh t
t i Cô Nguy n Th
i h c Dân l p H
ch b
ng d n t n tình cho em trong su t quá trình tìm hi u và th c
hi n khóa lu n này.
Em xin chân thành c
các Th y, Cô trong Khoa Công ngh
n tình gi ng d y và truy n cho em nh ng ki n th c quý báu
cho em trong su t quá trình h c t p và làm lu
t nghi p.
Em xin chân thành c
i các Th y, Cô và các Cán b , Nhân viên
c
i h c Dân L p H
o cho em nh
u ki n
thu n l
h c t p và nghiên c u.
Cu i cùng em mu n g i l i c
n bè nh ng
bên c
ng viên trong su t quá trình h c t p và
làm khóa lu n t t nghi p.
M
kính mong nh
Th y Cô và các b n.
t c g ng hoàn thành lu
m vi và kh
c ch n s không tránh kh i nh ng thi u sót. Em
c s c m thông và t n tình ch b o, góp ý c a quý
Em xin chân thành c
H i Phòng, ngày 08 tháng 07
Sinh viên
Nguy n Ti
2016
i dùng khi mu n mua m t s n
ph m hay s d ng d ch v
ng tìm hi u thông tin
qua nh
i s phát tri n c
hi n nay, h l
ng tìm hi u thông tin qua m ng.
-
nào. M
ch s ch n khách s n có các tiê
c
c
c.
thu c r t nhi u ch
m tv
này s
khác.
M
c chia s và th o lu n thông quan m ng xã h i
c kinh t , chính tr , xã h i. T
mc ac
i v i vi
giá
, hay m t s n ph m, d ch v
ng
ng m nh m
mc
i dùng
i v i các nhà s n xu t, các nhà cung c p d ch v
tìm
hi
i dùng v s n ph m và d ch v c a mình, thay vì
ph i l y phi
u tra cho s n ph m m t cách th công, h có th thu th p
các thông tin th
i dùng thông qua các
trang m ng. T
giúp các nhà s n xu t, các nhà cung c p d ch v
ho
nh các chính sách c n thi
phát tri n s n ph
ng phù
h p nhu c u c a th
ng.
có th
mc
i dùng,
vi c tìm ki
n các s n ph m, d ch v
ng ph c v cho h th ng x
m
v s n ph m d ch v
i dùng hay nhà s n xu t quan tâm.
V i vi c m r ng nhanh chóng c
n t trong vòng 15
n ph
c bán ngày càng nhi
và ngày càng có nhi
n ph m tr c tuy
nâng
cao kinh nghi m mua s m c a khách hàng, các trang Web cho phép khách
hàng c a h
vi t nh n xét v s n ph m mà h
t s s n ph m
ph bi n có th nh
n khác nhau. T
mc
n t , vi c ti p nh n thông tin ph n h i c a
i dùng có th c i thi n chi
c và phát tri n các s n ph m cho các
doanh nghi p. V y làm th
bi
c s n ph
t
c
a s n ph
i dùng
quan tâm nhi
u t s ng còn cho s n ph m?
ti p c n khác nhau s d
x p th h ng cho các s n ph m. Vi c x p h ng t
th b ng nh ng bi u hi n c th
a s n ph m r i k t h p
các x p h ng cho t
cho chúng ta x p h ng c a s n ph m
h ng c
c s d
nh nh
ng c a m
ng x p h ng t ng th .
án này, em nghiên c u v
trích và s p x
a s n ph m, t
t ng s n ph m trong bài toán x p h ng s n ph m.
h ng c a
N
án bao g
Gi i thi u v bài toán phân tích
M ts
D li u th c nghi m và k t qu
Cu i cùng là ph n k t lu n
m
px
1.1.
Thông tin
S ki n: là nh ng bi u hi n khách quan v
s ki
c th , các
a chúng.
Ví d v câu ch a thông tin khách quan:
hi
n tho i này có màu xanh
:
u hi n ch quan mô t tình c m,
m xúc c
i v i các th c th ,
s ki
Ví d câu th hi
Chi
n tho i này r
m:
t
Nh ng thông tin nh n xét góp ý hay nh ng thông tin ch quan ch a
m
t ph n quan tr
th
t
i thi u m t
n xin vi c
ng ho c yêu c u tài li u tham kh
ng nghi p, ho
a
nh
ng l n. Và
cl
81
Theo hai cu c kh o sát c
i dùng Internet (ho
iM
iM
ng thành m i:
c hi
tr c tuy n v m t s n ph m ít nh t m t l n; 20% (15% c a t t c
i
M
y trong m t ngày. Trong s
c gi
c tuy n
c a nhà hàng, khách s
ch v khác nhau (ví d
du l ch ho
t nh
mua hàng c a h
i tiêu dùng s n sàng tr t
n
99% m t m
im tm
ng c p m
m t s n ph m, d ch v thông qua m t h
th ng x p h ng tr c tuy
a công dân tr c tuy n cao
c
t bình lu n tr c tuy n ho c xem xét v m t s n ph m hay
d ch v .
ch v không
c th hi
c
ph
tuy
, trong m t cu c kh
Rainie và Horrigan nghiên c
tin v cu c b u c
email. Trong s này:
c tuy
m t bên trong c
bi t m
c ah .
iM
ng thành,
i M - trên 60 tri
ii thu th p thông
i
ng tr c tuy
ng c a h , và 34% cho
m t bên ngoài c
ng
c tuy n cho s tán thành ho c x p h ng c a
các t ch c bên ngoài.
thách th
tìm ki
t r ng h u h t các trang web mà h s d
chia s
ng ph n l n các trang web mà h s d ng
m c a h , ch ra r ng nhi
i không ch
n là
c tuy n bình lu n chính tr riêng c a h .
r
tích c c trong
tuy
i s d ng internet c a M
m
c tuy n, 58% cho r ng thông tin tr c
quan tâm mà
nh n xét tr c tuy n v s n ph m và
d ch v
V i s bùng n c a n n t
lu n, peer-to-peer m ng, và các lo i khác nhau c
ng kê c
ho
ng (active) m
l i trên 900 tri
o
i dùng
i có trung bình 130 b
tr ng thái
i qua
ng.
nghìn tài kho n m
kho ng 1,6 t câu h i
i dùng. M
u tin nh n, x lý trung bình
Vi t Nam: các m ng xã h
i dùng tham gia.
n
chia s kinh nghi m và nh n xét c a riêng h
c hay tiêu c c. Khi các công ty l
nh ng ti ng nói c
i tiêu dùng có th v n d ng r t l n
trong vi c hình thành nh n xét c
uc ah
u c a h ... Công ty có th
i tiêu dùng mà h t
thông xã h
d
ph
nh mua, và v
ng v i nh
Tuy nhiên, các nhà phân tích ngành công nghi
n truy n thông m i cho m
m i.
n ra,
ng
ng cho
n truy n
ng vi c t n
nh s n
Các nhà ti p th luôn luôn c
n truy n thông
u c a mình i v i các
ho
ng quan h công chúng, vi ph m gian l n, ho c tình báo c nh tranh.
n truy
i hành vi c a
n th ng.
Techno
c tính r ng 75.000 blog m
c t o ra m i ngày, cùng v i
1, 2 tri u bài vi t m
u nh n xét
i tiêu dùng
th o lu n v s n ph m và d ch v .
Vì v
tâ
tiêu dùng.
th ng có kh
i
1
c phân tích c m xúc (sentiment analysis) hay khai thác quan
m (opinion mining) g
c s quan tâm r ng rãi c a
các nhà nghiên c
các v
nghiên c
m.
Các nhân t
u s lan r ng nh n th c v
i nâng cao phân tích tình c m và khai thác
c nghiên c u g m:
S
và khôi ph c thông tin.
c máy, x lý ngôn ng t nhiên
S s n có c a các t p d li
o cho các thu t toán h c máy, s
phát tri n c a Internet, c th là s phát tri n c a t p h p các trang Web thu
th p các ý ki
m.
Th c hi n nh ng thách th c trí tu
c này.
ng m i và các ng d ng
Thu t ng
m (Dave et al. 2003) là các công c khai
thác
m s x lý m t t p h p các k t qu tìm ki m cho m
i
ng nh
nh, sinh ra m t danh sách các thu c tính s n ph m (ch t
m t ng h p v chúng (kém, bình
ng, t t).
m t song song c
nh ng khía c nh nh
u th cùng m
c nghiên
c u.
m: sentiment
Hai ti p c
classification và opinion extraction.
Sentiment classification: khai thác các k thu
phân lo i
n ho c thông qua ti p c n semantic/sentiment
postive, negative [Dave et al., 2003; Pang and Lee, 2004;
Turney, 2002, etc.].
m bao g m các
thông tin v
cc
ng nghiên
c u quan tâm. [Hu and Liu, 2004; Kanayama and Nasukawa,
2004; Popescu and Etzioni, 2005, etc.].
1.3.
-
mc am
b ng các thành ph n sau:
-
-
i dùng v m
ng có th
c th hi n
Chúng ta có th bi u di n thông tin c
ng hay th c th
c
-
-
-
Ví d : bi u di n cho m t th c th là máy nh Cannon S500:
M t nh
th hi n qua mô hình sau:
c
ng O có th
c
F = {f1, f
fn}.
i
Wi
Synonyms)
W ={W1, W
Wn}
j
Sj
k
+
k
+
trong fk.
(oj, fjk, soijkl, hi, tl),
oj
fjk
soijkl
fjk
o j.
oj
tl. soijkl
hi
-
hi
tl
1.4.
thành ch
nóng gi a các nhà
nghiên c u x lý ngôn ng t nhiên và trích ch
u
c xu t b n và nh ng ng d ng khác nhau có s d ng h
th
c phát tri
ng
, c m t ch quan
m
Trích các thông tin ch
Tóm t
m
m
Nh ng t , c m t ch
m là nh ng t ng
cs d
di n t c m xúc, ý ki
i vi t, nh
m ch
a trên
nh ng v
n. Vi c rút ra nh ng t ,
c m t ch
u tiên trong h th
m, vì nh ng t , c m t này là nh ng chìa khóa cho công vi c nh n bi t
và phân lo i tài li
ng d ng d a trên h th
m hi n nay t p trung
vào các t ch n i dung câu: danh t
ng t , tính t và phó t . Ph n l n
công vi c s d ng t lo
rút chúng ra (Hu và Liu, 2004 , Turney, 2002).
Vi c gán nhãn t lo
c s d ng trong công vi
u này có
th giúp cho vi c nh n bi
n ti p theo.
Nh
t phân tích ngôn ng t
stopwords,
stemming
cs d
n ti n x
rút ra t , c m t
ch
m
Nh ng h th ng hi n t
nh n bi t nh ng t ch
m
m t p trung ch y u vào các tính t và phó t vì
c xem là s bi u l rõ ràng nh t c a tính ch quan (
Hatzivassiloglou and McKeown, 1997, Wiebe and Bruce, 1999 ).
Hu và Liu (2004) áp d ng vi c gán nhãn t lo
ng t nhiên nh m rút ra nh ng tính t
ch
t x lý ngôn
ng t ch
t câu mà ch a m t hay nhi u d u hi u s n ph m và t
c xem là m t câu ch quan m.
i câu trong d li u ch
c coi là nh ng t ch
m, rút ra t t c nh ng tính t
m.
K t qu th c nghi m vi c rút ra nh
chính xác (precision) kho ng 64.2% và recall là 69.3%.
S d ng WordNet (F
nh các tính t
c rút
ra mang chi
ng tích c c (positive) hay tiêu c c (negative).
Trong WordNet, các tính t
c t ch c thành các c m t
ng c c,
n a c m th hai ph
u là t
a c m th nh t. M i n a c m
là ph
uc at pt
p theo là t p t
i di n cho ng
ng tính t quan tr
c
v i cách ti p c n d a trên t
n, h s d
mc a
nh ng t
d
ng c a các tính
t .H b
u v i m t danh sách kh
u g m 30 tính t thông d
c
ch n th công (b
d
d
ng
c a t t c các tính t trong danh sách t
c rút ra b ng cách
tìm ki m qua c
ng c
tìm ra li u các t
có trong danh sách kh
ng c a tính t
c
d
c b sung vào danh sách kh
u và có th
cs
d
ng c a các tính t
danh sách kh
us d
ng c a các tính t
c
nh n d ng, và khi nó ng
c qui mô c a danh sách kh
u
trùng v i qui mô c a danh sách t ch
m, thì t t c
ng c a
các tính t
c nh n bi t và quá trình này k t thúc.
Nh ng t
ng t p trung ch y
và phó t vì v y càng nh n d
c nhi u hai lo i t này h
th
chính xác cao
Các tính t và phó t
t vai trò quan tr ng trong vi c phân tích
m và là các lo i t có l i th trong vi c nh n bi
ng và
rút ra các t ch
m trong các nghiên c u hi n nay. Tuy nhiên, các
lo i t khác, ví d
ng t
ý ki n trong các bài vi t.
cs d
di n t c m xúc hay
Nasukawa và Yi (2003) xem xét r ng bên c nh các tính t và phó t ,
ng t
di n t
m trong h th
m c a h . H phân lo
ng t
n quan m thành 2
lo i. Lo i th nh t tr c ti p th hi
m tích c c hay tiêu c c, theo
lý gi i c a h
i th hai không th hi n
m tr c ti
n nh
m , gi
H s d
a trên mô hình Markov (HMM)
(Manning and Schutze, 1999) và phân tích cú pháp nông d a trên lu t (Neff
c ti n x
phân tích tính ph thu c v m t
cú pháp gi a các c m t và tìm ki m các c m t có m t t ch
m
mà nó b
cb
i m t thu t ng ch th
ng c a nh ng t , c m t tr c ti p
th hi
m, c m xúc c
i vi
nh n bi
m c a nh ng t , c m t ch c
a
trên th ng kê ho c d a trên t v ng
trong d li
-
c
y)
Trong phân m
th hi
các t th hi
p
ct ,c
th là t ch quan
m (polarity classification) vi c
m (Pang et al., 2002
ch
(topic)
.
l i có
(Wiebe et al., 2004); Yang et al.,