Tải bản đầy đủ (.pdf) (27 trang)

A feature based opinion mining model on product reviews in vietnamese

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.06 MB, 27 trang )

VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY

VU TIEN THANH

A FEATURE-BASED OPINION MINING
MODEL ON PRODUCT REVIEWS IN
VIETNAMESE

MASTER THESIS OF INFORMATION TECHNOLOGY

Hanoi – 2012


VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY

VU TIEN THANH

A FEATURE-BASED OPINION MINING
MODEL ON PRODUCT REVIEWS IN
VIETNAMESE

Major : Computer Science
Code : 60 48 01

MASTER THESIS OF INFORMATION TECHNOLOGY
Supervisor: Assoc.Prof. Ha QuangThuy

Hanoi – 2012



Table of Contents
1 Introduction

1

2 Literature review
2.1 Opinion Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 The demand of opinion mining . . . . . . . . . . . . . . . .
2.1.2 The basic concepts in the opinion mining field . . . . . . . .
2.1.3 Opinion mining problems . . . . . . . . . . . . . . . . . . . .
2.2 Feature-based Opinion Mining . . . . . . . . . . . . . . . . . . . . .
2.2.1 Problem Definition . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Features Extraction . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Opinion Orientation Identification . . . . . . . . . . . . . . .
2.2.4 Feature-based Opinion Mining System on Vietnamese Product
Reviews . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Our Feature-based Opinion Mining Model
3.1 Introduction . . . . . . . . . . . . . . . . . . .
3.2 Phase 1: Pre-processing . . . . . . . . . . . . .
3.2.1 Data Standardizing . . . . . . . . . . .
3.2.2 Token Segmenting and POS Tagging .
3.3 Phase 2: Product Features and Opinion Words
3.3.1 Explicit Product Features Extraction .
3.3.2 Opinion word Extraction . . . . . . . .
3.3.3 Implicit Features identification . . . . .
3.3.4 Grouping Synonym Features . . . . . .
3.3.5 Frequent Features Identification . . . .
3.4 Phase 3: Determining the opinion orientation .
3.5 Phase 4: Summarization . . . . . . . . . . . .


vi

. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
Extraction
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.


4
4
4
7
9
10
10
11
12

. 14

.
.
.
.
.
.
.
.
.
.
.
.

15
15
16
16
17

18
18
21
22
23
24
26
28


TABLE OF CONTENTS

vii

4 Evaluation
4.1 Environment and Experimental Data . .
4.1.1 Environment . . . . . . . . . . .
4.1.2 Experimental Data . . . . . . . .
4.2 Product Features Extraction Evaluation
4.3 Opinion Words Extraction Evaluation . .
4.4 The Whole System Evaluation . . . . . .

29
29
29
29
30
31
32


5 Conclusion

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.


.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

36


A FEATURE-BASED OPINION MINING MODEL ON PRODUCT
REVIEWS IN VIETNAMESE
Vu Tien Thanh

K16 Computer Science Master Course
Faculty of Information Technology
University of Engineering and Technology
Vietnam National University, Hanoi


Ha Quang Thuy
Faculty of Information Technology
University of Engineering and Technology
Vietnam National University, Hanoi


Abstract

Feature-based opinion mining and summarizing (FOMS) of reviews is a very interesting and attracting issue in the opinion mining field. With the development of ecommerce in Vietnam, there are more and more commercial sites and technical forums
where people can review or express their opinions on the products which they have
used. As a result, the number of reviews has been increasing rapidly to hundreds
or even thousands for a hot-product in recent years. Not only makes it difficult for
the customer to read them to make a decision whether to buy product but difficult
for the producer to handle customer’s opinions to improve their products as well. In
this thesis, we describe a Feature-based opinion mining and summarizing model on
Vietnamese customer reviews. Experimental results on Vietnamese reviews of mobile
phone products domain demonstrate the effectiveness of the model.
Keywords

feature-word; feature-based opinion mining system; opinion summarization; opinionword; reviews; syntax rules; VietSentiWordnet dictionary
PUBLICATIONS
Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran and Quang-Thuy Ha. A Solution for Grouping
Vietnamese Synonym Feature Words in Product Reviews. In Proceedings of the 6th international
conference on Asia-Pacific Services Computing (APSCC 2011).

Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham and Cong-To Luu. An Upgrading Featurebased Opinion Mining Model on Vietnamese Product Reviews. In Proceedings of the 7th international
conference on Active media technology (AMT 2011), pp. 173-185.
Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu and Quang-Thuy Ha. A Feature-Based Opinion
Mining Model on Product Reviews in Vietnamese. In Semantic Methods for Knowledge Management
and Communication (SCI 381), pp. 23-33.


I. INTRODUCTION
Feature-based opinion mining and summarizing(FOMS) of product reviewsis a very interesting
and attracting issue in the opinion mining field [1][2][3][4]. There are many research have done
for improving FOMS systems [5][3][2].
In this thesis, we propose a Feature-based opinion mining and summarizing model on Vietnamese customer reviews overcoming some drawbacks of the recent FOMS systems. With an
input customer reviews set of products, our task is performed into four steps:(1)Pre-processing
the input customer reviews by standardizing reviews, segmenting Token, and POS tagging(2)
extracting explicit product features and opinion-words as well by using Vietnamese syntax rules,
identifying implicit product features by using relationships with opinion words,and automatically
grouping synonym product features by combining HAC clustering method and semi-supervised
SVM-kNN classification method; (3) identifying opinion sentences in each review and deciding
whether each opinion sentence is positive, negative or neutral by using a VietSentiWordNet
extended from an initial SentiWordNet 3.0; (4) summarizing the results.
The rest of this thesis is organized as following. In the second chapter, we provide some
literature reviews. In next chapter, the FOMS model with four steps is described. Experiment
results and remarks are described in the fourth chapter. Conclusions are showed in the last
chapter.
II. RELATED

WORKS

Because positive opinionated document on a particular object does not mean that the author
has positive opinions on all features of the object and vice versa. In a typical opinionated text, the

author writes both positive and negative features of the object, although the general sentiment on
the object may be positive or negative. Document-level and sentence-level classification do not
provide such information. Thus, feature-based opinion mining is needed to determine positive,
negative or neutral opinions the feature level. And the feature-based opinion mining focuses on
two main tasks [6]:
• Identify object features(product features). For example, in the sentence “The touch screen
of this mobile phone is great”, the product feature is touch screen.
• Determine orientation of opinions on features (positive, negative, or neutral). In above
sentence, the opinion on “touch screen” is positive.
A. Features Extraction
The approach applied in early feature-based opinion mining systems to identify features is
based on association mining [7]. The main idea of this approach is that although different
customers usually have different reviews related to product features, when they comment on
product features, the words that they use to express the feature are consistent. Thus, the approach
uses association mining to find noun/noun phrases (N/NP) that frequently occur in reviews and


considers those N/NP as product features. A disadvantage of the association mining based
approach is that it does not identify implicit features.
Other related works on feature extraction mainly use the topic modeling and clustering to
extract topics/features in customer reviews [8]. The main idea of these approaches is that it
clusters the synonym features based on context of reviews.
B. Opinion Orientation Identification
Opinion Words Extraction The first approach applied to extract opinion words is based on
syntactic or co-occurrence patterns and also a seed list of opinion words to find other opinion
words in a large corpus [9]. The approach starts with a list of seed opinion adjectives, and uses
them and a set of linguistic constraints such as “AND”, “OR”, “BUT”,etc to identify additional
adjective opinion words and their orientations (positive, negative, or neutral). For example, given
a sentence “This car is beautiful and spacious,” if “beautiful” is known to be positive, it can be
inferred that “spacious” is also positive.

Other approaches are based on dictionary, one of the simple techniques in this approach is
based on bootstrapping using a small set of seed opinion words and an online dictionary, e.g.,
WordNet [7][10]. The approach firstly collects a small set of opinion words manually with
known orientations and then to grow this set by searching in the WordNet for their synonyms
and antonyms. After that, the newly found words are added to the seed list. The next iteration
starts. The iterative process stops when no more new words are found.
Aggregating opinions: This step applies an opinion aggregation function to the resulting
opinion scores to determine the final orientation of the opinion on each object feature in the
sentence. Let the sentence be s, which contains a set of object features f1 , . . . , fm and a set of
opinion words or phrases op1 , . . . , opn with their opinion scores obtained previous steps. The
opinion orientation on each feature fi in s is determined by the opinion aggregation function
(different functions on different systems). [6] defines the function as follows:
opj .so
;
score(fi , s) =
opj ∈s

d(opj , fi )

where opj is an opinion word in s, d(opj , fi ) is the distance between feature fi and opinion
word opj in s. opj .so is the orientation or the opinion score of opi .


III. OUR FEATURE-BASED OPINION MINING MODEL
A. Introduction
Figure 1 describes the proposed model for feature-based opinion mining and summarizing on
Vietnamese product reviews. The system performs four following phases: (1)Pre-processing (2)
extracting explicit/implicit product features and opinion-words, and grouping synonym product
features(3) identifying orientation of opinion(4) summarizing the results. Each step is implemented by several modules.


Figure 1. Model for Feature-based Opinion Mining and Summarizing in Vietnamese Product Reviews.

B. Phase 1: Pre-processing
1) Data Standardizing: The customer often uses a combination of standard spelling, apparently

accidental mistakes, slang, sentence fragments, “typographic slang” and interjections in their
reviews [11]. We adopted a Vietnamese accented system combined N-gram statistic model
and Hidden Markov model(HMM) for the purpose of converting a sentence without accents
into a Vietnamese accented sentence, for example,“Chiec camera nay that tien loi” switched
into “Chiếc camera này thật tiện lợi”_(This camera is convenient) The customer often uses
a combination of standard spelling, apparently accidental mistakes, slang, sentence fragments,
“typographic slang” and interjections in their reviews [11].. Therefore, we adopted a Vietnamese


accented system combined N-gram statistic model and Hidden Markov model(HMM) for the
purpose of converting a sentence without accents into a Vietnamese accented sentence, for
example,“Chiec camera nay that tien loi” switched into “Chiếc camera này thật tiện
lợi”_(This camera is convenient)..
2) Token Segmenting and POS Tagging: Because the product features are often nouns or noun
phrases constructing from a bag of words, they need to be segmented and tagged. In order
to obtain that goal, we use Vietnamese word segmentation tool [12]. For example, given a
review sentence: “Các tính năng nói chung là tốt”(Features are generally good.). After token
segmenting and POS tagging, we achieve the following result: “Các /NN | tính năngf eatures
/Na | nói chunggenerally /X | làare /Cc | tốtgood /Aa”. All the segmented and tagged sentences
are then stored in the database along with the POS tag information.
C. Phase 2: Product Features and Opinion Words Extraction
This phase extracts product features and opinion words from Vietnamese customer reviews. In
this phase, we consider product features being nouns or nouns phrases, and opinion words being
not only adjectives as [7] but also verbs because apart from adjectives, sometimes Vietnamese
verbs also express opinions. For example, for the sentence “Tôi thích màu sắc chiếc điện thoại

này”_(I love the color of this phone), “màu sắc(Noun phrase)”color is a product features; and
“thích(Verb)”love is an opinion word.
Therefore, we combine Vietnamese syntax rules with the feature extraction method proposed
by [2] to obtain Vietnamese product features. In addition, we resolve some drawback points
of FOMS system which are identifying co-references in subsection III-C2, extracting implicit
features from opinion words in subsection III-C3, and grouping synonym product features in
subsection III-C4.
1) Explicit Product Features Extraction: Explicit product features are expressed directly in the
sentences in customer reviews. For example,“Màn hình cảm ứng của chiếc Iphone 4 này rất
tuyệt”_(The touch screen of the Iphone 4 is great), Touch screen is an explicit product feature.
This module extracts the product features based on the three syntax rules which are part-whole
relation, “No” patterns, and double propagation rule.
2) Opinion word Extraction: This module not only extracts the nearest adjectives and verbs
with identified product feature, but extracts both sentiment strength words (gradable words)such
as “rất”very and negative words such as “không”not as well in the sentence. If adjectives are
connected to each other by commas or semicolons or conjunctions, we will extract all of these
adjectives and consider them as opinion words.
3) Implicit Features identification: Implicit features are product features not appearing directly
in sentence but via opinion words in the sentence. For example, “Điện thoại này đắt quá”_This
phone is too expensive, so the opinion word “đắt”expensive refers to product price not expressed


directly in the sentence. For the domain of “mobile phone”, we construct a mapping dictionary
to identify the implicit feature by mapping those ones to corresponding opinion words.
4) Grouping Synonym Features: We use two concepts in [1]. Firstly, feature expression of a
feature is a word or phrase that actually appears in a review to indicate the feature. Secondly,
feature group (or feature for short) is the name of a feature (given by the user). For example,
a feature group could be named “Chất lượng ảnh”picture quality , but there are many possible
expressions indicating the feature, e.g., “ảnh”picture , “hình ảnh”image , and even the “Chất lượng
ảnh”picture quality itself. All the feature expressions in a feature group signify the same feature.

Because the customer can express on the same product feature with many different words
and phrases, for example, both “mẫu mã”style and “kiểu dáng”design are belong to “hình
thức”appearence group. To make more useful of the summarization phase, these words or phrases,
which express the same feature, need to be grouped into synonym features group [1]. Our
grouping method based on the SVM-kNN semi-supervised learning [13][1][14] along with HAC
clustering method generating training set for SVM-kNN. Therefore, the method is unsupervised
and full automatic.
5) Frequent Features Identification: This step determines the frequent feature in reviews, and
removes redundant features. To resolving this task, we compute the frequency of features
appearing on customer reviews. If the frequency is greater than a given threshold, the feature
is a frequent feature. Whereas, the feature is redundant features and it is eliminated.
D. Phase 3: Determining the opinion orientation
Opinion orientation of each customer on each opinion feature is determined in this phase via
two following steps. Firstly, the opinion weight of the customer on each feature on which the
customer expresses their opinions is determined. Secondly, opinion orientation of the feature is
determined by classifying into one of three classes: positive, negative or neutral.
• In the first step, a initial VietSentiWordnet which is Vietnamese sentiment dictionary have
been constructed by extending SentiWordnet 3.0. Therefore, customer’s opinion weights on
product feature are calculated.
The initial VietSentiWordNet has 977 sentiment synsets and 1179 sentiment words has been
extended by using a semi supervised learning method [15][16]. After the normalization all
of opinion words, the extending VietSentiWordNet has 9333 synsets and 9533 words.
Denoting ts as the opinion weight of the feature in a customer’s review, tsi is the weight of
the ith opinion words on the feature in the review (denoted by wordi ); wi is opinion weight
of wordi got from VietSentiWordnet dictionary by getting the subtraction of positive and
negative score of wordi . After that, ts is determined as: ts = m
1 tsi where m be the number
of opinion words of the feature in the review. In cases of having negative word such as
“không”not , the value of tsi is reversed (it means that tsi = −1 × tsi ). In other cases, tsi





equals to wi if there is no gradable word such as: rấtvery , and ti is determined as h × wi if
there is a gradable word with weight of h.
In the second step, opinion orientation for the feature is classified into one of three classes:
positive/negative or neutral based on the weight of ts.
– if +0.2 < ts so the opinion is positive.
– if −0.2 ≤ ts ≤ +0.2 so the opinion is neutral.
– if ts < −0.2 the opinion is negative.

E. Phase 4: Summarization
The summarization is determined by enumerating on all of customer’s opinion orientation on
all of product features. And the result is showed in table diagram like figure 2.

Figure 2.

A summarization output

IV. EVALUATION
Based on the proposed model in chapter III, this thesis implements experiments on building
Vietnamese FOMS system on “mobile phone” product reviews. In this chapter, we describe our
results in evaluating via two experiments which are: product features extraction and the whole
system evaluations. After the two experiments, we implement summarization task and show the
summarizing result in column charts.
A. Environment and Experimental Data
1) Environment:





Chip: Intel(R) Core I5(R) @ 2.53GHz
Ram: 3.00 GB
OS: Microsoft Windows 7


Programming Tool: Java Eclipse SDK
2) Experimental Data: We crawl 743 customer reviews on ten popular “mobile phone” products from website . Table I shows the number of crawled and
standardized reviews for each product.


Table I
TOTAL OF CRAWLED REVIEWS

Product names
LG GS290 Cookie Fresh
LG Optimums One P500
LG Wink Touch T300
Nokia c5-03
Nokia e63
Nokia E72
Nokia N8
Nokia X2-01
Samsung galaxy tab
Samsung star s5233w

Number of comments
77
45
102

102
61
68
88
79
42
79

B. Product Features Extraction Evaluation
Table II
RESULTS OF FREQUENT PRODUCT FEATURES EXTRACTION (MF: NUMBER OF MANUAL PRODUCT FEATURE; SF:
NUMBER OF PRODUCT FEATURES FOUND BY THE SYSTEM; CSF: NUMBER OF CORRECT PRODUCT FEATURES FOUND BY
THE SYSTEM )

Product names
LG GS290 Cookie Fresh
LG Optimums One P500
LG Wink Touch T300
Nokia c5-03
Nokia e63
Nokia E72
Nokia N8
Nokia X2-01
Samsung star s5233w
Samsung galaxy tab
Average

MF
18
17

11
22
23
26
22
15
15
15

SF/CSF
19/18
18/16
11/11
23/20
23/21
28/23
24/21
19/14
20/14
16/14

Precision(%)
94.74
88.89
100
86.96
91.30
82.14
87.50
73.68

85.00
87.50
87.06

Recall(%)
100
94.12
100
90.91
91.30
88.46
95.45
93.33
93.33
93.33
93.58

F1 (%)
97.37
91.50
100
88.93
91.30
85.30
91.48
83.51
90.42
88.92
90.32


Subsequently, we evaluate the achievement result on feature extracting phase using Vietnamese
syntax rules. Table II illustrates the effectiveness of the feature extraction. For each product, we
read all of those reviews and list all product features from them. Then we enumerate corrected


features returned by the system. The precision, recall and F1 are illustrated in Col 2, 3 and 4
respectively. It can be seen that results of frequent features extraction step are good with all
values of F1 above 80%
Table III
PRECISION, RECALL AND F1 OF FEATURE-BASED OPINION MINING MODEL ON VIETNAMESE MOBILE PHONES
REVIEWS)

Product names
LG GS290 Cookie Fresh
LG Optimums One P500
LG Wink Touch T300
Nokia c5-03
Nokia e63
Nokia E72
Nokia N8
Nokia X2-01
Samsung star s5233w
Samsung galaxy tab
Average

Precision(%)
77.12
67.19
70.59
65

71.01
70.25
71.32
68.18
64.18
70.30
69.51

Recall(%)
77.78
55.81
62.07
57
66.22
75
78.23
75.00
71.67
73.89
69.27

F1 (%)
77.45
60.97
66.06
60.74
68.53
72.55
74.62
71.43

67.72
72.05
69.21

C. The Whole System Evaluation
For each feature extracted from the previous experiment, firstly, the system extract opinion
words from reviews mentioning to this feature in 743 crawled reviews. Secondly, the system
calculate opinion weight of the opinion words. Finally, we obtain positive, negative and neutral
comments for all features of each product. According to the table III, the precision and recall
of our system are quite satisfactory with both precision and recall values approximate 69%. In
summarization task, figure 3 shows a summarization of the customer reviews on each features
of product LG Wink Touch T300.
V. CONCLUSION
In this thesis, we presented, in chapter III, an approach to build an opinion mining system of customer reviews according to product features based on Vietnamese syntax rules and
VietSentiWordNet dictionary, with three main contributions as following:
• Firstly, in the phase 1, we built a Vietnamese accented system combined N-gram statistic
model and Hidden Markov model(HMM) for the purpose of converting a sentence without
accents into a Vietnamese accented sentence.
• Secondly, in the phase 2, we proposed a method of using SVM-kNN semi-supervised
learning along with HAC clustering method generating training set for SVM-kNN to group
synonym features; after that, co-reference was resolved by using some Vietnamese rules.


Figure 3.



A summarization of LG Wink Touch T300

Finally, in the phase 3, we extended the initial VietSentiWordnet dictionary (a Vietnamese

sentiment resource) only having 977 sentiment synsets and 1179 sentiment words to a new
VietSentiWordnet having 9333 synsets and 9533 words.
REFERENCES

[1] Z. Zhai, B. Liu, H. Xu, and P. Jia, “Grouping product features using semi-supervised learning with
soft-constraints,” in Proceedings of the 23rd International Conference on Computational Linguistics, ser.
COLING ’10. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010, pp. 1272–1280.
[2] L. Zhang, B. Liu, S. H. Lim, and E. O’Brien-Strain, “Extracting and ranking product features in opinion
documents,” in Proceedings of the 23rd International Conference on Computational Linguistics: Posters, ser.
COLING ’10. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010, pp. 1462–1470.
[3] T.-T. Vu, H.-T. Pham, C.-T. Luu, and Q.-T. Ha, “A feature-based opinion mining model on product reviews
in vietnamese,” in Semantic Methods for Knowledge Management and Communication, ser. Studies in
Computational Intelligence, R. Katarzyniak, T.-F. Chiu, C.-F. Hong, and N. Nguyen, Eds. Springer Berlin
Heidelberg, 2011, vol. 381, pp. 23–33.
[4] Q.-T. Ha, T.-T. Vu, H.-T. Pham, and C.-T. Luu, “An upgrading feature-based opinion mining model on
vietnamese product reviews,” in Proceedings of the 7th international conference on Active media technology,
ser. AMT’11. Berlin, Heidelberg: Springer-Verlag, 2011, pp. 173–185.
[5] G. Qiu, B. Liu, J. Bu, and C. Chen, “Opinion word expansion and target extraction through double
propagation,” Comput. Linguist., vol. 37, pp. 9–27, 2011.
[6] B. Liu, “Sentiment analysis and subjectivity,” in Handbook of Natural Language Processing, Second Edition,
N. Indurkhya and F. J. Damerau, Eds. Boca Raton, FL: CRC Press, Taylor and Francis Group, 2010, iSBN
978-1420085921.
[7] M. Hu and B. Liu, “Mining and summarizing customer reviews,” in Proceedings of the tenth ACM SIGKDD
international conference on Knowledge discovery and data mining, ser. KDD ’04. New York, NY, USA:
ACM, 2004, pp. 168–177.


[8] V. Stoyanov and C. Cardie, “Topic identification for fine-grained opinion analysis,” in Proceedings of the
22nd International Conference on Computational Linguistics - Volume 1, ser. COLING ’08. Stroudsburg,
PA, USA: Association for Computational Linguistics, 2008, pp. 817–824.

[9] V. Hatzivassiloglou and K. R. McKeown, “Predicting the semantic orientation of adjectives,” in Proceedings
of the eighth conference on European chapter of the Association for Computational Linguistics, ser. EACL
’97. Stroudsburg, PA, USA: Association for Computational Linguistics, 1997, pp. 174–181.
[10] S.-M. Kim and E. Hovy, “Automatic identification of pro and con reasons in online reviews,” in Proceedings
of the COLING/ACL on Main conference poster sessions, ser. COLING-ACL ’06. Stroudsburg, PA, USA:
Association for Computational Linguistics, 2006, pp. 483–490.
[11] M. Thelwall, “Myspace comments,” Online Information Review, vol. 33, no. 1, pp. 58–76, 2009.
[12] D. D. Pham, G. B. Tran, and S. B. Pham, “A hybrid approach to vietnamese word segmentation using part
of speech tags,” Knowledge and Systems Engineering, International Conference on, vol. 0, pp. 154–161,
2009.
[13] K. Li, X. Luo, and M. Jin, “Semi-supervised learning for svm-knn,” Journal of Computers, vol. 5, no. 5,
pp. 671–679, 2010.
[14] H. Zhang, A. C. Berg, M. Maire, and J. Malik, “Svm-knn: Discriminative nearest neighbor classification
for visual category recognition,” in CVPR (2), 2006, pp. 2126–2136.
[15] A. Esuli and F. Sebastiani, “Sentiwordnet: A publicly available lexical resource for opinion mining,” in In
Proceedings of the 5th Conference on Language Resources and Evaluation (LREC’06), 2006, pp. 417–422.
[16] A. Esuli, “Automatic generation of lexical resources for opinion mining: models, algorithms and applications,” SIGIR Forum, vol. 42, pp. 105–106, November 2008.


ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC CÔNG NGHỆ

VŨ TIẾN THÀNH

MÔ HÌNH KHAI PHÁ QUAN ĐIỂM DỰA TRÊN ĐẶC
TRƯNG
CÁC ĐÁNH GIÁ SẢN PHẨM TRONG TIẾNG VIỆT

TÓM TẮT LUẬN VĂN THẠC SĨ


Hanoi – 2012


ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC CÔNG NGHỆ

VŨ TIẾN THÀNH

MÔ HÌNH KHAI PHÁ QUAN ĐIỂM DỰA TRÊN ĐẶC
TRƯNG
CÁC ĐÁNH GIÁ SẢN PHẨM TRONG TIẾNG VIỆT

Chuyên ngành:
Mã:

Khoa học máy tính
60 48 01

TÓM TẮT LUẬN VĂN THẠC SĨ

Giáo viên hướng dẫn: PGS.TS. Hà Quang Thụy
Publication: [1] Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran, Quang-Thuy Ha. A
Solution for Grouping Vietnamese Synonym Feature Words in Product Reviews.
APSCC’2011, Jeju, Korea, inpress.
[2] Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham, and Cong-To Luu. An Upgrading
Feature-based Opinion Mining Model on Vietnamese Product Reviews. AMT’2011: 173-185,
Lanzhou, China.
[3] Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu and Quang-Thuy Ha. A Featurebased Opinion Mining Model on Product Reviews in Vietnamese. Studies in Computational
Intelligence, SCI 381 (Semantic Methods for Knowledge Management and Communication):
23-33.


Hanoi – 2012


MÔ HÌNH KHAI PHÁ QUAN ĐIỂM DỰA TRÊN ĐẶC TRƯNG
CÁC ĐÁNH GIÁ SẢN PHẨM TRONG TIẾNG VIỆT
Vũ Tiến Thành
K16 khoa học máy tính
Khoa công nghệ thông tin
Đại học công nghệ
Đại học Quốc gia, Hà Nội


Hà Quang Thụy
Khoa công nghệ thông tin
Đại học công nghệ
Đại học Quốc gia, Hà Nội


Abstract

Khai phá và tổng hợp quan điểm trên đặc trưng (FOMS) của các đánh giá sản
phẩm là một vấn đề thú vị và hấp dẫn trong lĩnh vực khai phá quan điểm. Với sự
phát triển của thương mại được tử tại Việt Nam, ngày càng xuất hiện nhiều các trang
web thương mại và diễn đàn kỹ thuật, là nơi mà mọi người có thể đánh giá hoặc thể
hiện quan điểm của họ về các sản phẩm mà họ đã sử dụng. Vì thế, số lượng các đánh
giá đã tăng nhanh chóng, thậm chí đến hàng trăm, hàng nghìn trên các sản phẩm nổi
tiếng. Nó không những tạo nên khó khăn cho người sử dụng khi muốn đọc chúng để
đưa ra quyết định có mua sản phẩm hay không, mà còn khó khăn cho nhà sản xuất
khi họ muốn kiểm soát chúng để nâng cao chất lượng sản phẩm. Trong luận văn này,

chúng tôi mô tả một mô hình khai phá và tổng hợp quan điểm dựa trên đặc trưng từ
các đánh giá tiếng việt của khách hàng. Kết quả thực nghiệm trên đánh giá tiếng việt
trên miền điện thoại di động đã minh chứng cho tính hiệu quả của mô hình.
Keywords

Đặc trưng; hệ thống khai phá quan điểm dựa trên đặc trưng; tổng hợp quan điểm;
từ quan điểm; đánh giá; luật cú pháp; từ điển VietSentiWordnet
PUBLICATIONS
Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran and Quang-Thuy Ha. A Solution for Grouping
Vietnamese Synonym Feature Words in Product Reviews. In Proceedings of the 6th international
conference on Asia-Pacific Services Computing (APSCC 2011).
Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham and Cong-To Luu. An Upgrading Featurebased Opinion Mining Model on Vietnamese Product Reviews. In Proceedings of the 7th international
conference on Active media technology (AMT 2011), pp. 173-185.
Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu and Quang-Thuy Ha. A Feature-Based Opinion
Mining Model on Product Reviews in Vietnamese. In Semantic Methods for Knowledge Management
and Communication (SCI 381), pp. 23-33.


I. GIỚI THIỆU
Khai phá và tổng hợp quan điểm trên đặc trưng của các đánh giá sản phẩm (FOMS)là một
vấn đề thú vị và hấp dẫn trong lĩnh vực khai phá quan điểm [1][2][3][4]. Có rất nhiều nghiên
cứu đã tập trung vào việc cải tiến các hệ thống FOMS hiện tại [5][3][2].
Trong luận văn này, chúng tôi đề xuất một môt hình FOMS khắc phục được các hạn chế của
các mô hình FOMS hiện tại. Với đầu vào là một tập các đánh giá về sản phẩm, mô hình thực
thitheo 4 pha:(1) Tiền xử lý (2) Trích xuất đặc trưng, từ quan điểm, và gom nhóm đặc trưng
đồng nghĩa (3) Xác định hướng quan điểm (4) Tổng hợp kết quả.
Phần còn lại của luận văn được tổ chức như sau. Trong chương II, chúng tôi cung cấp một
số nghiên cứu liên quan. Trong chương tiếp theo, chúng tôi mô tả mô hình FOMS với 4 pha.
Thực nghiệm được trình bày trong chương IV. Chương cuối trình bày về kết quả đạt được của
luận văn.

II. NGHIÊN CỨU

LIÊN QUAN

Bởi vì một văn bản tích cực về một đối tượng cụ nào đó, không có nghĩa rằng tác giả có suy
nghĩ tích cực về tất cả các đặc trưng của nó và ngược lại. Trong một văn bản thông thường, tác
giả viết về cả mặt tích cực và tiêu cực. Khai phá quan điểm tại mức tài liệu và mức câu đều
không thể cung cấp được các thông tin về cả hai mặt tích cực và tiêu cực của một đối tượng
trong một văn bản hoặc trong một câu. Vì thế khai phá quan điểm dựa trên đặc trưng là rất
cần thiết. Khai phá quan điểm dựa trên đặc trưng tập trung vào hai nhiệm vụ chính [6]:
• Xác định đặc trưng. Ví dụ, trong câu “Màn hình cảm ứng của chiếc điện thoại này thật
tuyệt”, đặc trưng là “màn hình cảm ứng”.
• Xác định hướng quan điểm (tích cực, tiêu cực, hay trung lập). Trong câu trên, quan điểm
về “màn hình cảm ứng ” là tích cực.
A. Trích xuất đặc trưng
Phương pháp áp dụng trong các hệ thống FOMS ban đầu để xác định đặc trưng được dựa
trên luật kết hợp [7]. Ý tưởng chính của phương pháp này là mặc dù khách hàng khác nhau
thường có những đánh giá khác nhau liên quan tới đặc trưng sản phẩm, nhưng khi họ bình luận
về đặc trưng sản phẩm, thì họ thường dùng những từ đồng nhất để thể hiện đặc trưng đó. Vì
vậy, phương pháp này sử dụng luật kết hợp để tìm danh từ/cụm danh từ (N/NP)thường xuyên
xuất hiện trong đánh giá và coi những N/NP này như là đặc trưng sản phẩm. Điểm bất lợi của
phương pháp này là không nhận diện được đặc trưng ẩn.
Một số nghiên cứu liên quan trong việc trích xuất đặc trưng sử dụng mô hình chủ đề và phân
cụm [8]. Ý tưởng chính của các phương pháp này là nó phân cụm các đặc trưng đồng nghĩa
dựa trên nghữ cảnh cả đánh giá.


B. Xác định hướng quan điểm
Trích xuất từ quan điểm Phương pháp đầu tiên để trích xuất từ quan điểm dựa trên sự xuất
hiện đồng thời các mẫu, cũng như một danh sách các từ quan điểm hạt giống để tìm những từ

quan điểm khác từ một bộ dữ liệu lớn [9]. Nền tảng của việc xác định hướng dựa trên các tính
từ được kết hợp như vậy là sự ràng buộc về ngôn ngữ.
Một hướng tiếp cận khác là hướng tiếp cận dựa trên từ điển, sử dụng một tập nhỏ các từ
quan điểm mồi và một từ điển trực tuyến, như Wordnet [7][10].Chiến lược này đầu tiên tạo ra
một tập mồi nhỏ các từ quan điểm bằng tay với những hướng đã được biết trước, sau đó phát
triển tập này bằng cách tìm kiếm trên Wordnet từ đồng nghĩa và trái nghĩa. Các từ mới được
tìm thấy được thêm vào danh sách mồi. Vòng lặp kết thúc khi không có thêm từ mới nào được
tìm thấy.
Tích hợp quan điểm: Bước này áp dụng một hàm tích hợp quan điểm để tính điểm của các
quan điểm và đưa ra hướng quan điểm cuối cùng về một đặc trưng sản phẩm trong câu. Cho
một câu s, chứa một tập đặc trưng f1 , . . . , fm và một tập từ quan điểm op1 , . . . , opn với giá trị
quan điểm được xác định từ bước trước. Định hướng quan điểm trên mỗi đặc trưng fi trong s
được xác định theo hàm tích hợp quan điểm. [6] định nghĩa một hàm tích hợp quan điểm như
sau:
opj .so
;
score(fi , s) =
opj ∈s

d(opj , fi )

ở đây opj là một từ quan điểm trong s, d(opj , fi ) là khoảng cách giữa fi và opj trong s. opj .vì
vậy là hướng quan điểm hay giá trị quan điểm của opi .


III. PHƯƠNG PHÁP

ĐỀ XUẤT

A. Giới thiệu

Hình 1 mô tả mô hình đề xuất về khai phá và tổng hợp quan điểm dựa trên đặc trưng trên
đánh giá sản phẩm trong tiếng việt. Hệ thống thực thi theo trong 4 pha:(1)Tiền xử lý(2) trích
xuất đặc trưng, từ quan điểm, và gom nhóm đặc trưng đồng nghĩa (3) Xác định hướng quan
điểm (4) Tổng hợp kết quả.

Figure 1. Model for Feature-based Opinion Mining and Summarizing in Vietnamese Product Reviews.

B. Pha 1: Tiền xử lý
1) Chuẩn hóa dữ liệu: Khách hàng thường sử dụng từ viết tắt để đánh giá sản phẩm [11]. Tại

Việt Nam, khách hàng thường sử dụng chữ không dấu để viết đánh giá sản phẩm. Vì thế chúng
tôi xây dựng một hệ thống gán dấu tự động cho dữ liệu không dấu tiếng Việt, dựa trên mô
hình markowv ẩn và thống kê N-Gram, ví dụ,“Chiec camera nay that tien loi” chuyển thành
“Chiếc camera này thật tiện lợi”
2) Gán nhãn từ loại: Bởi vì đặc trưng sản phẩm thường là danh từ hoặc cụm danh từ, vì vậy
việc gán nhãn từ loại là cần thiết. Chúng tôi sử dụng công cụ phân đoạn từ tiếng việt [12] để
phân đoạn và gán nhãn từ loại.Ví dụ: “Các tính năng nói chung là tốt” có phân đoạn và gán
nhãn từ loại như sau “Các /NN | tính năn /Na | nói chung /X | là /Cc | tốt/Aa”. Tất các các
phân đoạn và từ loại được lưu cùng với câu trong cơ sở dữ liệu.


C. Pha 2: Trích xuất đặc trưng và từ quan điểm
Pha này trích xuất đặc trưng sản phẩm và từ quan điểm trong các đánh giá tiếng việt của
khách hàng. Ví dụ, với câu“Tôi thích màu sắc chiếc điện thoại này”, “màu sắc(Noun phrase)”
là một đặc trưng; và “thích(Verb)” là một từ quan điểm.
1) Trích xuất đặc trưng hiện: Đặc trưng hiện là từ chỉ đặc trưng đó xuất hiện trực tiếp trong
đánh giá của khách hàng.Ví dụ,“Màn hình cảm ứng của chiếc Iphone 4 này rất tuyệt”, “màn
hình cảm ứng” là đặc trưng hiện. Mô đun này trích xuất đặc trưng sản phẩm dựa trên 3 luật cú
pháp: toàn thể bộ phận, các mẫu “không” và luật lan truyền kép.
2) Trích xuất từ quan điểm: Việc trích xuất từ quan điểm nói chung là trích xuất tính từ hoặc

động từ, hoặc động từ và tính từ gần nhất với đặc trưng xuất hiện trong câu. Cùng với đó là
các từ chỉ mức độ cho từ quan điểm đó và từ phủ định (nếu có). Trong trường hợp các tính từ
được nối với nhau bởi dấu “,”, “;” hay bởi một liên từ thì trích xuất tất cả các tính từ đó và cho
đó là những từ quan điểm.Ngoài ra module này còn trích xuất các trọng từ ví dụ như “rất” và
các từ mang nghĩa phủ định như “không”not .
3) Trích xuất đặc trưng ẩn: Đặc trưng ẩn là đặc trưng mà từ thể hiện đặc trưng không xuất
hiện trực tiếp trong câu mà nó được thể hiện thong qua từ quan điểm đi kèm với từ thể hiện
đối tượng. Trong các đánh giá, tồn tại khá nhiều những đặc trưng ẩn như vậy. Bước này thực
hiện nhiệm vụ tìm ra các đặc trưng ẩn trong câu. Để thực hiện task này, chúng tôi tạo ra một
bộ từ điển chứa các tính từ mà những tính từ này khi nhắc đến cùng đối tượng thì thường chỉ
đến một đặc trưng ẩn nào đó. Nếu đối tượng được nhắc đến cùng với từ quan điểm xuất hiện
trong bộ từ điển thì suy ra được đặc trưng mới và cho đặc trưng đó vào tập các đặc trưng được
trích xuất.
4) Gom nhóm đặc trưng đồng nghĩa: Chúng tôi sử dung 2 khái niệm trong [1]. Đầu tiên là,
thể hiện đặc trưng của một đặc trưng là một từ hay cụm từ xuất hiện trong đánh giá để đại
diện cho đặc trưng. Thứ hai là, nhóm đặc trưng là tên của một đặc trưng. Ví dụ, một nhóm
đặc trưng có thể có tên là “Chất lượng ảnh”picture quality , nhưng có rất nhiều thể hiện, e.g.,
“ảnh”picture , “hình ảnh”image , và thậm chí là “Chất lượng ảnh”picture quality .
Vì những người khác nhau có thể sử dụng các từ hoặc cụm từ khác nhau để diễn đạt cùng 1
đặc trưng, ví dụ, cả “mẫu mã”style và “kiểu dáng”design thuộc về nhóm “hình thức”appearence .
Để pha cuối cùng là pha tổng kết kết quả có ý nghĩa, cần nhóm các từ thể hiện cùng một đặc
trưng vào một cụm[1]. Phương pháp gom nhóm của chúng tôi dựa và học bán giám sát SVMkNN [13][1][14] cùng với phương pháp phân cụm HAC để tạo bộ huấn luyện cho SVM-kNN.
Vì vậy phương pháp đề xuất của chúng tôi là tự động hoàn toàn.
5) Xác định đặc trưng thường xuyên: Mục tiêu của bước này là xác định được đặc trưng được
nhiều người nhắc đến trong các đánh giá, nhằm loại bỏ các đặc trưng dư thừa có thể đã trích
xuất được. Để tìm ra các đặc trưng thường xuyên, chúng tôi tính tần suất xuất hiện của các đặc
trưng và loại bỏ các đặc trưng có tỉ lệ xuất hiện nhỏ hơn một ngưỡng cho trước nhằm loại bỏ
các đặc trưng dư thừa.



D. Pha 3: Xác định hướng quan điểm
Định hướng quan điểm của mỗi khách hàng mỗi đặc trưng được xác định trong pha này thông
qua 2 bước. Bước 1, tính trọng số của quan điểm . Bước 2, xác định định hướng quan điểm và
phân chúng vào 1 trong 3 lớp: tích cực, tiêu cực, và trung lập.
• Tại bước đầu tiên, bộ từ điển ngữ nghĩa tiếng việt VietSentiWordnet được khởi tạo từ việc
mở rộng từ Sentiwordnet 3.0. Từ điển ban đầu có 977 synset và 1179 từ được mở rộng
theo phương pháp học bán giám sát[15][16]. Sau khi chuẩn hóa tất cả các từ quan điểm,
bộ từ điển mở rộng có 9333 synsets và 9533 từ.
Gọi ts là trọng số quan điểm của đặc trưng trong đánh giá của khách hàng, tsi is the là
trọng số của từ quan điểm thứ i(được xác định bởi wordi ); wi là trọng số của wordi lấy từ
từ điển VietSentiWordnet bằng cách lấy giá trị tích cực trừ đi giá trị tiêu cực của wordi
. Khi đó, ts được xác định bởi: ts = m
1 tsi ở đây m là số lượng từ quan điểm . Trong
trường hợp có từ phủ định ví dụ “không”not , giá trị tsi = −1 × tsi . Trong trường hợp khác,
tsi = wi nếu không có trọng từ như: rấtvery , và ti = h × wi nếu có một trọng từ với trọng
số là h.
• Tại bước thứ 2, định hướng quan điểm sẽ phân vào 1 trong 3 lớp: tích cực/tiêu cực/trung
lập dựa trên trọng số ts.
– nếu +0.2 < ts thì hướng quan điểm là tích cực.
– nếu −0.2 ≤ ts ≤ +0.2 thì hướng quan điểm là trung lập.
– nếu ts < −0.2 thì hướng quan điểm là tiêu cực.
E. Pha 4: Tổng hợp kết quả
Với mỗi đặc trưng đã được trích xuất, câu quan điểm liên quan được đặt vào ba lớp tính cực,
tiêu cực hoặc trung lập dựa theo hướng ngữ nghĩa của mỗi câu quan điểm đó. Sau đó, hệ thống
tính toán số lượng đánh giá tích cực, tiêu cực và trung lập trên từng đặc trưng. Tất cả các đặc
trưng được xếp hạng theo tần suất xuất hiện của chúng trong các đánh giá. 2 là ví dụ về pha
trích tổng hợp quan điểm.
IV. THỰC NGHIỆM
Chúng tôi xây dựng hệ thống FOMS trên miền đánh giá sản phẩm điện thoại. Trong chương
này, chúng tôi mô tả kết quả đạt được theo 2 thực nghiệm chính: trích xuất đặc trưng và thực

nghiệm trên toàn hệ thống. Sau hai thực nghiệm này, chúng tôi thi hành bước tổng hợp kết quả
và đưa ra biểu đồ dạng cột.
A. Môi trường và dữ liệu thực nghiệm
1) Môi trường:



Chip: Intel(R) Core I5(R) @ 2.53GHz
Ram: 3.00 GB


Figure 2.

A summarization output

OS: Microsoft Windows 7
• Programming Tool: Java Eclipse SDK
2) Dữ liệu thực nghiệm: Chúng tôi thu thập 743 đánh giá của khách hàng trên 10 sản phẩm
điện thoại thông dụngtừ trang web . Table I đưa ra thống kê các
đánh giá trên từng sản phẩm


Table I
TOTAL OF CRAWLED REVIEWS

Product names
LG GS290 Cookie Fresh
LG Optimums One P500
LG Wink Touch T300
Nokia c5-03

Nokia e63
Nokia E72
Nokia N8
Nokia X2-01
Samsung galaxy tab
Samsung star s5233w

Number of comments
77
45
102
102
61
68
88
79
42
79

B. Thực nghiêm trích xuất đặc trưng
Sau đó, chúng tôi đánh giá kết quả đạt được từ pha trích xuất đặc trưng thông qua sử dụng
luật cú pháp tiếng việt. Table II chỉ ra được sự hiệu quả của mô hình đề xuất của chúng tôi với
độ đo F1 của 10 sản phẩm đều trên 80%


Table II
RESULTS OF FREQUENT PRODUCT FEATURES EXTRACTION (MF: NUMBER OF MANUAL PRODUCT FEATURE; SF:
NUMBER OF PRODUCT FEATURES FOUND BY THE SYSTEM; CSF: NUMBER OF CORRECT PRODUCT FEATURES FOUND BY
THE SYSTEM )


Product names
LG GS290 Cookie Fresh
LG Optimums One P500
LG Wink Touch T300
Nokia c5-03
Nokia e63
Nokia E72
Nokia N8
Nokia X2-01
Samsung star s5233w
Samsung galaxy tab
Average

MF
18
17
11
22
23
26
22
15
15
15

SF/CSF
19/18
18/16
11/11
23/20

23/21
28/23
24/21
19/14
20/14
16/14

Precision(%)
94.74
88.89
100
86.96
91.30
82.14
87.50
73.68
85.00
87.50
87.06

Recall(%)
100
94.12
100
90.91
91.30
88.46
95.45
93.33
93.33

93.33
93.58

F1 (%)
97.37
91.50
100
88.93
91.30
85.30
91.48
83.51
90.42
88.92
90.32

Table III
PRECISION, RECALL AND F1 OF FEATURE-BASED OPINION MINING MODEL ON VIETNAMESE MOBILE PHONES
REVIEWS)

Product names
LG GS290 Cookie Fresh
LG Optimums One P500
LG Wink Touch T300
Nokia c5-03
Nokia e63
Nokia E72
Nokia N8
Nokia X2-01
Samsung star s5233w

Samsung galaxy tab
Average

Precision(%)
77.12
67.19
70.59
65
71.01
70.25
71.32
68.18
64.18
70.30
69.51

Recall(%)
77.78
55.81
62.07
57
66.22
75
78.23
75.00
71.67
73.89
69.27

F1 (%)

77.45
60.97
66.06
60.74
68.53
72.55
74.62
71.43
67.72
72.05
69.21

C. Thực nghiệm trên toàn hệ thống
Với mỗi đặc trưng đã trích xuất từ thực nghiệm trước, đầu tiên, hệ thống sẽ trích xuất từ quan
điểm đi kèm với nó. Sau đó, hệ thống tính trọng số quan điểm của các từ quan điểm. Cuối
cùng sẽ tìm được hướng quan điểm của mỗi đặc trưng. Theo table III, độ hồi tưởng và tin cậy
của hệ thống là khá tốt với giá trị của cả 2 đều trên 69%.
Tại bước tổng hợp kết quả, hình 3 đưa ra tổng hợp kết quả của sản phẩm LG Wink Touch
T300.


×