TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ
Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THƠNG TIN
DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC
Mã số:
Chuyên đề:
Thực hiện nghiệm thu và kiểm tra độ ổn định và
••“•_••
chính xác của sản phẩm ứng dụng
Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc
Người chủ trì thực hiện chuyên đề : ThS.Nguyễn Tấn Lộc
Bình Dương, 08/01/2018
Mục lục
1. Đặt vấn đề.............................................................................................................................1
2. Phương pháp nghiên cứu .....................................................................................................1
3. Kết quả đạt được..................................................................................................................1
3.1 Rút trích thơng tin dựa trên mơ hình SEN1.....................................................................2
4. Kết luận và kiến nghị .......................................................................................................... 5
5. Tài liệu tham khảo ............................................................................................................... 5
TF: term frequency
Danh mục chữ viết tắt
IDF: inverse document frequency
TF.IDF: term frequency. inverse document frequency
DTM: document term matrix
Logistic: hồi quy logistic.
P(A): Xác xuất sự kiện A
NER: Named Entity Recognition
SoA: Sentiment analysis - Phân tích cảm xúc
1. Đặt vấn đề
- Trong phần nghiên cứu này, Chúng tôi đề xuất đo lường kết quả trên 02 mô hình
khác nhau, 02 mơ hình đó được đặt tên lần lượt là SEN0, SEN1. SEN0 là mơ hình
chưa chuẩn hóa, SEN1 đã chuẩn hóa L2 norm, tối ưu với hệ số chuẩn hóa
C=0.2154.
2. Phương pháp nghiên cứu
- Xây dựng mơ hình dựa trên lý thuyết logistic
- Tính tốn hàm mất mát- Loss function
- Chuẩn hóa mơ hình dùng L2-Norm và chọn lamda tối ưu tránh overfitting
3. Kết quả đạt được
Kết quả thực nghiệm dữ liệu với mơ hình logistic SEN1 cho kết quả tốt nhất với độ
chính xác cao accuracy=90%, recall=89.8%, precision=96.9% và hệ số chuẩn hóa cho
mơ hình tối ưu với hệ số chuẩn hóa C=0.2154
Hình 1. Đánh
giá mơ hỉnh huấn luyện và kiểm thử dữ liệu
Bảng 1. So
Thước đo
SEN0
SEN1
recall
83%
89.8%
precision
90%
96.9%
accuracy
87%
90%
sánh hiệu suất mô hỉnh
1
3.1 Rút trích thơng tin dựa trên SEN1
Trong phần thực nghiệm này, chúng tơi rút trích thơng tin hữu ích và các bình luận
nằm nhóm đầu 10 được bình luận tốt nhất, nhóm 10 bình luận hàng đầu theo quốc
gia:
name
star
s
textclean
categori
es
American
(New)
American
(New)
Kai
4
This is a belated review for a meal that took...
Cain's Saloon
5
Great beer list always changing it up Follows...
Olive Garden Italian Restaurant
2
In the last few years Ive tried my best to lik...
Italian
Olive Garden Italian Restaurant
1
I dont know what is happening to Olive Garden...
Italian
NYPD Pizza
5
My favorite lunch spot in the area Im from NJ...
Italian
Sunup Brewing
4
Nice cozy neighborhood brewery Friendly staff..
Murphy's Pub
4
Well its an institution here at the u of I You...
Randy's Restaurant & Ice
Cream
4
I go here when i am working and want to get aw...
American
(New)
Filibertos Mexican Food
1
After hearing a few individuals talk about Fil...
Mexican
Hiro Sushi
5
This IS as good as it gets for sushi in Arizon...
Japanese
American
(New)
American
(New)
Bảng 2.Các bình luận tích cực nhất cho các doanh nghiệp
name
star
s
textclean
categories
Loving Hut
5
We love this place Th is is gonna be a long rev...
Vietnamese
Loving Hut
5
Yummmmmmm Best vegetarian restaurant in Phoen...
Vietnamese
Tram's Kitchen
5
It might be a holeinthewall but its a pretty n...
Vietnamese
Saigon Pho & Seafood
5
Fast service delicious food and excellent pric...
Vietnamese
Tea Light Cafe
5
Im giving Tea Light Cafe an extra star well de...
Vietnamese
Tea Light Cafe
4
Ive been driving by Tea Lite for awhile but ne...
Vietnamese
Savor Flavor Asia
5
This is a great little spot casual and quick a...
Vietnamese
Pho Minh
5
Best place for pho in the city I have tried th...
Vietnamese
Saigon Pho & Seafood
5
Saigon is by far my favorite pho stop I come h...
Vietnamese
Cyclo Vietnamese Cuisine
4
We really like this place I love the owners...
Vietnamese
Bảng 2. Các bình luận cảm xúc tích cực nhất cho các doanh nghiệp Việt Nam
2
- Nhóm 10 bình luận cảm xúc tiêu cực nhất cho các nhà hàng Việt Nam, dữ liệu phản
ánh khá hợp lý với xếp hạng 1 đến 3 sao.
name
star
s
textclean
categories
Phu Thanh
1
Being a huge fan of Vietnamese food and how he...
Vietnamese
Saigon Pho & Seafood
1
Dont go to this restaurant The employees are...
Vietnamese
Tea Light Cafe
3
First and foremost this fastfood Vietnam rest...
Vietnamese
Pho Minh
1
Maybe I went on a bad day but the food was pre...
Vietnamese
My Ngoc Restaurant
1
Theres a reason why this place has no reviews ...
Vietnamese
Saigon Pho & Seafood
1
Very VERY disappointed in the service This was.
Vietnamese
Cyclo Vietnamese Cuisine
1
I really dont understand what the fuss is aboil...
Vietnamese
Loving Hut
1
Absolutely terrible and slow service They are...
Vietnamese
Saigon Pho & Seafood
1
We always eat here when we crave Saigon Pho To...
Vietnamese
Saigon Pho & Seafood
1
We had dinner and had the worst experience we ...
Vietnamese
Bảng 3.Nhóm bình luận cảm xúc tiêu cực nhất cho doanh nghiệp Việt Nam
Kết quả phân loại cảm xúc tích cực và tiêu cực ảnh hưởng rất mạnh đến kết quả rút
trích thơng tin. Nếu kết quả phân loại chính xác, truy vấn sẽ rút trích thơng tin có độ
chính xác cao.
Nhóm 10 từ cả m xúc mạ nh tích cự c và tiêu cự c nhấ t.
Tích cực - hệ số
r
excellent: 1.14614924052 delicious:
1.1119727885
amazing:
1.03514286548
awesome:
0.872256805683
perfect:
0.838463244404
great:
0.806499315192
best:
0.744851346902
fantastic:
0.734042587596
love:
0.731300119008
reasonable:
0.72016372024
Bảng 4. Nhóm
Tiêu cực-hệ số
r
worst: -1.13781905968
horrible: -1.0873361229
terrible: -1.04677190115
mediocre: -1.04432799702
bland: -0.874645601756 awful:
-0.836073920222 tasteless:
-0.821659220617 rude:
-0.820886331069 disgusting:
-0.805035172104 overpriced:
-0.803561081306
10 từ cảm xúc rút ra từ kết quả phân tích
- Nhóm 20 từ phổ biến trích từ các bình luận hàng đầu thể hiện cảm xúc tích. Các từ
có tần số xuất hiện cao phù hợp với thực tế. Món ăn phổ biến Việt Nam là phở.
3
Hình 2.
Phân phối các từ có tần suất cao của ẩm thực Việt Nam
Hình 3..Các
từ ảnh hưởng mạnh ẩm thực Việt
- Kết quả phân loại và rút trích cảm xúc chính xác cho các nhà hàng Nhật bản, món
ăn phổ biến nhất là Sushi và tươi sống
Hình 4..Phân phối các từ có tần suất cao của ẩm thực Nhật
4
Hình 5.Các từ ảnh hưởng mạnh ẩm thực Nhật bản
4. Kết luận và kiến nghị
Thời gian tới đề tài tiếp tục phát triển :
- Xây dựng nhiều mơ hình phân loại cảm xúc với nhiều thuật toán và mở rộng hướng
tiếp cận ngữ nghĩa ontology, phương pháp từ điển, học máy từ đó so sánh các kết
quả thực nghiệm để so sánh đánh giá ưu khuyết của các phương pháp cho từng
trường hợp cụ thể.
- Xây dựng mơ hình rút trích thơng tin trên cơ sở phân tích cảm xúc các trang tiếng
việt về dịch vụ du lịch tripadvisor, Lazada.
5. Tài liệu tham khảo
[1] B. Agarwal and N. Mittal, “Optimal feature selection for sentiment analysis,” in
Proceedings of the 14th International Conference on Intelligent Text Processing and
Computational Linguistics (CICLing 13), vol. 7817, pp. 13-24, 2013.
[2] A. Basant, M. Namita, B. Pooja, Sonal Garg “Sentiment Analysis Using
Common-Sense and Context Information” Hindawi Publishing Corporation
Computational Intelligence and Neuroscience (2015)
[3]
RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and ensemble:
A three stage model for document-level sentiment analysis” Information Processing
and Management 52 (2016) 36- 45.
[4]
Y. Ainur, Y. Yisong, C. Claire “Multi-level structured models for document-
level sentiment classification”.Proceedings of the 2010 Conference on Empirical
Methods in Natural Language Processing, MIT, Massachusetts, Association for
Computational Linguistics, USA (2010), pp. 1046-1056.
[5] F. Noura, C. Elie, A.A. Rawad, H. Hazem “Sentence-level and documentlevel
sentiment mining for arabic texts”.Proceeding IEEE International Conference on Data
5
Mining Workshops (2010).
[6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based on a
generalized probabilistic topic and syntax model” Proceedings of the Twenty-Eighth
International Florida Artificial Intelligence Research Society Conference, Association
for the Advancement of Artificial Intelligence (2015).
[7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D. (2014). Categorizing
health-related cues to action: using Yelp reviews of restaurants in Hawaii. New
Review of Hypermedia and Multimedia, 20(4), 317-340.
[8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J. L. (2012).
Why people use Yelp. com: An exploration of uses and gratifications. Computers in
Human Behavior, 28(6), 2274-2279.
[9]
Huang, J., Rogers, S., & Joo, E. (2014). “Improving restaurants by extracting
subtopics from yelp reviews” iConference 2014 (Social Media Expo).
[10] Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ” Predicting
usefulness of Yelp reviews with localized linear regression models ”, 2016 7th IEEE
International Conference on Software Engineering and Service Science (ICSESS)
[11] Solov'ev A. N., Antonova A. Ju., Pazel'skaia A. G., (2012), Using sentimentanalysis for text information extraction. I-Teco (Moscow).
[12] Wanxiang Che, Yanyan Zhao, Honglei Guo, Zhong Su, and Ting Liu,” Sentence
Compression for spect-Based Sentiment Analysis” IEEE/ACM TRANSACTIONS
ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 23, NO. 12,
DECEMBER 2015.
[13] P.D.
Turney,(2000),
“Learning
algorithms
for
keyphrase
extraction”
Information Retrieval vol. 2, no. 4, pp. 303 - 336.
[14] I.H. Witten, G.W. Paynter, E. Frank, C. Gutwin and C.G. Nevill- Manning.
(1999) “KEA: Practical automatic Keyphrase Extraction.” The proceedings of Digital
Libraries '99: The Fourth ACM Conference on Digital Libraries, pp. 254-255.
[15] Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen, (2012)
”Linguistic Features for Subjectivity classification“ Asian Language Processing
(IALP), 2012 International Conference.
Xác nhận thực hiện chuyên đề
Chủ nhiệm đề tài
6