TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ
Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THƠNG TIN
DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC
Mã số:
Chun đề:
11
rpi • Aj ■ A • ■ • A A _ A _ 1 A — ___________________■ĩ
ĩ
_
Thiết kế giao diện và các chức năng phần mềm
hỗ trợ người dùng sử dụng thuật toán
Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc
Người chủ trì thực hiện chuyên đề : ThS.Nguyễn Tấn Lộc
Bình Dương, 08/01/2018
Mục lục
1.
2.
3.
Danh mục chữ viết tắt
4.
TF: term frequency
5.
IDF: inverse document frequency
6.
TF.IDF: term frequency. inverse document frequency
7.
DTM: document term matrix
8.
Logistic: hồi quy logistic.
9.
P(A): Xác xuất sự kiện A
10.
NER: Named Entity Recognition
11.
SoA: Sentiment analysis - Phân tích cảm xúc
12.
1. Đặt vấn đề
13. - Câu truy vấn bất kỳ của người dùng được đưa vào hệ thống đề xuất (mơ
hình ở hình chun đề 4). Câu truy vấn khơng địi hỏi phải đúng cú pháp và
có cấu trúc.
14. - Hệ thống sẽ thực hiện các bước tiền xử lý như đã nêu ở các chuyên đề trên
với câu truy vấn để xác định câu truy vấn có cảm xúc khơng, và có giá trị
positive hay negative.
15. - Nếu câu truy vấn mang yếu tố chủ quan (có cảm xúc), hệ thống sẽ xác định
xem câu truy vấn có giá trị positive hay negative, để người dùng quyết định
rút trích thơng tin từ tập tin có cảm xúc nào trong cơ sở dữ liệu.
16. - Sau khi xác định được tập dữ liệu cảm xúc để rút trích thơng tin cho câu
truy vấn, hệ thống sẽ thực hiện rút trích bằng phương pháp rút trích thơng tin
mà luận văn lựa chọn là chia nhỏ câu truy vấn thành các vectơ từ và so trùng
với cơ sở dữ liệu đã được phân loại. Các giải thuật này được viết trên python
2. Phương pháp nghiên cứu, cách tiếp cận
17.
- Thiết kế giao diện HTML, CSS
18.
- Sử dụng ngơn ngữ lập trình python với IDE jupyter notebook
19.
Câu văn tối đa 100 từ
•
•
Results
Pos: 0.7
Neg : 0.3
20. z
21. Thực hiện
3
22.
23.
3. Kết quả đạt được
-
Tìm theo câu và tự phân loại cảm xúc
24.
Ví dụ như: Nhập vào 1 câu "like pho Vietnam" và chọn position thì Nó sẽ
tìm kiếm câu nào có cụm từ đó hoặc câu chỉ cần có screen hoặc like hoặc pho thì
nó cũng sẽ liệt kê ra tất cả.
-
Nếu được thì khi nó liệt kê ra theo kiểu sắp xếp cái nào có nhiều đối tượng giống
như câu tìm kiếm thì sẽ liệt kê ở những hàng trên, những câu có ít đối tượng hơn
thì liệt kê phía dưới.
-
Bình luận nằm nhóm đầu 10 được bình luận tốt nhất, nhóm 10 bình luận hàng đầu
theo quốc gia:
4
name 26.
st
30. 31.
25.
29.
Kai
33.
Cain's Saloon
Olive Garden Italian
Restaurant
41.
Olive Garden Italian
Restaurant
45.
NYPD Pizza
5
Follows...
2
lik...
1
Garden...
5
NJ...
4
staff...
4
You...
4
get aw...
1
Fil...
5
Arizon. ..
38. 39.
42. 43.
46. 47.
50. 51.
49.
Sunup Brewing
53.
Murphy's Pub
54. 55.
57.
Randy's Restaurant &
58. 59.
Ice Cream
61.
62. 63.
Filibertos Mexican
Food
65.
70.69.
66. 67.
Hiro Sushi
textclean
This is a belated review for a meal that
Great beer list always changing it up
In the last few years Ive tried my best to
I dont know what is happening to Olive
My favorite lunch spot in the area Im from
Nice cozy neighborhood brewery Friendly
Well its an institution here at the u of I
I go here when i am working and want to
After hearing a few individualstalk about
This IS as good as it gets for sushi in
name 73.
sta
77. 78.
Loving Hut
5
80.
Loving Hut
84.
Tram's Kitchen
88.
Saigon Pho &
Seafood
ican (New)
36.
Amer
ican (New)
40.
Italia
n
44.
Italia
n
48.
Italia
n
52.
Amer
ican (New)
56.
Amer
ican (New)
60.
Amer
ican (New)
64.
Mexi
can
68.
Japa
nese
81.
5
85.
5
rev...
82.
Yummmmmmm Best vegetarian restaurant in
Phoen...
86.
It might be a holeinthewall but its a pretty n...
89.
90.
5
pile...
5
de...
4
ne...
93.
ca
textclean 75.
tegories
We love this place Th is is gonna be a long
79.
Vi
94.
Fast service delicious food and excellent
Im giving Tea Light Cafe an extra star well
Tea Light Cafe
96.
Tea Light Cafe
97.
100.
Savor Flavor
101. 102.
This is a great little spot casual and quick a...
105. 106.
Best place for pho in the city I have tried th...
109. 110.
Saigon is by far my favorite pho stop I come
Asia
108.
egories
32.
Amer
74.
92.
104.
28. cat
Bảng 1. Các bình luận cảm xúc tích cực nhất cho các doanh nghiệp
72.
76.
took...
34. 35.
37.
71.
4
27.
98.
5
Pho Minh
Saigon Pho &
Seafood
112. Cyclo
Vietnamese Cuisine
5
5
h...
113. 114.
4
Ive been driving by Tea Lite for awhile but
We really like this place I love the owners...
116.
Bảng 2. Các bình luận cảm xúc tích cực nhất cho các doanh nghiệp Việt Nam
117.
etnamese
83.
Vi
etnamese
87.
Vi
etnamese
91.
Vi
etnamese
95.
Vi
etnamese
99.
Vi
etnamese
103. Vi
etnamese
107. Vi
etnamese
111. Vi
etnamese
115. Vi
etnamese
118. - Nhóm 10 bình luận cảm xúc tiêu cực nhất cho các nhà hàng Việt Nam, dữ liệu
phản ánh khá hợp lý với xếp hạng 1 đến 3 sao.
5
123.
name 120.
sta
124. 125.
Phu Thanh
127.
128. 129.
119.
1
Saigon Pho &
Seafood
131. Tea Light Cafe
135.
132.
3
136.
1
139.
140.
My Ngoc
Restaurant
143. Saigon Pho &
Seafood
147. Cyclo
Vietnamese Cuisine
151. Loving Hut
1
144.
1
148.
1
152.
1
155.
156.
Saigon Pho &
Seafood
159. Saigon Pho &
Seafood
164.
165.
163.
how he...
Dont go to this restaurant The employees
are...
133. First and foremost this fastfood Vietnam
rest...
137. Maybe I went on a bad day but the food was
pre...
141. Theres a reason why this place has no
reviews ...
145. Very VERY disappointed in the service This
was...
149. I really dont understand what the fuss is
abou...
153. Absolutely terrible and slow service They
are...
157. We always eat here when we crave Saigon
Pho To...
161. We had dinner and had the worst experience
we ...
1
Pho Minh
textclean 122. ca
tegories
Being a huge fan of Vietnamese food and
126.
Vie
121.
1
160.
1
tnamese
130. Vie
tnamese
134. Vie
tnamese
138. Vie
tnamese
142. Vie
tnamese
146. Vie
tnamese
150. Vie
tnamese
154. Vie
tnamese
158. Vie
tnamese
162. Vie
tnamese
Bảng 3.Nhóm bình luận cảm xúc tiêu cực nhất cho doanh nghiệp Việt Nam
Kết quả phân loại cảm xúc tích cực và tiêu cực ảnh hưởng rất mạnh đến kết
quả rút trích thơng tin. Nếu kết quả phân loại chính xác, truy vấn sẽ rút trích thơng tin
có độ chính xác cao.
168.
166.
167.
Hình 1..Các
từ ảnh hưởng mạnh ẩm thực Việt
4. Kết luận và kiến nghị
169. .- Trong thời gian tới chúng tôi sẽ khảo sát, nghiên cứu các tính năng và
thiết kế giao diện tiện dụng hơn nữa nhằm đáp ứng tốt hỗ trợ người dùng.
170.
- Phát triển ứng dụng trên nền di động Android
5.Tài liệu tham khảo
[1] B. Agarwal and N. Mittal, “Optimal feature selection for sentiment analysis,” in
Proceedings of the 14th International Conference on Intelligent Text Processing
6
and Computational Linguistics (CICLing 13), vol. 7817, pp. 13-24, 2013.
[2] A. Basant, M. Namita, B. Pooja, Sonal Garg “Sentiment Analysis Using
Common-Sense and Context Information” Hindawi Publishing Corporation
Computational Intelligence and Neuroscience (2015)
[3] RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and ensemble: A
three stage model for document-level sentiment analysis” Information Processing
and Management 52 (2016) 36- 45.
[4] Y. Ainur, Y. Yisong, C. Claire “Multi-level structured models for document-level
sentiment classification”.Proceedings of the 2010 Conference on Empirical
Methods in Natural Language Processing, MIT, Massachusetts, Association for
Computational Linguistics, USA (2010), pp. 1046-1056.
[5] F. Noura, C. Elie, A.A. Rawad, H. Hazem “Sentence-level and documentlevel
sentiment mining for arabic texts”.Proceeding IEEE International Conference on
Data Mining Workshops (2010).
[6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based on a
generalized probabilistic topic and syntax model” Proceedings of the TwentyEighth International Florida Artificial Intelligence Research Society Conference,
Association for the Advancement of Artificial Intelligence (2015).
[7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D. (2014). Categorizing
health-related cues to action: using Yelp reviews of restaurants in Hawaii. New
Review of Hypermedia and Multimedia, 20(4), 317-340.
[8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J. L. (2012).
Why people use Yelp. com: An exploration of uses and gratifications. Computers
in Human Behavior, 28(6), 2274-2279.
[9] Huang, J., Rogers, S., & Joo, E. (2014). “Improving restaurants by extracting
subtopics from yelp reviews” iConference 2014 (Social Media Expo).
[10]
Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ” Predicting
usefulness of Yelp reviews with localized linear regression models”, 2016 7th
IEEE International Conference on Software Engineering and Service Science
(ICSESS)
[11]
Solov'ev A. N., Antonova A. Ju., Pazel'skaia A. G., (2012), Using sentiment-
analysis for text information extraction. I-Teco (Moscow).
[12]
Wanxiang Che, Yanyan Zhao, Honglei Guo, Zhong Su, and Ting Liu,”
7
Sentence Compression for spect-Based Sentiment Analysis” IEEE/ACM
TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING,
VOL. 23, NO. 12, DECEMBER 2015.
[13]
P.D. Turney,(2000), “Learning algorithms for keyphrase extraction”
Information Retrieval vol. 2, no. 4, pp. 303 - 336.
[14]
I.H. Witten, G.W. Paynter, E. Frank, C. Gutwin and C.G. Nevill- Manning.
(1999) “KEA: Practical automatic Keyphrase Extraction.” The proceedings of
Digital Libraries '99: The Fourth ACM Conference on Digital Libraries, pp. 254255.
[15]
Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen, (2012)
”Linguistic Features for Subjectivity classification“ Asian Language Processing
(IALP), 2012 International Conference.
171.
Xác nhận thực hiện chuyên đề
Chủ nhiệm đề tài
8