Tải bản đầy đủ (.docx) (13 trang)

Phát biểu bài toán rút trích thông tin trên cơ sở phân tích cảm xúc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (246.93 KB, 13 trang )

TRƯỜNG ĐẠ I HỌC THỦ DẦ U MỘT
KHOA KỸ THUẬT CƠNG NGHỆ

Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THƠNG TIN
DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC
Mã số:

Chuyên đề:

Phát biểu bài tốn rút trích thơng tin trên cơ sở
phân tích cảm xúc

Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc
Người chủ trì thực hiện chuyên đề : ThS.Nguyễn Tấn Lộc

Bình Dương, 08/01/2018


Mục lục
1.
2.
3.

Danh mục chữ viết tắt

4.

TF: term frequency

5.


IDF: inverse document frequency

6.

TF.IDF: term frequency. inverse document frequency

7.

DTM: document term matrix

8.

Logistic: hồi quy logistic.

9.

P(A): Xác xuất sự kiện A

10.

NER: Named Entity Recognition

11.

SoA: Sentiment analysis - Phân tích cảm xúc


12.

PHÁT BIỂU BÀI TỐN RÚT TRÍCH THƠNG TIN

13.

TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC

1. Đặt vấn đề
14.

1.1 Phân tích cảm xúc là gì?
15.

Phân tích cảm xúc được ứng dụng trong nhiều ngành để trích xuất tri thức,

cảm xúc và quan điểm của khách hàng. Rút trích cảm xúc khách hàng có vai trị quan
trọng trong q trình ra quyết, đưa ra chiến lược kinh doanh hợp lý.. Những quyết định
này có thể từ việc mua sản phẩm trực tuyến hoặc dịch vụ ăn uống, tất cả các cảm xúc,
quan điểm ảnh hưởng rất lớn đến cuộc sống hàng ngày. Rút trích thơng tin quan điểm
và cảm xúc là một lĩnh vực nghiên cứu của xử lý ngôn ngữ tự nhiên. Nhiệm vụ trích
xuất thơng tin từ các dịng tin bình luận, trích dẫn để xác định ý kiến, cảm xúc của
người dùng về một một chủ đề cụ thể, thường cố gắng trích cảm xúc có trong tồn bộ
tài liệu là tích cực hay tiêu cực. Do đó, nghiên cứu phân tích cảm xúc khơng chỉ tác
động quan trọng trong lĩnh vực xử lý ngơn ngữ tự nhiên, mà cịn tác động sâu sắc về
khoa học quản lý, khoa học chính trị, kinh tế và khoa học xã hội bởi tất cả các lĩnh vực
đều bị ảnh hưởng bởi ý kiến các chủ thể.
16.

Ngôn ngữ của con người rất phức tạp. Vì vậy, diễn giải ngơn ngữ cho máy tính

hiểu và phân tích các ngữ pháp, vùng miền ứng dụng hay ngữ cảnh, tiếng lóng và lỗi
chính là một q trình khó khăn.
17.


Ngữ điệu ngơn ngữ kết hợp với ngữ cảnh có thể ảnh hưởng đến ngữ cảnh thậm

chí mơ tả nó cịn khó khăn hơn.

3


18.
19.

20.

Hình 1.các

trạng thái cảm xúc

21.

Ví dụ: “My flight was delayed. Brilliant!”

22.

Con người khá trực quan khi giải thích giai điệu của một bài viết. Hầu hết mọi

người giải thích rằng người bình luận cảm xúc mỉa mai, châm biếm. Chúng ta biết rằng
đối với hầu hết những người có chuyến bay trễ không phải là một trải nghiệm tốt .
Bằng cách áp dụng ngữ cảnh này cho câu này, có thể dễ dàng xác định cảm xúc là tiêu
cực.
23.


Nếu không áp dụng ngữ cảnh, máy tính phân tích câu trên có thể thấy từ

"Brilliant" và nó phân loại là tích cực.
24.

Giả sử bạn muốn biết mọi người trên Yelp nghĩ rằng thực phẩm nhà hàng Việt

Nam là tốt hay xấu, món ăn nào là phổ biến nhất.
25.

Phân tích cảm xúc bộ dữ liệu nhà hàng Yelp sẽ giúp chúng ta trả lời câu hỏi này.

Doanh nghiệp thậm chí có thể tìm hiểu lý do tại sao mọi người nghĩ rằng thực phẩm là
tốt hay xấu, bằng cách trích xuất các từ chính xác cho thấy lý do tại sao người ta hoặc
khơng thích thức ăn. Trích xuất món ăn phổ biến và các chủ đề xuất hiện nhiều nhất.
Doanh nghiệp ngay lập tức có một ý tưởng tốt hơn về lý do tại sao người tiêu dùng
khơng hài lịng.

4


26.

Doanh nghiệp muốn đạt được tầm nhìn sâu sắc về khảo sát và tìm kiếm thơng

qua nghiên cứu thị trường, thay vì phải dành rất nhiều ngân sách và thời gian để tiến
hành các cuộc điều tra và gọi điện thoại khách hàng? Thông qua cáccông cụ khai thác
văn bản, bạn sẽ nhận được câu trả lời trong vài giây và kết quả rất khách quan từ mạng
xã hội.

27.

Phân tích cảm xúc có thể được xác định trên nhiều cấp độ. Cấp mức tài liệu (Một

cách nhìn tổng thể tiêu cực hoặc tích cực chung) và cảm xúc của từng từ
hoặc cụm từ trong tài liệu.
1.
Tuning

J Candidate PoS
Patterns

it
Text Text Prep

28.

Syntax Matrix

Weighted
Sentiment
Phrases
Patterns

Extract
candidate
sentiment
bearing
phrases


Hình 2. Mơ hình

Algorithm

Get prelim,
scores from
dictionary

Algorithm

Apply
intensification

Machine
Learning
Syntax
affect on

sentiment
phrase

tính tốn trọng số từ, cụm từ

5


29.

1.2 Các vấn đề khó khăn


30.

31.
32. - Đảo ngược cảm xúc: à một vấn đề quan trọng nhất cần được giải quyết trong phân

tích cảm xúc. Vấn đề này phát sinh do sự dịch chuyển trạng thái phân cực như phủ
định (ví dụ: "Tơi khơng thích phở") và tương phản (ví dụ "phở thì ngon, nhưng
khơng phải sở thích của tơi"). Câu “Tơi khơng thích phở” rất giống với
33. câu “Tơi thích phở”. Vì vậy phát hiện đảo ngược phân cực có ý nghĩa rất quan

trọng cho trích xuất quan điểm và cảm xúc.
34. - Phân loại cảm xúc: các thuật toán học máy chưa phân loại được độ mạnh cảm

xúc, chỉ dừng lại tích cực hay tiêu cực. Trong khi đó, cảm xúc từ các bình luận phản
ánh đa dạng và mức độ ảnh hưởng cảm xúc là khác nhau. "Tích cực", "tích cực
hơn", "Tiêu cực", “ rất tiêu cực " và "trung tính". Bằng cách tăng hạng phân loại
chính xác cải thiện độ chính xác làm cơ sở cho trích xuất cảm xúc.
35. - Dữ liệu thưa: dữ liệu phát sinh từ một số nguồn giới hạn ký tự giới hạn trong vi

blog / các trang web truyền thơng xã hội. Chẳn hạn, giới hạn bình luận trong twitter
6


là 140 ký tự. Chủ thể sẽ không diễn đạt ý kiến của họ một cách rõ ràng.
36. - Tóm lại, Tất cả ba các vấn đề liên quan chặt chẽ đến tính chính xác cảm xúc và

trong một bài viết thường tồn tại các phát biểu mâu thuẫn nhau, đối với những câu
văn nói ngắn gọn hoặc khơng theo quy tắc, thì người nói thường lồng nhiều ý kiến
vào trong một câu.
1.3 Tóm tắt lược sử nghiên cứu

37.

Trong phần này, chúng tôi khảo sát các phương pháp và các hướng tiếp

cận phân tích cảm xúc. Dữ liệu văn bản tiềm ẩn rất nhiều tri thức có giá trị do con người
tạo ra nhằm chia sẻ với cộng đồng chẳn hạn như kinh nghiệm,ý kiến và cảm xúc trải
qua. Mỗi khi cần đưa ra một quyết định gì, chúng ta thường tham khảo đến ý kiến của
cộng đồng bằng cách tìm kiếm trên Internet. Các cơng cụ khai phá quan điểm thực hiện
một cách tự động và hệ thống trích xuất các khía cạnh liên quan cho một vấn đề cụ thể,
trên cơ sở phân tích ý kiến, chúng ta đưa ra các quyết định hành động hợp lý.
38.

39.

Hình 4.

Các hướng tiếp cận phân tích cảm xúc

40. Nhiệm vụ phân tích cảm xúc là xác định các quan điểm, các đặc trưng khía cạnh,

các thực thể và xác định chủ thể. Công việc khai thác tri thức giúp họ hiểu rõ hơn về khách
hàng, sản phẩm, dịch vụ đề (B. Agarwal et al.,2013)[1]. Mục tiêu tự động hóa trích xuất đặc
trưng đối tượng và phân loại cảm xúc (Basant et al., 2015)[2] dựa trên xử lý ngôn ngữ tự
nhiên từ nguồn các bình luận.
41. Mục tiêu chính thực hiện phân loại cảm xúc là xếp hạng các chỉ số đánh giá cảm xúc

diễn giải trong văn bản. Nó được xem xét ở 03 mức độ : Tài liệu (RuiXia et.al.,2016)[3].
(Ainur et al.,2010)[4], câu từ (Noura et al., 2010)[5], và mức khía cạnh đặc trưng đối tượng
(Haochen et.al.,2015)[6].
42.


Trong nghiên cứu này, chúng tơi phân tích cảm xúc dựa vào nguồn dữ liệu thu

thập từ dịch vụ Yelp. Yelp là một tập đoàn đa quốc gia của Hoa Kỳ được thành lập vào 2004
nhằm giúp mọi người định vị doanh nghiệp dựa trên rên mạng xã hội chức năng và đánh giá
7


xếp hạng dịch vụ. Hàng triệu người sử dụng dịch vụ Yelp cung cấp một khối dữ liệu khổng
lồ và ảnh hưởng đến quyết định lựa chọn thực phẩm của người tiêu dùng. Do đó, các bình
luận từ Yelp trở thành chỉ số đánh giá cho chất lượng ngành dịch vụ ẩm thực. Những năm
gần đây, nhiều cơng trình nghiên cứu tiếp cận khai thác dữ liệu nhằm rút trích cảm xúc và
diễn giải ý nghĩa.
43. Hướng tiếp cận phương pháp học máy được sử dụng rộng rãi cho lĩnh vực xử lý ngôn

ngữ tự nhiên chẳn hạn như: (RuiXia et al.,2016) đề xuất mơ hình PSDEE để phát hiện cảm
xúc không nhất quán trong văn bản. Nghiên cứu này trình bày mơ hình ba giai đoạn để phân
loại cảm xúc:(1) phát hiện chuyển đổi phân cực, (2) loại bỏ phân cực trong các phủ định, và
(3) chuyển đổi phân cực theo mơ hình tổ hợp. (Haochen Zhou et al.,2015)[6] xây dựng mơ
hình POSLDA lựa chọn các đặc trưng văn bản. Nó thực hiện tách các lớp ngữ nghĩa (danh
từ, động từ, tính từ và trạng từ) và các lớp cú pháp ( giới từ, và từ liên kết), xác định các từ
có ý nghĩa và bổ sung thơng tin các thực thể cụ thể. (James Huang et al,.2014.) Nhóm tác giả
áp dụng Latent Dirichlet Allocation (LDA) khám phá các chủ đề ẩn , dự đoán xếp hạng sao
mỗi chủ đề ẩn đồng thời liên hệ thông tin thời gian cao điểm của nhà hàng, rút trích thơng
tin chi tiết thú vị và chắc chắn hữu ích cho chủ nhà hàng.
44. (Ruhui Shen, et al,2016) xây dựng các mơ hình hồi quy tuyến tính, hồi quy LASSO ,

hồi quy học máy vector (SVM) và thước đo RMSLE để tiên lượng và trích lọc các bình luận
hữu ích dựa trên cơ sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống kê, phổ biến và
khác các tính năng định tính được trích từ người dùng, doanh nghiệp.


8


45. Trong nghiên cứu này, chúng tôi tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây dựng

mơ hình hồi quy logistic phân loại cảm xúc.(2) trích xuất thơng tin các bình luận quan trọng
chứa cảm xúc tốt nhất và tệ nhất ẩm thực theo quốc gia.
48.

46.

T
47.
60.

1

A

51. Giải

49.
50. Tiê
u
61.đề Rui

quyết

Xia,


chuyển phân

nn* *
-> *

62.

63.

52.

2

r

Dịch

X

Fen cực cảm xúc

Sin

64.

Các

quy tắc
65.


Bộ dữ

Độ
chính

59.

58.
67.

xác
87. 68.
Độ
chính

liệu
Movie
Reivew
66.

Dịch

1%

chuyển phân

điển cảm
76.


xác

69.

PSDE

pháp thống
75.
Từ

Hạn
chế

57.

chưa

E và phương

(2016) V.K 74.
72.
73.

56.

ng pháp

gXu et al
71.


Phươ

55.

Movie
Reivew
77.

xúc

78.

SW

cao
Khó

70.
79.

N(AC C)

mở rộng từ

=77.6%

điển, khơng

gh,


cực cảm xúc

R.Piryani

và độ chính

SWN(AA

xác định

et al

xác

AVC)-

được ngữ

78.7%

cảnh.

Alchemy=
77.4%
80.

3

81.


Y.

82.

Kết hợp 83.

SVM

84.

Movie

85.

Review

86.

92.

2%

Khơ

87.

Ainur, Y.

trích xuất các


ng phản

Yisong et

câu hữu ích

al (2010)

làm cơ sở phân

cảm xúc

loại cảm xúc ở

chỉ có tích

mức tài liệu

cực và tiêu

s

ánh mức độ

cực
88.

4

A.

Basant,
89.

90.

M.

Namit
91.

a

dựa trên 93.
ogy,
các thông tin
92.

phổ biến và

94.

Ontol

95.

nt
Conce 96.

restaura 97.
1%


80.

Khó

98.

mở rộng

review

ontology

pNet

ngữ cảnh

cho các
domain

99. 100. Ha
5 106.
o chen

101.

Topic

102.


DA,

POSL

103.

visor

TripAd

104.

%

95

105.

mới
9

Chỉ


107.
108.

Zh

ou and

109.

Fei

Song

110.

modelli

111.

Maxi

ng, Lựa chọn

mum

các đặc trưng,

112.

chia tách ngữ

py classifier

113.

114.


115.

thực

hiện cho
Entro

unigram

nghĩa và cú
Hu
ang, J.,

116. 117.

6

118.

Ro

gers,
119. S.,
& Joo Ru
128. 129.

7

121.


Latent 125.

hiện chủ đề

122.

Dirich

phụ - Topic
modelling
130.

Dự

Yelp

Kh

127.

Chỉ

ơng đề cập thực hiện

let
123.

126.

unigram


Alloc

ation
131.



132.

Yelp

133.

RM 134.

Khơ

hui Shen,

đốn và trích

hình tuyến

SLE of

ng phát

Jialiang


lọc các bình

tính Locally

0.47769

hiện ngữ

Shen,

luận hữu ích

Weighted

cảnh bình

Yuhong Li cho các nhà

Regression

luận

(2016)

(LOESS)

135. 136.

8


pháp câu
120.
Phát

137.

hàng địa

phươngCác vấn 139.
Yan 138.
Zha đề chuyển đổi

o,Hon

cú pháp câu

Kỹ

thuật cộng

140.

blog

Chinese 141.
_comp

hưởng cảm

142.


glei, et al

xúc trước khi

c=

(2015)

thực hiện

143.

phân tích

78%

cảm xúc

144.

147.

No

145.

Kỹ

thuật cộng

_ss

hưởng cảm
xúc chưa

88.

đạt độ
chính xác

Ma

146.

cao

nual_c
148.

Bảng 1. So sánh các hướng tiếp cận phân tích cảm xúc

149. Trong nước, Nhóm tác giả Huong Nguyen Thi Xuan, Anh Cuong Le, (2012) [15] thực

hiện phân loại câu văn chứa xúc cảm hay không chứa cảm xúc dựa trên 22 mẫu phân tích
trên mẫu cơ sở cú pháp (syntax-based patterns). Phương pháp phân tích của các tác giả [15]
dựa vào phân tích từ vựng để xác định từ loại từ trong câu văn bản và sử dụng mẫu cú pháp
để nhận dạng tính từ, cụm tính từ tương ứng; trợ động từ, động từ và cụm động từ; danh từ và
cụm danh trên cơ sở cú pháp mà các tác giả đề xuất để thực hiện trích xuất.
2. Phương pháp nghiên cứu, cách tiếp cận
150. - Thu thập tài liệu của các tác giả trong, ngồi nước có liên quan đến đề tài.

10


151. - Nghiên cứu và phát triển lý thuyết phục vụ đề tài.
152. - Xây dựng mơ hình dựa trên các thuật toán học máy và đánh giá hiệu suất
153. - Nghiên cứu thực nghiệm ,đánh giá kết quả dựa vào phương pháp thống kê.

3. Nội dung nghiên cứu và kết quả đạt được
154.

- Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và các ứng dụng

của lĩnh vực trong đời sống.
155.

- Thực nghiện phân tích cảm xúc dựa trên các mơ hình học máy.

156.

- Trích xuất các bình luận tích cực và tiêu cực nhất.

157.

- Trên cơ sở phân tích cảm xúc, chúng tơi tiến hành rút trích tri thức các

đặc trừng và các khía cạnh của các thực thể đang được quan tâm nhằm nắm bắt
khuynh hướng cảm xúc khách hàng nhà hàng Yelps về chất lượng thái độ dịch vụ,
tóm tắt ẩm thực từng quốc gia, các món ăn phổ biến.
158.


- Hỗ trợ ra quyết định dựa trên cơ sở phân tích quan điểm, cảm xúc của

cơng chúng về một vấn đề nào đó cần quan tâm.
4. Kết luận và kiến nghị
159. - Trong nghiên cứu này, Tôi thực hiện khảo sát và so sánh hướng tiếp cận
phân loại cảm xúc dựa vào các thuật toán học máy, từ điển và ontology và đánh giá các
kỹ thuật rút trích thơng tin dựa trên cơ sở phân loại cảm xúc. Cụ thể đề tài đạt được một
số cột mốc quan như sau.
160. - Nghiên cứu tổng quan về phân tích cảm xúc các ứng dụng thực tế cuộc sống.
161. - Nghiên cứu các phương pháp rút trích thơng tin và các phương pháp phân tích

cảm xúc.
162. - Xây dựng mơ hình thử nghiệm rút trích thơng tin theo truy vấn từ dữ liệu
163. - Đánh giá thử nghiệm dữ liệu thuật toán hồi quy logistic và lựa chọn tham số tối

ưu để nâng cao độ chính xác thuật toán.
5. Tài liệu tham khảo
[1] B. Agarwal and N. Mittal, “Optimal feature selection for sentiment analysis,” in Proceedings of
the 14th International Conference on Intelligent Text Processing and Computational Linguistics
(CICLing 13), vol. 7817, pp. 13-24, 2013.
[2] A. Basant, M. Namita, B. Pooja, Sonal Garg “Sentiment Analysis Using Common-Sense and
Context Information” Hindawi Publishing Corporation Computational Intelligence and
Neuroscience (2015)
11


[3] RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and ensemble: A three stage
model for document-level sentiment analysis” Information Processing and Management 52
(2016) 36- 45.
[4] Y. Ainur, Y. Yisong, C. Claire “Multi-level structured models for document-level sentiment

classification”.Proceedings of the 2010 Conference on Empirical Methods in Natural Language
Processing, MIT, Massachusetts, Association for Computational Linguistics, USA (2010), pp.
1046-1056.
[5] F. Noura, C. Elie, A.A. Rawad, H. Hazem “Sentence-level and document-level sentiment
mining for arabic texts”.Proceeding IEEE International Conference on Data Mining Workshops
(2010).
[6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based on a generalized
probabilistic topic and syntax model” Proceedings of the Twenty-Eighth International Florida
Artificial Intelligence Research Society Conference, Association for the Advancement of
Artificial Intelligence (2015).
[7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D. (2014). Categorizing health-related
cues to action: using Yelp reviews of restaurants in Hawaii. New Review of Hypermedia and
Multimedia, 20(4), 317-340.
[8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J. L. (2012). Why people
use Yelp. com: An exploration of uses and gratifications. Computers in Human Behavior, 28(6),
2274-2279.
[9] Huang, J., Rogers, S., & Joo, E. (2014). “Improving restaurants by extracting subtopics from
yelp reviews” iConference 2014 (Social Media Expo).
[10]

Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ” Predicting usefulness of

Yelp reviews with localized linear regression models”, 2016 7th IEEE International Conference
on Software Engineering and Service Science (ICSESS)
[11]

Solov'ev A. N., Antonova A. Ju., Pazel'skaia A. G., (2012), Using sentimentanalysis

for text information extraction. I-Teco (Moscow).
[12]


Wanxiang Che, Yanyan Zhao, Honglei Guo, Zhong Su, and Ting Liu,” Sentence

Compression for spect-Based Sentiment Analysis” IEEE/ACM TRANSACTIONS ON AUDIO,
SPEECH, AND LANGUAGE PROCESSING, VOL. 23, NO. 12, DECEMBER 2015.
[13]

P.D. Turney,(2000), “Learning algorithms for keyphrase extraction” Information Retrieval

vol. 2, no. 4, pp. 303 - 336.
[14]

I.H. Witten, G.W. Paynter, E. Frank, C. Gutwin and C.G. Nevill-Manning.(1999) “KEA:

Practical automatic Keyphrase Extraction.” The proceedings of Digital Libraries '99: The
Fourth ACM Conference on Digital Libraries, pp. 254-255.
12


[15]

Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen, (2012) ”Linguistic Features

for Subjectivity classification“ Asian Language Processing (IALP), 2012 International
Conference.

164.

Xác nhận thực hiện chuyên đề Chủ


nhiệm đề tài

13



×