TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ
Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THƠNG TIN
DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC
Mã số:
Chun đề:
Khảo sát, phân tích hiện trạng các cơng trình đã
nghiên cứu và đề xuất hướng nghiên cứu mới
Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc
Người chủ trì thực hiện chuyên đề : ThS.Nguyễn Tấn Lộc
Bình Dương, 08/01/2018
Mụ c lụ c
1.
2.
3.
Danh mục chữ viết tắt
4.
TF: term frequency
5.
IDF: inverse document frequency
6.
TF.IDF: term frequency. inverse document frequency
7.
DTM: document term matrix
8.
Logistic: hồi quy logistic.
9.
P(A): Xác xuất sự kiện A
10.
NER: Named Entity Recognition
11.
SoA: Sentiment analysis - Phân tích cảm xúc
1. Đặt vấn đề
12. Trong phần này, chúng tôi khảo sát các phương pháp và các hướng tiếp
cận phân tích cảm xúc. Dữ liệu văn bản tiềm ẩn rất nhiều tri thức có giá trị do
con người tạo ra nhằm chia sẻ với cộng đồng chẳn hạn như kinh nghiệm,ý kiến
và cảm xúc trải qua. Mỗi khi cần đưa ra một quyết định gì, chúng ta thường
tham khảo đến ý kiến của cộng đồng bằng cách tìm kiếm trên Internet. Các công
cụ khai phá quan điểm thực hiện một cách tự động và hệ thống trích xuất các
khía cạnh liên quan cho một vấn đề cụ thể, trên cơ sở phân tích ý kiến, chúng ta
đưa ra các quyết định hợp lý.
2. Phương pháp nghiên cứu
• Thu thập tài liệu của các tác giả trong, ngoài nước liên quan đến đề tài.
•
Nghiên cứu các bài báo và phát triển lý thuyết phục vụ đề tài.
•
Nghiên cứu thực nghiệm và đánh giá kết quả dựa vào phương pháp thống kê
3. Nội dung nghiên cứu
13.
15.
16.
14.
Hình 1.
Các hướng tiếp cận phân tích cảm xúc
Nhiệm vụ phân tích cảm xúc là xác định các quan điểm, các đặc trưng
khía cạnh, các thực thể và xác định chủ thể. Công việc khai thác tri thức giúp họ hiểu
rõ hơn về khách hàng, sản phẩm, dịch vụ đề (B. Agarwal et al.,2013)[1]. Mục tiêu tự
động hóa trích xuất đặc trưng đối tượng và phân loại cảm xúc (Basant et al., 2015)[2]
dựa trên xử lý ngôn ngữ tự nhiên từ nguồn các bình luận.
17.hạng
Mụcđược
chỉ
tiêusố
chính
đánh
thực
giá
hiện
xúc
phân
diễn
loại
giải
cảm
trong
xúc
là
văn
xếpet
bản. các
et.al.,2016)[3].(Ainur
Nó
xem
xét
ởkhía
03
etcảm
mức
al.,2010)[4],
độ
:
Tài
liệu
câu
(RuiXia
từtượng
(Noura
al.,
(Haochen
2010)[5],
et.al.,2015)[6].
và
mức
cạnh
đặc
trưng
đối
3
18.
Trong nghiên cứu này, chúng tơi phân tích cảm xúc dựa vào nguồn dữ liệu thu thập
từ dịch vụ Yelp. Yelp là một tập đoàn đa quốc gia của Hoa Kỳ được thành lập vào 2004 nhằm
giúp mọi người định vị doanh nghiệp dựa trên rên mạng xã hội chức năng và đánh giá xếp
hạng dịch vụ. Hàng triệu người sử dụng dịch vụ Yelp cung cấp một khối dữ liệu khổng lồ và
ảnh hưởng đến quyết định lựa chọn thực phẩm của người tiêu dùng. Do đó, các bình luận từ
Yelp trở thành chỉ số đánh giá cho chất lượng ngành dịch vụ ẩm thực. Những năm gần đây,
nhiều cơng trình nghiên cứu tiếp cận khai thác dữ liệu nhằm rút trích cảm xúc và diễn giải ý
nghĩa.
19. Hướng tiếp cận phương pháp học máy được sử dụng rộng rãi cho lĩnh vực xử lý ngôn ngữ
tự nhiên chẳn hạn như: (RuiXia et al.,2016) đề xuất mơ hình PSDEE để phát hiện cảm xúc
không nhất quán trong văn bản. Nghiên cứu này trình bày mơ hình ba giai đoạn để phân loại
cảm xúc:(1) phát hiện chuyển đổi phân cực, (2) loại bỏ phân cực trong các phủ định, và (3)
chuyển đổi phân cực theo mơ hình tổ hợp. (Haochen Zhou et al.,2015)[6] xây dựng mơ hình
POSLDA lựa chọn các đặc trưng văn bản. Nó thực hiện tách các lớp ngữ nghĩa (danh từ, động
từ, tính từ và trạng từ) và các lớp cú pháp ( giới từ, và từ liên kết), xác định các từ có ý nghĩa
và bổ sung thông tin các thực thể cụ thể. (James Huang et al,.2014.) Nhóm tác giả áp dụng
Latent Dirichlet Allocation (LDA) khám phá các chủ đề ẩn , dự đoán xếp hạng sao mỗi chủ đề
ẩn đồng thời liên hệ thông tin thời gian cao điểm của nhà hàng, rút trích thơng tin chi tiết thú
vị và chắc chắn hữu ích cho chủ nhà hàng.
20. (Ruhui Shen, et al,2016) xây dựng các mơ hình hồi quy tuyến tính, hồi quy LASSO , hồi
quy học máy vector (SVM) và thước đo RMSLE để tiên lượng và trích lọc các bình luận hữu
ích dựa trên cơ sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống kê, phổ biến và khác
các tính năng định tính được trích từ người dùng, doanh nghiệp. Trong nghiên cứu này, chúng
tôi tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây dựng mơ hình hồi quy logistic phân loại
cảm xúc.(2) trích xuất thơng tin các bình luận quan trọng chứa cảm xúc tốt nhất và tệ nhất ẩm
thực theo quốc gia.
21.
22. Tiê
TT u đề
29.
1
30.
Giải
quyết vấn đề
Rui 32.
Xia,
31.
23.
Dịch
chuyển phân
Fen cực cảm xúc
gXu et al
39.
2
Sin
33.
Các
quy tắc
34.
25.
Bộ dữ
liệu
Movie
Reivew
35.
26.
Độ
chính
27.
36.
xác
87.
1%
28.
Hạn
chế
Độ
chính xác
37.
38.
PSDE
chưa
cao
E và phương
(2016) V.K 42.
40.
41.
24.
Phươ
ng pháp
Dịch
chuyển phân
pháp thống
43.
Từ
điển cảm
44.
Movie
Reivew
45.
xúc
46.
SW 47.
Khó
N(AC C)
mở rộng từ
=77.6%
điển, khơng
gh,
cực cảm xúc
R.Piryani
và độ chính
SWN(AA
xác định
et al
xác
AVC)-
được ngữ
78.7%
cảnh.
Alchemy=
77.4%
48.
49.
3
Ainur,
50.
Y.
Y.
al (2010)
4
Kết hợp 52.
SVM
trích xuất các
Yisong et
56.
51.
57.
A.
Basant,
58.
M.
Namita
53.
Movie
Reviews
54.
2%
92.
5
67.
chen
câu hữu ích
mức độ cảm
làm cơ sở phân
xúc chỉ có
loại cảm xúc ở
tích cực và
mức tài liệu
tiêu cực
dựa trên 60.
ogy,
các thông tin
59.
phổ biến và
Hao 70.
68.
Zho
u and
69.
Fei
Song
Topic
61.
Ontol
62.
nt
Conce 63.
restaura 64.
1%
80.
6
79.
86.
Rog
71.
Lựa chọn các
72.
ontology cho
POSL
74.
isor
TripAdv
75.
95
%
73.
Maxi
Chỉ
hiện cho
unigram
Entrop
y classifier
Phát
81.
Latent
hiện chủ đề
82.
et
Dirichl
phụ - Topic
76.
mới thực
đặc trưng, chia mum
78.
Hua 80.
ng, J.,
Khó
các domain
DA,
tách ngữ nghĩa
65.
mở rộng
review
pNet
modelling,
và cú pháp câu
77.
Khôn
g phản ánh
ngữ cảnh
66.
55.
83.
Yelp
84.
Kh
85.
Chỉ
ông đề cập thực hiện
unigram
87.
88.
Joo
&
89.
modelli
ng
95.
96.
Ruh 97.
7
ui Shen,
Dự
90.
tion
Alloca
91.
98.
(LDA)
Mơ
đốn và trích
hình tuyến
Jialiang
lọc các bình
tính Locally
Shen,
luận hữu ích
99.
cho các nhà
ted
hàng địa
Regression
Yuhong Li
(2016)
92.
100.
Yelp
93.
101.
102.
Weigh
phươngCác vấn (LOESS)
107.
108. Kỹ
8
Zha
đề chuyển đổi
thuật cộng
cú pháp câu
hưởng cảm
111.
xúc trước khi
c=
thực hiện
112.
phân tích
78%
cảm xúc
113.
et al (2015)
103.
Khơn
g phát hiện
ngữ cảnh
bình luận
Yan
o,Hong lei,
0.4
7769
104. 105.
106.
RM
SLE of
94.
109.
Chinese 110.
blog
115. Bảng 1. So sánh các hướng tiếp cận phân tích cảm xúc
116.
No
_comp
114.
Kỹ
thuật cộng
_ss
hưởng cảm
xúc chưa đạt
88.
độ chính xác
cao
Ma
nual_c
117. Trong nước, Nhóm tác giả Huong Nguyen Thi Xuan, Anh Cuong Le, (2012) [15]
thực hiện phân loại câu văn chứa xúc cảm hay khơng chứa cảm xúc dựa trên 22 mẫu
phân tích trên mẫu cơ sở cú pháp (syntax-based patterns). Phương pháp phân tích của
các tác giả [15] dựa vào phân tích từ vựng để xác định từ loại từ trong câu văn bản và sử
dụng mẫu cú pháp để nhận dạng tính từ, cụm tính từ tương ứng; trợ động từ, động từ và
cụm động từ; danh từ và cụm danh trên cơ sở cú pháp mà các tác giả đề xuất để thực
hiện trích xuất.
3.1 Phương pháp rút trích thơng tin
118. Trích xuất thơng tin là tìm ra các thơng tin cấu trúc, thông tin cần thiết từ
một tài liệu, trong khi truy vấn thơng tin là tìm ra các tài liệu liên quan, hoặc một phần
tài liệu liên quan từ kho dữ liệu như thư viện số hoặc nguồn tài liệu online để phản hồi
cho người dùng tùy vào một truy vấn cụ thể.
119. Các cơng trình nghiên cứu truy vấn và rút trích thơng tin hiện nay hướng tới các
phương pháp tối ưu nhằm cho kết quả phản hồi tốt hơn, gần đúng hoặc đúng với nhu cầu
người dùng và tập trung vào các hướng sau.
120. Rút trích các thuật ngữ (Terminology extraction): tìm kiếm các thuật
ngữ chính có liên quan, thể hiện ngữ nghĩa, nội dung, chủ đề tài liệu hay một tập các tài
liệu.
121. Rút trích các thực thể (named entity recognition): việc rút trích ra các
thực thể tập trung vào các phương pháp nhận diện các đối tượng, thực thể như: tên
người, tên công ty, tên tổ chức, một địa danh, nơi chốn.
122. Rút trích quan hệ (Relationship Extraction): cần xác định mối quan hệ
giữa các thực thể đã nhận biết từ tài liệu.
123. 3.1.1 Trích rút cụm từ
124. Turney (2000) được xem là người đầu tiên giải quyết bài toán rút trích các
keyphrase dựa trên phương pháp học giám sát [13], trong khi các nghiên cứu khác dùng
heuristic, kỹ thuật phân tích n-gram, phương pháp như mạng Neural. KEA [14] là một
thuật tốn trích xuất các cụm từ khóa (keyphrases) từ dữ liệu văn bản. KEA xác định
danh sách các cụm ứng viên dùng các phương pháp từ vựng học, sau đó tiến hành tính
tốn giá trị đặc trưng cho mỗi ứng viên, tiếp đến dùng thuật toán học máy để tiên đoán
xem các cụm ứng viên nào là các cụm từ khóa. Hiện nay KEA được xem là một thuật
tốn đơn giản và hiệu quả nhất để rút các keyphrases. KEA dùng phương pháp học máy
Naive Bayes để huấn luyện và rút trích các keyphrase.
125. 3.1.2 Rút trích dựa trên nhận dạng thực thể
126.
Nhận diện thực thể có tên (NER-Named Entity Recognition) là một cơng
việc thuộc lĩnh vực trích xuất thơng tin nhằm tìm kiếm, xác định và phân lớp các thành
tố trong văn bản không cấu trúc thuộc vào các nhóm thực thể được xác định trước như
tên người, tổ chức, vị trí, biểu thức thời gian, con số, giá trị tiền tệ, tỉ lệ phần trăm, v.v.
Thực thể có tên (Named Entity) có rất nhiều ứng dụng, đặc biệt trong các lĩnh vực như
hiểu văn bản, dịch máy, truy vấn thông tin, và hỏi đáp tự động.
127.
Nhận diện thực thể có tên gồm 2 tác vụ con sau đây.
•
Nhận diện thực thể có tên trong văn bản đầu vào.
•
Gán nhãn cho các thực thể có tên đã nhận diện được .
128. Nhận diện thực thể đơn ngữ
129. •
•
•
o
130.
Nhận diện thực thể có tên trên đơn ngữ là hướng tiếp cận đầu tiên và đa
dạng nhất tính đến hiện nay. Sự đa dạng của nó nằm ở việc phát triển trên nhiều ngôn ngữ
đặc biệt là các ngôn ngữ khan hiếm tài nguyên như tiếng Việt, Hoa... Trong khi đó, với các
ngơn ngữ như tiếng Anh, việc nhận diện thực thể có tên đã đạt được độ chính xác rất cao.
Một số ứng dụng nhận diện thực thể được công bố như: Standford NER, OpenNLP,
NETTagger, GATE..
131.
Gán nhãn thực thể
132. Sau khi nhận dạng ra được các thực thể có tên, ta sẽ tiến hành gán nhãn cho
thực thể. loại nhãn, số lượng nhãn rất đa dạng, phụ thuộc vào mục đích ứng dụng.
133.
Nhãn thực thể gồm các loại :
•
Con người : tên người và họ, bí danh, nghệ danh, ...
•
Tổ chức: tên tổ chức, cơ quan, chính phủ, cơng ty, các thực thể
134. mang tính tổ chức ...
•
Địa điểm: tỉnh, thành phố, vùng lãnh thổ, vùng nước, núi, quỹ
135.
đạo, cấu trúc địa điểm, các loại cơng trình ...
•
Thời gian: biểu thức về thời gian trong ngày
■
Tiền tệ: biểu thức tiền tệ
■
Phần trăm: phần trăm
136. Tuy nhiên, một số cơng trình nghiên cứu chỉ tập trung vào việc xác định và
gán nhãn 3 loại nhãn: con người, tổ chức, địa điểm bởi vì các nhãn cịn lại tương đối dễ
nhận dạng dựa vào từ điển, đặc trưng ngôn ngữ.
3.2 Phương pháp phân loại cảm xúc dựa trên học máy
137.
3.2.1 Học có giám sát (Supervised Learning)
138. Phương pháp học có giám sát là một kỹ thuật của ngành Khoa học máy tính
để xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp
gồm đối tượng đầu vào (thường dạng vec-tơ), và đầu ra mong muốn. Đầu ra của một
hàm là dự đoán một nhãn cho một đối tượng.
139.
Các bước thực hiện một bài toán:
140.
- Để thực hiện phân lớp, phải chuẩn bị một tập dữ liệu huấn luyện, để có
tập dữ liệu huấn luyện được gán nhãn cho dữ liệu ban đầu, đây được gọi là bước
thu thập tập dữ liệu huấn luyện.
141.
- Lựa chọn một thuật tốn phân lớp, xây dựng mơ hình để học tập dữ liệu
huấn luyện. Hay nói cách khác, dùng tập dữ liệu huấn luyện để huấn luyện
chương trình phân lớp. Thuật ngữ học có giám sát được hiểu là học với dữ liệu đã
được gán nhãn trước (các dữ liệu kèm theo nhãn tương ứng này coi như đã được
giám sát).
142.
- Sử dụng một tập dữ liệu kiểm tra đã được gán nhãn trước, để kiểm tra tính
đúng đắn mơ hình. Sau đó, có thể dùng mơ hình để phân lớp cho dữ liệu mới.
143. Một vài thuật toán học giám sát:
•
Thuật tốn hồi quy logistic, Naive Bayes.
•
Thuật tốn Máy vector hỗ trợ (Support Vector Machine).
•
Phương pháp K láng giềng gần nhất (K Nearest Neighbours - KNN).
3.2.2
-
Học không giám sát
Học khơng có giám sát là một phương pháp của ngành học máy tìm ra một mơ hình phù
hợp với các quan sát. Trong học khơng có giám sát, một tập dữ liệu đầu vào được thu
thập. Học khơng có giám sát thường xử lý với các đối tượng đầu vào như là một tập các
biến ngẫu nhiên. Sau đó, một mơ hình kết hợp sẽ được xây dựng cho tập dữ liệu đó. Có
thể hiểu đơn giản như sau Học không giám sát là học với tập dữ liệu huấn luyện ban đầu
hoàn toàn chưa được gán nhãn thường sử dụng cho lớp bài toán gom cụm, phân cụm
(Clustering).
144. Các bước để giải quyết một bài tốn học khơng giám sát:
-
Để thực hiện phân cụm, trước tiên cần một tập dữ liệu huấn luyện (training dataset) - là
một tập các ví dụ học (training examples/instances). Trong đó, mỗi ví dụ học chỉ chứa
thơng tin biểu diễn (ví dụ: một vector các giá trị thuộc tính), mà khơng có bất kỳ thơng tin
gì về nhãn lớp hoặc giá trị đầu ra mong muốn (expected output).
145.
- Áp dụng một thuật toán học khơng có giám sát (ví dụ k-Means) để học
hàm/mơ hình mục tiêu (trong trường hợp này là hàm phân cụm ứng với thuật toán
được chọn).
146.
- Sử dụng một phương pháp thử nghiệm (có thể kết hợp với một tập dữ liệu
có gán nhãn) để đánh giá hiệu năng, chất lượng của hàm mục tiêu học được.
147. Một số thuật tốn học khơng giám sát:
148.
Có rất nhiều thuật tốn học không giám sát được ra đời và phát triển nhằm
khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất đa dạng. Việc lựa chọn sử
dụng thuật toán nào mục đích của từng bài tốn. K-means, HAC (Hierarchical
Agglomerative Clustering), SOM (Self-Organizing Map)...
4. Kết luận và kiến nghị
149.
Trong chuyên đề này, chúng tôi đã thực hiện khảo sát lược sử các hướng tiếp cận
cho bài tốn rút trích thơng tin. - Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và
các ứng dụng của lĩnh vực trong đời sống và thực nghiện phân tích cảm xúc với các mơ
hình học máy.
-
Trích xuất nhóm cụm từ quan trọng để hỗ trợ ra quyết định dựa trên cơ sở cảm xúc của
công chúng về một vấn đề nào đó cần quan tâm.
-
Khảo sát các thuật tốn học máy giám sát và khơng giám sát, các hướng tiếp cận ontology
và từ điển phục vụ cho cơng việc xây dựng mơ hình.
5. Tài liệu tham khảo
[1] B. Agarwal and N. Mittal, “Optimal feature selection for sentiment analysis,” in
Proceedings of the 14th International Conference on Intelligent Text Processing and
Computational Linguistics (CICLing 13), vol. 7817, pp. 13-24, 2013.
[2] A. Basant, M. Namita, B. Pooja, Sonal Garg “Sentiment Analysis Using Common-Sense
and Context Information” Hindawi Publishing Corporation Computational Intelligence
and Neuroscience (2015)
[3] RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and ensemble: A three
stage model for document-level sentiment analysis” Information Processing and
Management 52 (2016) 36- 45.
[4] Y. Ainur, Y. Yisong, C. Claire “Multi-level structured models for document-level
sentiment classification”.Proceedings of the 2010 Conference on Empirical Methods in
Natural Language Processing, MIT, Massachusetts, Association for Computational
Linguistics, USA (2010), pp. 1046-1056.
[5] F. Noura, C. Elie, A.A. Rawad, H. Hazem “Sentence-level and documentlevel sentiment
mining for arabic texts”.Proceeding IEEE International Conference on Data Mining
Workshops (2010).
[6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based on a
generalized probabilistic topic and syntax model” Proceedings of the Twenty-Eighth
International Florida Artificial Intelligence Research Society Conference, Association for
the Advancement of Artificial Intelligence (2015).
[7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D. (2014). Categorizing health-
related cues to action: using Yelp reviews of restaurants in Hawaii. New Review of
Hypermedia and Multimedia, 20(4), 317-340.
[8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J. L. (2012). Why
people use Yelp. com: An exploration of uses and gratifications. Computers in Human
Behavior, 28(6), 2274-2279.
[9] Huang, J., Rogers, S., & Joo, E. (2014). “Improving restaurants by extracting subtopics
from yelp reviews” iConference 2014 (Social Media Expo).
[10]
Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ” Predicting
usefulness of Yelp reviews with localized linear regression models ”, 2016 7th IEEE
International Conference on Software Engineering and Service Science (ICSESS)
Solov'ev A. N., Antonova A. Ju., Pazel'skaia A. G., (2012), Using sentiment-
[11]
analysis for text information extraction. I-Teco (Moscow).
Wanxiang Che, Yanyan Zhao, Honglei Guo, Zhong Su, and Ting Liu,” Sentence
[12]
Compression for spect-Based Sentiment Analysis” IEEE/ACM TRANSACTIONS ON
AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 23, NO. 12, DECEMBER 2015.
P.D. Turney,(2000), “Learning algorithms for keyphrase extraction”
[13]
150. Information Retrieval vol. 2, no. 4, pp. 303 - 336.
[14]
I.H. Witten, G.W. Paynter, E. Frank, C. Gutwin and C.G. Nevill- Manning.(1999)
“KEA: Practical automatic Keyphrase Extraction.” The proceedings of Digital Libraries
'99: The Fourth ACM Conference on Digital Libraries, pp. 254-255.
[15]
Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen, (2012) ”Linguistic
Features for Subjectivity classification“ Asian Language Processing (IALP), 2012
International Conference.
151.
nhiệm đề tài
Xác nhận thực hiện chuyên đề Chủ