Khảo sát, phân tích hiện trạng các công trình đã nghiên cứu và đề xuất hƣớng nghiên cứu mới

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (165.05 KB, 12 trang )

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ

Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THƠNG TIN
DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC
Mã số:

Chun đề:

Khảo sát, phân tích hiện trạng các cơng trình đã
nghiên cứu và đề xuất hướng nghiên cứu mới

Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc
Người chủ trì thực hiện chuyên đề : ThS.Nguyễn Tấn Lộc

Bình Dương, 08/01/2018

Mụ c lụ c
1.
2.

3.

Danh mục chữ viết tắt

4.

TF: term frequency

5.

IDF: inverse document frequency

6.

TF.IDF: term frequency. inverse document frequency

7.

DTM: document term matrix

8.

Logistic: hồi quy logistic.

9.

P(A): Xác xuất sự kiện A

10.

NER: Named Entity Recognition

11.

SoA: Sentiment analysis - Phân tích cảm xúc

1. Đặt vấn đề
12. Trong phần này, chúng tôi khảo sát các phương pháp và các hướng tiếp

cận phân tích cảm xúc. Dữ liệu văn bản tiềm ẩn rất nhiều tri thức có giá trị do
con người tạo ra nhằm chia sẻ với cộng đồng chẳn hạn như kinh nghiệm,ý kiến
và cảm xúc trải qua. Mỗi khi cần đưa ra một quyết định gì, chúng ta thường
tham khảo đến ý kiến của cộng đồng bằng cách tìm kiếm trên Internet. Các công
cụ khai phá quan điểm thực hiện một cách tự động và hệ thống trích xuất các
khía cạnh liên quan cho một vấn đề cụ thể, trên cơ sở phân tích ý kiến, chúng ta
đưa ra các quyết định hợp lý.
2. Phương pháp nghiên cứu
• Thu thập tài liệu của các tác giả trong, ngoài nước liên quan đến đề tài.
•

Nghiên cứu các bài báo và phát triển lý thuyết phục vụ đề tài.

•

Nghiên cứu thực nghiệm và đánh giá kết quả dựa vào phương pháp thống kê

3. Nội dung nghiên cứu
13.

15.
16.

14.

Hình 1.

Các hướng tiếp cận phân tích cảm xúc

Nhiệm vụ phân tích cảm xúc là xác định các quan điểm, các đặc trưng

khía cạnh, các thực thể và xác định chủ thể. Công việc khai thác tri thức giúp họ hiểu
rõ hơn về khách hàng, sản phẩm, dịch vụ đề (B. Agarwal et al.,2013)[1]. Mục tiêu tự
động hóa trích xuất đặc trưng đối tượng và phân loại cảm xúc (Basant et al., 2015)[2]
dựa trên xử lý ngôn ngữ tự nhiên từ nguồn các bình luận.

17.hạng
Mụcđược
chỉ
tiêusố
chính
đánh
thực
giá
hiện
xúc
phân
diễn
loại
giải
cảm
trong
xúc
là
văn
xếpet
bản. các
et.al.,2016)[3].(Ainur
Nó

xem
xét
ởkhía
03
etcảm
mức
al.,2010)[4],
độ
:
Tài
liệu
câu
(RuiXia
từtượng
(Noura
al.,
(Haochen
2010)[5],
et.al.,2015)[6].
và
mức
cạnh
đặc
trưng
đối

3

18.

Trong nghiên cứu này, chúng tơi phân tích cảm xúc dựa vào nguồn dữ liệu thu thập

từ dịch vụ Yelp. Yelp là một tập đoàn đa quốc gia của Hoa Kỳ được thành lập vào 2004 nhằm
giúp mọi người định vị doanh nghiệp dựa trên rên mạng xã hội chức năng và đánh giá xếp
hạng dịch vụ. Hàng triệu người sử dụng dịch vụ Yelp cung cấp một khối dữ liệu khổng lồ và
ảnh hưởng đến quyết định lựa chọn thực phẩm của người tiêu dùng. Do đó, các bình luận từ
Yelp trở thành chỉ số đánh giá cho chất lượng ngành dịch vụ ẩm thực. Những năm gần đây,
nhiều cơng trình nghiên cứu tiếp cận khai thác dữ liệu nhằm rút trích cảm xúc và diễn giải ý
nghĩa.
19. Hướng tiếp cận phương pháp học máy được sử dụng rộng rãi cho lĩnh vực xử lý ngôn ngữ

tự nhiên chẳn hạn như: (RuiXia et al.,2016) đề xuất mơ hình PSDEE để phát hiện cảm xúc
không nhất quán trong văn bản. Nghiên cứu này trình bày mơ hình ba giai đoạn để phân loại
cảm xúc:(1) phát hiện chuyển đổi phân cực, (2) loại bỏ phân cực trong các phủ định, và (3)
chuyển đổi phân cực theo mơ hình tổ hợp. (Haochen Zhou et al.,2015)[6] xây dựng mơ hình
POSLDA lựa chọn các đặc trưng văn bản. Nó thực hiện tách các lớp ngữ nghĩa (danh từ, động
từ, tính từ và trạng từ) và các lớp cú pháp ( giới từ, và từ liên kết), xác định các từ có ý nghĩa
và bổ sung thông tin các thực thể cụ thể. (James Huang et al,.2014.) Nhóm tác giả áp dụng
Latent Dirichlet Allocation (LDA) khám phá các chủ đề ẩn , dự đoán xếp hạng sao mỗi chủ đề
ẩn đồng thời liên hệ thông tin thời gian cao điểm của nhà hàng, rút trích thơng tin chi tiết thú
vị và chắc chắn hữu ích cho chủ nhà hàng.
20. (Ruhui Shen, et al,2016) xây dựng các mơ hình hồi quy tuyến tính, hồi quy LASSO , hồi

quy học máy vector (SVM) và thước đo RMSLE để tiên lượng và trích lọc các bình luận hữu
ích dựa trên cơ sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống kê, phổ biến và khác
các tính năng định tính được trích từ người dùng, doanh nghiệp. Trong nghiên cứu này, chúng
tôi tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây dựng mơ hình hồi quy logistic phân loại
cảm xúc.(2) trích xuất thơng tin các bình luận quan trọng chứa cảm xúc tốt nhất và tệ nhất ẩm
thực theo quốc gia.

21.
22. Tiê
TT u đề
29.

1

30.

Giải

quyết vấn đề

Rui 32.

Xia,
31.

23.

Dịch

chuyển phân
Fen cực cảm xúc

gXu et al
39.

2

Sin

33.

Các

quy tắc
34.

25.

Bộ dữ
liệu

Movie
Reivew
35.

26.
Độ
chính
27.
36.

xác

87.

1%

28.

Hạn
chế

Độ
chính xác
37.
38.

PSDE

chưa

cao

E và phương

(2016) V.K 42.
40.
41.

24.
Phươ
ng pháp

Dịch

chuyển phân

pháp thống
43.
Từ
điển cảm
44.

Movie
Reivew
45.

xúc

46.

SW 47.

Khó

N(AC C)

mở rộng từ

=77.6%

điển, khơng

gh,

cực cảm xúc

R.Piryani

và độ chính

SWN(AA

xác định

et al

xác

AVC)-

được ngữ

78.7%

cảnh.

Alchemy=
77.4%
48.

49.

3

Ainur,
50.

Y.
Y.

al (2010)

4

Kết hợp 52.

SVM

trích xuất các

Yisong et

56.

51.

57.
A.
Basant,
58.
M.
Namita

53.

Movie
Reviews

54.
2%

92.

5

67.
chen

câu hữu ích

mức độ cảm

làm cơ sở phân

xúc chỉ có

loại cảm xúc ở

tích cực và

mức tài liệu

tiêu cực

dựa trên 60.

ogy,
các thông tin
59.

phổ biến và

Hao 70.

68.
Zho
u and
69.
Fei
Song

Topic

61.

Ontol

62.

nt
Conce 63.

restaura 64.
1%

80.

6

79.
86.

Rog

71.

Lựa chọn các

72.

ontology cho

POSL

74.
isor

TripAdv

75.

95

%

73.

Maxi

Chỉ

hiện cho
unigram

Entrop

y classifier

Phát

81.

Latent

hiện chủ đề

82.
et

Dirichl

phụ - Topic

76.

mới thực

đặc trưng, chia mum

78.
Hua 80.
ng, J.,

Khó

các domain
DA,

tách ngữ nghĩa

65.

mở rộng

review

pNet

modelling,

và cú pháp câu
77.

Khôn

g phản ánh

ngữ cảnh
66.

55.

83.

Yelp

84.

Kh

85.

Chỉ

ông đề cập thực hiện
unigram

87.
88.
Joo

&

89.

modelli

ng

95.

96.

Ruh 97.

7

ui Shen,

Dự

90.
tion

Alloca

91.
98.

(LDA)

Mơ

đốn và trích

hình tuyến

Jialiang

lọc các bình

tính Locally

Shen,

luận hữu ích

99.

cho các nhà

ted

hàng địa

Regression

Yuhong Li
(2016)

92.

100.

Yelp

93.
101.
102.

Weigh

phươngCác vấn (LOESS)
107.
108. Kỹ

8

Zha

đề chuyển đổi

thuật cộng

cú pháp câu

hưởng cảm

111.

xúc trước khi

c=

thực hiện

112.

phân tích

78%

cảm xúc

113.

et al (2015)

103.

Khơn

g phát hiện
ngữ cảnh
bình luận

Yan

o,Hong lei,

0.4

7769

104. 105.

106.

RM

SLE of

94.

109.

Chinese 110.

blog

115. Bảng 1. So sánh các hướng tiếp cận phân tích cảm xúc
116.

No

_comp

114.

Kỹ

thuật cộng
_ss

hưởng cảm
xúc chưa đạt

88.

độ chính xác
cao

Ma

nual_c

117. Trong nước, Nhóm tác giả Huong Nguyen Thi Xuan, Anh Cuong Le, (2012) [15]

thực hiện phân loại câu văn chứa xúc cảm hay khơng chứa cảm xúc dựa trên 22 mẫu
phân tích trên mẫu cơ sở cú pháp (syntax-based patterns). Phương pháp phân tích của
các tác giả [15] dựa vào phân tích từ vựng để xác định từ loại từ trong câu văn bản và sử
dụng mẫu cú pháp để nhận dạng tính từ, cụm tính từ tương ứng; trợ động từ, động từ và
cụm động từ; danh từ và cụm danh trên cơ sở cú pháp mà các tác giả đề xuất để thực
hiện trích xuất.
3.1 Phương pháp rút trích thơng tin
118. Trích xuất thơng tin là tìm ra các thơng tin cấu trúc, thông tin cần thiết từ

một tài liệu, trong khi truy vấn thơng tin là tìm ra các tài liệu liên quan, hoặc một phần
tài liệu liên quan từ kho dữ liệu như thư viện số hoặc nguồn tài liệu online để phản hồi
cho người dùng tùy vào một truy vấn cụ thể.
119. Các cơng trình nghiên cứu truy vấn và rút trích thơng tin hiện nay hướng tới các

phương pháp tối ưu nhằm cho kết quả phản hồi tốt hơn, gần đúng hoặc đúng với nhu cầu
người dùng và tập trung vào các hướng sau.
120. Rút trích các thuật ngữ (Terminology extraction): tìm kiếm các thuật

ngữ chính có liên quan, thể hiện ngữ nghĩa, nội dung, chủ đề tài liệu hay một tập các tài

liệu.
121. Rút trích các thực thể (named entity recognition): việc rút trích ra các

thực thể tập trung vào các phương pháp nhận diện các đối tượng, thực thể như: tên
người, tên công ty, tên tổ chức, một địa danh, nơi chốn.
122. Rút trích quan hệ (Relationship Extraction): cần xác định mối quan hệ

giữa các thực thể đã nhận biết từ tài liệu.
123. 3.1.1 Trích rút cụm từ
124. Turney (2000) được xem là người đầu tiên giải quyết bài toán rút trích các

keyphrase dựa trên phương pháp học giám sát [13], trong khi các nghiên cứu khác dùng
heuristic, kỹ thuật phân tích n-gram, phương pháp như mạng Neural. KEA [14] là một
thuật tốn trích xuất các cụm từ khóa (keyphrases) từ dữ liệu văn bản. KEA xác định
danh sách các cụm ứng viên dùng các phương pháp từ vựng học, sau đó tiến hành tính
tốn giá trị đặc trưng cho mỗi ứng viên, tiếp đến dùng thuật toán học máy để tiên đoán
xem các cụm ứng viên nào là các cụm từ khóa. Hiện nay KEA được xem là một thuật
tốn đơn giản và hiệu quả nhất để rút các keyphrases. KEA dùng phương pháp học máy
Naive Bayes để huấn luyện và rút trích các keyphrase.
125. 3.1.2 Rút trích dựa trên nhận dạng thực thể
126.
Nhận diện thực thể có tên (NER-Named Entity Recognition) là một cơng

việc thuộc lĩnh vực trích xuất thơng tin nhằm tìm kiếm, xác định và phân lớp các thành
tố trong văn bản không cấu trúc thuộc vào các nhóm thực thể được xác định trước như
tên người, tổ chức, vị trí, biểu thức thời gian, con số, giá trị tiền tệ, tỉ lệ phần trăm, v.v.
Thực thể có tên (Named Entity) có rất nhiều ứng dụng, đặc biệt trong các lĩnh vực như

hiểu văn bản, dịch máy, truy vấn thông tin, và hỏi đáp tự động.
127.

Nhận diện thực thể có tên gồm 2 tác vụ con sau đây.

•

Nhận diện thực thể có tên trong văn bản đầu vào.

•

Gán nhãn cho các thực thể có tên đã nhận diện được .
128. Nhận diện thực thể đơn ngữ
129. •
•
•
o
130.

Nhận diện thực thể có tên trên đơn ngữ là hướng tiếp cận đầu tiên và đa

dạng nhất tính đến hiện nay. Sự đa dạng của nó nằm ở việc phát triển trên nhiều ngôn ngữ
đặc biệt là các ngôn ngữ khan hiếm tài nguyên như tiếng Việt, Hoa... Trong khi đó, với các
ngơn ngữ như tiếng Anh, việc nhận diện thực thể có tên đã đạt được độ chính xác rất cao.

Một số ứng dụng nhận diện thực thể được công bố như: Standford NER, OpenNLP,
NETTagger, GATE..
131.

Gán nhãn thực thể
132. Sau khi nhận dạng ra được các thực thể có tên, ta sẽ tiến hành gán nhãn cho

thực thể. loại nhãn, số lượng nhãn rất đa dạng, phụ thuộc vào mục đích ứng dụng.
133.

Nhãn thực thể gồm các loại :

•

Con người : tên người và họ, bí danh, nghệ danh, ...

•

Tổ chức: tên tổ chức, cơ quan, chính phủ, cơng ty, các thực thể
134. mang tính tổ chức ...

•

Địa điểm: tỉnh, thành phố, vùng lãnh thổ, vùng nước, núi, quỹ
135.

đạo, cấu trúc địa điểm, các loại cơng trình ...

•

Thời gian: biểu thức về thời gian trong ngày

■

Tiền tệ: biểu thức tiền tệ

■

Phần trăm: phần trăm
136. Tuy nhiên, một số cơng trình nghiên cứu chỉ tập trung vào việc xác định và

gán nhãn 3 loại nhãn: con người, tổ chức, địa điểm bởi vì các nhãn cịn lại tương đối dễ
nhận dạng dựa vào từ điển, đặc trưng ngôn ngữ.
3.2 Phương pháp phân loại cảm xúc dựa trên học máy
137.

3.2.1 Học có giám sát (Supervised Learning)
138. Phương pháp học có giám sát là một kỹ thuật của ngành Khoa học máy tính

để xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp
gồm đối tượng đầu vào (thường dạng vec-tơ), và đầu ra mong muốn. Đầu ra của một
hàm là dự đoán một nhãn cho một đối tượng.
139.

Các bước thực hiện một bài toán:

140.

- Để thực hiện phân lớp, phải chuẩn bị một tập dữ liệu huấn luyện, để có

tập dữ liệu huấn luyện được gán nhãn cho dữ liệu ban đầu, đây được gọi là bước
thu thập tập dữ liệu huấn luyện.
141.

- Lựa chọn một thuật tốn phân lớp, xây dựng mơ hình để học tập dữ liệu

huấn luyện. Hay nói cách khác, dùng tập dữ liệu huấn luyện để huấn luyện
chương trình phân lớp. Thuật ngữ học có giám sát được hiểu là học với dữ liệu đã
được gán nhãn trước (các dữ liệu kèm theo nhãn tương ứng này coi như đã được

giám sát).
142.

- Sử dụng một tập dữ liệu kiểm tra đã được gán nhãn trước, để kiểm tra tính

đúng đắn mơ hình. Sau đó, có thể dùng mơ hình để phân lớp cho dữ liệu mới.
143. Một vài thuật toán học giám sát:
•

Thuật tốn hồi quy logistic, Naive Bayes.

•

Thuật tốn Máy vector hỗ trợ (Support Vector Machine).

•

Phương pháp K láng giềng gần nhất (K Nearest Neighbours - KNN).

3.2.2
-

Học không giám sát

Học khơng có giám sát là một phương pháp của ngành học máy tìm ra một mơ hình phù
hợp với các quan sát. Trong học khơng có giám sát, một tập dữ liệu đầu vào được thu
thập. Học khơng có giám sát thường xử lý với các đối tượng đầu vào như là một tập các
biến ngẫu nhiên. Sau đó, một mơ hình kết hợp sẽ được xây dựng cho tập dữ liệu đó. Có
thể hiểu đơn giản như sau Học không giám sát là học với tập dữ liệu huấn luyện ban đầu
hoàn toàn chưa được gán nhãn thường sử dụng cho lớp bài toán gom cụm, phân cụm
(Clustering).
144. Các bước để giải quyết một bài tốn học khơng giám sát:

-

Để thực hiện phân cụm, trước tiên cần một tập dữ liệu huấn luyện (training dataset) - là
một tập các ví dụ học (training examples/instances). Trong đó, mỗi ví dụ học chỉ chứa
thơng tin biểu diễn (ví dụ: một vector các giá trị thuộc tính), mà khơng có bất kỳ thơng tin
gì về nhãn lớp hoặc giá trị đầu ra mong muốn (expected output).
145.

- Áp dụng một thuật toán học khơng có giám sát (ví dụ k-Means) để học

hàm/mơ hình mục tiêu (trong trường hợp này là hàm phân cụm ứng với thuật toán
được chọn).
146.

- Sử dụng một phương pháp thử nghiệm (có thể kết hợp với một tập dữ liệu

có gán nhãn) để đánh giá hiệu năng, chất lượng của hàm mục tiêu học được.
147. Một số thuật tốn học khơng giám sát:
148.

Có rất nhiều thuật tốn học không giám sát được ra đời và phát triển nhằm

khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất đa dạng. Việc lựa chọn sử
dụng thuật toán nào mục đích của từng bài tốn. K-means, HAC (Hierarchical
Agglomerative Clustering), SOM (Self-Organizing Map)...

4. Kết luận và kiến nghị
149.

Trong chuyên đề này, chúng tôi đã thực hiện khảo sát lược sử các hướng tiếp cận

cho bài tốn rút trích thơng tin. - Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và
các ứng dụng của lĩnh vực trong đời sống và thực nghiện phân tích cảm xúc với các mơ
hình học máy.
-

Trích xuất nhóm cụm từ quan trọng để hỗ trợ ra quyết định dựa trên cơ sở cảm xúc của
công chúng về một vấn đề nào đó cần quan tâm.

-

Khảo sát các thuật tốn học máy giám sát và khơng giám sát, các hướng tiếp cận ontology
và từ điển phục vụ cho cơng việc xây dựng mơ hình.

5. Tài liệu tham khảo
[1] B. Agarwal and N. Mittal, “Optimal feature selection for sentiment analysis,” in

Proceedings of the 14th International Conference on Intelligent Text Processing and

Computational Linguistics (CICLing 13), vol. 7817, pp. 13-24, 2013.
[2] A. Basant, M. Namita, B. Pooja, Sonal Garg “Sentiment Analysis Using Common-Sense

and Context Information” Hindawi Publishing Corporation Computational Intelligence
and Neuroscience (2015)
[3] RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and ensemble: A three

stage model for document-level sentiment analysis” Information Processing and
Management 52 (2016) 36- 45.
[4] Y. Ainur, Y. Yisong, C. Claire “Multi-level structured models for document-level

sentiment classification”.Proceedings of the 2010 Conference on Empirical Methods in
Natural Language Processing, MIT, Massachusetts, Association for Computational
Linguistics, USA (2010), pp. 1046-1056.
[5] F. Noura, C. Elie, A.A. Rawad, H. Hazem “Sentence-level and documentlevel sentiment

mining for arabic texts”.Proceeding IEEE International Conference on Data Mining
Workshops (2010).
[6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based on a

generalized probabilistic topic and syntax model” Proceedings of the Twenty-Eighth
International Florida Artificial Intelligence Research Society Conference, Association for
the Advancement of Artificial Intelligence (2015).
[7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D. (2014). Categorizing health-

related cues to action: using Yelp reviews of restaurants in Hawaii. New Review of
Hypermedia and Multimedia, 20(4), 317-340.
[8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J. L. (2012). Why

people use Yelp. com: An exploration of uses and gratifications. Computers in Human

Behavior, 28(6), 2274-2279.
[9] Huang, J., Rogers, S., & Joo, E. (2014). “Improving restaurants by extracting subtopics

from yelp reviews” iConference 2014 (Social Media Expo).
[10]

Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ” Predicting

usefulness of Yelp reviews with localized linear regression models ”, 2016 7th IEEE

International Conference on Software Engineering and Service Science (ICSESS)
Solov'ev A. N., Antonova A. Ju., Pazel'skaia A. G., (2012), Using sentiment-

[11]

analysis for text information extraction. I-Teco (Moscow).
Wanxiang Che, Yanyan Zhao, Honglei Guo, Zhong Su, and Ting Liu,” Sentence

[12]

Compression for spect-Based Sentiment Analysis” IEEE/ACM TRANSACTIONS ON
AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 23, NO. 12, DECEMBER 2015.

P.D. Turney,(2000), “Learning algorithms for keyphrase extraction”

[13]

150. Information Retrieval vol. 2, no. 4, pp. 303 - 336.
[14]

I.H. Witten, G.W. Paynter, E. Frank, C. Gutwin and C.G. Nevill- Manning.(1999)

“KEA: Practical automatic Keyphrase Extraction.” The proceedings of Digital Libraries
'99: The Fourth ACM Conference on Digital Libraries, pp. 254-255.
[15]

Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen, (2012) ”Linguistic

Features for Subjectivity classification“ Asian Language Processing (IALP), 2012
International Conference.

151.

nhiệm đề tài

Xác nhận thực hiện chuyên đề Chủ

Khảo sát, phân tích hiện trạng các công trình đã nghiên cứu và đề xuất hƣớng nghiên cứu mới

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về