Khảo sát, phân tích hiện trạng các công trình đã nghiên cứu và đề xuất hƣớng nghiên cứu mới

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (849.87 KB, 12 trang )

TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ

Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THƠNG TIN
DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC
Mã số:

Chun đề:

Khảo sát, phân tích hiện trạng các cơng trình đã
nghiên cứu và đề xuất hƣớng nghiên cứu mới

Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc
Ngƣời chủ trì thực hiện chuyên đề : ThS.Nguyễn Tấn Lộc

Bình Dƣơng, 08/01/2018

Mụ c lụ c
1. Đặt vấn đề ........................................................................................................................... 1
2. Phương pháp nghiên cứu .................................................................................................... 1
3. Nội dung nghiên cứu ........................................................................................................... 1
3.1 Phương pháp rút trích thơng tin ................................................................................... 4
3.1.1 Trích rút cụm từ ......................................................................................................... 5
3.1.2 Rút trích dựa trên nhận dạng thực thể ....................................................................... 5
3.2 Phương pháp phân loại cảm xúc dựa trên học máy .......................................................... 6
3.2.1 Học có giám sát (Supervised Learning) .................................................................... 6
3.2.2 Học không giám sát ................................................................................................... 7
4. Kết luận và kiến nghị ........................................................................................................... 8
5. Tài liệu tham khảo ............................................................................................................... 9

Danh mục chữ viết tắt
TF: term frequency
IDF: inverse document frequency
TF.IDF: term frequency. inverse document frequency
DTM: document term matrix
Logistic: hồi quy logistic.
P(A): Xác xuất sự kiện A
NER: Named Entity Recognition
SoA: Sentiment analysis – Phân tích cảm xúc

1. Đặt vấn đề
Trong phần này, chúng tôi khảo sát các phương pháp và các hướng tiếp cận
phân tích cảm xúc. Dữ liệu văn bản tiềm ẩn rất nhiều tri thức có giá trị do con
người tạo ra nhằm chia sẻ với cộng đồng chẳn hạn như kinh nghiệm,ý kiến và
cảm xúc trải qua. Mỗi khi cần đưa ra một quyết định gì, chúng ta thường tham
khảo đến ý kiến của cộng đồng bằng cách tìm kiếm trên Internet. Các công cụ
khai phá quan điểm thực hiện một cách tự động và hệ thống trích xuất các khía
cạnh liên quan cho một vấn đề cụ thể, trên cơ sở phân tích ý kiến, chúng ta đưa
ra các quyết định hợp lý.

2. Phƣơng pháp nghiên cứu


Thu thập tài liệu của các tác giả trong, ngoài nước liên quan đến đề tài.



Nghiên cứu các bài báo và phát triển lý thuyết phục vụ đề tài.



Nghiên cứu thực nghiệm và đánh giá kết quả dựa vào phương pháp

thống kê

3. Nội dung nghiên cứu

Hình 1. Các

hướng tiếp cận phân tích cảm xúc

Nhiệm vụ phân tích cảm xúc là xác định các quan điểm, các đặc trưng khía
cạnh, các thực thể và xác định chủ thể. Công việc khai thác tri thức giúp họ hiểu rõ
hơn về khách hàng, sản phẩm, dịch vụ đề (B. Agarwal et al.,2013)[1]. Mục tiêu tự
động hóa trích xuất đặc trưng đối tượng và phân loại cảm xúc (Basant et al.,
2015)[2] dựa trên xử lý ngôn ngữ tự nhiên từ nguồn các bình luận.
Mục tiêu chính thực hiện phân loại cảm xúc là xếp hạng các chỉ số đánh giá cảm
xúc diễn giải trong văn bản. Nó được xem xét ở 03 mức độ : Tài liệu (RuiXia
et.al.,2016)[3].(Ainur et al.,2010)[4], câu từ (Noura et al., 2010)[5], và mức khía
cạnh đặc trưng đối tượng (Haochen et.al.,2015)[6].
1

Trong nghiên cứu này, chúng tơi phân tích cảm xúc dựa vào nguồn dữ liệu thu
thập từ dịch vụ Yelp. Yelp là một tập đoàn đa quốc gia của Hoa Kỳ được thành lập
vào 2004 nhằm giúp mọi người định vị doanh nghiệp dựa trên rên mạng xã hội chức
năng và đánh giá xếp hạng dịch vụ. Hàng triệu người sử dụng dịch vụ Yelp cung cấp
một khối dữ liệu khổng lồ và ảnh hưởng đến quyết định lựa chọn thực phẩm của
người tiêu dùng. Do đó, các bình luận từ Yelp trở thành chỉ số đánh giá cho chất

lượng ngành dịch vụ ẩm thực. Những năm gần đây, nhiều cơng trình nghiên cứu tiếp
cận khai thác dữ liệu nhằm rút trích cảm xúc và diễn giải ý nghĩa.
Hướng tiếp cận phương pháp học máy được sử dụng rộng rãi cho lĩnh vực xử lý
ngôn ngữ tự nhiên chẳn hạn như: (RuiXia et al.,2016) đề xuất mơ hình PSDEE để
phát hiện cảm xúc không nhất quán trong văn bản. Nghiên cứu này trình bày mơ
hình ba giai đoạn để phân loại cảm xúc:(1) phát hiện chuyển đổi phân cực, (2) loại
bỏ phân cực trong các phủ định, và (3) chuyển đổi phân cực theo mơ hình tổ hợp.
(Haochen Zhou et al.,2015)[6] xây dựng mơ hình POSLDA lựa chọn các đặc trưng
văn bản. Nó thực hiện tách các lớp ngữ nghĩa (danh từ, động từ, tính từ và trạng từ)
và các lớp cú pháp ( giới từ, và từ liên kết), xác định các từ có ý nghĩa và bổ sung
thơng tin các thực thể cụ thể. (James Huang et al,.2014.) Nhóm tác giả áp dụng
Latent Dirichlet Allocation (LDA) khám phá các chủ đề ẩn , dự đoán xếp hạng sao
mỗi chủ đề ẩn đồng thời liên hệ thông tin thời gian cao điểm của nhà hàng, rút trích
thơng tin chi tiết thú vị và chắc chắn hữu ích cho chủ nhà hàng.
(Ruhui Shen, et al,2016) xây dựng các mơ hình hồi quy tuyến tính, hồi quy LASSO ,
hồi quy học máy vector (SVM) và thước đo RMSLE để tiên lượng và trích lọc các
bình luận hữu ích dựa trên cơ sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống
kê, phổ biến và khác các tính năng định tính được trích từ người dùng, doanh nghiệp.
Trong nghiên cứu này, chúng tôi tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây
dựng mơ hình hồi quy logistic phân loại cảm xúc.(2) trích xuất thơng tin các bình
luận quan trọng chứa cảm xúc tốt nhất và tệ nhất ẩm thực theo quốc gia.

2

TT

Tiêu đề

Giải quyết vấn

Phƣơng pháp

đề

1

RuiXia,

Dịch chuyển

Các quy tắc

FengXu et

phân cực cảm

PSDEE và

al (2016)

xúc

phương pháp

Bộ

Độ chính

dữ liệu

xác

Movie Reivew

87.1%

Hạn chế

Độ chính xác
chưa cao

thống kê
2

V.K

Dịch chuyển

Từ điển cảm

SWN(AC

Khó mở rộng

Singh,

phân cực cảm

xúc

C)

từ điển,

R.Piryani

xúc và độ

=77.6%

khơng xác

et al

chính xác

SWN(AA

định được

AVC)-

ngữ cảnh.

Movie Reivew

78.7%
Alchemy=
77.4%

3

Y. Ainur,

Kết hợp trích

Y. Yisong

xuất các câu

ánh mức độ

et al (2010)

hữu ích làm cơ

cảm xúc chỉ

sở phân loại

có tích cực

cảm xúc ở

và tiêu cực

SVM

Movie Reviews

92.2%

Không phản

mức tài liệu
4

A. Basant,

dựa trên các

Ontology,

restaurant

M. Namita

thông tin phổ

ConcepNet

review

80.1%

Khó mở rộng
ontology cho

biến và ngữ

các domain

cảnh
5

TripAdvisor

Chỉ mới thực

Hao chen

Topic

POSLDA,

Zhou and

modelling,

Maximum

hiện cho

Fei Song

Lựa chọn các

Entropy

unigram

95%

đặc trưng, chia classifier
tách ngữ nghĩa
và cú pháp câu
6

Huang, J.,

Phát hiện chủ

Latent

Rogers, S.,

đề phụ - Topic

Dirichlet

Yelp

Không đề

Chỉ thực

cập

hiện unigram

3

& Joo

modelling

Allocation
(LDA)

7

Ruhui

Dự đốn và

Mơ hình

Shen,

trích lọc các

tuyến tính

Jialiang

bình luận hữu

Locally

cảnh bình

Shen,

ích cho các

Weighted

luận

Yuhong Li

nhà hàng địa

Regression

phương

(LOESS)

Yan

Các vấn đề

Kỹ thuật

Zhao,Hong

chuyển đổi cú

lei, et al

pháp câu

(2016)

8

(2015)

Yelp

RMSLE of

Không phát

0.47769

hiện ngữ

No_comp

Kỹ thuật

cộng hưởng

_ssc=

cộng hưởng

cảm xúc

88.78%

cảm xúc

trước khi

Manual_c

chưa đạt độ

thực hiện

omp_ssc=

chính xác

phân tích

88.5%

cao

Chinese blog

cảm xúc
Bảng 1. So sánh các hướng tiếp cận phân tích cảm xúc

Trong nước, Nhóm tác giả Huong Nguyen Thi Xuan, Anh Cuong Le, (2012)

[15] thực hiện phân loại câu văn chứa xúc cảm hay không chứa cảm xúc dựa
trên 22 mẫu phân tích trên mẫu cơ sở cú pháp (syntax-based patterns). Phương
pháp phân tích của các tác giả [15] dựa vào phân tích từ vựng để xác định từ
loại từ trong câu văn bản và sử dụng mẫu cú pháp để nhận dạng tính từ, cụm
tính từ tương ứng; trợ động từ, động từ và cụm động từ; danh từ và cụm danh
trên cơ sở cú pháp mà các tác giả đề xuất để thực hiện trích xuất.
3.1 Phƣơng pháp rút trích thơng tin
Trích xuất thơng tin là tìm ra các thông tin cấu trúc, thông tin cần thiết từ
một tài liệu, trong khi truy vấn thơng tin là tìm ra các tài liệu liên quan, hoặc
một phần tài liệu liên quan từ kho dữ liệu như thư viện số hoặc nguồn tài liệu
online để phản hồi cho người dùng tùy vào một truy vấn cụ thể.
Các cơng trình nghiên cứu truy vấn và rút trích thơng tin hiện nay hướng tới các
phương pháp tối ưu nhằm cho kết quả phản hồi tốt hơn, gần đúng hoặc đúng
với nhu cầu người dùng và tập trung vào các hướng sau.
4

Rút trích các thuật ngữ (Terminology extraction): tìm kiếm các thuật
ngữ chính có liên quan, thể hiện ngữ nghĩa, nội dung, chủ đề tài liệu hay một
tập các tài liệu.
Rút trích các thực thể (named entity recognition): việc rút trích ra các
thực thể tập trung vào các phương pháp nhận diện các đối tượng, thực thể như:
tên người, tên công ty, tên tổ chức, một địa danh, nơi chốn.
Rút trích quan hệ (Relationship Extraction): cần xác định mối quan
hệ giữa các thực thể đã nhận biết từ tài liệu.

3.1.1 Trích rút cụm từ
Turney (2000) được xem là người đầu tiên giải quyết bài tốn rút trích
các keyphrase dựa trên phương pháp học giám sát [13], trong khi các nghiên
cứu khác dùng heuristic, kỹ thuật phân tích n-gram, phương pháp như mạng

Neural. KEA [14] là một thuật tốn trích xuất các cụm từ khóa (keyphrases) từ
dữ liệu văn bản. KEA xác định danh sách các cụm ứng viên dùng các phương
pháp từ vựng học, sau đó tiến hành tính tốn giá trị đặc trưng cho mỗi ứng viên,
tiếp đến dùng thuật toán học máy để tiên đoán xem các cụm ứng viên nào là các
cụm từ khóa. Hiện nay KEA được xem là một thuật toán đơn giản và hiệu quả
nhất để rút các keyphrases. KEA dùng phương pháp học máy Nạve Bayes để
huấn luyện và rút trích các keyphrase.

3.1.2 Rút trích dựa trên nhận dạng thực thể
Nhận diện thực thể có tên (NER-Named Entity Recognition) là một cơng
việc thuộc lĩnh vực trích xuất thơng tin nhằm tìm kiếm, xác định và phân lớp
các thành tố trong văn bản không cấu trúc thuộc vào các nhóm thực thể được
xác định trước như tên người, tổ chức, vị trí, biểu thức thời gian, con số, giá trị
tiền tệ, tỉ lệ phần trăm, v.v. Thực thể có tên (Named Entity) có rất nhiều ứng
dụng, đặc biệt trong các lĩnh vực như hiểu văn bản, dịch máy, truy vấn thông
tin, và hỏi đáp tự động.
Nhận diện thực thể có tên gồm 2 tác vụ con sau đây.


Nhận diện thực thể có tên trong văn bản đầu vào.



Gán nhãn cho các thực thể có tên đã nhận diện được .

Nhận diện thực thể đơn ngữ
5

Nhận diện thực thể có tên trên đơn ngữ là hướng tiếp cận đầu tiên và đa

dạng nhất tính đến hiện nay. Sự đa dạng của nó nằm ở việc phát triển trên nhiều
ngôn ngữ đặc biệt là các ngôn ngữ khan hiếm tài nguyên như tiếng Việt, Hoa...
Trong khi đó, với các ngơn ngữ như tiếng Anh, việc nhận diện thực thể có tên đã
đạt được độ chính xác rất cao. Một số ứng dụng nhận diện thực thể được công bố
như: Standford NER, OpenNLP, NETTagger, GATE..
Gán nhãn thực thể
Sau khi nhận dạng ra được các thực thể có tên, ta sẽ tiến hành gán nhãn
cho thực thể. loại nhãn, số lượng nhãn rất đa dạng, phụ thuộc vào mục đích ứng
dụng.
Nhãn thực thể gồm các loại :
 Con người : tên người và họ, bí danh, nghệ danh, ...
 Tổ chức: tên tổ chức, cơ quan, chính phủ, cơng ty, các thực thể
mang tính tổ chức ...
 Địa điểm: tỉnh, thành phố, vùng lãnh thổ, vùng nước, núi, quỹ
đạo, cấu trúc địa điểm, các loại cơng trình ...
 Thời gian: biểu thức về thời gian trong ngày


Tiền tệ: biểu thức tiền tệ



Phần trăm: phần trăm

Tuy nhiên, một số cơng trình nghiên cứu chỉ tập trung vào việc xác định
và gán nhãn 3 loại nhãn: con người, tổ chức, địa điểm bởi vì các nhãn cịn lại
tương đối dễ nhận dạng dựa vào từ điển, đặc trưng ngôn ngữ.
3.2 Phƣơng pháp phân loại cảm xúc dựa trên học máy
3.2.1 Học có giám sát (Supervised Learning)
Phương pháp học có giám sát là một kỹ thuật của ngành Khoa học máy

tính để xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao
gồm các cặp gồm đối tượng đầu vào (thường dạng vec-tơ), và đầu ra mong
muốn. Đầu ra của một hàm là dự đoán một nhãn cho một đối tượng.
Các bước thực hiện một bài toán:

6

-

Để thực hiện phân lớp, phải chuẩn bị một tập dữ liệu huấn luyện, để có
tập dữ liệu huấn luyện được gán nhãn cho dữ liệu ban đầu, đây được gọi
là bước thu thập tập dữ liệu huấn luyện.

-

Lựa chọn một thuật tốn phân lớp, xây dựng mơ hình để học tập dữ liệu
huấn luyện. Hay nói cách khác, dùng tập dữ liệu huấn luyện để huấn
luyện chương trình phân lớp. Thuật ngữ học có giám sát được hiểu là
học với dữ liệu đã được gán nhãn trước (các dữ liệu kèm theo nhãn
tương ứng này coi như đã được giám sát).

-

Sử dụng một tập dữ liệu kiểm tra đã được gán nhãn trước, để kiểm tra
tính đúng đắn mơ hình. Sau đó, có thể dùng mơ hình để phân lớp cho dữ
liệu mới.
Một vài thuật toán học giám sát:
 Thuật tốn hồi quy logistic, Nạve Bayes.
 Thuật tốn Máy vector hỗ trợ (Support Vector Machine).

 Phương pháp K láng giềng gần nhất (K Nearest Neighbours – KNN).

3.2.2 Học không giám sát
-

Học khơng có giám sát là một phương pháp của ngành học máy tìm ra
một mơ hình phù hợp với các quan sát. Trong học khơng có giám sát,
một tập dữ liệu đầu vào được thu thập. Học không có giám sát thường xử
lý với các đối tượng đầu vào như là một tập các biến ngẫu nhiên. Sau đó,
một mơ hình kết hợp sẽ được xây dựng cho tập dữ liệu đó. Có thể hiểu
đơn giản như sau Học không giám sát là học với tập dữ liệu huấn luyện
ban đầu hoàn toàn chưa được gán nhãn thường sử dụng cho lớp bài toán
gom cụm, phân cụm (Clustering).
Các bước để giải quyết một bài tốn học khơng giám sát:

-

Để thực hiện phân cụm, trước tiên cần một tập dữ liệu huấn luyện
(training

dataset)

–

là

một

tập

các

ví

dụ

học

(training

examples/instances). Trong đó, mỗi ví dụ học chỉ chứa thơng tin biểu
diễn (ví dụ: một vector các giá trị thuộc tính), mà khơng có bất kỳ thơng
tin gì về nhãn lớp hoặc giá trị đầu ra mong muốn (expected output).

7

-

Áp dụng một thuật tốn học khơng có giám sát (ví dụ k-Means) để học
hàm/mơ hình mục tiêu (trong trường hợp này là hàm phân cụm ứng với
thuật toán được chọn).

-

Sử dụng một phương pháp thử nghiệm (có thể kết hợp với một tập dữ
liệu có gán nhãn) để đánh giá hiệu năng, chất lượng của hàm mục tiêu
học được.
Một số thuật tốn học khơng giám sát:

Có rất nhiều thuật tốn học khơng giám sát được ra đời và phát triển nhằm
khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất đa dạng. Việc
lựa chọn sử dụng thuật tốn nào mục đích của từng bài tốn. K-means, HAC
(Hierarchical Agglomerative Clustering), SOM (Self-Organizing Map)…
4. Kết luận và kiến nghị
Trong chuyên đề này, chúng tôi đã thực hiện khảo sát lược sử các hướng tiếp cận
cho bài toán rút trích thơng tin. - Nghiên cứu tổng qt về lĩnh vực phân tích cảm
xúc và các ứng dụng của lĩnh vực trong đời sống và thực nghiện phân tích cảm
xúc với các mơ hình học máy.
- Trích xuất nhóm cụm từ quan trọng để hỗ trợ ra quyết định dựa trên cơ sở cảm
xúc của công chúng về một vấn đề nào đó cần quan tâm.
- Khảo sát các thuật tốn học máy giám sát và khơng giám sát, các hướng tiếp
cận ontology và từ điển phục vụ cho công việc xây dựng mơ hình.

8

5. Tài liệu tham khảo
[1] B. Agarwal and N. Mittal, “Optimal feature selection for sentiment
analysis,” in Proceedings of the 14th International Conference on Intelligent
Text Processing and Computational Linguistics (CICLing 13), vol. 7817, pp.
13–24, 2013.
[2] A. Basant, M. Namita, B. Pooja, Sonal Garg “Sentiment Analysis Using
Common-Sense and Context Information” Hindawi Publishing Corporation
Computational Intelligence and Neuroscience (2015)
[3]

RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and

ensemble: A three stage model for document-level sentiment analysis”

Information Processing and Management 52 (2016) 36– 45.
[4]

Y. Ainur, Y. Yisong, C. Claire

“Multi-level

structured

models

for

document-level sentiment classification”.Proceedings of the 2010 Conference
on Empirical Methods in Natural Language Processing, MIT, Massachusetts,
Association for Computational Linguistics, USA (2010), pp. 1046-1056.
[5] F. Noura, C. Elie, A.A. Rawad, H. Hazem “Sentence-level and documentlevel sentiment mining for arabic texts”.Proceeding IEEE International
Conference on Data Mining Workshops (2010).
[6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis
based on a generalized probabilistic topic and syntax model” Proceedings of the
Twenty-Eighth International Florida Artificial Intelligence Research Society
Conference, Association for the Advancement of Artificial Intelligence (2015).
[7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D. (2014).
Categorizing health-related cues to action: using Yelp reviews of restaurants in
Hawaii. New Review of Hypermedia and Multimedia, 20(4), 317-340.
[8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J. L.
(2012). Why people use Yelp. com: An exploration of uses and gratifications.
Computers in Human Behavior, 28(6), 2274-2279.
[9]

Huang, J., Rogers, S., & Joo, E. (2014). “Improving restaurants by

extracting subtopics from yelp reviews” iConference 2014 (Social Media
Expo).
9

[10] Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ”
Predicting usefulness of Yelp reviews with localized linear regression models”,
2016 7th IEEE International Conference on Software Engineering and Service
Science (ICSESS)
[11]

Solov'ev A. N., Antonova A. Ju., Pazel'skaia A. G., (2012), Using

sentiment-analysis for text information extraction. I-Teco (Moscow).
[12] Wanxiang Che, Yanyan Zhao, Honglei Guo, Zhong Su, and Ting Liu,”
Sentence Compression for spect-Based Sentiment Analysis” IEEE/ACM
TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING,
VOL. 23, NO. 12, DECEMBER 2015.
[13] P.D. Turney,(2000), “Learning algorithms for keyphrase extraction”

Information Retrieval vol. 2, no. 4, pp. 303 - 336.
[14] I.H. Witten, G.W. Paynter, E. Frank, C. Gutwin and C.G. Nevill-

Manning.(1999) “KEA: Practical automatic Keyphrase Extraction.” The
proceedings of Digital Libraries '99: The Fourth ACM Conference on Digital
Libraries, pp. 254-255.
[15] Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen,

(2012) ”Linguistic Features for Subjectivity classification“ Asian Language
Processing (IALP), 2012 International Conference.

Xác nhận thực hiện chuyên đề

Chủ nhiệm đề tài

10

Khảo sát, phân tích hiện trạng các công trình đã nghiên cứu và đề xuất hƣớng nghiên cứu mới

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về