TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ
Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THƠNG TIN
DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC
Mã số:
Chun đề:
Khảo sát, phân tích hiện trạng các cơng trình đã
nghiên cứu và đề xuất hƣớng nghiên cứu mới
Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc
Ngƣời chủ trì thực hiện chuyên đề : ThS.Nguyễn Tấn Lộc
Bình Dƣơng, 08/01/2018
Mụ c lụ c
1. Đặt vấn đề ........................................................................................................................... 1
2. Phương pháp nghiên cứu .................................................................................................... 1
3. Nội dung nghiên cứu ........................................................................................................... 1
3.1 Phương pháp rút trích thơng tin ................................................................................... 4
3.1.1 Trích rút cụm từ ......................................................................................................... 5
3.1.2 Rút trích dựa trên nhận dạng thực thể ....................................................................... 5
3.2 Phương pháp phân loại cảm xúc dựa trên học máy .......................................................... 6
3.2.1 Học có giám sát (Supervised Learning) .................................................................... 6
3.2.2 Học không giám sát ................................................................................................... 7
4. Kết luận và kiến nghị ........................................................................................................... 8
5. Tài liệu tham khảo ............................................................................................................... 9
Danh mục chữ viết tắt
TF: term frequency
IDF: inverse document frequency
TF.IDF: term frequency. inverse document frequency
DTM: document term matrix
Logistic: hồi quy logistic.
P(A): Xác xuất sự kiện A
NER: Named Entity Recognition
SoA: Sentiment analysis – Phân tích cảm xúc
1. Đặt vấn đề
Trong phần này, chúng tôi khảo sát các phương pháp và các hướng tiếp cận
phân tích cảm xúc. Dữ liệu văn bản tiềm ẩn rất nhiều tri thức có giá trị do con
người tạo ra nhằm chia sẻ với cộng đồng chẳn hạn như kinh nghiệm,ý kiến và
cảm xúc trải qua. Mỗi khi cần đưa ra một quyết định gì, chúng ta thường tham
khảo đến ý kiến của cộng đồng bằng cách tìm kiếm trên Internet. Các công cụ
khai phá quan điểm thực hiện một cách tự động và hệ thống trích xuất các khía
cạnh liên quan cho một vấn đề cụ thể, trên cơ sở phân tích ý kiến, chúng ta đưa
ra các quyết định hợp lý.
2. Phƣơng pháp nghiên cứu
Thu thập tài liệu của các tác giả trong, ngoài nước liên quan đến đề tài.
Nghiên cứu các bài báo và phát triển lý thuyết phục vụ đề tài.
Nghiên cứu thực nghiệm và đánh giá kết quả dựa vào phương pháp
thống kê
3. Nội dung nghiên cứu
Hình 1. Các
hướng tiếp cận phân tích cảm xúc
Nhiệm vụ phân tích cảm xúc là xác định các quan điểm, các đặc trưng khía
cạnh, các thực thể và xác định chủ thể. Công việc khai thác tri thức giúp họ hiểu rõ
hơn về khách hàng, sản phẩm, dịch vụ đề (B. Agarwal et al.,2013)[1]. Mục tiêu tự
động hóa trích xuất đặc trưng đối tượng và phân loại cảm xúc (Basant et al.,
2015)[2] dựa trên xử lý ngôn ngữ tự nhiên từ nguồn các bình luận.
Mục tiêu chính thực hiện phân loại cảm xúc là xếp hạng các chỉ số đánh giá cảm
xúc diễn giải trong văn bản. Nó được xem xét ở 03 mức độ : Tài liệu (RuiXia
et.al.,2016)[3].(Ainur et al.,2010)[4], câu từ (Noura et al., 2010)[5], và mức khía
cạnh đặc trưng đối tượng (Haochen et.al.,2015)[6].
1
Trong nghiên cứu này, chúng tơi phân tích cảm xúc dựa vào nguồn dữ liệu thu
thập từ dịch vụ Yelp. Yelp là một tập đoàn đa quốc gia của Hoa Kỳ được thành lập
vào 2004 nhằm giúp mọi người định vị doanh nghiệp dựa trên rên mạng xã hội chức
năng và đánh giá xếp hạng dịch vụ. Hàng triệu người sử dụng dịch vụ Yelp cung cấp
một khối dữ liệu khổng lồ và ảnh hưởng đến quyết định lựa chọn thực phẩm của
người tiêu dùng. Do đó, các bình luận từ Yelp trở thành chỉ số đánh giá cho chất
lượng ngành dịch vụ ẩm thực. Những năm gần đây, nhiều cơng trình nghiên cứu tiếp
cận khai thác dữ liệu nhằm rút trích cảm xúc và diễn giải ý nghĩa.
Hướng tiếp cận phương pháp học máy được sử dụng rộng rãi cho lĩnh vực xử lý
ngôn ngữ tự nhiên chẳn hạn như: (RuiXia et al.,2016) đề xuất mơ hình PSDEE để
phát hiện cảm xúc không nhất quán trong văn bản. Nghiên cứu này trình bày mơ
hình ba giai đoạn để phân loại cảm xúc:(1) phát hiện chuyển đổi phân cực, (2) loại
bỏ phân cực trong các phủ định, và (3) chuyển đổi phân cực theo mơ hình tổ hợp.
(Haochen Zhou et al.,2015)[6] xây dựng mơ hình POSLDA lựa chọn các đặc trưng
văn bản. Nó thực hiện tách các lớp ngữ nghĩa (danh từ, động từ, tính từ và trạng từ)
và các lớp cú pháp ( giới từ, và từ liên kết), xác định các từ có ý nghĩa và bổ sung
thơng tin các thực thể cụ thể. (James Huang et al,.2014.) Nhóm tác giả áp dụng
Latent Dirichlet Allocation (LDA) khám phá các chủ đề ẩn , dự đoán xếp hạng sao
mỗi chủ đề ẩn đồng thời liên hệ thông tin thời gian cao điểm của nhà hàng, rút trích
thơng tin chi tiết thú vị và chắc chắn hữu ích cho chủ nhà hàng.
(Ruhui Shen, et al,2016) xây dựng các mơ hình hồi quy tuyến tính, hồi quy LASSO ,
hồi quy học máy vector (SVM) và thước đo RMSLE để tiên lượng và trích lọc các
bình luận hữu ích dựa trên cơ sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống
kê, phổ biến và khác các tính năng định tính được trích từ người dùng, doanh nghiệp.
Trong nghiên cứu này, chúng tôi tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây
dựng mơ hình hồi quy logistic phân loại cảm xúc.(2) trích xuất thơng tin các bình
luận quan trọng chứa cảm xúc tốt nhất và tệ nhất ẩm thực theo quốc gia.
2
TT
Tiêu đề
Giải quyết vấn
Phƣơng pháp
đề
1
RuiXia,
Dịch chuyển
Các quy tắc
FengXu et
phân cực cảm
PSDEE và
al (2016)
xúc
phương pháp
Bộ
Độ chính
dữ liệu
xác
Movie Reivew
87.1%
Hạn chế
Độ chính xác
chưa cao
thống kê
2
V.K
Dịch chuyển
Từ điển cảm
SWN(AC
Khó mở rộng
Singh,
phân cực cảm
xúc
C)
từ điển,
R.Piryani
xúc và độ
=77.6%
khơng xác
et al
chính xác
SWN(AA
định được
AVC)-
ngữ cảnh.
Movie Reivew
78.7%
Alchemy=
77.4%
3
Y. Ainur,
Kết hợp trích
Y. Yisong
xuất các câu
ánh mức độ
et al (2010)
hữu ích làm cơ
cảm xúc chỉ
sở phân loại
có tích cực
cảm xúc ở
và tiêu cực
SVM
Movie Reviews
92.2%
Không phản
mức tài liệu
4
A. Basant,
dựa trên các
Ontology,
restaurant
M. Namita
thông tin phổ
ConcepNet
review
80.1%
Khó mở rộng
ontology cho
biến và ngữ
các domain
cảnh
5
TripAdvisor
Chỉ mới thực
Hao chen
Topic
POSLDA,
Zhou and
modelling,
Maximum
hiện cho
Fei Song
Lựa chọn các
Entropy
unigram
95%
đặc trưng, chia classifier
tách ngữ nghĩa
và cú pháp câu
6
Huang, J.,
Phát hiện chủ
Latent
Rogers, S.,
đề phụ - Topic
Dirichlet
Yelp
Không đề
Chỉ thực
cập
hiện unigram
3
& Joo
modelling
Allocation
(LDA)
7
Ruhui
Dự đốn và
Mơ hình
Shen,
trích lọc các
tuyến tính
Jialiang
bình luận hữu
Locally
cảnh bình
Shen,
ích cho các
Weighted
luận
Yuhong Li
nhà hàng địa
Regression
phương
(LOESS)
Yan
Các vấn đề
Kỹ thuật
Zhao,Hong
chuyển đổi cú
lei, et al
pháp câu
(2016)
8
(2015)
Yelp
RMSLE of
Không phát
0.47769
hiện ngữ
No_comp
Kỹ thuật
cộng hưởng
_ssc=
cộng hưởng
cảm xúc
88.78%
cảm xúc
trước khi
Manual_c
chưa đạt độ
thực hiện
omp_ssc=
chính xác
phân tích
88.5%
cao
Chinese blog
cảm xúc
Bảng 1. So sánh các hướng tiếp cận phân tích cảm xúc
Trong nước, Nhóm tác giả Huong Nguyen Thi Xuan, Anh Cuong Le, (2012)
[15] thực hiện phân loại câu văn chứa xúc cảm hay không chứa cảm xúc dựa
trên 22 mẫu phân tích trên mẫu cơ sở cú pháp (syntax-based patterns). Phương
pháp phân tích của các tác giả [15] dựa vào phân tích từ vựng để xác định từ
loại từ trong câu văn bản và sử dụng mẫu cú pháp để nhận dạng tính từ, cụm
tính từ tương ứng; trợ động từ, động từ và cụm động từ; danh từ và cụm danh
trên cơ sở cú pháp mà các tác giả đề xuất để thực hiện trích xuất.
3.1 Phƣơng pháp rút trích thơng tin
Trích xuất thơng tin là tìm ra các thông tin cấu trúc, thông tin cần thiết từ
một tài liệu, trong khi truy vấn thơng tin là tìm ra các tài liệu liên quan, hoặc
một phần tài liệu liên quan từ kho dữ liệu như thư viện số hoặc nguồn tài liệu
online để phản hồi cho người dùng tùy vào một truy vấn cụ thể.
Các cơng trình nghiên cứu truy vấn và rút trích thơng tin hiện nay hướng tới các
phương pháp tối ưu nhằm cho kết quả phản hồi tốt hơn, gần đúng hoặc đúng
với nhu cầu người dùng và tập trung vào các hướng sau.
4
Rút trích các thuật ngữ (Terminology extraction): tìm kiếm các thuật
ngữ chính có liên quan, thể hiện ngữ nghĩa, nội dung, chủ đề tài liệu hay một
tập các tài liệu.
Rút trích các thực thể (named entity recognition): việc rút trích ra các
thực thể tập trung vào các phương pháp nhận diện các đối tượng, thực thể như:
tên người, tên công ty, tên tổ chức, một địa danh, nơi chốn.
Rút trích quan hệ (Relationship Extraction): cần xác định mối quan
hệ giữa các thực thể đã nhận biết từ tài liệu.
3.1.1 Trích rút cụm từ
Turney (2000) được xem là người đầu tiên giải quyết bài tốn rút trích
các keyphrase dựa trên phương pháp học giám sát [13], trong khi các nghiên
cứu khác dùng heuristic, kỹ thuật phân tích n-gram, phương pháp như mạng
Neural. KEA [14] là một thuật tốn trích xuất các cụm từ khóa (keyphrases) từ
dữ liệu văn bản. KEA xác định danh sách các cụm ứng viên dùng các phương
pháp từ vựng học, sau đó tiến hành tính tốn giá trị đặc trưng cho mỗi ứng viên,
tiếp đến dùng thuật toán học máy để tiên đoán xem các cụm ứng viên nào là các
cụm từ khóa. Hiện nay KEA được xem là một thuật toán đơn giản và hiệu quả
nhất để rút các keyphrases. KEA dùng phương pháp học máy Nạve Bayes để
huấn luyện và rút trích các keyphrase.
3.1.2 Rút trích dựa trên nhận dạng thực thể
Nhận diện thực thể có tên (NER-Named Entity Recognition) là một cơng
việc thuộc lĩnh vực trích xuất thơng tin nhằm tìm kiếm, xác định và phân lớp
các thành tố trong văn bản không cấu trúc thuộc vào các nhóm thực thể được
xác định trước như tên người, tổ chức, vị trí, biểu thức thời gian, con số, giá trị
tiền tệ, tỉ lệ phần trăm, v.v. Thực thể có tên (Named Entity) có rất nhiều ứng
dụng, đặc biệt trong các lĩnh vực như hiểu văn bản, dịch máy, truy vấn thông
tin, và hỏi đáp tự động.
Nhận diện thực thể có tên gồm 2 tác vụ con sau đây.
Nhận diện thực thể có tên trong văn bản đầu vào.
Gán nhãn cho các thực thể có tên đã nhận diện được .
Nhận diện thực thể đơn ngữ
5
Nhận diện thực thể có tên trên đơn ngữ là hướng tiếp cận đầu tiên và đa
dạng nhất tính đến hiện nay. Sự đa dạng của nó nằm ở việc phát triển trên nhiều
ngôn ngữ đặc biệt là các ngôn ngữ khan hiếm tài nguyên như tiếng Việt, Hoa...
Trong khi đó, với các ngơn ngữ như tiếng Anh, việc nhận diện thực thể có tên đã
đạt được độ chính xác rất cao. Một số ứng dụng nhận diện thực thể được công bố
như: Standford NER, OpenNLP, NETTagger, GATE..
Gán nhãn thực thể
Sau khi nhận dạng ra được các thực thể có tên, ta sẽ tiến hành gán nhãn
cho thực thể. loại nhãn, số lượng nhãn rất đa dạng, phụ thuộc vào mục đích ứng
dụng.
Nhãn thực thể gồm các loại :
Con người : tên người và họ, bí danh, nghệ danh, ...
Tổ chức: tên tổ chức, cơ quan, chính phủ, cơng ty, các thực thể
mang tính tổ chức ...
Địa điểm: tỉnh, thành phố, vùng lãnh thổ, vùng nước, núi, quỹ
đạo, cấu trúc địa điểm, các loại cơng trình ...
Thời gian: biểu thức về thời gian trong ngày
Tiền tệ: biểu thức tiền tệ
Phần trăm: phần trăm
Tuy nhiên, một số cơng trình nghiên cứu chỉ tập trung vào việc xác định
và gán nhãn 3 loại nhãn: con người, tổ chức, địa điểm bởi vì các nhãn cịn lại
tương đối dễ nhận dạng dựa vào từ điển, đặc trưng ngôn ngữ.
3.2 Phƣơng pháp phân loại cảm xúc dựa trên học máy
3.2.1 Học có giám sát (Supervised Learning)
Phương pháp học có giám sát là một kỹ thuật của ngành Khoa học máy
tính để xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao
gồm các cặp gồm đối tượng đầu vào (thường dạng vec-tơ), và đầu ra mong
muốn. Đầu ra của một hàm là dự đoán một nhãn cho một đối tượng.
Các bước thực hiện một bài toán:
6
-
Để thực hiện phân lớp, phải chuẩn bị một tập dữ liệu huấn luyện, để có
tập dữ liệu huấn luyện được gán nhãn cho dữ liệu ban đầu, đây được gọi
là bước thu thập tập dữ liệu huấn luyện.
-
Lựa chọn một thuật tốn phân lớp, xây dựng mơ hình để học tập dữ liệu
huấn luyện. Hay nói cách khác, dùng tập dữ liệu huấn luyện để huấn
luyện chương trình phân lớp. Thuật ngữ học có giám sát được hiểu là
học với dữ liệu đã được gán nhãn trước (các dữ liệu kèm theo nhãn
tương ứng này coi như đã được giám sát).
-
Sử dụng một tập dữ liệu kiểm tra đã được gán nhãn trước, để kiểm tra
tính đúng đắn mơ hình. Sau đó, có thể dùng mơ hình để phân lớp cho dữ
liệu mới.
Một vài thuật toán học giám sát:
Thuật tốn hồi quy logistic, Nạve Bayes.
Thuật tốn Máy vector hỗ trợ (Support Vector Machine).
Phương pháp K láng giềng gần nhất (K Nearest Neighbours – KNN).
3.2.2 Học không giám sát
-
Học khơng có giám sát là một phương pháp của ngành học máy tìm ra
một mơ hình phù hợp với các quan sát. Trong học khơng có giám sát,
một tập dữ liệu đầu vào được thu thập. Học không có giám sát thường xử
lý với các đối tượng đầu vào như là một tập các biến ngẫu nhiên. Sau đó,
một mơ hình kết hợp sẽ được xây dựng cho tập dữ liệu đó. Có thể hiểu
đơn giản như sau Học không giám sát là học với tập dữ liệu huấn luyện
ban đầu hoàn toàn chưa được gán nhãn thường sử dụng cho lớp bài toán
gom cụm, phân cụm (Clustering).
Các bước để giải quyết một bài tốn học khơng giám sát:
-
Để thực hiện phân cụm, trước tiên cần một tập dữ liệu huấn luyện
(training
dataset)
–
là
một
tập
các
ví
dụ
học
(training
examples/instances). Trong đó, mỗi ví dụ học chỉ chứa thơng tin biểu
diễn (ví dụ: một vector các giá trị thuộc tính), mà khơng có bất kỳ thơng
tin gì về nhãn lớp hoặc giá trị đầu ra mong muốn (expected output).
7
-
Áp dụng một thuật tốn học khơng có giám sát (ví dụ k-Means) để học
hàm/mơ hình mục tiêu (trong trường hợp này là hàm phân cụm ứng với
thuật toán được chọn).
-
Sử dụng một phương pháp thử nghiệm (có thể kết hợp với một tập dữ
liệu có gán nhãn) để đánh giá hiệu năng, chất lượng của hàm mục tiêu
học được.
Một số thuật tốn học khơng giám sát:
Có rất nhiều thuật tốn học khơng giám sát được ra đời và phát triển nhằm
khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất đa dạng. Việc
lựa chọn sử dụng thuật tốn nào mục đích của từng bài tốn. K-means, HAC
(Hierarchical Agglomerative Clustering), SOM (Self-Organizing Map)…
4. Kết luận và kiến nghị
Trong chuyên đề này, chúng tôi đã thực hiện khảo sát lược sử các hướng tiếp cận
cho bài toán rút trích thơng tin. - Nghiên cứu tổng qt về lĩnh vực phân tích cảm
xúc và các ứng dụng của lĩnh vực trong đời sống và thực nghiện phân tích cảm
xúc với các mơ hình học máy.
- Trích xuất nhóm cụm từ quan trọng để hỗ trợ ra quyết định dựa trên cơ sở cảm
xúc của công chúng về một vấn đề nào đó cần quan tâm.
- Khảo sát các thuật tốn học máy giám sát và khơng giám sát, các hướng tiếp
cận ontology và từ điển phục vụ cho công việc xây dựng mơ hình.
8
5. Tài liệu tham khảo
[1] B. Agarwal and N. Mittal, “Optimal feature selection for sentiment
analysis,” in Proceedings of the 14th International Conference on Intelligent
Text Processing and Computational Linguistics (CICLing 13), vol. 7817, pp.
13–24, 2013.
[2] A. Basant, M. Namita, B. Pooja, Sonal Garg “Sentiment Analysis Using
Common-Sense and Context Information” Hindawi Publishing Corporation
Computational Intelligence and Neuroscience (2015)
[3]
RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and
ensemble: A three stage model for document-level sentiment analysis”
Information Processing and Management 52 (2016) 36– 45.
[4]
Y. Ainur, Y. Yisong, C. Claire
“Multi-level
structured
models
for
document-level sentiment classification”.Proceedings of the 2010 Conference
on Empirical Methods in Natural Language Processing, MIT, Massachusetts,
Association for Computational Linguistics, USA (2010), pp. 1046-1056.
[5] F. Noura, C. Elie, A.A. Rawad, H. Hazem “Sentence-level and documentlevel sentiment mining for arabic texts”.Proceeding IEEE International
Conference on Data Mining Workshops (2010).
[6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis
based on a generalized probabilistic topic and syntax model” Proceedings of the
Twenty-Eighth International Florida Artificial Intelligence Research Society
Conference, Association for the Advancement of Artificial Intelligence (2015).
[7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D. (2014).
Categorizing health-related cues to action: using Yelp reviews of restaurants in
Hawaii. New Review of Hypermedia and Multimedia, 20(4), 317-340.
[8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J. L.
(2012). Why people use Yelp. com: An exploration of uses and gratifications.
Computers in Human Behavior, 28(6), 2274-2279.
[9]
Huang, J., Rogers, S., & Joo, E. (2014). “Improving restaurants by
extracting subtopics from yelp reviews” iConference 2014 (Social Media
Expo).
9
[10] Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ”
Predicting usefulness of Yelp reviews with localized linear regression models”,
2016 7th IEEE International Conference on Software Engineering and Service
Science (ICSESS)
[11]
Solov'ev A. N., Antonova A. Ju., Pazel'skaia A. G., (2012), Using
sentiment-analysis for text information extraction. I-Teco (Moscow).
[12] Wanxiang Che, Yanyan Zhao, Honglei Guo, Zhong Su, and Ting Liu,”
Sentence Compression for spect-Based Sentiment Analysis” IEEE/ACM
TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING,
VOL. 23, NO. 12, DECEMBER 2015.
[13] P.D. Turney,(2000), “Learning algorithms for keyphrase extraction”
Information Retrieval vol. 2, no. 4, pp. 303 - 336.
[14] I.H. Witten, G.W. Paynter, E. Frank, C. Gutwin and C.G. Nevill-
Manning.(1999) “KEA: Practical automatic Keyphrase Extraction.” The
proceedings of Digital Libraries '99: The Fourth ACM Conference on Digital
Libraries, pp. 254-255.
[15] Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen,
(2012) ”Linguistic Features for Subjectivity classification“ Asian Language
Processing (IALP), 2012 International Conference.
Xác nhận thực hiện chuyên đề
Chủ nhiệm đề tài
10