Tải bản đầy đủ (.pdf) (11 trang)

Xây dựng mô hình thuật toán rút dữ liệu trực tuyến từ mạng xã hội theo thời gian thực real time

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (873.51 KB, 11 trang )

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ

Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THƠNG TIN
DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC
Mã số:

Chun đề:

Xây dựng mơ hình thuật toán rút dữ liệu
trực tuyến từ mạng xã hội theo thời gian thực real-time

Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc
Người chủ trì thực hiện chuyên đề : ThS.Nguyễn Tấn Lộc

Bình Dương, 08/01/2018


Mục lục
1.

Đặt vấn đề ........................................................................................................................... 1

2.

Phương pháp xây dựng mô hình ......................................................................................... 1

3.

Nội dung nghiên cứu .......................................................................................................... 2
3.1



Thu thập bộ dữ liệu Yelp ............................................................................................. 2

3.2

Tiền xử lý dữ liệu ......................................................................................................... 2

3.3

Phương pháp phân tích văn bản ................................................................................... 2

3.3.1

Mơ hình N-gram ................................................................................................... 3

3.3.2

Phương pháp thống kê TF-IDF............................................................................. 4

3.3.3

Xây dựng mơ hình huấn luyện với hồi quy logistic ............................................. 6

3.3.4

Phương pháp đánh giá mơ hình ............................................................................ 7

3.3.5

Tối ưu tham số cho mơ hình ................................................................................. 7


4. Kết luận và kiến nghị .............................................................................................................. 8
5. Tài liệu tham khảo .................................................................................................................. 8

Danh mục chữ viết tắt
TF: term frequency
IDF: inverse document frequency
TF.IDF: term frequency. inverse document frequency
DTM: document term matrix
Logistic: hồi quy logistic.
P(A): Xác xuất sự kiện A
NER: Named Entity Recognition
SoA: Sentiment analysis – Phân tích cảm xúc


1. Đặt vấn đề
Trong phần này, chúng tôi khảo sát các phương pháp và các hướng tiếp cận
xây dựng mô hình phân tích cảm xúc.
Kiến trúc hệ thống rút trích thơng tin được đề xuất như hình 1 gồm 02 giai
đoạn.
-

Giai đoạn 1: thực hiện phân loại mức độ cảm xúc tích cực hay tiêu cực.

- Giai đoạn 2: Cơng việc trích xuất thơng tin được thực hiện sau khi phân
loại cảm xúc. Các bình luận khơng chứa quan điểm và cảm xúc hoặc trung
tính được loại bỏ.

2. Phương pháp xây dựng mơ hình


Hình 1. Kiến trúc

hệ thống

1


3. Nội dung nghiên cứu
3.1

Thu thập bộ dữ liệu Yelp gồm có 05 phần

Cung cấp 566.000 thơng tin cơ bản về kinh doanh và 2,2 triệu đánh giá bình luận của
khách hàng với kích thước hơn 2GB. Đối với phân tích này, chúng tơi tập trung vào
các bài đánh giá khía cạnh ẩm thực cho các nhà hàng từ các bình luận.Sau khi trích lọc
theo danh mục quốc gia, chúng tơi thu được 80.266 dịng bình luận.

Hình 2. Thống kê nhà hàng từng quốc gia

3.2

Tiền xử lý dữ liệu

Tập dữ liệu doanh nghiệp kết hợp với tập dữ liệu bình luận và được sắp xếp tổ
chức theo từng quốc gia. Các từ trong dịng bình luận được tách ra và được gỡ bỏ
ký hiệu chấm câu, ký hiệu đặc biệt, các từ stop word, chuẩn hóa chữ thường và
xây dựng ma trận mô tả tần suất các từ trong tài liệu (document term matrix).
Trong thực nghiệm này, bộ dữ liệu được chia thành 02 phần: dữ liệu huấn luyện
mơ hình với tỉ lệ 70% và dữ liệu kiểm tra mô hình là 30%.
3.3


Phương pháp phân tích văn bản

Dữ liệu bình luận thu thập ở dạng văn bản không cấu trúc, để áp dụng các giải
thuật học máy ở giai đoạn tiếp theo chỉ xử lý được dữ liệu dạng bảng. Để giải
quyết vấn đề này, mơ hình túi từ (Harris, 1954), (Salton et al., 1975) cho phép
2


tổ chức tập văn bản dạng cấu trúc bảng - vector tài liệu (Term Document
Matrix).
STT Nôi dung

Phân loại

1

The Pho is so good

1

2

The Services was bad

-1

I like Pho

1


….
n

Bảng1.Tài liệu văn bản
STT 1-

2-

The

Pho

1

1

1

2

1

….

3-Serviecs m-Good

Phân loại

0


0

1

1

1

-1

0

0

1

…..
n

0

1

Bảng 2.Ma trận tần số các từ, cụm từ
Văn bản được biểu diễn dạng véc tơ (có n dịng văn bả , m cột chiều- thuộc
tính) mà giá trị thành phần thứ j là tần số xuất hiện từ thứ j trong văn bản.
Nếu xét tập D gồm n văn bản và tự điển có m từ vựng, D có thể được biểu
diễn thành bảng kích thước n×m, dòng thứ i của bảng là véctơ biểu diễn văn
bản thứ i tương ứng.

3.3.1 Mơ hình N-gram
N-gram là tần suất xuất hiện của từ trong kho ngữ liệu (corpus). Mô hình
này được áp dụng trong rất nhiều lĩnh vực của xử lý ngơn ngữ tự nhiên
như: kiểm lỗi chính tả, dịch máy hay phân đoạn từ... N-gram với độ dài là
1 gọi là unigram, độ dài 2 gọi là bigram, độ dài 3 gọi là trigram, và độ dài
n được gọi chung là N-gram.
Ví dụ :
 Unigram: pho : 1000 thì có nghĩa là tần số xuất hiện của từ
pho là 1000 lần trong corpus.
3


 Bigram: pho viet :10 thì có nghĩa là tần số xuất hiện của cụm
từ pho viet là 10 lần trong corpus.
Nhiệm vụ của mơ hình ngơn ngữ là cho biết xác suất của một từ hoặc cụm từ
W = w1w2...wm là bao nhiêu. Theo công thức Bayes: P(AB) = P(B|A) * P(A),
thì:
P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wm|w1w2…wm-1)
(3.1)
Theo cơng thức này, mơ hình ngơn ngữ cần phải có một lượng bộ nhớ vơ cùng
lớn để có thể lưu hết xác suất của tất cả các chuỗi từ có độ dài nhỏ hơn m. Rõ
ràng, điều này là không thể khi m là độ dài của các văn bản ngơn ngữ tự nhiên
(m có thể tiến tới vơ cùng). Để có thể tính được xác suất của văn bản với lượng
bộ nhớ chấp nhận được, ta sử dụng xấp xỉ Markov bậc n:
P(wm|w1,w2,…, wm-1) = P(wm|wm-n,wm-n+1, …,wm-1)

(3.2)

Nếu áp dụng xấp xỉ Markov, xác suất xuất hiện của một từ (wm) được coi như
chỉ phụ thuộc vào n từ đứng liền trước nó (wm-nwm-n+1…wm-1) chứ khơng phải

phụ thuộc vào tồn bộ dãy từ đứng trước (w1w2…wm-1). Như vậy, cơng thức
tính xác suất văn bản được tính lại theo cơng thức:
P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wm-1|wm-n-1wm-n
…wm-2)* P(wm|wm-nwm-n+1…wm-1)

(3.3)

Với cơng thức này, ta có thể xây dựng mơ hình ngơn ngữ dựa trên việc thống kê
các cụm có ít hơn n+1 từ. Mơ hình ngơn ngữ này gọi là mơ hình ngơn ngữ Ngram. Một cụm N-gram là 1 dãy con gồm n phần tử liên tiếp nhau của 1 dãy các
phần tử cho trước
3.3.2 Phương pháp thống kê TF-IDF
Phương pháp này cịn gọi là mơ hình túi từ (bag-of-words), sử dụng mơ hình
trọng số TF.IDF (term frequency và inverse document frequence). TF.IDF là
trọng số của một từ trong văn bản thu được qua thống kê thể hiện mức độ quan
trọng của từ này trong một văn bản, mà bản thân văn bản đang xét nằm trong
một tập hợp các văn bản.

4


Hình 3. Phương pháp TF-IDF

TF-term frequency : dùng để ước lượng tần xuất xuất hiện của từ trong văn bản.
Tuy nhiên với mỗi văn bản thì có độ dài khác nhau, vì thế số lần xuất hiện của từ
có thể nhiều hơn . Vì vậy số lần xuất hiện của từ sẽ được chia độ dài của văn bản
(tổng số từ trong văn bản đó).
TF(t, d) = ( số lần từ t xuất hiện trong văn bản d) / (tổng số từ trong văn bản
d)
IDF- Inverse Document Frequency: ước tính mức độ ảnh hưởng của từ . Khi
tính tần số xuất hiện tf thì các từ đều được coi là quan trọng như nhau. Tuy

nhiên có một số từ thường được được sử dụng nhiều nhưng không quan trọng để
thể hiện ý nghĩa của đoạn văn , ví dụ :


Từ nối: và, nhưng, tuy nhiên, vì thế, vì vậy, …



Giới từ: ở, trong, trên, …



Từ chỉ định: ấy, đó, nhỉ, …

Vì vậy, IDF tìm cách co lại trọng số tương ứng với các từ khóa xuất hiện trong
nhiều văn bản.
IDF(t,D)=log(N/|D(t)|)

(3.4)

Với N là tổng số tài liệu văn bản, D(w): số văn bản chứa từ t .

5


Trọng số từ (TF.IDF) là tích của tần suất từ khóa TF và nghịch đảo số
văn bản chứa từ khóa đó và được xác định bằng cơng thức:
TF.IDF = f(t).log(N/|D(t)|)

(3.5)


Trong đó f(t) là hàm tính tần số của cụm từ t.
3.3.3 Xây dựng mơ hình huấn luyện với hồi quy logistic
Mơ hình hồi qui logistic tổng qt với k yếu tố nguy cơ x1,x2,…xk được mơ tả
bởi phương trình sau

(3.6)
Trong đó, z được định nghĩa như sau:
z=

+

z=
: hệ số chặn (intercept). Giá trị của z khi tất cả các biến độc lập bằng 0
β1, β2, …βk: hệ số hồi qui cho các từ x1, x2,…, xk. Hệ số hồi qui cho biết hướng
và mức độ ảnh hưởng của các yếu tố đến xác suất . Nếu hệ số hồ qui dương thì
yếu tố nguy cơ làm tăng xác suất xảy ra của sự kiện và ngược lại.
Đồ thị của hồi qui logistic có trục hồnh là giá trị của z và trục tung là giá trị
của f(z) tương ứng xác suất xảy ra sự kiện). z có thể nhận giá trị bất kỳ âm hoặc
dương nhưng f(z) chỉ nhận giá trị trong khoảng 0 và 1.
p(y=1|x
p(y= -1|x

=f(
=1-f(

)=f(z)
)=1-f(z)

Hình 4. Mơ


hình hồi quy logistic

6


3.3.4

Phương pháp đánh giá hiệu suất phân loại cảm xúc

Để đánh giá chất lượng hệ thống, bài báo sử dụng hai độ đo: độ chính xác
(precision) và độ bao phủ (recall). 02 độ đo này được tính tốn theo các công
thức sau:

Giá trị thực tế

Bảng 1.

a

b

c

d

Ma trân đánh giá hệ thống phân loại

(3.7)
(3.8)


Trong đó:
a: số lượng bình luận có nhãn là tích cực và được phân loại là tích cực .
b: số lượng bình luận có nhãn là tích cực và được phân loại là tiêu cực.
c: số lượng bình luận có nhãn là tiêu cực và được phân loại là tích cực
d: số lượng bình luận có nhãn là tiêu cực và được phân loại là tiêu cực.
3.3.5 Tối ưu tham số cho mơ hình
Hàm Loss function cịn gọi là hàm mất mát. Chúng ta mong muốn sai số là nhỏ
nhất, đồng nghĩa với việc tìm vector hệ số

sao cho giá trị của hàm mất mát

này càng nhỏ càng tốt và giảm thiểu vấn đề overfitting.

=

(3.9)

J( )=
Vấn đề chọn tối ưu tham số lamda để tối thiểu hàm loss function với L2 Norm.
7


(3.10)
Trong q trình thực nghiệm, chúng tơi đánh giá hiệu suất lần lượt với các giá
trị C=[0.01,100] với C=1/ , C nhận giá trị lớn thì mức độ chuẩn hóa càng thấp
(overfitting), ngược lại C có giá trị nhỏ độ chuẩn hóa càng cao và chọn giá trị
tối ưu nhất cho mơ hình hồi quy logistic và C=0.2154.

4. Kết luận và kiến nghị

Trong chuyên đề này, chúng tôi đã thực hiện khảo sát lược sử các hướng tiếp
cận xây dựng mơ hình cho bài tốn rút trích thơng tin. - Nghiên cứuvề
phương pháp TF-IDF, N-Gram cho mức độ từ (word) phân tích cảm xúc.
-

Nghiên cứu phương pháp đánh giá phân loại sử dụng confusion matrix.

-

Tối ưu hóa hàm mất mát (Loss function)

-

Chuẩn hóa mơ hình tránh overfitting L2-norm

5. Tài liệu tham khảo
[1] B. Agarwal and N. Mittal, “Optimal feature selection for sentiment
analysis,” in Proceedings of the 14th International Conference on Intelligent
Text Processing and Computational Linguistics (CICLing 13), vol. 7817, pp.
13–24, 2013.
[2] A. Basant, M. Namita, B. Pooja, Sonal Garg “Sentiment Analysis Using
Common-Sense and Context Information” Hindawi Publishing Corporation
Computational Intelligence and Neuroscience (2015)
[3]

RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and

ensemble: A three stage model for document-level sentiment analysis”
Information Processing and Management 52 (2016) 36– 45.
[4]


Y. Ainur, Y. Yisong, C. Claire

“Multi-level

structured

models

for

document-level sentiment classification”.Proceedings of the 2010 Conference
on Empirical Methods in Natural Language Processing, MIT, Massachusetts,
Association for Computational Linguistics, USA (2010), pp. 1046-1056.
[5] F. Noura, C. Elie, A.A. Rawad, H. Hazem “Sentence-level and documentlevel sentiment mining for arabic texts”.Proceeding IEEE International
Conference on Data Mining Workshops (2010).
[6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis
based on a generalized probabilistic topic and syntax model” Proceedings of the
8


Twenty-Eighth International Florida Artificial Intelligence Research Society
Conference, Association for the Advancement of Artificial Intelligence (2015).
[7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D. (2014).
Categorizing health-related cues to action: using Yelp reviews of restaurants in
Hawaii. New Review of Hypermedia and Multimedia, 20(4), 317-340.
[8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J. L.
(2012). Why people use Yelp. com: An exploration of uses and gratifications.
Computers in Human Behavior, 28(6), 2274-2279.
[9]


Huang, J., Rogers, S., & Joo, E. (2014). “Improving restaurants by

extracting subtopics from yelp reviews” iConference 2014 (Social Media
Expo).
[10] Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ”
Predicting usefulness of Yelp reviews with localized linear regression models”,
2016 7th IEEE International Conference on Software Engineering and Service
Science (ICSESS)
[11]

Solov'ev A. N., Antonova A. Ju., Pazel'skaia A. G., (2012), Using

sentiment-analysis for text information extraction. I-Teco (Moscow).
[12] P.D. Turney,(2000), “Learning algorithms for keyphrase extraction”

Information Retrieval vol. 2, no. 4, pp. 303 - 336.
[13] I.H. Witten, G.W. Paynter, E. Frank, C. Gutwin and C.G. Nevill-

Manning.(1999) “KEA: Practical automatic Keyphrase Extraction.” The
proceedings of Digital Libraries '99: The Fourth ACM Conference on Digital
Libraries, pp. 254-255.
[14] Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen,

(2012) ”Linguistic Features for Subjectivity classification“ Asian Language
Processing (IALP), 2012 International Conference.

Xác nhận thực hiện chuyên đề

Chủ nhiệm đề tài


9



×