Tải bản đầy đủ (.pdf) (62 trang)

Báo Cáo Khai Phá Dữ Liệu Phân Tích Quan Điểm Phân Tích Mạng Xã Hội TWITTER

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.65 MB, 62 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Đào Quốc Vương

THU HỒI QUAN ĐIỂM VỀ THỰC THỂ
TRÊN MẠNG XÃ HỘI TWITTER

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:Công nghệ thông tin

HÀ NỘI - 2013


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Đào Quốc Vương

THU HỒI QUAN ĐIỂM VỀ THỰC THỂ
TRÊN MẠNG XÃ HỘI TWITTER

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:Công nghệ thông tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy

Cán bộ đồng hướng dẫn:NCS Vũ Ngọc Trình

HÀ NỘI – 2013



VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Dao Quoc Vuong

OPINION RETRIEVALABOUT ENTITY
IN TWITTER

Major: Information technology

Supervisor: Assoc. Prof. Ha Quang Thuy

Co-Supervisor: Masters. Vu Ngoc Trinh

HA NOI-2013


THU HỒI QUAN ĐIỂM VỀ THỰC THỂ TRÊN MẠNG XÃ HỘI TWITTER
Đào Quốc Vương
Khóa QH-2009-I/CQ, ngành công nghệ thông tin
Tóm tắt khóa luận:
Thu hồi quan điểm (opinion retrieval) là bài toán tiến hành thu hồi các quan điểm
trong một nguồn tài liệu, trong đó có các mạng xã hội, chẳng hạn như Twitter. Thu hồi
quan điểm có nhiều ứng dụng và được dựa trên các giải pháp công nghệ tiên tiến vì vậy
thu hút sự quan tâm đặc biệt của nhiều nhóm nghiên cứu trên thế giới. Nhiều công trình
nghiên cứu về thu hổi quan điểm đã được công bố [1,6,9,12,15,16,22]. Trong một vài năm
gần đây, một số nghiên cứu về thu hồi quan điểm từ mạng Twitter đã được công bố.
Trên cơ sở tìm hiểu và phân tích các công trình nghiên cứu liên quan, đặc biệt là các
công trình [1,2,6,22], khóa luận khảo sát các phương pháp thu hồi quan điểm trên nhiều

miền, nhiều lịch vực. Trên cơ sở các phân tích nói trên, khóa luận đề nghị một mô hình
thu hồi quan điểm trên mạng xã hội Twitter.
Đồng thời, khóa luận xây dựng hệ thống thử nghiệm thi hành mô hình nói trên và
hành thực nghiệm với bộ dữ liệu (253711 tweet) được lấy bằng Twitter Search API. Kết
quả thực nghiệm đạt độ chính xác phân lớp chủ quan khoảng 76.7% và phân lớp phân cực
khoảng hơn 81%, cho thấy tính hiệu quả của mô hình đề xuất.

Từ khóa: Opinion, retrieval, twitter


OPINION RETRIEVAL ABOUT ENTITY IN TWITTER
Dao Quoc Vuong
QH-2009-I/CQ course, information technology faculty.
Abstract thesis:
Opinion retrieval is problem to recover the perspective of a resource, including
social networking sites, such as Twitter. Opinion retrieval is a problem with many
applications, has attracted the special attention of many research group around the world.
Many research works were recovered announced [1,6,9,12,15,16,22]. In particular, there
have been some studies on the recovery from Twitter for a few years.
On the basis of understanding and comparison of research works related above,
especially the works [1,2,6,22], thesis explored methods perspective on recovery multiple
domains, many tourist areas, through the process of understanding and analysis, the thesis
proposed model recovery perspective on social network twitter.
With the flourish of online social network such as Twitter, Facebook, social data
network is becoming a more and more useful and important information and resource for
people and organization. This flourishing is not only a chance but also a challenge to
build an opinion search and retrieval system. This thesis study and propose an opinion
retrieval on Twitter. The experimental results show the effectiveness of the proposed
system.
At the same time, the implementation of the thesis mentioned above with a model

experimental system and conducted experimental evaluation of the model on data taken
over twitter with Twitter Search API. The experimental results achieved subjective
classification of about 76.7%, classification accuracy of about 81.% polarization showed
the effectiveness of the proposed model.

Keyword: Opinion, retrieval, twitter


Lời cảm ơn
Lời đầu tiên, khóa luận xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS
Hà Quang Thụy, NCS Vũ Ngọc Trình đã tận tình hướng dẫn và chỉ bảo khóa luận trong
suốt quá trình thực hiện khóa luận tốt nghiệp.
Khóa luận xin chân thành cảm ơn các thầy, cô trong trường đại học Công Nghệ - đại
học Quốc gia Hà Nội đã tạo mọi điều kiện thuận lợi cho khóa luận học tập và nghiên cứu.
Khóa luận cũng xin gửi lời cảm ơn đến các thầy cô, các anh chị, các bạn trong
phòng thí nghiệm KT-Lab đã hỗ trợ khóa luận rất nhiều về kiến thức chuyên môn trong
quá trình thực hiện khóa luận. Khóa luận xin cảm ơn các bạn trong lớp K54CLC đã ủng
hộ và khuyến khích khóa luận trong suốt suốt quá trình học tập tại trường.
Cuối cùng, khóa luận xin được gửi cám ơn vô hạn tới gia đình và bạn bè, những
người đã luôn bên cạnh, giúp và động viên khóa luận trong quá trình học tập cũng như
trong suốt quá trình thực hiện khóa luận này.
Khóa luận xin chân thành cảm ơn!
Hà Nội, ngày 13 tháng 05 năm 2013
Sinh viên

Đào Quốc Vương


Lời cam đoan


Khóa luận xin cam đoan phương pháp thu hồi quan điểm về thực thể trên mạng xã
hội twitter và thực nghiệm được trình bày trong khóa luận này là do khóa luận thực hiện
dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và NCS Vũ Ngọc Trình.
Tất cả các tài liệu tham khảo từ các nghiên cứu liên quan đều có nguồn gốc rõ ràng
từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc sao chép
tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo.

Hà Nội, ngày 13 tháng 05 năm 2015
Sinh viên

Đào Quốc Vương


Mục lục
Lời mở đầu 1
Chương 1. Khái quát bài toán thu hồi quan điểm về thực thể trên mạng xã hội
Twitter
3
1.1.

Mạng xã hội twitter ....................................................................................... 3

1.1.1. Mạng xã hội .............................................................................................. 3
1.1.2. Giới thiệu về mạng xã hội twitter ............................................................. 4
1.1.3. Dữ liệu trên twitter.................................................................................... 8
1.2.

Phát biểu bài toán .......................................................................................... 9

1.2.1. Bài toán thu hồi quan điểm ....................................................................... 9

1.2.2. Bài toán thu hồi quan điểm về thực thể trên mạng xã hội twitter ............ 9
1.2.3. Ý nghĩa của bài toán thu hồi quan điểm về thực thể trên mang xã hội .. 10
1.2.4. Khó khăn và thách thức .......................................................................... 11
1.3.

Tóm tắt chương 1 ........................................................................................ 11

Chương 2. Cơ sở lý thuyết và các ngiên cứu liên quan ....................................... 12
2.1.

Hệ thống phân lớp quan điểm ..................................................................... 12

2.1.1. Các đặc trưng phân lớp quan điểm ......................................................... 12
2.1.2. Phân lớp quan điểm chủ quan/khách quan ............................................. 15
2.1.3. Phân lớp quan điểm phân cực ................................................................. 16
2.2.

Thuật toán SVM.......................................................................................... 17

2.2.1. Giới thiệu thuật toán ............................................................................... 17
2.2.2. Cách áp dụng thuật toán SVM vào bài toán phân lớp quan điểm .......... 18
2.3.

Độ tương đồng ............................................................................................ 19

2.3.1. Độ đo Cosine .......................................................................................... 20
2.3.2. Độtương đồngdựa trên khoảng cách Lenvenshtein ................................ 20


2.4.


Áp dụng độ tương đồng cho bài toán thu hồi quan điểm về thực thể trên

mạng xã hội twitter ................................................................................................ 22
2.5.

Twitter Search API ..................................................................................... 23

2.6.

Tóm tắt chương 2 ........................................................................................ 27

Chương 3. Mô hình đề xuất ................................................................................... 28
3.1.

Mô hình giải quyết bài toán ........................................................................ 28

3.2.

Giải quyết chi tiết các pha .......................................................................... 30

3.2.1. Crawler dữ liệu tweet liên quan đến thực thể (query), tiền xử lý và chuẩn
hóa dữ liệu tweet .............................................................................................. 30
3.2.2. Xây dựng bộ phân lớp chủ quan/khách quan, sử dụng bộ phân lớp chủ
quan/khách quan để phân lớp cho dữ liệu tweet mới đã được chuẩn hóa ........ 33
3.2.3. Xây dựng bộ phân phân cực, sử dụng bộ phân lớp phân cực để phân lớp
các dữ liệu tweet chủ quan ............................................................................... 34
3.2.4. Trực quan hóa kết quả từ dữ liệu tweet đã được gán nhãn phân cực ..... 35
3.3.


Tóm tắt chương 3 ........................................................................................ 35

Chương 4. Thực nghiệm và đánh giá.................................................................... 37
4.1. Hướng tiếp cận thực nghiệm ........................................................................... 37
4.2. Môi trường thực nghiệm ................................................................................. 38
4.2.1. Cấu hình phần cứng ................................................................................ 38
4.2.2. Công cụ phân mềm ................................................................................. 38
4.3.Dữ liệu .............................................................................................................. 38
4.4. Thực nghiệm ................................................................................................... 39
4.4.1.Xây dựng bộ phâp lớp chủ quan/khách quan .......................................... 39
4.4.2. Sử dụng bộ phân lớp chủ quan/ khách quan với dữ liệu đã được chuẩn
hóa ................................................................................................................ 40
4.4.3. Xây dựng bộ phân lớp phân cực ............................................................. 40


4.4.4. Sử dụng bộ phân lớp phân cực ............................................................... 40
4.4.5 Trực quan hóa kết quả ............................................................................. 41
4.5. Đánh giá hệ thống ........................................................................................... 44
4.5 Tóm tắt chương 4 ............................................................................................. 45
Kết luận và định hướng tiếp theo ........................................................................... 46
Tài liệu tham khảo ................................................................................................... 47


Danh sách bảng
Bảng 1.

Cách sử dung Search API ........................................................................ 26

Bảng 2.


Các từ mã hóa HTML.............................................................................. 31

Bảng 3.

Ví dụ về biểu tượng cảm xúc trong từ điển ............................................. 31

Bảng 4.

Ví dụ từ điển chuẩn hóa........................................................................... 32

Bảng 5.

Ví dụ về từ điển viết tắt ........................................................................... 32

Bảng 6.

Các đặc trưng sử dụng trong bộ phân lớp chủ quan/ khách quan ........... 33

Bảng 7.

Một số từ mang quan điểm trong từ điển quan điểm .............................. 34

Bảng 8.

Các đặc trưng sử dụng trong bộ phân lớp phân cực ................................ 35

Bảng 9.

Cấu hình phần cứng ................................................................................. 38


Bảng 10.

Công cụ phần mềm sử dụng .................................................................... 38

Bảng 11.

Kết quả sử dụng bộ phân lớp chủ quan/ khách quan............................... 40

Bảng 12.

Kết quả sử dụng bộ phân lớp phân cực ................................................... 41


Danh sách hình vẽ
Hình 1.

Những hình ảnh thể hiện mạng xã hội năm 2012 ..................................... 4

Hình 2.

Rút gọn link trên tweet .............................................................................. 5

Hình 3.

Kiến trúc ứng dụng sử dụng mô hình Rest API ........................................ 8

Hình 4.

Kiến trúc ứng dụng sử dụng mô hình Stream API .................................... 9


Hình 5.

Mặt siêu phẳng phân chia tập dữ liệu thành hai lớp dương và âm. ......... 18

Hình 6.

Mô hình giải quyết bài toán ..................................................................... 28

Hình 7.

Dữ liệu thực nghiệm ................................................................................ 39

Hình 8.

Biểu diễn tổng quan các thực thể về quan điểm ...................................... 41

Hình 9.

Biểu diễn quan điểm về Iphone5 theo phần trăm .................................... 42

Hình 10.

Biểu diễn số lượng quan điểm về Iphone5 .............................................. 42

Hình 11.

Biểu diễn quan điểm về Iphone5 theo thời gian biểu đồ cột ................... 43

Hình 12.


Biểu diễn quan điểm về Iphone5 theo thời gian biểu đồ đường ............. 44


Danh sách các từ viết tắt

Từ viết tắt
SVM
NLP
POS
API
SVMs
CNTT
ASCII
SMS
URL
TF-IDF
JSON
HTML

Cụm từ
Support Vector Machine
Natural Language Processing
Part-of-speech
Application programming interface
Support vector machines
Công nghệ thông tin
American Standard Code for Information Interchange
Short Message Service
Uniform Resource Locator
term frequency–inverse document frequency

JavaScript Object Notatio
HyperText Markup Language


Lời mở đầu
Sự bùng nổ ngày càng mạnh mẽ của mạng xã hội mở ra nhiều cơ hội cho các tổ
chức, cá nhân thu thập, tìm kiếm thông tin cũng như xử lý chúng và nhiều bài toán được
đặt ra để khai thác nguồn thông tin dồi dào từ mạng xã hội.
Thu hồi quan điểm là một trong các bài toán khai thác thông tin, giúp người dùng có
thể có được những thông tin mong muốn về quan điểm. Tương tự như bài toán thu hồi
web thông thường, thu hồi quan điểm giúp người dùng tìm được những tài liệu quan điểm
liên quan đến truy vấn. Tuy nhiên, điều khác biệt quan trọng hơn là thu hồi quan điểm còn
bao gồm nội dung tổng hợp quan điểm từ các tài liệu quan điểm thu hồi được.
Với sự phát triển nhanh chóng cùng với các API hỗ trợ, mạng xã hội Twitter đã trở
thành một nguồn cung cấp nhiều thông tin quan điểm cho những người nghiên cứu về
mạng xã hội.
Đã có nhiều công trình nghiên cứu, chẳng hạn[1,6,9,12,15,22], liên quan đến bài
toán thu hồi quan điểm theo các phương pháp khác nhau từ nhiều nguồn dữ liệu. Nói
riêng, nhiều công trình nghiên cứu về thu hồi quan điểm trên twitter đã được công
bố[2,3,7,13,22].
Thông quan tìm hiểu và phân tích các phương pháp khai phá quan điểm trên các
miền dữ liệu khác nhau[5,14,19,20], khóa luận “Thu hồi quan điểm về thực thể từ mạng
Twitter” tập trung nghiên cứu bài toán thu hồi quan điểm về thực thể trên mạng xã hội
Twitter và đề xuất một mô hình giải quyết bài toán. Khóa luận gồm 4 chương:
Chương 1 trình bày về bài toán thu hồi quan điểm về thực thể trên mạng xã hội.
Chương này bắt đầu bằng việc giới thiệu về mạng xã hội, mạng xã hội twitter với dữ liệu
của nó. Sau đó bài toán thu hồi quan điểm về thực thể trên mạng xã hội được phát biểu;
cùng với nó là những trình bày về ý nghĩa của bài toán cũng như các khó khăn thách thức
trong việc giải nó.
Trong Chương 2, khóa luận trình bày tóm tắt khái quát các công trình nghiên cứu

liên quan, đồng thởi trình bày những ưu điểm, nhược điểm của các phương pháp của các
nghiên cứu liên quan đó. Thuật toán SVM và cách sử dụng thuật toán cho việc phân lớp
quan điểm được giới thiệu. Tiếp đó, khóa luận trình bày về Search API và cách thức sử
dụng nó để lấy dữ liệu phục vụ cho bài toán thu hồi quan điểm.

1


Chương 3 đưa ra mô hình giải quyết bài toán thu hồi quan điểm về thực thể trên
mạng xã hội twitter. Các pha trong mô hình và phương pháp giải quyết chi tiết ở từng pha
được mô tả. Khóa luận cũng giới thiệu dữ liệu, từ điển được dùng cho bài toán.
Chương 4. Thực nghiệm và đánh giá. Chương này chỉ ra từng bước khóa luận tiến
hành thực nghiệm và đánh giá kết quả thực nghiệm đối với kết quả thực nghiệm.
Phần Kết luận và sự định hướng tiếp theo của khóa luận tổng kết kết quả đạt
được của khóa luận, chỉ ra hạn chế và hướng khắc phục hạn chế.

2


Chương 1. Khái quát bài toán thu hồi quan điểm về thực thể trên mạng xã
hội Twitter
Để có thể tổng hợp đánh giá hay xem xét về một sản phẩm hay dịch vụ, thu hồi quan
điểm là một cách giúp chúng ta có thể có cái nhìn tổng quan về những thông tin của người
dùng đã thể hiện quan điểm.
1.1. Mạng xã hội twitter
1.1.1. Mạng xã hội
Mạng xã hội, hay gọi là mạng xã hội ảo, (tiếng Anh: social network) là dịch vụ nối
kết các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau
không phân biệt không gian và thời gian.
Mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻ file,

blog và xã luận. Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với nhau và trở thành
một phần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắp thế giới. Các dịch vụ
này có nhiều phương cách để các thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví
dụ như tên trường hoặc tên thành phố), dựa trên thông tin cá nhân (như địa chỉ e-mail
hoặc screen name), hoặc dựa trên sở thích cá nhân (như thể thao, phim ảnh, sách báo,
hoặc ca nhạc), lĩnh vực quan tâm: kinh doanh, mua bán...
Hiện nay thế giới có hàng trăm mạng mạng xã hội khác nhau, với MySpace và
Facebook nổi tiếng nhất trong thị trường Bắc Mỹ và Tây Âu; Orkut và Hi5 tại Nam
Mỹ;Friendster tại Châu Á và các đảo quốc Thái Bình Dương. Mạng xã hội khác gặt hái
được thành công đáng kể theo vùng miền như Bebo tại Anh Quốc, CyWorld tại Hàn
Quốc, Mixi tại Nhật Bản và tại Việt Nam xuất hiện rất nhiều các mạng xã hội như: Zing
Me, YuMe,Tamtay...
Một cái nhìn tổng quan về số lượng đang sử dụng mạng xã hội, thành phần, giới
tính, lứa tuổi, thời gian sử dụng … được thể hiện một cách sơ lược qua các hình ảnh trong
hình 1.

3


Hình 1. Những hình ảnh thể hiện mạng xã hội năm 20121
1.1.2.

Giới thiệu về mạng xã hội twitter

Mạng xã hội twitter ra đời vào ngày 21/3/2006 bởi Jack Dorsey và July, tính đến
tháng 4 năm 2013, Twitter có hơn 500 triệu người dùng, hơn 170 tỉ tweet, có hơn 200
triệu người dùng tích cực trong tháng và trung bình trên mỗi người dùng có 208 người
theo dõi. Trung bình có hơn 400 triệu tweet được tạo ra trên một ngày, 307 tweet trên
một người dùng, mỗi tháng trung bình một người dùng 170 phút trên twitter, có đến hơn
60% là sử dụng trên điện thoại2.

Dưới đây là một số khái niệm trong twitter:
Twitter là 1 trang micro-blog và cũng là một mạng nhắn tin.
Tweet là một đoạn văn (một SMS) của người dùng tạo ra.

1

Nguồn />
2

Nguồn />
4


Follow theo dõi
Follower của bạn là số người đang theo dõi bạn
Following của bạn là số người bạn đang theo dõi.
Mention (hoặc reply) là một từ hoặc một cụm từ bắt đầu bằng các ký hiệu “@”, là
hành động tag tên người dùng để trả lời hoặc đề cập đến người đó.
Hashtag là một từ hoặc một cụm từ bắt đầu bằng các ký hiệu “#” được gọi là biểu
tượng băm, nó là một hình thức thẻ siêu dữ liệu, các tweets có thể được gắn thẻ bằng một
hay nhiều từ. Ví dụ “#Wikipedia is an #encyclopedia”.
Hashtag cung cấp một phương tiện của nhóm các tín nhắn như vậy, vì thể ta có thể
tìm kiếm các hashtag và nhận được tập hợp các tin nhắn đó.
Url (link) trên các tweets đều được rút gọn lại để tránh các kiểu lợi dụng đường link
nhằm lừa đảo hay pháy tán phần mềm độc hại và để giúp hiện thị tốt trên tweet (vì tweet
chỉ có 140 ký tự). Công cụ của twitter rút gọn link nhưng vẫn hiện thị tên miền đầy đủ để
người dùng có thể biết họ bấm vào đường link nào.
Một ví dụ về rút gọn link thành
tl.gd/hppk6c


Hình 2. Rút gọn link trên tweet

5


Cơ chế kết nối3
Người dùng Việt Nam có lẽ đã quá quen thuộc với mạng xã hội Facebook và quen
với hình thức tương tác của Facebook. Ý nghĩa chính của mạng xã hội Facebook từ những
ngày đầu chính là tìm kiếm và kết nối bạn bè, cập nhật các thông tin cá nhân về mình và
chia sẻ những thông tin hay. Cho dù bạn có bạn bè ở xa bất kỳ đâu vẫn có thể biết được
họ đang như thế nào, cuộc sống ra sao thông qua việc cập nhật trạng thái hàng ngày.
Do đó, cơ chế của mạng xã hội Facebook là cơ chế kết nối hai chiều. Có nghĩa là
một người kết bạn với bạn thì cần phải có sự xác nhận của bạn. Còn cơ chế của mạng xã
hội Twitter thì lại khác hoàn toàn là cơ chế một chiều. Một người theo (follow) bạn thì
không cần phải chờ sự xác nhận từ bạn.
Sau khi một người follow bạn thì họ sẽ nhận được các thông tin mà bạn tweet trên
đó, tweet cũng giống như hình thức cập nhật trạng thái của Facebook. Nhưng nếu bạn
không follow lại người đó thì bạn sẽ không thấy những cập nhật của họ. Hay nói cách
khác là bạn muốn nhìn thấy được những cập nhật từ ai đó, bạn phải follow người đó.
Điểm mạnh của Twitter là số người follow bạn không giới hạn, còn số lượng người
kết nối bạn bè trong Facebook thì giới hạn với con số 5000. Do đó, Twitter thường được
ưa thích sử dụng bởi các doanh nghiệp, thương hiệu, hay những ngôi sao nổi tiếng nhằm
cập nhật những thông tin về mình cho những người quan tâm. Vì vậy, những diễn viên, ca
sĩ, ngôi sao bóng đá… trên thế giới thường sử dụng mạng xã hội này.
Thời gian sau này thì Facebook đã cho ra đời hình thức Fan page tương tự như cơ
chế một chiều để đáp ứng việc theo dõi.
Cơ chế cập nhật
Có một điểm đặc biệt và khác với nhiều mạng xã hội khác ở Twitter chính là việc
chỉ cho phép tweet với 140 ký tự. Đây cũng là một trong những lý do tại sao đa số người
Việt Nam không thích sử dụng mạng xã hội này. Thế nhưng tại sao lại như vậy?

Đó là vì nếu như bạn ở Mỹ và một số nước mà Twitter phát triển, bạn có thể nhận
được những cập nhật từ người mà bạn quan tâm thông qua tin nhắn SMS. Mà đa phần các
thiết bị di động chỉ giới hạn số ký tự cho một tin nhắn là 160 ký tự.

3

Nguồn />
6


Vậy vì sao lại không phải là 160 ký tự mà là 140 ký tự? Đó là vì 20 ký tự kia được
dành để hiển thị cho tên người cập nhật.
Mặt khác, việc cập nhật một status với số lượng ký tự ít ỏi này cũng tạo nên một thói
quen cho người dùng. Nhất là đối với thời buổi bận rộn hiện nay.
Tuy nhiên, hiện nay Twitter chưa hỗ trợ phần gửi tin nhắn SMS ở Việt Nam. Đó
cũng là một trong những lý do chính khiến cho Twitter không thể phát triển được ở Việt
Nam.
Từ những gì đã nêu ở trên, các bạn sẽ dễ dàng nhận thấy rằng Twitter rất tiện lợi
trong ba vấn đề sau:
 Đối với bạn bè quan tâm đến bạn: Khi bạn đang ở đâu đó, bạn đi đâu đó, bạn chỉ
cần tweet lên twitter thì bạn bè thân của bạn sẽ biết được mà không cần phải gọi điện
thoại hay nhắn tin. Ví dụ như khóa luận sắp đi Hà Nội khóa luận có thể tweet lên “Chuẩn
bị đi Hà Nội”. Những bạn bè thân của khóa luận sẽ nhận được thông điệp này một cách
nhanh chóng và có thể sắp xếp để gặp bạn.
 Đối với doanh nghiệp & người dùng: Các doanh nghiệp sẽ dễ dàng cung cấp
thông tin đến với người tiêu dùng của họ thông qua việt tweet lên Twitter. Người dùng
cũng dễ dàng nhận được các thông tin hỗ trợ và những chương trình khuyến mãi, hay các
thông tin về sản phẩm mới.
 Đối với các ngôi sao có nhiều fan hâm mộ: Các ngôi sao có thể cập nhật những
gì mình đang làm, những chương trình mà mình tham gia, các buổi biểu diễn… Các fan

hâm mộ cũng có thể nhận được thông tin này một cách nhanh nhất trực tiếp từ chính thần
tượng của họ.
Qua đó, các bạn cũng thấy rằng không cần phải thông qua các báo đài, bạn vẫn có
thể nhận được thông tin một cách nhanh nhất một cách trực tiếp từ người bạn cần theo
dõi.
Ngoài ra, Twitter còn có cơ chế retweet, tức là tweet lại thông tin từ người khác đã
tweet. Đây cũng chính là một trong những điểm mạnh của Twitter, thông tin lan truyền
một cách nhanh chóng.

7


1.1.3. Dữ liệu trên twitter
Dữ liệu trên twitter chủ yếu là tiếng anh, dữ liệu mỗi tweet có độ dài tối đa là 140 ký
tự. Các tweet thường rất ngắn, nhiều từ viết tắt, thiếu hoặc sai chính tả.
Tweets thường chứa thêm reply (“@”), hashtag (“#”), URL(link).
Twitter cũng cấp rất nhiều API giúp người dùng dễ dàng có thể lấy dữ liệu như Rest
API,

Streaming

Hình 3. Kiến trúc ứng dụng sử dụng mô hình Rest API

4

Nguồn />
8

API.4



Hình 4. Kiến trúc ứng dụng sử dụng mô hình Stream API
1.2. Phát biểu bài toán
1.2.1. Bài toán thu hồi quan điểm
Bài toán thu hồi quan điểm (hay còn gọi là bài toán tìm kiếm quan điểm) là một
trong các bài toán khai thác thông tin, giúp người dùng có thể có được những thông tin
mong muốn về quan điểm:[6]
Thu hồi được những câu, những tài liệu liên quan đến truy vấn, tương tự công việc
của tìm kiếm (thu hồi) web.
Phân lớp câu, tài liệu được thu hồi về theo quan điểm tích cực hay tiêu cực. đây
chính là nhiệm vụ chính của phần này.
Bài toán thu hồi quan điểm:
Đầu vào: Truy vấn (tên một thực thể, một người dùng, một câu nói …)
Đầu ra: Các tài liệu mang quan điểm liên quan đến truy vấn.
1.2.2. Bài toán thu hồi quan điểm về thực thể trên mạng xã hội twitter
Bài toán thu hồi quan điểm về thực thể trên mạng xã hội Twitter là một bài toán thu
hồi quan điểm với truy vấn thu hẹp trong phạm vi là thực thể trên dữ liệu Twitter.

9


Bài toán thu hồi quan điểm về thực thể trên mạng xã hội twitter:
Đầu vào: Tên thực thể (ví dụ iphone5, samsung, acer …).
Đầu ra: Đánh giá quan điểm về thực thể.
Bài toán này được thực hiện trên miền dữ liệu tiếng anh trên Twitter.
Mạng xã hội ngày càng lớn mạnh, twitter là một trong top 15 mạng xã hội phổ biến
nhất (twitter có số lượng người dùng đứng thứ 2)5 và Twitter cung cấp nhiều API giúp
chúng ta có thể sử dụng.
Do twitter hạn chế số lượng ký tự (tối đa 140) và chưa hỗ trợ gửi tin nhắn ở việt nam
nên lượng người dùng twitter ở Việt Nam tương đối ít.

Do vậy khóa luận chọn thu hồi quan điểm về thực thể trên mạng xã hội twitter với
dữ liệu là tiếng anh.
1.2.3. Ý nghĩa của bài toán thu hồi quan điểm về thực thể trên mang xã hội
Ta đã biết ý nghĩa góp to lớn của việc tìm kiếm web, cũng tương tự như vậy, thu hồi
(tìm kiếm) quan điểm có tầm quan trọng trong xã hội CNTT ngày càng phát triển.
Cùng với sự lớn mạnh của mạng xã hội twitter, việc thu hồi quan điểm về thực thể
trên nó càng có nhiều ý nghĩa. Thu hồi quan điểm về thực thể từ người sử dụng twitter
cho thấy quan điểm chung của cộng đồng về thực thể đó.
Khảo sát quan điểm rất có ích, ví dụ nếu một người dùng muốn mua 1 chiếc điện
thoại Iphone5 nhưng họ chưa có kinh nghiệm sử dụng chiếc điện thoại đó, họ có thể hỏi
hoặc tham khảo quan điểm từ gia đình, bạn bè … Ngoài ra họ có thể lên các diễn đàn, các
trang xã hội để tìm hiểu quan điểm của những người đã dùng chiếc điện thoại đó.
Nếu có khảo sát quan điểm về chiếc điện thoại Iphone5 theo thời gian. Người dùng
có thể thấy được một cách nhìn nhận quan điểm của cộng đồng về chiếc điện thoại
Iphone. Xu hướng và sự thay đổi quan điểm cộng động về điện thoại Iphone5. Theo thời
gian, Iphone5 (thực thể) cũng có sự thay đổi nên quan điểm của cộng đồng người dùng
cũng thay đổi theo.

5

Nguồn />
10


1.2.4. Khó khăn và thách thức
Dữ liệu tweets rất ngắn (tối đa là 140 ký tự), có rất nhiều từ viết tắt, từ lóng, từ sai
chính tả và viết không đúng cú pháp, chất lượng và độ tin cậy thấp. Những yếu tố này làm
giảm hiệu quả khai thác quan điểm dựa trên NLP truyền thống. [20]
Twitter cũng trình bày những cơ hội thú vị để thu hồi. Môi trường phong phú thông
tin giúp chúng ta có khả năng cải thiện hiệu suất thu hồi.[20]

1.3. Tóm tắt chương 1
Chương 1 khóa luận đã giới thiệu về mạng xã hội twitter và bài toán thu hồi quan
điểm, giới thiệu bài toán thu hồi quan điểm về thực thể trên mạng xã hội twitter, lý do sử
dụng twitter để thu hồi quan điểm, cho biết tầm quan trọng của bài toán và những khó
khăn thách thức gặp phải khi giải quyết bài toán.
Chương tiếp theo khóa luận sẽ trình bày về các cơ sở lý thuyết và các ngiên cứu liên
quan đến bài toán này.

11


Chương 2. Cơ sở lý thuyết và các ngiên cứu liên quan
Đã có rất nhiều công trình nghiên cứu của các tác giả[1,6,9,12,15,16,22] liên quan
đến việc thu hồi quan điểm từ nhiều nguồn dữ liệu với các phương pháp khác nhau. Sự
phát triển nhanh chóng của mạng xã hội twitter, thu hồi quan điểm trên twitter đã được
nhiều sự quan tâm của tác giả[2,3,7,13,22]. Bên cạnh đó khóa luận cũng tham khảo các
phương pháp khai phá quan điểm của nhiều tác giả[5,14,19,20] trên các dữ liệu khác để
có thể học hỏi và nâng cao kết quả. Chương này khóa luận sẽ trình bày khái quát những
phương pháp của các tác giả đã thực hiện.
2.1. Hệ thống phân lớp quan điểm
2.1.1. Các đặc trưng phân lớp quan điểm
Đặc trưng dựa trên từ và n-gram
Mỗi từ xuất hiện trong câu phục vụ như một đặc trưng nhị phân với trọng số bằng
đảo ngược số từ trong tập dữ liệu twitter. Davidov và cộng sự[7] đã từng sử dụng từ 2-5
từ liên tiếp để làm đặc trưng với trọng số tương tự, do đó trọng số của đặc trưng n-gram
luôn cao hơn trọng số các đặc trưng thành phần của nó, các từ hiếm có trọng số cao hơn
các tự thông thường. Các từ hoặc n-gram xuất hiện chưa đầy 0.5% trong tập huấn luyện
không phải là một đặc trưng. Các biểu tượng mặt cười ASCII và các dấu chấm khác có
chứa hai hoặc nhiều hơn các biểu tượng dấu chấm câu liên tiếp được sử dụng như một đặc
trưng, từ đặc trưng này gồm từ thay siêu từ trong link, nguồn(references) và hashtag.

Đặc trưng từ loại
Đặc trưng từ loại ((Part of speech)) là một đặc trưng phổ biển được rất nhiều các tác
giả như Agarwal và cộng sự[1], Alec Go và cộng sự[2]sử dụng và nó góp phần tăng hiệu
suất cao trong việc phân lớp chủ quan/khách quan, phân lớp tích cực/tiệu cực.
Đặc trưng từ loại thể hiện được từ loại trong câu với trọng số là tổng số từ loại đó
xuất hiện trong câu.
Theo Agarwal và cộng sự[1], việc sử dụng kết hợp POS với các đặc trưng khác cho
nâng cao hiệu suất phân loại.
Theo Alec Go và cộng sự[2]cảm thấy các đặc trưng POS sẽ là một đặc trưng hữu ích
kể từ khi bạn sử dụng một từ cụ thể. Ví dụ, từ “Over” như một động từ mang ý nghĩ tiêu
cực “Over” là danh từ. Việc sử dụng phân loại Stanford Classifier chúng mang lại độ

12


×