Tải bản đầy đủ (.pdf) (59 trang)

Nghiên cứu kỹ thuật tóm tắt quan điểm từ dữ liệu twitter

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1008.38 KB, 59 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
──────── * ───────

ĐINH KHÁNH LINH

NGHIÊN CỨU KỸ THUẬT TÓM TẮT QUAN ĐIỂM TỪ
DỮ LIỆU TWITTER

LUẬN VĂN THẠC SĨ KỸ THUẬT
NGÀNH CÔNG NGHỆ THÔNG TIN

Hà Nội - năm 2016


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
──────── * ───────

Đinh Khánh Linh

NGHIÊN CỨU KỸ THUẬT TÓM TẮT QUAN ĐIỂM TỪ
DỮ LIỆU TWITTER

LUẬN VĂN THẠC SĨ KỸ THUẬT
NGÀNH CÔNG NGHỆ THÔNG TIN

Ngƣời hƣớng dẫn khoa học: PGS.TS Lê Thanh Hƣơng

Hà Nội - năm 2016



MỤC LỤC
Trang
LỜI CẢM ƠN! ............................................................................................................ iv
LỜI CAM ĐOAN ......................................................................................................... v
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................. vi
DANH MỤC CÁC BẢNG .........................................................................................vii
DANH MỤC HÌNH VẼ ............................................................................................viii
LỜI MỞ ĐẦU .............................................................................................................. 1
CHƢƠNG I: KHÁI QUÁT VỀ BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM TRÊN
MẠNG XÃ HỘI TWITTER .................................................................................................. 3
1.1. Mạng xã hội Twitter .......................................................................................... 3
1.1.1. Mạng xã hội ................................................................................................ 3
1.1.2. Giới thiệu về mạng xã hội Twitter ............................................................. 3
1.1.3. Dữ liệu trên Twitter .................................................................................... 6
1.2. Phát biểu bài toán .............................................................................................. 7
1.2.1. Bài toán tóm tắt quan điểm......................................................................... 7
1.2.2. Bài toán tóm tắt quan điểm về thực thể trên mạng xã hội Twitter ............. 7
1.2.3. Ý nghĩa của bài toán tóm tắt quan điểm về thực thể trên mạng xã hội ...... 7
1.2.4. Khó khăn và thách thức .............................................................................. 9
1.3. Tóm tắt chƣơng 1 .............................................................................................. 9
CHƢƠNG II: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN ......... 10
2.1 Một số nghiên cứu liên quan ............................................................................ 10
2.2 Hệ thống phân lớp quan điểm .......................................................................... 11
2.2.1 Các đặc trƣng chủ yếu để phân lớp quan điểm.......................................... 11

i


2.3 Bài toán phân loại và các thuật toán phân loại ................................................. 13

2.3.1 Thuật toán phân loại SVM ........................................................................ 14
2.4 Độ tƣơng đồng .................................................................................................. 17
2.4.1. Độ đo Euclid ............................................................................................. 18
2.4.2 Độ đo cosin ................................................................................................ 19
2.4.3 Độ đo Lenvenshtein................................................................................... 19
2.4 Áp dụng độ tƣơng đồng cho bài toán tóm tắt quan điểm về thực thể trên mạng
xã hội Twitter. .................................................................................................................. 21
2.5 Tóm tắt chƣơng 2 ............................................................................................. 22
CHƢƠNG III: MÔ HÌNH ĐỀ XUẤT ........................................................................ 23
3.1 Mô hình giải quyết bài toán .............................................................................. 23
3.2 Giải quyết chi tiết các pha ................................................................................ 24
3.2.1 Crawl dữ liệu liên quan đến thực thể......................................................... 24
3.2.2 Xây dựng bộ dữ liệu training cho việc phân loại ...................................... 27
3.2.3 Tiền xử lý và chuẩn hóa dữ liệu ................................................................ 28
3.2.4 Xây dựng bộ phân lớp tích cực - tiêu cực và áp dụng cho tập dữ liệu vừa
đƣợc crawl và chuẩn hóa ............................................................................................. 33
3.2.5 Áp dụng bộ phân loại dữ liệu học đƣợc cho dữ liệu chƣa đƣợc gán nhãn và
trực quan hóa kết quả. .................................................................................................. 33
3.3 Tóm tắt chƣơng 3 ............................................................................................. 33
CHƢƠNG IV: THỰC NGHIỆM VÀ ĐÁNH GIÁ .................................................... 35
4.1 Hƣớng tiếp cận thực nghiệm ............................................................................ 35
4.2 Môi trƣờng thực nghiệm................................................................................... 35
4.2.1 Cấu hình phần cứng ................................................................................... 35
4.2.2 Công cụ phần mềm .................................................................................... 36

ii


4.3 Dữ liệu .............................................................................................................. 38
4.4 Thực nghiệm ..................................................................................................... 39

4.4.1 Xây dựng bộ phân lớp chủ quan khách quan ............................................ 39
4.4.2 Kết quả phân loại ....................................................................................... 42
4.4.3 Đánh giá kết quả ........................................................................................ 43
4.5 Tóm tắt chƣơng 4 ............................................................................................. 44
KẾT LUẬN VÀ ĐỊNH HƢỚNG TIẾP THEO.......................................................... 45
TÀI LIỆU THAM KHẢO .......................................................................................... 47

iii


LỜI CẢM ƠN!

Lời đầu tiên, em xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất đến
PGS.TS Lê Thanh Hƣơng đã tận tình hƣớng dẫn và chỉ bảo em trong suốt quá trình
thực hiện luận văn tốt nghiệp.
Em xin chân thành cảm ơn các thầy, cô trong trƣờng Đại học Bách Khoa đã
tạo mọi điều kiện thuận lợi cho em học tập và nghiên cứu.
Em cũng xin gửi lời cảm ơn các bạn trong lớp CNTT-2014B đã ủng hộ và
khuyến khích em trong suốt quá trình học tập tại trƣờng.
Cuối cùng, em xin đƣợc gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những
ngƣời đã luôn bên cạnh, giúp đỡ và động viên em trong suốt quá trình học tập cũng
nhƣ trong suốt quá trình thực hiện khóa luận này.
Em xin chân thành cảm ơn!

iv


LỜI CAM ĐOAN

Tôi xin cam đoan phƣơng pháp nghiên cứu kỹ thuật tóm tắt quan điểm từ dữ

liệu Twitter và thực nghiệm đƣợc trình bày trong luận văn này là công trình nghiên
cứu của bản thân đƣợc thực hiện dƣới sự hƣớng dẫn của PGS.TS Lê Thanh Hƣơng.
Các số liệu có nguồn gốc rõ ràng tuân thủ đúng nguyên tắc và kết quả trình bày
trong luận văn đƣợc thu thập trong quá trình nghiên cứu là trung thực chƣa từng
đƣợc ai công bố trƣớc đây. Tất cả các tài liệu tham khảo từ các nghiên cứu liên quan
đều có nguồn gốc rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Nếu phát
hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội dung luận
văn của mình.
Hà Nội, tháng 10 năm 2016
Tác giả luận văn

Đinh Khánh Linh

v


DANH MỤC CÁC TỪ VIẾT TẮT

STT

Từ viết tắt

Chi tiết

1

SVM

Support Vector Machine


2

NLP

Natural Language Processing

3

POSTAG

Part-of-speech Tagger

4

API

Application programming interface

5

URl

Uniform Resource Locator

6

TF-IDF

Term frequency-inverse document frequency


vi


DANH MỤC CÁC BẢNG

Bảng 1: Ví dụ về biểu tƣợng cảm xúc ........................................................................ 30
Bảng 2: Cấu hình phần cứng ...................................................................................... 36
Bảng 3: Công cụ phần mềm ....................................................................................... 36
Bảng 4: Thống kê cho dữ liệu SemEval ..................................................................... 38
Bảng 5: Thống kê cho dữ liệu Twitter140.................................................................. 39
Bảng 6: Bảng thuộc tính ............................................................................................. 41
Bảng 7: Chi tiết thuộc tính sử dụng trong các mô hình:............................................. 41
Bảng 8: Kết quả phân loại trên tập dữ liệu SemEval ................................................. 42
Bảng 9: Kết quả phân loại trên tập dữ liệu Twitter 140 ............................................. 52

vii


DANH MỤC HÌNH VẼ
Hình 1: Mặt siêu phẳng phân chia tập dữ liệu thành hai lớp dƣơng và âm ................ 24
Hình 2: Phƣơng pháp SVM với Linear kernel ........................................................... 16
Hình 3: Mô hình đề xuất giải quyết bài toán phân tích quan điểm ............................ 23
Hình 4: Kết quả phân loại cho tập dữ liệu SemEval .................................................. 42
Hình 5: Kết quả phân loại cho tập dữ liệu Twitter140 ............................................... 43

viii


LỜI MỞ ĐẦU


Sự bùng nổ ngày càng mạnh mẽ của mạng xã hội mở ra nhiều cơ hội cho
các tổ chức, các nhân thu thập, tìm kiếm thông tin cũng nhƣ xử lý chúng và nhiều
bài toán đƣợc đặt ra để khai thác nguồn thông tin dồi dào từ mạng xã hội.
Tóm tắt quan điểm là một trong những bài toán khai thác thông tin, giúp
ngƣời dùng có thể có đƣợc những thông tin mong muốn về quan điểm. Tóm tắt
quan điểm giúp ngƣời dùng tìm đƣợc những tài liệu quan điểm liên quan đến truy
vấn. Tóm tắt quan điểm còn bao gồm nội dung tổng hợp quan điểm từ các tài liệu
quan điểm thu hồi đƣợc.
Với sự phát triển nhanh chóng cùng các API hỗ trợ, mạng xã hội Twitter đã
trở thành một nguồn cung cấp nhiều thông tin quan điểm cho những ngƣời nghiên
cứu về mạng xã hội.
Đã có nhiều công trình nghiên cứu, chẳng hạn [1, 6, 9, 12, 15, 21] liên quan
đến bài toán tóm tắt quan điểm theo các phƣơng pháp khác nhau từ nhiều nguồn dữ
liệu. Nói riêng, nhiều công trình nghiên cứu về phân tích quan điểm trên Twitter đã
đƣợc công bố [2, 3, 7, 13, 21].
Thông qua tìm hiểu và phân tích các phƣơng pháp khai phá quan điểm trên
các miền dữ liệu khác nhau [5, 14, 19, 20], luận văn tập trung nghiên cứu bài toán
tóm tắt quan điểm trên mạng xã hội Twitter và đề xuất mô hình giải quyết bài toán.
Nội dung của khoá luận đƣợc chia thành các chƣơng nhƣ sau:
Chƣơng 1: Trình bày về bài toán tóm tắt quan điểm về thực thể trên mạng xã
hội. Chƣơng này bắt đầu bằng việc giới thiệu về mạng xã hội, mạng xã hội Twitter
với dữ liệu của nó. Sau đó bài toán tóm tắt quan điểm trên mạng xã hội đƣợc phát
biểu; cùng với đó là những trình bày về ý nghĩa của bài toán cũng nhƣ các khó khăn
thách thức trong việc giải quyết nó.
Chƣơng 2: Trình bày tóm tắt khái quát các công trình nghiên cứu liên quan,

1


đồng thời trình bày những ƣu điểm, nhƣợc điểm của các phƣơng pháp nghiên cứu

liên quan đó. Thuật toán SVM và thuật toán Naïve Bayes đƣợc sử dụng cho việc
phân lớp quan điểm đƣợc giới thiệu. Tiếp đó, tác giả trình bày về một số độ đo và
các thuộc tính có thể trích xuất của tweet.
Chƣơng 3: Đƣa ra mô hình giải quyết bài toán tóm tắt quan điểm trên mạng
xã hội Twitter. Các pha trong mô hình và phƣơng pháp giải quyết chi tiết ở từng
pha đƣợc mô tả. Tác giả cũng giới thiệu dữ liệu, từ điển đƣợc dùng cho bài toán.
Chƣơng 4: Thực nghiệm và đánh giá. Chƣơng này chỉ ra từng bƣớc tiến hành
thực nghiệm và đánh giá các kết quả thực nghiệm thu đƣợc.
Phần kết luận và định hƣớng tiếp theo của luận văn: Tóm lƣợc những điểm
chính của luận văn. Chỉ ra những điểm cần khắc phục, đồng thời đƣa ra những
hƣớng nghiên cứu trong thời gian sắp tới.

2


CHƢƠNG I: KHÁI QUÁT VỀ BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM
TRÊN MẠNG XÃ HỘI TWITTER
1.1. Mạng xã hội Twitter
1.1.1. Mạng xã hội
Mạng xã hội, hay còn gọi là mạng xã hội ảo (tiếng Anh: social network) là
dịch vụ kết nối các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục
đích khác nhau, không phân biệt không gian và thời gian. Những ngƣời tham gia
vào dịch vụ mạng xã hội còn đƣợc gọi là cƣ dân mạng.
Dịch vụ mạng xã hội có những tính năng nhƣ chat, e-mail, phim ảnh, voice
chat, chia sẻ file, blog và xã luận. Mạng đổi mới hoàn toàn cách cƣ dân mạng liên
kết với nhau và trở thành một phần tất yếu của mỗi ngày cho hàng trăm triệu thành
viên khắp thế giới. Các dịch vụ này có nhiều phƣơng cách để các thành viên tìm
kiếm bạn bè, đối tác: dựa theo group (ví dụ nhƣ tên trƣờng hoặc tên thành phố), dựa
trên thông tin cá nhân (nhƣ địa chỉ e-mail hoặc screen name), hoặc dựa trên sở thích
cá nhân (nhƣ thể thao, phim ảnh, sách báo, hoặc ca nhạc), lĩnh vực quan tâm (nhƣ

kinh doanh, mua bán…)
Hiện nay thế giới có hàng trăm dịch vụ mạng xã hội khác nhau, với Twitter và
Facebook nỏi tiếng nhất trong thị trƣờng Bắc Mỹ và Tây Âu, Orkut và Hi5 tại Nam
Mỹ, Friendster tại châu Á và các đảo quốc Thái Bình Dƣơng. Dịch vụ mạng xã hội
khác gặt hái đƣợc thành công đáng kể theo vùng miền nhƣ Bebo tại Anh Quốc,
CyWorld tại Hàn Quốc, Mixi tại Nhật Bản và tại Việt Nam xuất hiện nhiều các dịch
vụ mạng xã hội nhƣ Zing Me…
1.1.2. Giới thiệu về mạng xã hội Twitter
Ra đời vào ngày 21/03/2006 bởi Jack Dorsey và July, Twitter là dịch vụ mạng
xã hội miễn phí cho phép ngƣời dùng sử dụng đọc, nhắn và cập nhật các mẩu tin
nhỏ gọi là tweet, một dạng tiểu blog. Những mẩu tweet đƣợc giới hạn tối đa 140 ký
tự đƣợc lan truyền nhanh chống trong phạm vi nhóm bạn của ngƣời nhắn hoặc có

3


thể đƣợc trƣng rộng rãi cho mọi ngƣời. Tính đến tháng 5 năm 2015, Twitter đã có
hơn 550 triệu ngƣời dùng, trong đó có hơn 302 triệu ngƣời hoạt động thƣờng xuyên
và trung bình trên mỗi ngƣời dùng có 208 ngƣời theo dõi. Trung bình có hơn 400
triệu tweet đƣợc tạo ra trên một ngày, 307 tweet trên một ngƣời dùng, mỗi tháng
trung bình một ngƣời dùng 170 phút trên Twitter, có đến hơn 60% là sử dụng trên
điện thoại.
Dƣới đây là một số khái niệm trong Twitter:
- Twitter là 1 trang micro-blog và cũng là một mạng nhắn tin.
- Tweet là một đoạn văn (một SMS) của ngƣời dùng tạo ra.
- Follow theo dõi.
- Follower của bạn là số ngƣời đang theo dõi bạn.
- Following của bạn là số ngƣời bạn đang theo dõi.
- Mention (hoặc Reply) là một từ hoặc một cụm từ bắt đầu bằng các ký hiệu
“@”, là hành động đánh dấu tên ngƣời dùng để trả lời hoặc đề cập đến ngƣời đó.

- Hashtag là một từ hoặc một cụm từ bắt đầu bằng ký hiệu “#” đƣợc gọi là
biểu tƣợng băm, nó là một hình thức thẻ siêu dữ liệu, các tweets có thể đƣợc gắn thẻ
bằng một hay nhiều từ. Ví dụ “#Wikipedia is an #encyclopedia”.
- Hashtag cung cấp một phƣơng tiện của nhóm các tin nhắn nhƣ vậy, vì thế ta
có thể tìm kiếm các hashtag và nhận đƣợc tập hợp các tin nhắn đó.
- Url (link) trên các tweets đều đƣợc rút gọn lại để tránh các kiểu lợi dụng
đƣờng link nhằm lừa đảo hay phát tán phần mềm độc hại và để giúp hiện thị tốt trên
tweet (vì tweet chỉ có 140 ký tự). Công cụ của Twitter rút gọn link nhƣng vẫn hiển
thị tên miền đầy đủ để ngƣời dùng có thể biết họ bấm vào đƣờng link nào.
Cơ chế kết nối
Ở mạng xã hội Facebook ngƣời dùng đã quá quen thuộc với hình thức tƣơng
tác hai chiều. Có nghĩa là một ngƣời kết bạn với bạn thì cần phải có sự xác nhận của

4


bạn. Còn cơ chế của mạng xã hội Twitter thì lại khác hoàn toàn là cơ chế một chiều.
Một ngƣời theo dõi (follow) bạn thì không cần phải chờ sự xác nhận từ bạn.
Sau khi một ngƣời follow bạn thì họ sẽ nhận đƣợc các thông tin mà bạn tweet
trên đó, tweet cũng giống nhƣ hình thức cập nhật trạng thái của Facebook. Nhƣng
nếu bạn không follow lại ngƣời đó thì bạn sẽ không thấy những cập nhật của họ.
Hay nói cách khác là bạn muốn nhìn thấy đƣợc những cập nhật từ ai đó, bạn phải
follow ngƣời đó.
Điểm mạnh của Twitter là số ngƣời follow bạn không giới hạn, còn số lƣợng
ngƣời kết nối bạn bè trong Facebook thì giới hạn với con số 5000. Do đó, Twitter
thƣờng đƣợc ƣa thích sử dụng bởi các doanh nghiệp, thƣơng hiệu, hay những ngôi
sao nổi tiếng nhằm cập nhật những thông tin về mình cho những ngƣời quan tâm.
Vì vậy, những diễn viên, ca sĩ, ngôi sao bóng đá… trên thế giới thƣờng sử dụng
mạng xã hội này.
Hiện nay thì Facebook đã có hình thức Fanpage tƣơng tự nhƣ cơ chế một

chiều để đáp ứng việc theo dõi.
Cơ chế cập nhật
Có một điểm đặc biệt và khác với nhiều mạng xã hội khác ở Twitter chính là
việc chỉ cho phép tweet với 140 ký tự. Đây cũng là một trong những lý do tại sao đa
số ngƣời Việt Nam không thích mạng xã hội này. Thế nhƣng tại sao lại nhƣ vậy?
Đó là vì nếu nhƣ bạn ở Mỹ và một số nƣớc mà Twitter phát triển, bạn có thể
nhận đƣợc những cập nhật từ ngƣời mà bạn quan tâm thông qua tin nhắn SMS. Mà
đa phần các thiết bị di động chỉ giới hạn số ký tự cho một tin nhắn là 160 ký tự.
Vậy vì sao lại không phải là 160 ký tự mà là 140 ký tự? Đó là vì 20 ký tự kia
đƣợc dành để hiển thị cho tên ngƣời cập nhật.
Mặt khác, việc cập nhật một status với số lƣợng ký tự ít ỏi này cũng tạo nên
một thói quen cho ngƣời dùng. Nhất là đối với thời buổi bận rộn hiện nay.
Tuy nhiên, hiện nay Twitter chƣa hỗ trợ phần gửi tin nhắn SMS ở Việt Nam.

5


Đó cũng là một trong những lý do chính khiến cho Twitter không thể phát triển
đƣợc ở Việt Nam.
Từ những gì đã nêu ở trên, các bạn sẽ dễ dàng nhận thấy rằng Twitter rất tiện
lợi trong ba vấn đề sau:

 Đối với bạn bè quan tâm đến bạn: Khi bạn đang ở đâu đó, bạn đi đâu đó, bạn
chỉ cần tweet lên Twitter thì bạn bè thân của bạn sẽ biết đƣợc mà không cần
phải gọi điện thoại hay nhắn tin. Ví dụ nhƣ bạn sắp đi Sài Gòn, bạn có thể
tweet lên “Chuẩn bị đi Sài Gòn”. Những bạn bè thân của bạn sẽ nhận đƣợc
thông điệp này một cách nhanh chóng và có thể sắp xếp để gặp bạn.

 Đối với các doanh nghiệp và ngƣời dùng: Các doanh nghiệp sẽ dễ dàng cung
cấp thông tin đến với ngƣời tiêu dùng của họ thông qua việc tweet lên

Twitter. Ngƣời dùng cũng dễ dàng nhận đƣợc các thông tin hỗ trợ và những
chƣơng trình khuyến mãi, hay các thông tin về sản phẩm mới.

 Đối với các ngôi sao có nhiều fan hâm mộ: Các ngôi sao có thể cập nhật
những gì mình đang làm, những chƣơng trình mà mình tham gia, các buổi
biểu diễn… Các fan hâm mộ cũng có thể nhận đƣợc thông tin này một cách
nhanh nhất trực tiếp từ chính thần tƣợng của họ.
Qua đó, các bạn cũng thấy rằng không cần phải thông qua các báo đài, bạn vẫn
có thể nhận đƣợc thông tin một cách nhanh nhất, trực tiếp từ ngƣời bạn cần theo
dõi. Ngoài ra, Twitter còn có cơ chế retweet, tức là tweet lại thông tin từ ngƣời khác
đã tweet. Đây cũng chính là một trong những điểm mạnh của Twitter, thông tin lan
truyền một cách nhanh chóng.
1.1.3. Dữ liệu trên Twitter
Dữ liệu trên Twiteer chủ yếu là tiếng anh, dữ liệu mỗi tweet có độ dài tối đa là
140 ký tự. Các tweet thƣờng rất ngắn, nhiều từ viết tắt, thiếu hoặc sai chính tả.
Tweets thƣờng chứa thêm reply (“@”), hashtag (“#”), URL (link).

6


1.2. Phát biểu bài toán
1.2.1. Bài toán tóm tắt quan điểm
Bài toán tóm tắt quan điểm là một trong các bài toán khai thác thông tin, giúp
ngƣời dùng có thể có đƣợc những thông tin mong muốn về quan điểm.
Phân tích đƣợc những câu, những tài liệu liên quan đến truy vấn, tƣơng tự
công việc của tìm kiếm web. Phân lớp câu, tài liệu đƣợc tóm tắt theo quan điểm tích
cực hay tiêu cực. Đây chính là nhiệm vụ chính của phần này.
Bài toán tóm tắt quan điểm:
Đầu vào: Truy vấn (tên một thực thể, một ngƣời dùng, một câu nói…);
Đầu ra: Các tài liệu mang quan điểm liên quan đến truy vấn.

1.2.2. Bài toán tóm tắt quan điểm về thực thể trên mạng xã hội Twitter
Bài toán tóm tắt quan điểm về thực thể trên mạng xã hội Twitter là một bài
toán tóm tắt quan điểm với truy vấn thu hẹp trong phạm vi là thực thể trên dữ liệu
Twitter.
Bài toán tóm tắt quan điểm về thực thể trên mạng xã hội Twitter:
Đầu vào: Tên thực thể (ví dụ: iphone, samsung, acer…)
Đầu ra: Đánh giá quan điểm về thực thể.
Bài toán này đƣợc thực hiện trên miền dữ liệu tiếng anh trên Twitter - Mạng
xã hội ngày càng lớn mạnh, Twitter là một trong top 10 mạng xã hội phổ biến nhất
(Twitter có số lƣợng ngƣời dùng đứng thứ 2) và Twitter cung cấp nhiều API giúp
chúng ta có thể sử dụng. Do Twitter hạn chế số lƣợng ký tự (tối đa 140) và chƣa hỗ
trợ gửi tin nhắn ở Việt Nam nên lƣợng ngƣời dùng Twitter ở Việt Nam tƣơng đối ít.
Do vậy tác giả chọn tóm tắt quan điểm về thực thể trên mạng xã hội Twitter với dữ
liệu là tiếng anh.
1.2.3. Ý nghĩa của bài toán tóm tắt quan điểm về thực thể trên mạng xã hội
Trong những năm gần đây, chúng ta chứng kiến một thực tiễn là các bài viết

7


mang quan điểm trên các phƣơng tiện xã hội đã giúp định hình lại các doanh
nghiệp, và tạo ảnh hƣởng tình cảm và cảm xúc công cộng, đã ảnh hƣởng sâu sắc tới
các hệ thống xã hội và chính trị của chúng ta. Tóm tắt quan điểm (hay Phân tích tình
cảm), là lĩnh vực nghiên cứu về phân tích quan điểm, tình cảm, đánh giá, thẩm định,
thái độ, và cảm xúc của con ngƣời đối với các thực thể nhƣ sản phẩm, dịch vụ, tổ
chức, cá nhân, vấn đề, sự kiện, chủ đề, và các thuộc tính của chúng.
Với sự bùng nổ của các phƣơng tiện xã hội chứa đựng các bài viết (thảo luận,
chú thích, đánh giá…), các cá nhân và thực thể xã hội đang sử dụng ngày càng
nhiều nội dung trong phƣơng tiện xã hội để đƣa ra quyết định. Nếu một ngƣời muốn
mua một sản phẩm tiêu dùng, họ có thể tham khảo rất nhiều đánh giá và thảo luận

về sản phẩm đó của cộng đồng ngƣời tiêu dùng tại các diễn đàn công cộng trên các
websie. Nếu một tổ chức/doanh nghiệp muốn thu thập quan điểm công chúng về sản
phẩm của mình, tổ chức/doanh nghiệp đó có thể tham khảo thông tin phong phú
đƣợc công bố công khai trên các phƣơng tiện xã hội. Cùng với việc lớn mạnh của
mạng xã hội nói chung và mạng xã hội Twitter nói riêng, việc phân tích quan điểm
về thực thể trên Twitter càng có nhiều ý nghĩa. Tóm tắt quan điểm về thực thể từ
ngƣời sử dụng Twitter cho thấy quan điểm chung của cộng đồng về thực thể đó.
Khảo sát quan điểm rất có ích, ví dụ nếu một ngƣời muốn mua một chiếc điện thoại
Iphone 6 nhƣng họ chƣa có kinh nghiệm sử dụng chiếc điện thoại đó, họ có thể hỏi
hoặc tham khảo quan điểm từ gia đình, bạn bè… Ngoài ra họ có thể lên các diễn
đàn, các trang mạng xã hội để tìm hiểu quan điểm của những ngƣời đã dùng chiếc
điện thoại đó.
Nếu có khảo sát quan điểm về chiếc điện thoại Iphone 6 theo thời gian, ngƣời
dùng có thể thấy đƣợc một cách nhìn nhận quan điểm về cộng đồng về chiếc điện
thoại Iphone, xu hƣớng về sự thay đổi quan điểm cộng đồng về điện thoại Iphone 6.
Theo thời gian, Iphone 6 cũng có sự thay đổi nên quan điểm của cộng đồng ngƣời
dùng cũng thay đổi theo.

8


1.2.4. Khó khăn và thách thức
Dữ liệu Twitter rất ngắn (tối đa là 140 ký tự), có rất nhiều từ viết tắt, từ lóng,
từ sai chính tả và viết không đúng cú pháp, chất lƣợng và độ tin cậy thấp. Những
yếu tố này làm giảm hiệu quả khai thác quan điểm dựa trên NPL truyền thống.
1.3. Tóm tắt chƣơng 1
Chƣơng 1 tác giả đã giới thiệu về mạng xã hội Twitter và bài toán tóm tắt
quan điểm, giới thiệu bài toán toán tắt quan điểm về thực thể trên mạng xã hội
Twitter, lý do sử dụng Twitter để tóm tắt quan điểm, cho biết tầm quan tọng của bài
toán và những khó khăn thách thức gặp phải khi giải quyết bài toán.

Chƣơng tiếp theo của luận án, tác giả sẽ trình bày về các cơ sở lý thuyết và các
nghiên cứu liên quan đến bài toán này.

9


CHƢƠNG II: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

Khi các mạng xã hội nhƣ Twitter hay Facebook bùng nổ và lan rộng nhƣ là xu
hƣớng giao tiếp của thế giới mới, lƣợng dữ liệu từ các tài khoản ngƣời dùng của
mỗi mạng xã hội này chính là những dữ liệu rất quý báu cho những nhà phân tích
dữ liệu. Thay vì cách làm truyền thống nhƣ là đƣa ra các bài khảo sát trên các kênh
online, thì với mạng xã hội ta có thể tiếp cận đƣợc rất nhiều nguồn thông tin từ một
lƣợng ngƣời dùng lớn hơn mà không tốn nhiều nhân lực để thực hiện. Twitter là
mạng xã hội có đặc trƣng với các hashtag, tức là các từ khóa mà mỗi ngƣời dùng có
thể đƣa vào trong 1 dòng trạng thái (tweet) của mình. Chính nhờ các hashtag này,
bằng việc tìm các tweet liên quan đến 1 hashtag nào đó, chính là chúng ta đang tìm
ra các tweet liên quan đển hashtag đó. Các tweet này chính là các thông tin từ chủ
nhân nó, và có thể mang ít nhiều quan điểm tích cực hoặc tiêu cực về hashtag. Vì
vậy, đã có nhiều công trình nghiên cứu để tóm tắt các quan điểm của ngƣời dùng từ
mạng xã hội Twitter. Trong khóa luận này, tác giả cũng dựa trên các nghiên cứu
trƣớc đó và đề xuất một số cải tiến cho việc tóm tắt quan điểm.
2.1 Một số nghiên cứu liên quan
Tóm tắt quan điểm là bài toán tiến hành phân tích các quan điểm trong một
nguồn tài liệu, trong đó có các mạng xã hội, chẳng hạn nhƣ Twitter. Tóm tắt quan
điểm có nhiều ứng dụng và đƣợc dựa trên các giải pháp công nghệ tiên tiến vì vậy
thu hút sự quan tâm đặc biệt của nhiều nhóm nghiên cứu trên thế giới.
Ý tƣởng chủ yếu của các bài toán này là trích lọc đặc trƣng từ các tweet và
đƣa vào bộ phân loại. Một số bài báo gần đây đã bắt đầu sử dụng các mô hình chủ
đề hay nhƣ áp dụng các thuật toán Deep learning vào để đƣa ra kết quả tốt hơn. Các

đặc trƣng đƣợc sử dụng thƣờng liên quan đến các n-gram, một số tính chất đặc
trƣng của short text và twitter. Nhiều công trình nghiên cứu về tóm tắt quan điểm đã
đƣợc công bố [1,6,9,12,15,16,21]. Trên cơ sở tìm hiểu và phân tích các công trình
nghiên cứu liên quan, đặc biệt là các công trình [1, 2, 6, 21], tác giả khảo sát các

10


phƣơng pháp tóm tắt quan điểm trên nhiều miền, nhiều lĩnh vực. Từ đó, tác giả đề
nghị một mô hình tóm tắt quan điểm trên mạng xã hội Twitter, với các đặc trƣng
đƣợc chọn lọc là hiệu quả ở các nghiên cứu trƣớc đó, cùng với đó là mô hình đƣa ra
quan điểm theo thời gian thực, giúp cho việc xử lý và phản ứng trƣớc các vấn đề
một cách tốt hơn.
2.2 Hệ thống phân lớp quan điểm
2.2.1 Các đặc trưng chủ yếu để phân lớp quan điểm
- Đặc trƣng từ điển và n-gram: Một trong các cách biểu diễn một đoạn
tweet là sử dụng các vector từ và các n-gram. Ta xây dựng một bộ từ điển với các từ
là các từ xuất hiện trong tất cả các tweet cần phân tích (bao gồm cả tập trainning và
tập testing). Dựa vào bộ từ điển, ta có thể xây dựng các vector từ điển dựa vào tần
suất xuất hiện của các từ của từ điển trong tweet đó dựa trên cách biểu diễn bag-ofwords, hoặc chọn 1 biểu diễn khác là tf-idf. Đây là các biểu diễn đƣa ra các đặc
trƣng cổ điển và quen thuộc nhất. Trong luận án này ta sử dụng cách biểu diễn bagof-words.
Cần chú ý hơn là khi xây dựng bộ từ điển, ta có thể thêm các cặp từ bigram,
trigram để làm giàu thêm thông tin cho vector. Các thuộc tính bigram, trigram thực
chất là các cụm từ (bigram: cặp 2 từ, trigram: cặp 3 từ) có tần suất xuất hiện lớn
trong các tweet và cũng chứa các thông tin quan trọng. Các n-gram này sẽ bổ sung
thêm thông tin khi mã hóa vector tweet, hứa hẹn cải thiện kết quả phân loại.
- Đặc trƣng từ loại: Các nghiên cứu trƣớc đó chỉ ra rằng các đặc trƣng từ loại
đóng vai trò quan trọng trong thể hiện quan điểm của tweet. Để thể hiện quan điểm,
trong các tweet sẽ thƣờng có các từ thể hiện cảm xúc thông qua các tính từ hoặc
trạng từ. Việc sử dụng các động từ theo các cách khác nhau cũng thể hiện các quan

điểm tích cực hoặc tiêu cực theo cách cách khác nhau, đặc biệt trong ngôn ngữ tiếng
anh. Chính vì vậy các đặc trƣng từ loại là các đặc trƣng cần phải có trong vector
tweet.
- Đặc trƣng dựa trên các biểu tƣợng cảm xúc: Để thể hiện cảm xúc, các
11


mạng xã hội đặc biệt nhƣ Twitter cung cấp cho ngƣời dùng các biểu tƣợng cảm xúc
đƣợc mã hóa bởi các kí tự đặc biệt. Do các biểu tƣợng đặc biệt là hữu hạn nên ta có
thể dễ dàng thống kê và phân chia chúng thành 4 nhóm extreme positive, positive,
negative, extreme negative.
- Đặc trƣng của từ đặc biệt kéo dài: Trong tweet, thƣờng sẽ thêm 1 số từ
đƣợc viết theo văn nói và ngôn ngữ internet, đặc biệt là các từ bị kéo dài so với từ
gốc nhƣ coooolllll ~ cool. Ta có thể phát hiện ra số lƣợng các từ nhƣ vậy bằng
regular expression. Và các từ này đều ảnh hƣởng đến quan điểm của tweet theo cả
tiêu cực và tích cực. Chính vì vậy ta sẽ thêm số lƣợng từ kéo dài là 1 đặc trƣng của
vector tweet.
- Đặc trƣng dựa trên số lƣợng các kí tự đặc biệt: Các nghiên cứu và thống
kê trƣớc đã chỉ ra rằng, khi 1 tweet chứa các kí tự đặc biệt nhƣ *, !, ?, “ thì ngƣời ta
nhận thấy rằng, các kí tự đặc biệt này cũng ảnh hƣởng đến cảm xúc của tweet. Dễ
nhận thấy các kí tự này cũng thƣờng đƣợc thể hiện biểu cảm của tweet về vấn đề nó
nói đến, hay tức là chủ đề mà ta cần tóm tắt quan điểm.
- Dựa vào bộ từ điển AFFIN: AFFIN là một bộ từ điển phân cực bao gồm
2490 từ với các trọng số từ -5 (negative) đến +5 (positive). Đây là một nguồn dữ
liệu quý để có thể đƣa ra các thuộc tính tốt cho vector tweet. Nhƣng với số lƣợng từ
ít ỏi trong bộ từ điển, luận án đƣa ra 1 cách mở rộng bộ từ điển này sử dụng bộ từ
điển có sẵn Wordnet. Nếu một từ có trong AFFIN, ta sẽ thu đƣợc trọng số của nó.
Nếu từ đó không có trong AFFIN, ta sẽ tìm tất cả các từ đồng nghĩa (synonyms) với
nó trong bộ từ điển Wordnet. Nếu một trong các từ này xuất hiện trong AFFIN, ta
lấy giá trị trọng số của từ ban đầu bằng với trọng số của từ đồng nghĩa đó xuất hiện

trong AFFIN.
Dựa vào bộ từ điển AFFIN trên, với 1 tweet ta có thể trích xuất ra đƣợc các
thuộc tính nhƣ:
- Số lƣợng từ mang ý nghĩa tích cực
- Số lƣợng từ mang ý nghĩa tiêu cực
12


- Số lƣợng từ in hoa mang ý nghĩa tích cực
- Số lƣợng từ in hoa mang ý nghĩa tiêu cực
- Có từ in hoa hoặc không có (1 – có, 0 – không)
2.3 Bài toán phân loại và các thuật toán phân loại
Bài toán phân loại dữ liệu là một trong những bài toán cơ bản của học máy
hiện đại, đƣợc ứng dụng trong rất nhiều hệ thống trí tuệ nhân tao. Phân loại dữ liệu
là một cách học có giám sát, sử dụng các dữ liệu đã biết để dự đoán các dữ liệu
chƣa biết. Đặc điểm của bài toán phân loại chính là ta sẽ có 2 tập dữ liệu trainning
và testing. Chúng ta sẽ áp dụng các thuật toán học có giám sát trên tập training với
các dữ liệu đã đƣợc gán nhãn sẵn theo một cách nào đó (có thể là do con ngƣời,...),
sử dụng các tham số mô hình học đƣợc để dự đoán nhãn cho tập dữ liệu testing bao
gồm các dữ liệu chƣa có nhãn.
Cụ thể hơn, bài toán phân loại dữ liệu là một trong những giải pháp phù hợp
nhất cho bài toán tóm tắt quan điểm. Cách làm có thể diễn tả nhƣ sau:
- Download các tweet về một chủ đề nào đó về và tiền xử lý
- Sử dụng 1 kĩ thuật nào đó hoặc tài nguyên con ngƣời để gán nhãn 1 cách
chính xác cho 1 số lƣợng tweet nào đó ta vừa lấy về vào 1 trong 3 nhãn: negative,
neutral, positive. Các dữ liệu đƣợc gán nhãn thủ công nhƣ thế này gọi là tập
training.
- Áp dụng một thuật toán phân loại cho các dữ liệu vừa gán nhãn, sử dụng bộ
tham số để dự đoán nhãn cho các dữ liệu chƣa biết vào 1 trong 3 nhãn trên.
Chính vì vậy, ngoài việc ta phải trích chọn đặc trƣng, mã hóa tweet thành

vector thì việc lựa chọn thuật toán phân loại cũng là 1 bƣớc quan trọng ảnh hƣởng
lớn đến kết quả. Có rất nhiều phƣơng pháp phân loại hiện nay, nhƣng theo các
nghiên cứu và kiểm thử trƣớc đó, luận án sẽ trình bày giới thiệu và sử dụng các
phƣơng pháp SVM, Naïve Bayes do tính phù hợp và hiệu quả của chúng với các dữ
liệu văn bản.

13


2.3.1 Thuật toán phân loại SVM
Support Vector Machine (SVM) là một phƣơng pháp học có giám sát, đƣợc sử
dụng một cách rộng rãi cho các bài toán phân lớp hoặc phân tích hồi quy. Thuật
toán SVM lần đầu tiên đƣợc đƣa ra bởi Vladimir Vapnik vào năm 1995. Ý tƣởng
của phƣơng pháp này là tìm ra đƣợc các siêu phẳng phân cách các lớp một cách rõ
rệt nhất dựa trên việc tối ƣu lề cực đại giữa các siêu phẳng này. Để có thể hiểu rõ
hơn về phƣơng pháp, chúng ta hãy xét 1 ví dụ đơn giản nhất của bài toán phân lớp
với số lƣợng lớp tối thiểu bằng 2:

Hình 1: Mặt siêu phẳng phân chia tập dữ liệu thành hai lớp dương và âm

Mục tiêu của thuật toán SVM là học ra 1 siêu phẳng chia cách 2 lớp dữ liệu
một cách rõ ràng nhất. Việc này thể hiện thông qua việc tối ƣu lề cực đại - tức là
tổng khoảng cách của 2 phần tử thuộc 2 lớp gần siêu phẳng đó nhất đến siêu phẳng đó.
Để có thể minh họa rõ hơn, ta xét một ví dụ đơn giản với bài toán phân loại 2 lớp.
Giả sử ta có 1 tập dữ liệu mẫu {xi, yi}. Trong đó các xi là các vector đã đƣợc
phân loại sẵn thành 2 lớp là lớp dƣơng và lớp âm.

14



- Các vector xi có lớp dƣơng thì yi sẽ mang giá trị +1
- Các vector xi có lớp âm thì yi sẽ mang giá trị -1
Trong trƣờng hợp này, bộ phân loại sẽ chia mặt phẳng các vector ra thành 2
phần sao cho 2 phần này càng cách xa nhau, càng tách bạch nhau nhất có thể. Cụ
thể hơn, ta sẽ phải học ra đƣợc 1 siêu phẳng sao cho khoảng cách giữa 2 phần am và
dƣơng là tổng khoảng cách của phần tử lớp âm gần siêu phẳng nhất và phần tử lớp
dƣơng gần siêu phẳng nhất, tổng khoảng cách này chính là lớn nhất. Ví dụ trên 1
không gian 2 chiều thì siêu phẳng này chính là 1 đƣờng thẳng có dạng y = ax + b.
Ta phải học ra siêu phẳng này bởi các phƣơng pháp tối ƣu.
Sau khi học ra đƣợc siêu phẳng này, việc phân loại trở nên rất đơn giản. Các
mặt siêu phẳng này trong không gian mẫu có phƣơng trình là: f(x) = wx + b = 0
trong đó w là vector trọng số, b là độ dịch. Với một vector xm bất kì chƣa biết nhãn
của nó, ta chỉ cần xét dấu của f(xm) nhƣ sau:
- yi = 1 nếu f(xm) > 0
- yi = -1 nếu f(xm) < 0
Tức nếu f(xm) > 0 → yi = 1, xm thuộc về lớp dƣơng,
nếu f(xm) < 0 → yi = -1, xm thuộc về lớp âm
Để tối ƣu đƣợc 2 tham số w và b thì có rất nhiều cách làm khác nhau, ở đây ta
sẽ sử dụng phƣơng pháp SVM với Linear kernel để giải quyết bài toán.

15


×