Tải bản đầy đủ (.pdf) (65 trang)

Xây dựng hệ thống trích xuất và phân loại sự kiện từ twitter

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.99 MB, 65 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
----------------------------------

NGUYỄN NAM TRUNG

XÂY DỰNG HỆ THỐNG TRÍCH XUẤT VÀ PHÂN
LOẠI SỰ KIỆN TỪ TWITTER

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2019


HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
----------------------------------

NGUYỄN NAM TRUNG

XÂY DỰNG HỆ THỐNG TRÍCH XUẤT VÀ PHÂN
LOẠI SỰ KIỆN TỪ TWITTER

Chuyên ngành:

HỆ THỐNG THÔNG TIN

Mã số:

8.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT


(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. TỪ MINH PHƯƠNG

HÀ NỘI - 2019


i

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu và tìm hiểu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố
trong bất kỳ công trình nào khác.
Tác giả luận văn

Nguyễn Nam Trung


ii

MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................i
MỤC LỤC.................................................................................................................. ii
DANH MỤC BẢNG..................................................................................................iv
DANH MỤC HÌNH VẼ..............................................................................................v
MỞ ĐẦU.....................................................................................................................1
CHƯƠNG 1 - TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ
TWITTER ...............................................................................................................3
1.1 Giới thiệu về mạng xã hội Twitter .............................................................3

1.2 Các đặc trưng thông tin của Twitter ..........................................................4
1.3 Các vấn đề của trích xuất sự kiện từ Twitter .............................................8
1.3.1 Xác định vấn đề ............................................................................8
1.3.2 Những khó khăn khi trích xuất thông tin từ Twitter...................10
1.3.3 Ưu điểm của việc trích xuất thông tin từ Twitter .......................11
1.4 Những hướng tiếp cận trích xuất sự kiện từ Twitter ............................... 12
1.4.1 Cách tiếp cận miền tri thức cụ thể và với miền tri thức mở .......12
1.4.2 Phương pháp tiếp cận không giám sát, phương pháp tiếp cận giám
sát và phương pháp tiếp cận bán giám sát ..........................................14
1.5 Các vấn đề về phân loại sự kiện từ Twitter .............................................15
1.6 Kết luận chương.......................................................................................17
CHƯƠNG 2 - TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TRÊN TWITTER ......18
2.1 Trích xuất thông tin sự kiện từ nội dung tweet ........................................18
2.1.1 Kỹ thuật gán nhãn từ loại (POS Tagging) bằng mô hình trường
ngẫu nhiên có điều kiện ......................................................................18


iii

2.1.2 Kỹ thuật nhận dạng thực thể có tên trong văn bản (NER) .........25
2.1.3 Trích xuất mối quan hệ ............................................................... 30
2.1.4 Trích xuất thời gian ....................................................................34
2.2 Phân lớp sự kiện sử dụng phương pháp Naive Bayes ............................. 35
2.2.1 Tiền xử lý ....................................................................................36
2.2.2 Phân loại tweet sử dụng phân phối Naive Bayes........................40
2.3 Kết luận chương.......................................................................................42
CHƯƠNG 3 - THỬ NGHIỆM VÀ ĐÁNH GIÁ ......................................................43
3.1 Thu thập dữ liệu thử nghiệm ...................................................................43
3.2 Thực nghiệm trích xuất sự kiện từ tweet .................................................46
3.3 Thực nghiệm phương pháp phân lớp .......................................................48

3.3.1 Tiền xử lý dữ liệu .......................................................................49
3.3.2 Thực nghiệm phân lớp ................................................................ 50
3.3.3 Đánh giá kết quả thực nghiệm phân lớp .....................................51
3.3.4 Kết quả thực nghiệm phân lớp....................................................52
3.4 Kết luận chương.......................................................................................55
KẾT LUẬN VÀ KIẾN NGHỊ ..................................................................................56
TÀI LIỆU THAM KHẢO ........................................................................................57


iv

DANH MỤC BẢNG

Số hiệu bảng

Tên bảng

Trang

1.1

Thông tin sự kiện trích xuất theo thành phần

8

1.2

Ví dụ tính hỗn tạp của nội dung Tweet

10


2.1

Ví dụ các loại thực thể có tên riêng

26

2.2

Đánh giá ưu nhược điểm của các phương pháp
trích xuất mối quan hệ

33

2.3

Biểu thức thời gian

35

3.1

Danh sách tài khoản lấy dữ liệu theo chủ đề

44

3.2

Phân bố các lớp trong tập dữ liệu


46

3.3

Phân phối tập huấn luyện và đánh giá

49


v

DANH MỤC HÌNH VẼ

Số hiệu hình vẽ
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8

2.9
2.10
3.1
3.2
3.3
3.4
3.5
3.6

Tên hình vẽ
Quan hệ người dùng và hiển thị tweet theo mối
quan hệ đó
Tweet có chứa hashtag trong nội dung
Người dùng Twitter mention một người
Hành động reply nếu ký hiệu mention được sử
dụng ở đầu tweet
Tweet có nội dung thông báo ra mắt sản phẩm
Tweet có nội dung ra mắt film
Tổng hợp hướng nghiên cứu trích xuất dữ liệu từ
Twitter hiện nay
Mô hình bài toán phân loại sự kiện trong nội dung
tweet
Danh sách 8 thành phần cơ bản trong câu
Danh sách nhãn của từ điển Penn TreeBank
Sơ đồ cửa sổ trượt lựa chọn đặc trưng trong CRF
Ví dụ Nhận dạng thực thể có tên
Ví dụ ký pháp nhãn IOB
Mô hình tổng quát Labeled Latent Dirichlet
Allocation
Ví dụ biểu thức chủ vị tân

Từ điển mối quan hệ Freebase
Biểu thức thời gian được gắn nhãn IOB
Thuật toán phân lớp Multinomial Naive Bayes
(huấn luyện và kiểm thử)
Cấu trúc dữ liệu của một tweet dạng JSON
Tổ chức dữ liệu huấn luyện
Tổ chức dữ liệu huấn luyện
Xác định thành phần ngữ nghĩa trong câu
Mô hình phân loại tweet bằng thuật toán Naive
Bayes
Kết quả đánh giá phương pháp

Trang
4
5
6
7
8
8
12
16
19
19
23
26
28
30
31
32
35

41
43
45
45
47
49
52


1

MỞ ĐẦU
Ngày nay, mạng xã hội ngày càng phát triển và đi sâu vào cuộc sống của con
người. Có thể nói, đây là mô hình mới nhất trong quá trình phát triển giao tiếp trên
mạng, đơn giản hoá các phương thức tương tác và kết nối giữa con người với nhau.
Mạng xã hội như Twitter, Facebook, Sina Weibo đã trở thành nguồn thông tin thời
gian thực và chứa một lượng lớn nội dung người dùng tự tạo. Sự phát triển nhanh
chóng của những nền tảng đa phương tiện dẫn tới việc dữ liệu ngày càng tăng đồng
thời giữ vai trò quan trọng trong việc chia sẻ và khuếch tán thông tin. Hiện nay thế
giới có hàng trăm mạng mạng xã hội khác nhau, trong đó một trong mạng xã hội phát
triển nhanh nhất và thành công nhất mặc dù có mặt khá muộn, đó là Twitter.
Các chủ đề trên Twitter trải dài trên nhiều lĩnh vực từ vấn đề cá nhân cho đến những
sự kiện quan trọng trong xã hội. Những tin nhắn này thậm chí còn có độ lan truyền
và bao phủ nhanh hơn nhiều so với phương tiện truyền thông truyền thống. Việc trích
xuất được thông tin hữu ích này có thể giúp ích trong nhiều lĩnh vực như xây dựng
những hệ thống nghiên cứu phân tích thông tin trước và sau sự kiện hay các ứng dụng
thực tế như xác định thảm họa tự nhiên, dự đoán sự kiện. Mặt khác do số lượng tweet
được chia sẻ hằng ngày là cực lớn thì vấn đề gặp phải chính là sự quá tải về mặt thông
tin. Do vậy những thông tin sự kiện này cần được phân loại theo các chủ đề, hướng
quan tâm phù hợp với những đối tượng khác nhau.

Chính vì vậy, việc đưa ra một hệ thống cung cấp thông tin về các sự kiện quan
trọng đã, đang và sắp diễn ra từ những tweet hữu dụng đặt ra một hướng nghiên cứu
khả thi, quan trọng và có ý nghĩa thực tiễn. Mục tiêu của đề tài luận văn này của em
sẽ tập trung vào việc xây dựng hệ thống trích trọn sự kiện quan trọng với số đông
người sử dụng theo mốc thời gian từ mạng xã hội Twitter thể hiện qua một số đặc
trưng như thời gian, địa điểm, người liên quan sử dụng các tweet tiếng Anh. Nghiên
cứu này có thể hỗ trợ phóng viên chuyên nghiệp tận dụng mạng xã hội trở thành
nguồn thông tin hữu ích trước vấn đề quá tải thông tin.


2

Nội dung của luận văn được bố cục thành 3 chương như sau:
 Chương 1 – TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN
TỪ TWITTER
Giới thiệu chương: Trình bày tổng quan phương pháp trích xuất sự kiện từ
Twitter, những ưu điểm và khó khăn gặp phải khi thực hiện. Trình bày về mô
hình chung của bài toán phân loại sự kiện.
 Chương 2 – TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TRÊN TWITTER
Giới thiệu chương: Trình bày tổng quan về các vấn đề liên quan đến tiền xử lý
dữ liệu, trích xuất sự kiện và phương pháp phân lớp sự kiện cho các tweet sử
dụng thuật toán Naive Bayes
 Chương 3 – THỬ NGHIỆM VÀ ĐÁNH GIÁ
Giới thiệu chương: Sử dụng các thư viện có sẵn do Twitter cung cấp, thực hiện
xây dựng bộ dữ liệu từ dữ liệu thực tế hiện có của Twitter cho một số lượng
người dùng, sử dụng kỹ thuật trích xuất và phân lớp đã đề xuất ở chương 2 để
đưa ra kết quả thông tin phân lớp của sự kiện trong nội dung tweet. Đánh giá
kết quả so với các phương pháp phân lớp khác.



3

CHƯƠNG 1 - TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN
LOẠI SỰ KIỆN TỪ TWITTER

Hiện nay mạng xã hội đã thu hút hàng triệu người sử dụng và dần trở thành
một nguồn cung cấp thông tin về mọi vấn đề. Đặc biệt trong những năm gần đây
Twitter đã phát triển rất nhanh để trở thành mạng xã hội phổ biến. Mỗi ngày trên
Twitter có khoảng 500 triệu tin nhắn hay còn gọi là các tweet được người dùng chia
sẻ. Rõ ràng Twitter đã trở thành một phương tiện giao tiếp quan trọng. Với một lượng
thông tin được trao đổi khổng lồ như vậy thì việc xử lý những dữ liệu này và trích
xuất ra những thông tin hữu ích thực sự rất cần thiết. Luận văn này sẽ sẽ tập trung
vào việc xây dựng hệ thống trích xuất và phân loại sự kiện từ mạng xã hội Twitter
giúp giải quyết vấn đề quá tải về mặt thông tin.

1.1 Giới thiệu về mạng xã hội Twitter
Twitter là dịch vụ mạng xã hội miễn phí cho phép người dùng sử dụng đọc, nhắn và
cập nhật các mẩu tin nhỏ gọi là tweet, đây là một dạng micro blog. Những mẩu tweet
được giới hạn tối đa 140 ký tự và được lan truyền nhanh chóng trong phạm vi nhóm
bạn của người nhắn hoặc có thể được trưng rộng rãi cho mọi người. Thành lập từ năm
2006, Twitter đã trở thành một hiện tượng phổ biến toàn cầu, những tweet có thể chỉ
là dòng tin cá nhân cho đến những cập nhật mang tính thời sự tại chỗ kịp thời và
nhanh chóng hơn cả truyền thông chính thông.
Theo thống kê 2018, Twitter có khoảng hơn 335 triệu người sử dụng hằng tháng và
trung bình mỗi ngày có 500 triệu tweet được đăng mới , các con số này vẫn không
ngừng tăng lên, mỗi năm số lượng người dùng mới đăng ký sử dụng dịch vụ tăng lên
khoảng 9% [1].
Việc giới hạn về độ dài tin nhắn là 140 ký tự khiến tweet có đặc điểm khá giống với
một bản tin SMS. Do vậy tweet trở thành một hình thức tốc ký đáng chú ý đối với



4

cộng đồng mạng và đã được sử dụng rộng rãi thông qua việc sử dụng các bản tin SMS
từ điện thoại của họ.
Ngày nay, với sự phát triển của các điện thoại thông minh (smartphones), việc cho
phép các ứng dụng chạy trên điện thoại và kết nối internet đã trở nên dễ dàng, việc
cập nhật thông tin thông qua mạng xã hội như Twitter càng trở lên đơn giản hơn.
Thêm vào đó, Twitter cũng cấp một giao diện lập trình ứng dụng (API) cho phép
nhiều ứng dụng có thể truy cập các dịch vụ mà Twitter cho phép để lấy và cập nhật
thông tin, giúp lập trình viên dễ dàng kết nối từ một ứng dụng bất kỳ đến Twitter.
Những điều đó góp phần làm tăng tính phổ biến của mạng xã hội Twitter và thông tin
mà mạng xã hội này mang lại ngày càng đa dạng và hữu ích với người sử dụng

1.2 Các đặc trưng thông tin của Twitter
Người dùng Twitter cập nhật các tin nhắn ngắn bị giới hạn trong 140 ký tự
được gọi là các 𝑡𝑤𝑒𝑒𝑡, và thuật ngữ để chỉ việc đăng các tin nhắn đó gọi là 𝑡𝑤𝑒𝑒𝑡𝑖𝑛𝑔.
Người dùng Twitter có mối quan hệ trực tiếp với nhau, nếu người dùng 𝐴 theo dõi
người dùng B nhưng B không theo dõi A, A sẽ thấy tất cả các tweet của B nhưng
ngược lại, B không thấy tweet của A. Mô tả cho mối quan hệ người dùng này được
thể hiện trong hình 2
A

CA

B

CB

Hình 1.1 Quan hệ người dùng và hiển thị tweet theo mối quan hệ đó


Thuật ngữ mà Twitter đề xuất cho những mối quan hệ giữa người dùng Twitter với
nhau gồm có 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑟 và 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑒, 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑟 là những người đang theo dõi một
người dùng nào đó, và 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑒 là chỉ những người đang được người dùng theo dõi.
Ví dụ trong hình 1.1, A đang theo dõi B, vì thế A sẽ là 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑟 của B, và B là
𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑒 của A. Mỗi người dùng sẽ có một danh sách hiển thị những tweet mới được
cập nhật, danh sách đó được gọi là Twitter stream theo thứ tự thời gian. Các tweet


5

hiển thị trong danh sách này chính là những tweet được đăng bởi các followee. Trong
ví dụ ở hình 1.1, nếu A đang follow B, tất cả các tweet của B sẽ được hiển thị trong
danh sách các tweet của A, nhưng nếu B không follow A thì những tweet của A sẽ
không hiển thị trong danh sách tweet của B, B phải lựa chọn ‘follow’ A để có thể
thấy các tweet này trong danh sách tweet của mình hoặc truy cập vào trang cá nhân
của A để thấy được tất cả các tweet mà A đã đăng.
Người dùng Twitter ngoài việc có thể chia sẻ các tweet dưới dạng một bản tin văn
bản ngắn, Twitter còn chọ phép họ cung cấp thêm nhiều thông tin hữu ích trong bản
tin đó, một trong những đặc trưng mà Twitter cung cấp giúp người dùng bổ sung thêm
những thông tin hữu ích trong tweet của mình là hashtag, mention và retweet.
-

Hashtag: là một từ hoặc một chuỗi các ký tự liên tiếp nhau được đặt sau dấu
#. Đây là một dạng dữ liệu mô tả (metadata) dùng để nhóm nhiều thông tin
tương tự lại với nhau. Ví dụ với một tweet có chứa hashtag ‘#vietnam sẽ có ý
nghĩa tweet đó mang thông tin về “vietnam”

Hình 1.2 Tweet có chứa hashtag trong nội dung



6

Việc sử dụng hashtag như vậy nhằm gom cụm những tweet thảo luận về một
chủ đề nào đó và thuận tiện hơn trong quá trình tìm kiếm.
-

Mention và reply (đề cập và trả lời): Đây là hai đặc trưng quan trọng mà
Twitter cung cấp cho người dùng, đề cập và trả lời một người dùng nào đó
trong nội dung của một tweet. Giống như hashtag, các đặc trưng này cũng là
một quy ước trong thế giới mạng trước khi trở thành một đặc trưng của
Twitter[2]. Mention là cách mà một tweet tạo ra sự chú ý đối với một người
dùng Twitter nào đó trong các kết nối của họ, thực hiện đơn giản bằng cách sử
dụng ký hiệu ‘@’ trước tên của người dùng nào đó trong tweet của mình. Ví
dụ, Alice muốn mention Bob trong tweet của mình, Alice sẽ viết ‘@bob’. Bên
cạnh chức năng mention, Twitter còn cung cấp chức năng tương tự là reply,
việc sử dụng tương tự mention bằng cách dùng ký hiệu ‘@’ trước tên người
dùng, nhưng ‘@username’ sẽ được đặt ở đầu tiên của tweet, ví dụ ‘@bob Do
we have a match today?’ trong tweet của Alice. Mention và reply sẽ được
Twitter hiển thị khác nhau trong danh sách tweet của những người đang theo
dõi Alice và Bob.

Hình 1.3 Người dùng Twitter mention một người
dùng khác trong tweet của mình


7

Hình 1.4 Hành động reply nếu ký hiệu mention được sử dụng ở đầu tweet


-

Retweet: Một chức năng không thể thiếu giúp cho mạng xã hội Twitter phát
triển mạnh mẽ, đó là chức năng retweet, người dùng Twitter có thể đăng lại
các bản tin đã được đăng bởi người khác, và tweet đó sẽ được hiển thị trong
danh sách các tweet của người đang theo dõi họ. Mỗi retweet sẽ có kèm thêm
thông tin về người đã đăng tweet đó. Người dùng bất kỳ khi truy cập danh sách
các tweet của một người nào đó cũng có thể biết một tweet đã được retweet
bao nhiêu lần và bởi những ai.

-

Favorite: bên cạnh việc retweet những tweet mà người dùng cảm thấy hứng
thú và quan tâm, những tweet này sẽ được hiển thị trong danh sách các tweet
của người dùng đó, và cũng hiển thị đối với những người dùng đang follow,
chức năng favorite cũng thể hiện sự quan tâm của người dùng đối với một
thông tin nào đó thông qua việc lựa chọn một tweet là favorite hay không. Đây
cũng là một cách để giúp người dùng đánh dấu và lưu lại một bản tin, hình ảnh
hay liên kết mà người dùng đó quan tâm được đề cập trong tweet. Khác với
retweet, hành động favorite không được chia sẻ công khai với những người
dùng Twitter khác, kể cả những người đang theo dõi.


8

1.3 Các vấn đề của trích xuất sự kiện từ Twitter
1.3.1 Xác định vấn đề
Nói chung, một sự kiện đề cập đến một sự kiện trong thế giới thực xảy ra tại một thời
gian và địa điểm cụ thể [4], [5]. Nó luôn luôn liên quan đến hành động và người tham
gia nhất định, và do đó có thể được mô tả chính xác và chính xác bằng cách sử dụng

các yếu tố ngữ nghĩa bao gồm hành động (còn gọi là hành động kích hoạt), người
tham gia (ví dụ diễn viên và diễn viên nếu có), xuất hiện thời gian và địa điểm. Một
sự kiện e có thể biểu diễn một cách hình thức dưới dạng một bộ gồm n phần tử e =
(se1,se2,...sen) trong đó sei (i = 1,2, ..., n) là phần tử ngữ nghĩa thứ i của e. Lưu ý rằng
các loại sự kiện khác nhau có thể có biểu diễn ngữ nghĩa khác nhau. Ví dụ, một sự
kiện ra mắt bộ film mới có thể được mô tả bởi một bốn thành phần (tiêu đề film, nghệ
sĩ, ngày, địa điểm); trong khi một trận động đất có thể được biểu diễn tốt hơn bằng
cách sử dụng bộ 5 thành phần (thời gian, tâm chấn, tiêu điểm, cường độ, số người
chết).

Hình 1.5 Tweet có nội dung thông báo ra mắt sản phẩm

Hình 1.6 Tweet có nội dung ra mắt film
Bảng 1.1 Thông tin sự kiện trích xuất theo thành phần

Entity

Event Phase

Date

Type

Mi8

announcement

31 May

ProductLaunch


Antman and

watch

6 July

MovieRelease

the Wasp


9

Trong các tài liệu văn bản như các bài báo hoặc tweet, những chi tiết quan trọng này
như các yếu tố ngữ nghĩa thường được trình bày một cách không có cấu trúc. Việc
nghiên cứu khai thác sự kiện theo định nghĩa truyền thống là quy trình tự động xác
định sự kiện bằng văn bản và những thông tin phái sinh liên quan. Một cách lý tưởng
đây là việc xác định những người đã làm những gì cho ai, khi nào, bằng cách nào
(hay công cụ gì), ở đâu và có thể là lý do tại sao [6]. Rõ ràng, trích xuất sự kiện là
việc cấu trúc hóa văn bản. Tuy nhiên, một số đặc trưng mới của Twitter làm cho định
nghĩa cổ điển này không áp dụng đầy đủ cho việc trích xuất sự kiện từ Twitter. Đặc
biệt như đã đề cập ở trên hầu hết các tin nhắn do người dùng tạo ra hàng ngày trên
Twitter không liên quan đến bất kỳ sự kiện trong thế giới thực nào. Điều này dẫn đến
việc lọc các tweet không chứa các sự kiện là điều tối quan trọng trong việc trích xuất
sự kiện trên Twitter. Do đó với một tweet, định nghĩa việc trích xuất sự kiện trong
Twitter bao gồm ba nhiệm vụ phụ sau đây:
a. Xác định sự kiện trong tin nhắn
Là quá trình xác định liệu các tweet đầu vào có mô tả một số sự kiện trong thế
giới thực có đáng được quan tâm hay không. Một tweet liên quan đến sự kiện cũng

được gọi là tin nhắn chứa sự kiện.
b. Trích xuất phần tử ngữ nghĩa
Trích xuất phần tử ngữ nghĩa nhằm mục đích khai thác các phần tử ngữ nghĩa
khác nhau có trong một tin nhắn chứa sự kiện.
c. Phân loại sự kiện
Phân loại sự kiện là quá trình xác định loại sự kiện, ví dụ như sự kiện được mô
tả trong tin nhắn đang xem xét thuộc lĩnh vực thể thao, âm nhạc hoặc thiên tai.
Lưu ý rằng các nhiệm vụ thứ ba được liệt kê ở trên đôi khi là tùy chọn. Cụ thể,
nếu chỉ xem xét một danh mục sự kiện duy nhất thì có thể bỏ qua việc phân loại sự
kiện khi trích xuất chúng từ Twitter. Việc phân loại sự kiện như vậy như vậy thường
được gọi là trích xuất sự kiện cụ thể hoặc được nhắm mục tiêu theo miền tri thức xác
định. Cụ thể trong luận văn này trình bày hướng nghiên cứu đã xác định rõ miền tri
thức cụ thể về chính trị, công nghệ, thể thao.


10

1.3.2 Những khó khăn khi trích xuất thông tin từ Twitter
So với việc trích xuất sự kiện truyền thống áp dụng với các bài báo hoặc tài liệu y
học thì việc trích xuất sự kiện từ Twitter đã mở ra những thách thức mới cũng như cơ
hội mới.Với những đặc điểm riêng biệt Twitter đã mang lại những thách thức mới
cho cho việc nghiên cứu trích xuất sự kiện. Kết quả là nhiều phương pháp tiếp cận
được đề xuất cho trích xuất sự kiện truyền thông truyền thống không được áp dụng
trực tiếp cho Twitter. Thứ nhất là quy mô các thông điệp gửi đến được tạo ra bởi
người dùng Twitter là rất lớn do đó thách thức khả năng mở rộng và hiệu quả của các
phương pháp truyền thống. Thứ hai, hầu hết các thông điệp do người dùng soạn thảo
này có xu hướng đề cập đến các hoạt động trong cuộc sống hàng ngày của họ (chẳng
hạn như những gì họ ăn cho bữa trưa) [8]. Những tweet vô nghĩa này làm cho việc
xác định sự kiện trở thành một việc thiết yếu cần phải làm đầu tiên trong quá trình
trích xuất sự kiện từ Twitter. Hơn nữa, nội dung dường như có liên quan có ngữ cảnh

rõ ràng có thể không thực sự liên quan đến sự kiện thế giới thực [9], khiến cho việc
xác định sự kiện trong nội dung tweet trở thành một nhiệm vụ không đơn giản. Ví dụ
trong nghiên cứu của T. Sakaki, M. Okazaki, Y. Matsuo xác định các sự kiện động
đất trên Twitter bằng cách theo dõi các trình kích hoạt từ khóa (ví dụ: "earthquake"
hoặc "shaking"), nhưng cũng có thể tìm thấy các tweet không liên quan như "I
attended an Earthquake Conference" hoặc "My boss is shaking hands with vice
president". Một đặc điểm vô cùng quan trọng là những tin nhắn do người dùng chia
sẻ Twitter được viết theo phong cách không hình thức. Các tweet này chứa nhiều lỗi
ngữ pháp, chẳng hạn như kéo dài các từ (ví dụ: “Wooooow”) hoặc sử dụng các từ
viết tắt, tiếng lóng (ví dụ: tomorrow- tmr).


11

Bảng 1.2 Ví dụ tính hỗn tạp của nội dung Tweet

1

The Hobbit has FINALLY started filming! I
cannot wait!

2

Yess! Yess! Its official Nintendo announced
today that they Will release the Nintendo 3DS
in north America march 27 for $250

3

Government confirms blast n nuclear plants n

japan...don’t knw wht s gona happen nw...

Điều này thường dẫn đến sự thiếu vắng của một số thành phần quan trọng các yếu tố
như thời gian hoặc người tham gia sự kiện và làm cho việc trích xuất sự kiện từ
Twitter thêm phần khó khăn.

1.3.3 Ưu điểm của việc trích xuất thông tin từ Twitter
Tính chất thời gian thực và việc áp dụng rộng rãi Twitter giúp cho việc phát hiện sự
kiện một cách kịp thời dễ hàng hơn. Các tweet đa số có nội dung ngắn và dễ tập trung.
Theo nghiên cứu của Zhao và cộng sự[10] là một tweet thường có xu hướng đề cập
về một chủ đề duy nhất. Trong khi đó Ritter và cộng sự [8] đã tuyên bố trong nghiên
cứu của họ (1) Bản chất ngắn gọn và độc lập của tweets thể hiện qua cách viết rất đơn
giản và cấu trúc thực dụng đồng thời chúng cũng tạo ra các vấn đề vẫn đang thách
thức các hệ thống xử lý ngôn ngữ tự nhiên tiên tiến nhất. Tweet thường chứa thông
tin xã hội phong phú và thuộc tính thời gian rất hữu ích cho việc trích xuất sự kiện.
Ví dụ: [11] đã dự đoán vị trí của một tweet với mạng của tác giả. (2) Khối lượng tweet
cũng lớn hơn nhiều so với khối lượng tin tức chính thống, do đó việc khám phá thông
tin có thể được khai thác dễ dàng hơn. Cuối cùng, các tính năng của Twitter như
hashtag, tweet lại, trả lời và đề cập cũng có thể đóng góp vào trích xuất sự kiện [12],
ví dụ: thẻ bắt đầu bằng # thường bao gồm từ khóa cho các chủ đề trò chuyện phổ biến
(chẳng hạn như “#earthquake”).


12

1.4 Những hướng tiếp cận trích xuất sự kiện từ Twitter
Trong phần này, em trình bày tổng quan về các phương pháp tiếp cận hiện có được
đề xuất cho việc trích xuất sự kiện từ Twitter. Hình 2.3 minh họa sự phân loại các kỹ
thuật này theo các loại sự kiện được nhắm mục tiêu và sự giám sát của con người liên
quan đến quá trình xác định sự kiện. Cụ thể, tùy thuộc vào loại sự kiện được chỉ định

trước, các kỹ thuật này có thể được nhóm thành các phương pháp tiếp cận theo hướng
miền tri trức mở và miền tri thức cụ thể. Ngoài ra, theo liệu dữ liệu đào tạo được gắn
nhãn theo cách thủ công có được sử dụng trong quá trình xác định nội dung tweet có
chứa sự kiện hay không, các kỹ thuật hiện có được phân loại thành các kỹ thuật không
giám sát, giám sát và bán giám sát.

Hình 1.7 Tổng hợp hướng nghiên cứu trích xuất dữ liệu từ Twitter hiện nay

1.4.1 Cách tiếp cận miền tri thức cụ thể và với miền tri thức mở
Tùy thuộc vào việc loại sự kiện được nhắm mục tiêu có được chỉ định trước hay
không, chúng ta có thể phân chia các phương pháp tiếp cận hiện có thành hai loại là
phương pháp trích xuất sự kiện theo miền tri thức mở và phương pháp trích xuất sự
kiện theo miền xác định.
1.4.1.1 Phương pháp tiếp cận miền tri thức mở
Việc thiếu kiến thức cho trước về sự kiện và thao tác trên tập dữ liệu có độ
nhiễu cao làm cho việc trích xuất sự kiện trở thành một nhiệm vụ khó khăn. Trong
nhiều trường hợp miền mở nghĩa là kết hợp nhiều miền tri thức cụ thể ví dụ như trong
nghiên cứu của D. Metzler, C. Cai, and E. Hovy đã trích xuất danh sách 50 loại sự


13

kiện. Do đó định danh của các sự kiện miền tri thức mở có tính tổng quát hơn nhiều
nhưng cũng sẽ khó nhận ra hơn. Các tài nguyên bên ngoài thường được sử dụng trong
cách tiếp cận này chẳng hạn như từ điển các thuật ngữ sự kiện được thu thập từ
WordNet [8], thông tin về bản thể học về thế giới (ví dụ: danh sách tên lãnh đạo của
một quốc gia nhất định, danh sách các công ty,…). Vì các loại sự kiện không được
chỉ định nên mục tiêu của trích xuất sự kiện là lấy được các yếu tố sự kiện chính.
Trong nghiên cứu của tác giả Alan Ritter và cộng sự đã mô hình hóa một sự kiện
miền tri thức mở thông qua bộ dữ liệu có bốn thuộc tính bao gồm một thực thể bao

gồm có tên, cụm từ liên quan sự kiện, thời gian diễn ra và loại sự kiện.
1.4.1.2 Phương pháp tiếp cận miền tri thức xác định
Gần đây nghiên cứu về trích xuất sự kiện theo loại mục tiêu cụ thể ví dụ như
tình trạng bất ổn dân sự, thiên tai hoặc bệnh tật đang nhận được sự chú ý đặc biệt đối
với các nhà nghiên cứu. Đối với sự kiện miền tri thức cụ thể, chúng ta cần có tiền tri
thức về sự kiện đích. Như đã thảo luận ở phần trước sự kiện được mô hình hóa như
là một sự kết hợp của hành động gây ra sự kiện (trigger), người tham gia, thời gian,
địa điểm và các thuộc tính liên quan khác. Việc chọn từ khóa cụ thể sẽ dễ dàng hơn
đối với miền tri thức xác định. Trong nghiên cứu của Sakaki và cộng sự [2] đã sử
dụng "earthquake" và "shaking" làm từ khóa để phát hiện động đất. Nghiên cứu của
Compton và cộng sự. [18], [19] cũng đã xác định thủ công một tập hợp các từ khóa
có liên quan chặt chẽ đến tình trạng bất ổn dân sự. Muthiah và cộng sự trong nghiên
cứu của mình cũng [23] đã lọc các tài liệu đầu vào bằng một tập hợp các cụm từ khóa
cho biết các cuộc biểu tình được lên kế hoạch.
Theo nghĩa rộng, hai hướng tiếp cận này đều này là trích xuất thông tin dựa
trên mẫu vì các phần tử sự kiện chủ yếu là các từ khóa theo chủ đề và các thực thể
được đặt tên. Tuy nhiên, phương pháp tiếp cận tên miền mở tận dụng các đặc điểm
chung để phù hợp với các sự kiện Twitter, trong khi các phương pháp tiếp cận miền
cụ thể sử dụng các từ khóa để phân biệt các sự kiện có liên quan của một loại được
nhắm mục tiêu tạo nên sự khác biệt.


14

1.4.2 Phương pháp tiếp cận không giám sát, phương pháp tiếp cận giám sát và
phương pháp tiếp cận bán giám sát
Như đã trình bày ở phần trước, việc trích xuất sự kiện chủ yếu được chia thành ba
phần phụ: Xác định sự kiện trong nội dung tin nhắn, Khai thác phần tử ngữ nghĩa và
Phân loại sự kiện. Trong đó nhận dạng sự kiện trong nội dung tin nhắn là yếu tố quan
trọng nhất. Vì vậy chúng ta có thể phân loại các kỹ thuật theo các phương pháp được

giám sát, không giám sát và bán giám sát dựa trên việc sử dụng dữ liệu đào tạo được
dán nhãn trong quá trình nhận dạng sự kiện trong tin nhắn.
1.4.2.1 Phương pháp tiếp cận không giám sát
Ở đây việc phân loại sự kiện được xác định bởi hành động kích hoạt sự kiện
hoặc từ khóa chủ đề. Thông thường sự hiện diện của một hoặc nhiều cụm từ khóa này
cho biết liệu một tweet có liên quan đến sự kiện xác định hay không. Danh sách từ
khóa thường được xây dựng theo cách bán tự động. Cụ thể, các thuật ngữ cơ bản ban
đầu được lấy theo cách thủ công với sự trợ giúp của các chuyên gia trong miền lĩnh
vực đó. Sau đó từ khóa mới được phát hiện tự động bằng cách sử dụng mở rộng truy
vấn động. Một mặt để cải thiện độ hồi quy (recall) của các phương thức dựa trên mẫu
này, việc truy xuất sự kiện từ dữ liệu Twitter tập trung vào các chiến lược xây dựng
truy vấn như các kỹ thuật mở rộng tự do hoặc mở rộng theo thời gian. Mặt khác một
số nghiên cứu khác đã mô hình hóa một sự kiện như là một loạt hoạt động liên tiếp
với tần suất các từ khóa đặc trưng tăng mạnh khi sự kiện xuất hiện. Các kỹ thuật phát
hiện xu hướng đã được trình bày để phân tích các tính năng phân phối và khám phá
các sự kiện bằng cách nhóm các tính năng đặc trưng với các xu hướng giống nhau
1.4.2.2 Phương pháp tiếp cận giám sát
Học giám sát là một cách tiếp cận theo phương pháp học máy mà phỏng đoán
một chức năng mapping từ dữ liệu huấn luyện có nhãn. Một số thuật toán phân loại
được giám sát đã đề xuất khai thác sự kiện, bao gồm cả Naıve Bayes [12], [13],
Support Vector Machine (SVM) [2], Cây quyết định [14], [15], Hồi quy logistic
(Logistic Regression) [26], và Random Forests [20], v.v.


15

1.4.2.3 Phương pháp tiếp cận bán giám sát
Kỹ thuật bán giám sát sử dụng dữ liệu không được dán nhãn để đào tạo - thường sử
dụng đồng thời một lượng nhỏ dữ liệu có nhãn với số lượng lớn dữ liệu không được
gắn nhãn . Trong nghiên cứu của Hua và cộng sự đã trình bày một hệ thống bán giám

sát phát hiện sự kiện theo những mục tiêu cụ thể (ví dụ: mối quan tâm của người dân,
dịch bệnh hoặc tội phạm) từ dữ liệu Twitter được thu thập từ các nước Mỹ Latinh.
Đầu tiên các tác giả đã áp dụng thuật toán phân cụm phân đoạn đồ thị để có được các
từ liên quan đến sự kiện và tạo ra các cụm tweet nhỏ và sử dụng Support Vector
Machine (SVM) để xác định các sự kiện liên quan.
Nói tóm lại, các phương pháp không giám sát đặc biệt là các kỹ thuật dựa trên đối
chiếu từ khóa chủ yếu được sử dụng trong hầu hết các nghiên cứu do phù hợp với đặc
tính ngắn gọn của tweet. Nó đủ đơn giản và hoạt động tốt để truy xuất sự kiện. Các
phương pháp được giám sát có ít cải thiện về hiệu suất. Thay vào đó, các kỹ thuật dựa
trên phân loại này đòi hỏi rất nhiều nỗ lực do cần chú thích các tweet một cách thủ
công. Hơn nữa, các biểu diễn của sự kiện trong Twitter thay đổi theo thời gian [8].
Phương pháp bán giám sát được thiết kế để giải quyết những vấn đề này với sự trợ
giúp của kho từ điển hoặc đồ thị tri thức như dạng biểu diễn infobox của Wikipedia

1.5 Các vấn đề về phân loại sự kiện từ Twitter
Bài toán phân loại sự kiện từ nội dung tweet là quá trình phân chia các sự kiện
đã trích xuất vào một hay nhiều lớp cho trước thông qua mô hình phân lớp. Quá trình
phân lớp là quá trình gán nhãn cho sự kiện được trích xuất. Các lớp ở đây được là các
chủ đề xác định của nội dung tweet đó như chính trị, thể thao, công nghệ.

Bài toán phân loại được phát biểu như sau
Cho (𝑥 (1) , 𝑦 (1) ) … (𝑥 (𝑚) , 𝑦 (𝑚) ), trong đó đầu vào gồm 𝑥 (𝑖) là sự kiện, 𝑦 (𝑖) là nhãn
gán cho sự kiện đó. Ta đặt X là tập dữ liệu đầu vào, Y là tập dữ liệu đầu ra. Nhiệm
vụ của chúng ta là xây dựng được hàm 𝑓: 𝑋 → 𝑌 ánh xạ 𝑥 vào không gian 𝑓(𝑥) .
Ví dụ


16

Bảng 1.3 Ví dụ phân loại sự kiện


Tweet

Type
MovieRelease

ProductRelease

Mỗi tweet sẽ được chuyển thành một biểu diện vector thực D chiều:
𝑥 = {𝑥1 , 𝑥2 , . . 𝑥𝐷 }, 𝑥𝑖 ∈ 𝐷
Trong đó các thành phần xi là những đặc trưng của tweet.

Hình 1.8 Mô hình bài toán phân loại sự kiện trong nội dung tweet

Như vậy việc phân loại sự kiện trích xuất từ tweet gồm hai phần chính
-

Huấn luyện: bắt đầu bằng việc thu thập các tweet theo những chủ đề xác định
trước. Sau đó những tweet này trải qua quá trình tiền xử lý để loại bỏ bớt thông
tin dư thừa như emotion, stopword, đường link,… Tweet đã được làm sạch sẽ
được lựa chọn các đặc trưng bằng kỹ thuật bag-of-words hay TF-IDF. Sau khi


17

lựa chọn được đặc trưng thì tập dữ liệu sẽ được dùng để huấn luyện bộ phân
loại.
-

Phân loại: sau khi bộ phân loại được huấn luyện thì dữ liệu mới là một tweet

có chứa sự kiện chưa rõ thể loại sẽ được xử lý, trích trọn đặc trưng và đưa vào
bộ phân loại để dự đoán nhãn phù hợp nhất cho sự kiện.

1.6 Kết luận chương
Nói tóm lại những nghiên cứu để trích xuất sự kiện từ nội dung tweet được
xây được chia ra làm ba cách tiếp cận chính. Nhìn chung, các phương pháp dựa trên
dữ liệu đòi hỏi nhiều dữ liệu và ít kiến thức và chuyên môn về miền tuy nhiên mang
lại khả năng diễn giải thấp. Ngược lại để trích xuất sự kiện dựa trên kiến thức cần ít
dữ liệu nhưng kiến thức và yêu cầu về chuyên gia về miền là cần thiết. Những
phương pháp này thường cung cấp khả năng truy hồi kết quả cao hơn. Cuối cùng
các phương pháp kết hợp dường như là một sự thỏa hiệp giữa phương pháp tiếp cận
hướng dữ liệu và phương pháp tiếp cận dựa trên tri thức nên đòi hỏi một lượng dữ
liệu và kiến thức miền trung bình và cung cấp khả năng diễn giải trung bình. Tuy
nhiên cần lưu ý rằng số lượng chuyên gia cần thiết là cao do thực tế là phương pháp
này sử dụng nhiều kỹ thuật kết hợp. Vì vậy kỹ thuật hướng đến kiến thức cho người
và khi điều khiển dữ liệu phù hợp hơn cho người dùng nâng cao. Trong luận văn
này em xin trình bày về kỹ thuật trích xuất văn bản dựa trên dữ liệu áp dụng kỹ
thuật đánh dấu thành phần văn bản bằng trường ngẫu nghiên có điều kiện
(Conditional Random Fields), nhận dạng thực thể có tên bằng phương pháp Labeled
Latent Dirichlet Allocation và cuối cùng là phân lớp sử dụng thuật toán Naive
Bayes.


18

CHƯƠNG 2 - TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN
TRÊN TWITTER
Với sự phát triển nhanh chóng, Twitter đã trở thành một nguồn cung cấp thông
tin cập nhật và bao quát hơn so với những tin tức thời sự truyền thống do ít rào cản
và sự phát triển nhanh chóng của các thiết bị di động. Sở hữ những đặc trưng riêng

biệt như độ nhiễu cao và nội dung không hình thức, tin nhắn tweet đã đem lại thách
thức mới cho những nhà nghiên cứu xử lý ngôn ngữ tự nhiên. Không ngạc nhiên khi
những công cụ xử lý ngôn ngữ tự nhiên hiện nay có hiệu quả thấp đối với tập dữ liệu
tweet. Phần nội dung tiếp theo của chương 1 sẽ đưa ra một cái nhìn tổng quan về các
kỹ thuật xử lý trích xuất thông tin từ tweet, từ các khái niệm cơ bản tới các kỹ thuật
phân lớp nội dung tweet theo chủ đề.

2.1 Trích xuất thông tin sự kiện từ nội dung tweet
Để trích xuất được thông tin sự kiện từ nội dung tweet, chúng ta sẽ lần lượt áp
dụng các phương pháp tiền xử lý để xác định các thành phần ngữ nghĩa, thực thể liên
quan đến sự kiện, hành động kích hoạt sự kiện, thời gian,….

2.1.1 Kỹ thuật gán nhãn từ loại (POS Tagging) bằng mô hình trường ngẫu
nhiên có điều kiện
Gán nhãn từ loại là việc xác định các chức năng ngữ pháp của từ trong câu.
Đây là bước cơ bản trước khi phân tích sâu văn phạm hay các vấn đề xử lý ngôn ngữ
phức tạp khác. Thông thường, một từ có thể có nhiều chức năng ngữ pháp. Ví dụ như
trong câu "They refuse to permit us to obtain the refuse permit." thì cùng một từ
"refuse" nhưng từ thứ nhất giữ chức năng ngữ pháp là động từ nhưng từ thứ hai lại là
danh từ trong câu. Các thành phần trong câu thường được phân loại vào một trong
tám loại chính đó là danh từ (nouns), đại từ (pronouns), tính từ (adjectives), động từ
(verbs), trạng từ (adverbs), giới từ (prepositions), liên từ (conjunctions) và thán từ
(interjections).


×