Khai phá quan điểm dữ liệu Twitter (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (529.1 KB, 22 trang )

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------

NGUYỄN THỊ HỒNG QUỲNH

KHAI PHÁ QUAN ĐIỂM CHO DỮ LIỆU TWITTER
CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH
MÃ SỐ:

0

60.48.01.01

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGÔ XUÂN BÁCH

HÀ NỘI - 2017

Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS. Ngô Xuân Bách

Phản biện 1: ………………………………………………
Phản biện 2: ………………………………………………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ
tại Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: ... giờ .... ngày ..... tháng .... năm ….....
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

1

MỞ ĐẦU
Sự bùng nổ ngày càng mạnh mẽ của mạng xã hội mở ra nhiều cơ hội cho các tổ
chức, cá nhân thu thập, tìm kiếm thông tin cũng như xử lý chúng và nhiều bài toán
được đặt ra để khai thác nguồn thông tin dồi dào từ mạng xã hội.
Khai phá quan điểm là một trong các bài toán khai thác thông tin nằm trong ứng
dụng của xử lý ngôn ngữ tự nhiên, giúp thu thập được những thông tin mong muốn về
quan điểm của dữ liệu. Bài toán phân tích các đánh giá cho một chủ đề nhất định, hoặc
sự kiện, sản phẩm để tự động phân loại đánh giá theo hướng tích cực, tiêu cực của
quan điểm. Bài toán còn bao gồm nội dung tổng hợp quan điểm từ các tài liệu quan
điểm thu được.
Với sự phát triển nhanh chóng và mạnh mẽ, mạng xã hội Twitter đã trở thành
một nguồn cung cấp nhiều thông tin quan điểm cho những người nghiên cứu về lĩnh
vực này. Đã có nhiều công trình nghiên cứu liên quan đến bài toán khai phá quan điểm
theo các phương pháp khác nhau từ nhiều nguồn dữ liệu [2], [4], [8], mà Twitter là
một nguồn dữ liệu phổ biến.
Đánh giá về quan điểm của bài viết trong Twitter vào một trong hai lớp Tích
cực hoặc Tiêu cực mang lại nhiều ý nghĩa cho nhiều lĩnh vực như kinh tế, quảng cáo
v.v... Một trong những cách tiếp cận là sử dụng học máy thống kê. Trong cách tiếp cận
này, biểu diễn đặc trưng đóng vai trò quan trọng, ảnh hưởng trực tiếp tới độ chính xác
của bộ phân lớp. Thông qua tìm hiểu, phân tích các phương pháp khai phá quan điểm
trên tập dữ liệu Twitter, chúng tôi tập trung tới ba phương pháp biểu diễn đặc trưng:
N-gram[7], Độ đặc trưng dựa trên tâm (Center-base similarity – CBS) [6] và Logcount ratio[9] để thực hiện đề tài luận văn có tên: “Khai phá quan điểm cho dữ liệu
Twitter”.

Nội dung luận văn gồm 4 phần như sau:
 Chương 1: Cơ sở lý luận
 Chương 2: Khai phá quan điểm và hệ thống học máy
 Chương 3: Thực nghiệm và đánh giá kết quả
 Phần kết luận

2

CHƢƠNG I.

CƠ SỞ LÝ LUẬN

1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) là một lĩnh vực
nghiên cứu của trí tuệ nhân tạo , tập trung vào nghiên cứu các phương pháp, kỹ thuật
cho phép xử lý ngôn ngữ tự nhiên bằng máy tính, từ đó xây dựng các chương trình, hệ
thống máy tính xử lý ngôn ngữ của con người.

1.2 Khai phá quan điểm
1.2.1 Giới thiệu
Khai phá quan điểm là một trong các lĩnh vực khai thác thông tin nằm trong
ứng dụng của xử lý ngôn ngữ tự nhiên, giúp thu thập được những thông tin mong
muốn về quan điểm của dữ liệu.

1.2.2 Một số bài toán trong khai phá quan điểm
a) Bài toán xác định quan điểm
b) Bài toán phân loại quan điểm
c) Bài toán khai phá quan điểm theo đặc trưng, khía cạnh
d) Bài toán tóm tắt quan điểm

1.2.3 Một số khó khăn trong khai phá quan điểm
Phong cách viết của mỗi người là khác nhau: Mỗi cá nhân con người là khác
nhau, cách thức diễn đạt và sử dụng ngôn ngữ cũng khác nhau. Sự phong phú của
ngôn ngữ dẫn đến đa dạng hóa cách thể hiện quan điểm của từng người. Hơn thế nữa,
quan điểm của từng người còn phụ thuộc vào nhiều yếu tố như: tính cách, trình độ,
tuổi tác v.v...
Sự phụ thuộc vào bối cảnh và thời gian: Cùng một từ, một câu nói ở tình huống
này thể hiện tính chất tích cực, nhưng cũng chính từ đó, câu nói đó trong tình huống
khác lại thể hiện tính chất tiêu cực. Các lối nói ẩn dụ, hay đặc biệt là trong các hoàn
cảnh với ngụ ý mỉa mai, châm biếm có thể gây ra sự hiểu lầm về quan điểm. Quan
điểm về một bộ phận của vấn đề cũng làm ảnh hưởng đến quan điểm về toàn bộ vấn đề
nói chung.
Tồn tại nhiều quan điểm mâu thuẫn trong cùng một tài liệu: Trong cùng một tài
liệu, cụ thể như một bài viết, một bình luận có thể chứa nhiều quan điểm trái ngược

3
nhau, bao gồm cả tích cực lẫn tiêu cực. Đây cũng là một trong những vấn đề gây khó
khăn trong việc khai phá quan điểm.

1.2.4 Các cấp độ dữ liệu phân tích quan điểm
1.3 Tổng quan bài toán khai phá quan điểm trên dữ liệu mạng xã hội
Twitter
1.3.1 Giới thiệu về mạng xã hội Twitter
Mạng xã hội twitter ra đời vào ngày 21/3/2006 bởi Jack Dorsey và July, tính
đến tháng 5 năm 2016, Twitter có hơn 1.3 tỉ người dùng, trong đó có hơn 310 triệu
người dùng tích cực trong tháng và trung bình trên mỗi người dùng có 208 người theo
dõi. Trung bình có hơn 500 triệu tweet được tạo ra trên một ngày. Điều đó có nghĩa có
6000 tweet mỗi giây. Có 80% người sử dụng truy cập qua điện thoại, có 65.8% các

công ty ở Mỹ với hơn 100 người làm sử dụng Twitter để tiếp thị, quảng bá.
Từ một số thông tin trên, ta cũng có thể nhận thấy Twitter mà một kênh truyền
tải thông tin nhanh chóng, đa dạng, thể hiện quan điểm của người dùng trên nhiều khía
cạnh khác nhau trong cuộc sống.

1.3.2 Phát biểu bài toán
Bài toán khai phá quan điểm trên dữ liệu mạng xã hội Twitter là bài toán khai
phá quan điểm với miền dữ liệu trong phạm vi là mạng xã hội Twitter. Mỗi tweet được
phân loại vào hai loại tích cực hoặc tiêu cực.

1.3.3 Ý nghĩa bài toán
Mạng xã hội Twitter ngày càng lớn mạnh, cùng với đó, việc thể hiện quan điểm
trên mạng xã hội này cũng càng phổ biến. Việc khai phá quan điểm trên mạng xã hội
này có nhiều ý nghĩa, giúp ta thấy quan điểm của một người về một vấn đề nào đó.

1.3.4 Khó khăn và thách thức
Việc phân loại quan điểm với dữ liệu Twitter gặp khá nhiều khó khăn và thách
thức.
Các tweet có đặc điểm riêng khác so với các dạng văn bản truyền thống hay dữ
liệu trên các forum, mạng xã hội khác như Facebook. Số ký tự tối đa nhỏ, từ viết tắt, từ
lóng, từ sai chính tả, hơn nữa, chất lượng và độ tin cậy thấp. Nhiều đặc điểm của dữ

4
liệu Twitter làm giảm hiệu quả khai phá quan điểm dựa trên những kỹ thuật xử lý ngôn
ngữ tự nhiên truyền thống.

1.4 Một số kỹ thuật trong khai phá quan điểm
1.4.1 Các phương pháp cây quyết định
1.4.2 Phương pháp K-láng giềng gần nhất (K-Nearest Neighbor)

1.4.3 Thuật toán SVM
1.4.4 Một số nghiên cứu liên quan
Đã có rất nhiều công trình nghiên cứu của các tác giả [1, 4, 9, 10, 13] liên quan
đến việc khai phá quan điểm từ nhiều nguồn dữ liệu với các phương pháp khác nhau.
Sự phát triển nhanh chóng của mạng xã hội Twitter, thu hồi quan điểm trên Twitter đã
được nhiều sự quan tâm của các tác giả [1, 3, 13]. Bên cạnh đó luận văn cũng tham
khảo các phương pháp khai phá quan điểm của nhiều tác giả [2, 6, 8, 10] trên các dữ
liệu khác để có thể học hỏi và nâng cao kết quả.

1.5 Kết luận chƣơng 1
Trong chương 1 của luận văn, chúng tôi đã giới thiệu về xử lý ngôn ngữ tự
nhiên, cũng như một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên là bài toán
khai phá quan điểm. Chương này cũng trình bày tổng quan về mạng xã hội Twitter và
bài toán khai phá quan điểm trên mạng xã hội này, tầm quan trọng, ý nghĩa, khó khăn,
thách thức của bài toán.
Ngoài ra, nội dung chương còn đề cập đến một số kỹ thuật trong lĩnh vực khai
phá dữ liệu như phương pháp cây quyết định, phương pháp K-láng giềng gần nhất,
thuật toán SVM và các đặc trưng dữ liệu được sử dụng. Qua đó, đánh giá về ưu điểm,
nhược điểm của mỗi phương pháp. Ví dụ như phương pháp K láng giềng gần nhất thì
đây là phương pháp đơn giản nhưng lại hạn chế là giới hạn phạm vi ứng dụng của nó
và nó không rút ra được những quy luật mà khi nhìn vào đó chúng ta có thể hiểu được.
Phương pháp cây quyết định có điểm hạn chế là khi sinh cây quyết định nó sẽ tốn
nhiều bộ nhớ. Trong trường hợp có hỗ trợ sử dụng bộ nhớ ngoài thì nó lại có nhược
điểm về tốc độ thực thi. Thuật toán SVM được đánh giá tốt hơn so với các phương
pháp khác trong việc phân lớp dữ liệu. Việc trích xuất được các đặc trưng giá trị, cũng
như việc biểu diễn các đặc trưng này cũng đóng vai trò quan trọng trong giải quyết bài
toán. Chính vì vậy, trong bản luận văn này sẽ sử dụng thuật toán SVM kết hợp với các

5
biểu diễn đặc trưng như N-gram, Log-count ratio và CBS. Nội dung của chương sau sẽ
đi vào tìm hiểu kỹ hơn về kỹ thuật được lựa chọn.

6

CHƢƠNG II. PHƢƠNG PHÁP PHÂN LOẠI QUAN ĐIỂM
TRÊN TWITTER SỬ DỤNG HỌC MÁY
2.1 Phƣơng pháp phân loại quan điểm
Các bài toán phân lớp quan điểm đều thực hiện theo hai giai đoạn là giai đoạn
huấn luyện và giai đoạn phân lớp.

2.1.1 Thu thập dữ liệu
2.1.2 Tiền xử lý dữ liệu
2.1.3 Trích chọn đặc trưng và vector hóa dữ liệu
2.1.4 Sử dụng thuật toán huấn luyện tạo mô hình phân lớp
2.2 Các phƣơng pháp trích chọn đặc trƣng
2.2.1 Đặc trưng N-gram
Kỹ thuật N-gram chiếm ưu thế trong xử lý ngôn ngữ tự nhiên hiện đại cũng như
các ứng dụng của xử lý ngôn ngữ tự nhiên. N-gram truyền thống là một chuỗi các
thành phần xuất hiện trong văn bản. Những yếu tố này có thể là từ, ký tự, v.v... trong
văn bản. Quy ước ký tự “N” trong N-gram tương ứng với số phần tử trong một chuỗi.
Trong phạm vi luận văn này, chúng tôi sử dụng N-gram xét với mức thành phần cơ
bản là từ.

2.2.2 Đặc trưng CBS
a) Ý tưởng cơ bản
Đặt sự quan tâm của người dùng đến chủ đề là P (tích cực) và thiết lập tất cả
các chủ đề không liên quan khác trên một nguồn truyền thông xã hội là T (là hình

thức của dữ liệu tiêu cực):

Trong đó, n thường là lớn.
Tuy nhiên, do năng lực gán nhãn thủ công là có giới hạn, ta chỉ có thể gán nhãn
một số lượng nhất định dữ liệu. Từ đó, các dữ liệu tiêu cực được gán nhãn chỉ bao
gồm một số lượng nhỏ các chủ đề không liên quan S của T (

) như là tiêu

cực. Hơn nữa, do tính chất thay đổi thường xuyên của truyền thông xã hội nên việc

7
gán nhãn tất cả các chủ đề tiêu cực là không thể. Trong thử nghiệm, khi bài viết
của chủ đề tiêu cực khác trong T-S, phân loại của chúng không thể dự đoán được
trước. Ví dụ, trong một ứng dụng, dữ liệu huấn luyện có thể không có ví dụ tiêu
cực về thể thao. Tuy nhiên, trong thử nghiệm, một số bài viết về thể thao có thể
xuất hiện. Các bài viết này có thể được phân loại một cách tùy tiện, kết quả độ
chính xác phân loại thấp. Phương pháp Độ tƣơng đồng dựa trên tâm – CBS
nhằm mục đích giải quyết vấn đề này.
b) Phương pháp học CBS
Bƣớc 1: Tính toán C cho lớp tích cực. Mỗi vector trung tâm

là một biểu

diễn tài liệu
|

|

∑

‖

‖

|

|

∑

‖

‖

Trong đó:
là tập các tài liệu lớp tích cực
|.| là kích thước của hàm
và

là các tham số. Trong luận văn sử dụng

và

Bƣớc 2: Tính toán vector tương tự cbs-vd cho mỗi tài liệu
không gian vector tài liệu

dựa trên

và các trung tâm C tương ứng của tài liệu tích cực.

Sim là một tập các độ đo tương tự.
c) Đặc trưng DS
Để tính toán đặc trưng cbs-feature cho mỗi tài liệu, cần phải có các đặc trưng
ds-feature của một tài liệu và trung tâm của lớp tích cực. Trong phân loại tài liệu,
chúng ta sử dụng phổ biến các đặc trưng ngram với trọng số tf-idf như là các đặc trưng
ds-feature cho một tài liệu.
d) Đặc trưng CBS
Bảng 2.5 Các độ đo tƣơng tự cho đặc trƣng CBS

8
∑
√∑

∑

√∑

||
√∑

||
√∑
|

∑

|

∑
√∑

√∑
∑

√∑

√∑

∑

2.2.3 Đặc trưng Log-count Ratio
a) Ý tưởng
Qua quá trình nghiên cứu, hai tác giả Sida Wang và Christopher D. Manning
[9] đã chỉ ra rằng:
-

Sự bao gồm các đặc trưng Bigram từ tăng sự thích hợp trong phân tích quan
điểm.

-

Đối với quan điểm của trích đoạn ngắn, NB thực tế tốt hơn SVM.

-

Một cách đơn giản nhưng biến thể SVM mới sử dụng NB Log-count ratio như
giá trị đặc trưng luôn hoạt động tốt với các nhiệm vụ và bộ dữ liệu khác nhau.

Từ những kết luận ở trên, chúng tôi thử nghiệm lựa chọn Log-count ratio như

một đặc trưng được sử dụng trong luận văn.

b) Phương pháp
Theo Sida Wang và Christopher D. Manning [9], họ xây dựng các biến thể mô
hình chính là phân loại tuyến tính, dự đoán các trường hợp kiểm thử k:

9
| |

Cho

là vector đếm cho tập huấn luyện i với nhãn

là tập các đặc trưng, và

biểu diễn số lần xuất hiện của đặc trưng

.V
trong trường

hợp huấn luyện i.
∑

Định nghĩa vector đếm

và

∑

với hệ

số làm mịn . Log-cout ratio sẽ là:
(

|| ||
)
|| ||

2.3 SVM – Support Vevtor Machine

2.3.1 Giới thiệu chung
SVM sử dụng thuật toán học nhằm xây dựng một siêu phẳng làm cực tiểu hoá
độ phân lớp sai của một đối tượng dữ liệu mới. Độ phân lớp sai của một siêu phẳng
được đặc trưng bởi khoảng cách bé nhất tới siêu phẳng đấy. SVM có khả năng rất lớn
cho các ứng dụng được thành công trong bài toán phân lớp văn bản.
Phân lớp văn bản là một cách tiếp cận mới để tạo ra tập phân lớp văn bản từ các
mẫu cho trước. Cách tiếp cận này phối hợp với sự thực thi ở mức độ cao và hiệu suất
cùng với những am hiểu về mặt lý thuyết, tính chất thô ngày càng được hoàn thiện.
Thông thường, hiệu quả ở mức độ cao không có các thành phần suy nghiệm. Phương
pháp SVM có khả năng tính toán sẵn sàng và phân lớp, nó trở thành lý thuyết học mà
có thể chỉ dẫn những ứng dụng thực tế trên toàn cầu.
Đặc trưng cơ bản quyết định khả năng phân lớp là khả năng phân lớp những dữ
liệu mới dựa vào những tri thức đã tích luỹ được trong quá trình huấn luyện. Sau quá
trình huấn luyện nếu hiệu suất tổng quát hoá của bộ phân lớp cao thì thuật toán huấn
luyện được đánh giá là tốt.

2.3.2 Thuật toán SVM

Xét bài toán phân loại đơn giản nhất – phân loại hai phân lớp với tập dữ liệu
mẫu:
|
Trong đó mẫu là các vector đối tượng được phân loại thành các mẫu dương và
mẫu âm:
-

Các mẫu dương là các mẫu

thuộc lĩnh vực quan tâm và được gán nhãn

10
-

Các mẫu âm là các mẫu

thuộc lĩnh vực quan tâm và được gán nhãn

Thực chất phương pháp này là một bài toán tối ưu, mục tiêu là tìm ra một
không gian H và siêu mặt phẳng quyết định h trên H sao cho sai số phân lớp là thấp
nhất.

2.3.3 Huấn luyện SVM
Huấn luyện SVM là việc giải bài toán quy hoạch toàn phương SVM. Các
phương pháp số giải bài toán quy hoạch này yêu cầu phải lưu trữ một ma trận có kích
thước bằng bình phương của số lượng mẫu huấn luyện.

2.3.4 Các ưu điểm của SVM trong phân lớp
Phân lớp là một quá trình đưa các tài liệu chưa biết chủ đề vào các lớp chủ đề

đã biết (tương ứng với các chủ đề hay lĩnh vực khác nhau). Để thực hiện quá trình
phân lớp, các phương pháp huấn luyện được sử dụng để xây dựng tập phân lớp từ các
tài liệu mẫu, sau đó dùng tập phân lớp này để dự đoán lớp của những tài liệu mới
(chưa biết chủ đề).

2.3.5 Cách áp dụng thuật toán SVM vào bài toán phân lớp quan điểm
Lựa chọn các đặc trưng cho học máy SVM, sử dụng các đặc trưng như từ quan
điểm, từ phủ định (no, not, n’t ..), đặc trưng tweet (reply, retweets, hashtags, links,
biểu tượng cảm xúc,..) và các đặc trưng được lựa chọn khác trong luận văn.
Xây dựng các bộ phân lớp bộ phân lớp phân cực gồm tích cực và tiêu cực từ dữ
liệu học với các đặc trưng dựa trên.
Sau khi xây dựng được bộ phân lớp, chúng ta có thể đưa dữ liệu mới vào và tiến hành
gán nhãn tự động cho dữ liệu mới này.

2.4 Kết luận chƣơng 2
Chương 2 đã giới thiệu về các hướng tiếp cận, các công trình nghiên cứu, kỹ
thuật liên quan để phục vụ giải quyết bài toán. Chương này đi sâu về áp dụng phương
pháp học máy SVM và phương pháp biểu diễn đặc trưng với N-gram, Log-count ratio

11
và Độ tương đồng dựa trên tâm (CBS) trong bài toán khai phá quan điểm miền dữ liệu
Twitter.
Chương tiếp theo sẽ trình bày về hệ thống khai phá quan điểm dữ liệu trên
mạng xã hội Twitter, mô hình giải quyết bài toán, tập dữ liệu sử dụng, cách thức tiến
hành thực nghiệm, kết quả thực nghiệm.

12

CHƢƠNG III. THỰC NGHIỆM HỆ THỐNG KHAI PHÁ
QUAN ĐIỂM CHO DỮ LIỆU TWITTER
3.1 Dữ liệu thực nghiệm
Luận văn sử dụng tập dữ liệu đã được cung cấp sẵn tại địa chỉ website
/>Bảng 3.1 Bảng số liệu đối với bộ dữ liệu sử dụng

Mô tả
Số lượng Tweet
Số lượng Tweet tiêu cực
Số lượng Tweet tích cực
Số lượng từ chưa tiền xử lý
Số từ trung bình / câu chưa tiền xử lý

Số lƣợng
20.000 câu
10.000 câu
10.000 câu
297.935 từ
14,89675 từ

3.2 Thiết lập thực nghiệm
3.2.1 Hướng tiếp cận thực nghiệm
Sau quá trình nghiên cứu và tìm hiểu các phương pháp, luận văn đã đề xuất mô
hình giải quyết bài toán như đã trình bày ở phần trước. Để kiểm tra và đánh giá được
hiệu quả của mô hình đã đề xuất, chúng tôi đã tiến hành làm thực nghiệm.

3.2.2 Phương pháp sử dụng các đặc trưng trong thực nghiệm
Luận văn sử dụng nhiều đặc trưng khác nhau trong quá trình thực nghiệm.
Danh sách đặc trưng được liệt kê như dưới đây:
Bảng 3.2 Bảng các đặc trƣng sử dụng

Đặc trưng

Mô tả

Unigram

Đặc trưng từng từ riêng lẻ trong câu

Bigram

Đặc trưng chuỗi chuỗi 2 từ liên tiếp trong câu

Trigram

Đặc trưng chuỗi gồm 3 từ liên tiếp trong câu

Đặc trưng tweet

Bao gồm các đặc trưng Tag, Hashtag, Link
Các đặc trưng biểu tượng cảm xúc: tích cực, tiêu
cực, trung lập, tích cực mạnh, tiêu cực mạnh
Đặc trưng chứa các từ phủ định như “no”, “not”...

Biểu tượng cảm xúc

Từ phủ định
Độ tương đồng dựa trên tâm
Đặc trưng độ tương đồng dựa trên tâm
(CBS)
Đặc trưng Log-count ratio

Đặc trưng theo Log-count ratio

13

3.2.3 Phương pháp đánh giá tập dữ liệu
a) Phương pháp K-fold Cross Validation
Do tập dữ liệu sử dụng bao gồm 20.000 câu, chúng tôi sử dụng phương pháp Kfold cross validation cho việc đánh giá tập dữ liệu để tránh việc trùng lặp giữa các
tập kiểm thử (một số ví dụ cùng xuất hiện trong các tập kiểm thử khác nhau).
K-fold cross validation có các đặc điểm sau:
-

Tập toàn bộ các ví dụ D được chia ngẫu nhiên thành k tập con không giao
nhau (gọi là “fold”) có kích thước xấp xỉ nhau.

-

Mỗi lần (trong số k lần) lặp, một tập con được sử dụng làm tập kiểm thử,
và (k-1) tập con còn lại được dùng làm tập huấn luyện.

-

k giá trị lỗi (mỗi giá trị tương ứng với một fold) được tính trung bình cộng
để thu được giá trị lỗi tổng thể.

b) Độ chính xác Precision, độ bao phủ Recall và độ điều hòa F
Để đánh giá chính xác hơn chất lượng của mô hình ta sử dụng thêm 2 độ đo là
Precision và Recall. Precision cho biết bộ phân loại đoán chính xác bao nhiêu phần
trăm với từng nhãn phân loại (ví dụ nếu bộ phân loại kết luận phản hồi là tích cực
thì khả năng phản hồi đó thật sự là tích cực chiếm bao nhiêu phần trăm). Recall thì

ngược lại, nó cho biết nếu một câu phản hồi là tích cực, khả năng bộ phân loại đoán
đúng là bao nhiêu phần trăm.
Thực tế thì hai độ đo trên không phải lúc nào cũng tăng giảm tương ứng với
nhau, có trường hợp Recall cao còn Precision thấp và ngược lại, để cho đánh giá
tổng quát hơn ta dùng độ đo F-measure là trung bình điều hòa của 2 độ đo trên với
hệ số 0.5 (tầm quan trọng của 2 hệ số ngang nhau):
Precision hay còn gọi là Độ chính xác đối với lớp

Recall hay còn gọi là Độ bao phủ đối với lớp

:

:

14
Trung bình điều hòa F:

3.3 Công cụ thực nghiệm
3.3.1 Môi trường thực nghiệm
Bảng 3.5 Bảng cấu hình phần cứng

Thành phần

Chỉ số

CPU

Intel Core I5 2.6GHz

RAM

4GB

Bộ nhớ ngoài (HDD)

SATA 500GB

Hệ điều hành (OS)

Windows 10 Professional 64bit

3.3.2 Công cụ phần mềm
Tên công cụ

Mô tả

Visual Studio
Enterprise 2015

IDE lập trình ngôn ngữ C#

LibSVM

Bộ phần mềm cho học máy và phân loại bằng thuật toán
SVM. Nguồn: />
LibSVMsharp

Thư viện hỗ trợ LibSVM trên .Net. Nguồn:
/>

Python

Tạo môi trường thực thi cho LibSVM

3.3.3 Giới thiệu LibSVM
3.4 Kết quả thực nghiệm
3.4.1 Kết quả

15
Bảng 3.9 Bảng số kết quả thực nghiệm

Acc (%)

Negative

Positive

Pre

Rec

F

Pre

Rec

F

1-gram

79.94

70.50

86.93

77.68

89.40

75.19

81.68

2-gram

79.49

70.75

85.76

77.54

88.25

75.11

81.15

3-gram

78.44

69.75

84.44

76.39

87.15

74.23

80.17

80.35

71.25

87.1

78.38

89.45

75.68

81.99

81.05

71.25

88.62

78.99

90.85

75.96

82.74

80.99

70.75

88.99

78.83

91.25

75.73

82.77

60.05

55.95

60.95

58.34

64.14

59.29

61.62

69.15

60.01

73.44

66.04

78.30

66.19

71.74

65.05

60.90

66.41

63.54

69.20

63.90

66.44

64.01

60.00

65.22

62.50

68.00

62.96

65.38

80.22

77.50

81.97

81.97

82.95

78.66

80.75

80.98

79.45

81.95

81.95

82.50

80.06

81.26

80.83

80.05

81.31

81.31

81.60

80.35

80.97

1-gram
& LCR
2-gram
& LCR
3-gram
& LCR
CBS
1-gram
& CBS
2-gram
& CBS
3-gram &
CBS
1-gram
& LCR
& CBS
2-gram
& LCR
& CBS
3-gram
& LCR
& CBS

16

3.4.2 Đánh giá kết quả
a) So sánh độ chính xác của các phương pháp trích chọn đặc trưng
b) So sánh độ chính xác phân loại giữa các nhãn

3.5 Kết luận chƣơng 3
Nội dung chương này trình quá trình thực hệ thống khai phá quan điểm cho dữ
liệu Twitter. Trên cơ sở kết quả thực nghiệm ở chương này luận văn đưa ra phân tích
đánh giá về phương pháp thực hiện. Các kết quả cho thấy việc sử dụng các đặc trưng
riêng rẽ mang lại hiệu quả và độ chính xác không cao. Khi tăng dần việc kết hợp các
đặc trưng, độ chính xác phân lớp được cải thiện hơn. Điều này chứng tỏ tầm quan
trọng trong việc trích chọn đặc trưng và sử dụng kết hợp các đặc trưng trong bài toán
phân lớp.

17

KẾT LUẬN
Trong thời đại hiện nay, ứng dụng công nghệ thông tin vào cuộc sống đang
được áp dụng rộng rãi. Đây thực sự là một công cụ hỗ trợ đắc lực giúp cho con người
giải quyết được nhiều vấn đề, nhiều bài toán một cách nhanh chóng, chính xác và hiệu
quả cao. Một trong những ứng dụng đó là giúp con người khai phá quan điểm. Với
nguồn thông tin phong phú, cập nhật thường xuyên, gần như tức thời về quan điểm của
người dùng đối với cái vấn đề xung quanh, mạng xã hội Twitter mở là một cơ hội to
lớn với con người để khai thác được thông tin về quan điểm trên đó. Xuất phát từ cơ
hội đó, kết hợp với quá trình nghiên cứu, chúng tôi đã lựa chọn bài toán Khai phá quan
điểm trên mạng xã hội Twitter để thực hiện luận văn này.

Nghiên cứu về xử lý ngôn ngữ tự nhiên nói chung, về bài toán khai phá quan
điểm nói riêng với chúng tôi là công nghệ mới, thời gian nghiên cứu còn ngắn nên vẫn
còn nhiều vấn đề chưa thực sự nắm bắt tốt. Tuy nhiên qua quá trình nghiên cứu luận
văn, chúng tôi cũng thu được một số kết quả cũng như nhận thấy một số hạn chế như
sau:
1. Kết quả đạt đƣợc
Về mặt lý thuyết:
-

Tìm hiểu về mạng xã hội Twitter, đặc điểm về dữ liệu trên mạng xã hội Twitter.

-

Nghiên cứu về bài toán khai phá quan điểm trên mạng xã hội Twitter, vai trò, ý
nghĩa cũng như các khó khăc và thách thức.

-

Trình bày về các hướng tiếp cận, phương pháp giải quyết, các kỹ thuật liên
quan. Đi sâu vào các phương pháp học máy SVM, cách biểu diễn đặc trưng Ngram, Độ tương đồng dựa trên tâm và Log-count ratio.

Về thực nghiệm:
-

Đề xuất mô hình giải quyết bài toán khai phá quan điểm trên mạng xã hội
Twitter.

-

Tiến hành cài đặt thực nghiệm.

-

Đưa ra phân tích, đánh giá kết quả thực nghiệm.

2. Hạn chế

18
Do hạn chế về mặt thời gian và kiến thức nên luận văn vẫn còn tồn tại một số
điểm hạn chế.
-

Dữ liệu sử dụng còn chưa đủ lớn, thực nghiệm mới thực hiện trên 20.000 tweet.
Con số này còn quá nhỏ so với lượng tweet thực tế.

-

Bài toán dừng lại ở mức tổng quát, đánh giá quan điểm của tweet, chưa áp dụng
vào một lĩnh vực hay bài toán cụ thể hơn.

3. Hƣớng phát triển
Trong thời gian tới, chúng tôi sẽ tiếp tục nghiên cứu các phương pháp khác để
nâng cao chất lượng kết quả của bộ phân lớp quan điểm. Cùng với đó, xây dựng ứng
dụng thực tế với các bài toán trong các lĩnh vực cụ thể. Ngoài ra, cần nâng cao tốc độ
xử lý, hoàn thiện hơn về hệ thống.

19

TÀI LIỆU THAM KHẢO
[1] Agarwal, Apoorv and Xie, Boyi and Vovsha, Ilia and Rambow, Owen and
Passonneau, Rebecca (2011), Sentiment Analysis of Twitter. Columbia University.
New York, NY 10027 USA.
[2] Bing Liu (2012), Sentiment Analysis and Opinion Mining, Morgan & Claypool
Publishers.
[3] Barbosa, Luciano and Junlan Feng, Robust, (2010), Sentiment detection on twitter
from biased and noisy data, Proceedings of the International Conference on
Computational Linguistics (COLING-2010).
[4] Davidov, Dmitry and Tsur, Oren and Rappoport, Ari (2010). Enhanced sentiment
learning using Twitter hashtags and smileys, in Proceedings of the 23rd
International Conference on Computational Linguistics: Posters, 241-249.
[5] Francisco J. Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005). Semantic
Similarity Between Sentences Through Approximate Tree Matching, Pattern
Recognition and Image Analysis, 638-646.
[6] Geli Fei and Bing Liu, (2008). Social Media Text Classification under Negative
Covariate Shift, Proceedings of the 2015 Conference on Empirical Methods in
Natural Language Processing, 2347–2356.
[7] Reinhard Kneser and Hermann Ney (1995). Improved backing-off for n-gram
language modelling, Proceedings of the IEEE Conference on Acoustics, Speech
and Signal Processing, 181-184.
[8] SamuelBrody,NicholasDiakopoulos(2011),Cooooooooooooooollllllllllllll!!!!!!!!!!
!!!! Using Word Lengthening to Detect Sentiment in Microblogs, 562-570.
[9] Shengli Wu, (2011). Fusing Blog Opinion Retrieval Results for Better
Effectiveness, Database and Expert Systems Applications (DEXA), 195-199.
[10 Sida Wang and Christopher D. Manning, (2012). Baselines and Bigrams: Simple,
]

Good Sentiment and Topic Classification, Proceedings of the 50th Annual
Meeting of the Association for Computational Linguistics, 90-94.

[11 T. Joachims (1999). Transductive Inference for Text Classification using Support

20

]

Vector Machines. International Conference on Machine Learning (ICML), 1999.

Khai phá quan điểm dữ liệu Twitter (tt)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về