Tải bản đầy đủ (.doc) (96 trang)

Phân tích ý kiến về sản phẩm của doanh nghiệp qua thông tin trên internet

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.1 MB, 96 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM
---------------------------

LÊ HỒ NGẠN

PHÂN TÍCH Ý KIẾN VỀ SẢN PHẨM CỦA DOANH
NGHIỆP QUA THÔNG TIN TRÊN INTERNET
(**Từ khóa: Opinion Analysics, Sentiment Analysis, sentiment analysis social
network, Phân tích cảm xúc mạng xã hội, Sentiment Classification)
LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông
tin
Mã số ngành: 60480201

CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS ĐỖ
PHÚC

TP. HỒ CHÍ MINH, tháng 03 năm
2017


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH
TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.
HCM
Cán bộ hướng dẫn khoa học : PGS.TS ĐỖ
PHÚC
(Ghi rõ họ, tên, học hàm, học vị và chữ
ký)


Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM
ngày 31 tháng 03 năm 2017
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc
sĩ)
TT

Họ và tên

Chức danh Hội đồng

1

PGS.TS. Quản Thành Thơ

Chủ tịch

2

TS. Cao Tùng Anh

Phản biện 1

3

TS. Nguyễn Thị Thúy Loan

Phản biện 2

4


PGS.TS. Võ Đình Bảy

Ủy viên

5

TS. Lê Thị Ngọc Thơ

Ủy viên, Thư ký

Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã
được sửa chữa (nếu có).
Chủ tịch Hội đồng đánh giá LV

PGS.TS QUẢN THÀNH THƠ


TRƯỜNG ĐH CÔNG NGHỆ TP. HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT

PHÒNG QLKH – ĐTSĐH

NAM Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày 31 tháng 03 năm
2017

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ

tên
Ng
ày,
Ch
uy

L
Ê
2
6
C
ô

GN
ia
NB
ơ ìn
M1
S5

I- Tên đề tài:
PHÂN TÍCH Ý KIẾN VỀ SẢN PHẨM CỦA DOANH NGHIỆP
QUA THÔNG TIN TRÊN INTERNET
II- Nhiệm vụ và nội dung:
Đề tài luận văn bao gồm 3 nhiệm vụ chính với các nội dung như sau:


Xây dựng công cụ lấy dữ liệu từ Internet theo các từ khóa tìm kiếm tiếng
Việt.




Làm sạch dữ liệu, xây dựng mô hình phân lớp dữ liệu dựa trên cảm xúc
tập bình luận của độc giả.



Thực hiện phân tích trọng số cảm xúc dựa trên bộ từ điển cảm xúc tiếng
Việt.

III- Ngày giao nhiệm vụ: 10/11/2016
IV- Ngày hoàn thành nhiệm vụ: 31/03/2017
V- Cán bộ hướng dẫn: PGS.TS ĐỖ PHÚC
CÁN BỘ HƯỚNG DẪN

KHOA QUẢN LÝ CHUYÊN NGÀNH

(Họ tên và chữ ký)

(Họ tên và chữ ký)

PGS.TS ĐỖ PHÚC


LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả
nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình
nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này

đã được cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc.
Học viên thực hiện luận văn
(Ký và ghi rõ họ tên)

LÊ HỒ NGẠN


LỜI CÁM ƠN
Đầu tiên cho tôi xin phép được gửi lời cám ơn vô cùng sâu sắc đến với PGS.TS
Đỗ Phúc, người thầy đã trước tiếp hướng dẫn, chỉ bảo cũng như tạo mọi điều kiện tốt
nhất cho tôi trong suốt quá trình thực hiện luận văn này.
Ngoài ra tôi cũng xin được gửi lời cám ơn chân thành đến PGS.TS Võ Đình
Bảy cùng toàn thể đội ngũ cán bộ, thầy cô đang công tác tại ĐH Công Nghệ TP. HCM,
những người đã trực tiếp giảng dạy, các bạn đồng học trong lớp 15SCT11 đã hỗ trợ tôi
trong quá trình học tập và thực hiện các nghiên cứu tại trường.
Cuối cùng tôi cũng xin được gửi lời cám ơn đến gia đình và người thân đã có
những ủng hộ về mặt tinh thần cũng như giúp đỡ đáng kể cho tôi trong quá trình
nghiên cứu và hoàn thành luận văn này.
LÊ HỒ NGẠN


TÓM TẮT
Trong thực tế hiện nay cùng với sự phát triển mạnh mẽ của Internet, việc quảng bá sản
phẩm, thương hiệu doanh nghiệp và sự lan truyền thông tin trên báo điện tử, mạng xã
hội, website…vô cùng nhanh chóng. Đó là một kênh tiếp thị của doanh nghiệp đến với
các khách hàng mang tính hiệu quả cao và tiết kiệm chi phí.
Ngoài những mạng xã hội nổi tiếng như Facebook, Instagram, Twitter,…tại Việt Nam
một số báo điện tử uy tín như VnExpress, Thanh niên, Tuổi trẻ, Dân trí, các trang
website bán hàng trực tuyến thu hút lượng người xem rất lớn. Vì vậy, sản phẩm và
thương hiệu của các doanh nghiệp sẽ được người dùng biết đến qua các kênh này ngày

một nhiều hơn so với các cách quảng bá và tiếp thị theo truyền thống. Do đó, câu hỏi
đặt ra là làm thế nào có thể xử lý lượng thông tin phản hồi rất lớn từ các bình luận của
độc giả diễn ra hàng phút, hàng giây. Đây là bài toán liên quan về cảm xúc. Yêu cầu
cụ thể cần giải quyết 3 vấn đề chính như sau:


Xây dựng công cụ lấy dữ liệu từ Internet theo các từ khóa tìm kiếm
tiếng Việt.



Làm sạch dữ liệu, xây dựng mô hình phân lớp dữ liệu dựa trên cảm xúc
tập bình luận của độc giả.



Thực hiện phân tích trọng số cảm xúc dựa trên bộ từ điển cảm xúc tiếng
Việt.

Để giải quyết yêu cầu đặt ra, chúng tôi đã thừa kế và phát triển công cụ lấy dữ liệu tự
động trên Internet (crawler), thông dịch bộ từ điển cảm xúc tiếng Anh (SO-CAL) sang
tiếng Việt, sử dụng mô hình SVM để phân lớp cảm xúc và một số các giải thuật để
phân tích cảm xúc đạt hiệu suất chính xác một cách tối ưu.

Luận văn bao gồm 5 chương, trong đó chúng tôi sẽ trình bày các ý tưởng, cơ sở lý
thuyết, phương pháp thực hiện, mô hình thực nghiệm để đánh giá và kết luận về kết
quả đã đạt được cũng như hướng phát triển trong tương lai.


ABSTRACT

In current time, the fast development of the Internet as well as the increases in the
product’s promotions, marketing… from famous brands had been expanded on
electronic newspapers, social-network, websites... much more faster. There is no
doubt that these are the information channels of the business which can help them to
connect to the potential customers with high efficiency and cost savings.
Beside the popular social networks such as Facebook, Instagram, Twitter, ... in
Vietnam some prestigious newspapers such as VnExpress, TuoiTre, Dan Tre… go
along with online e-commercial websites which attracted a lot of clients to access.
Therefore, the marketing products had been more and more be known by users
through these channels than previous traditional advertising ways. In fact, the question
is how we can handle the huge amount of feedback from the reader's comments. There
are three main issues:


Building tools to gather data from the Internet (web’s crawler) based on
the Vietnamese search keywords.



Cleaning, structuring the crawled data and classifying the data to
identify the subjective and objective comments.



Performing the sentimental analysis based on custom build-up emotional
Vietnamese dictionaries.

To come up with the solutions, by inheriting from previous works as well as selfdeveloping the custom crawler’s tools. In order to build the dictionary, we translate
the English-based social emotional dictionary (SO-CAL) into Vietnamese. For
classifying problem, we use the SVM algorithm and some related algorithms.

There are five chapters in this thesis, in which we will present ideas, theoretical basis,
methodology, experimental models for evaluating the achieved results as well as next
developmental directions for the future.


DANH MỤC TỪ VIẾT TẮT
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH
CHƯƠNG 1. GIỚI THIỆU VÀ TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN CỨU ..........1
1.1. Lý do và động lực thực hiện đề tài...................................................................................1
1.2. Mục đích và phạm vi nghiên cứu của đề tài ....................................................................2
1.3. Các công trình nghiên cứu liên quan ...............................................................................2
1.4. Các điểm mới và đóng góp trong luận văn ......................................................................4
1.5. Tính khả thi của đề tài......................................................................................................5
1.6. Thống kê và nhu cầu sử dụng Internet tại Việt Nam .......................................................6
1.7. Mô hình hệ thống .............................................................................................................7
1.8. Các phương pháp luận và phương pháp nghiên cứu được áp dụng .................................8
1.9. Kết luận chương ...............................................................................................................9
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT ......................................................................................10
2.1. Đặc trưng về dữ liệu từ các trang tin tức và mạng xã hội tiếng Việt .............................10
2.2. Phân loại cảm xúc là gì? ................................................................................................12
2.3. Bộ từ điển cảm xúc SO-CAL tiếng Việt ........................................................................14
2.3.1. Bộ từ điển cảm xúc SO-CAL tiếng Anh .................................................................14
2.3.2. Bộ từ điển SO-CAL tiếng Việt ...............................................................................17
2.4. Phương pháp phân loại chủ quan ...................................................................................21
2.4.1. Câu có từ hàm chứa cảm xúc ..................................................................................21
2.4.2. Các trường hợp khác ...............................................................................................22
2.5. Phương pháp phân loại cảm xúc ....................................................................................23
2.5.1. Giá trị cảm xúc của câu phụ thuộc vào từ hàm chứa cảm xúc................................23
2.5.2. Giá trị cảm xúc của câu phụ thuộc vào từ tăng cường............................................24

2.5.3. Giá trị cảm xúc của câu phụ thuộc vào từ phủ định................................................25
2.5.4. Giá trị cảm xúc của câu phụ thuộc vào từ khiếm khuyết ........................................26
2.5.5. Giá trị cảm xúc của câu có xu hướng tích cực ........................................................26
2.6. Phương pháp phân lớp Support Vector Machine...........................................................27
2.6.1. Giới thiệu ................................................................................................................27
2.6.2. Các bước chính của phương pháp SVM .................................................................28
2.6.3. Bài toán phân hai lớp với SVM ..............................................................................29
2.6.4. Bài toán phân nhiều lớp SVM................................................................................30


2.7. Phân tích cảm xúc dựa vào bình luận ............................................................................31
2.8. Phương pháp tách từ, gán nhãn từ loại ..........................................................................31
2.9. Kết luận chương .............................................................................................................32
CHƯƠNG 3. CÁC BƯỚC XÂY DỰNG NỀN TẢNG HỆ THỐNG VÀ CÀI ĐẶT ..........33
3.1. Xây dựng mô hình .........................................................................................................33
3.2. Thu thập dữ liệu .............................................................................................................34
3.2.1. Cách thức thực hiện ................................................................................................36
3.2.2. Chi tiết thực hiện lấy dữ liệu...................................................................................39
3.3. Tiền xử lý, định dạng dữ liệu có cấu trúc ......................................................................40
3.4. Dữ liệu huấn luyện .........................................................................................................43
3.4.1. Mô hình phân lớp SVM ..........................................................................................44
3.4.2. Kỹ thuật phân lớp SVM ..........................................................................................45
3.4.3. Phân loại chủ quan ..................................................................................................46
3.4.4. Phân loại cảm xúc ...................................................................................................47
3.5. Kết luận chương .............................................................................................................52
CHƯƠNG 4. THỰC NGHIỆM VÀ CÁC KẾT QUẢ ĐÁNH GIÁ ....................................53
4.1. Bộ dữ liệu thực nghiệm..................................................................................................53
4.2. Bộ dữ liệu huấn luyện ....................................................................................................53
4.3. Bộ từ điển cảm xúc ........................................................................................................54
4.4. Phương pháp thử nghiệm ...............................................................................................55

4.4.1. Mô hình phân lớp SVM trên tập dữ liệu huấn luyện ..............................................55
4.4.2. Phương pháp phân tích cảm xúc trên một số lĩnh vực ............................................62
CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .....................................................64
TÀI LIỆU THAM KHẢO ......................................................................................................66
PHỤ LỤC.................................................................................................................................68


DANH MỤC TỪ VIẾT TẮT
C
N
P
O
P
os
N
eg
W
T
P
R
F
H
T

In
fo
P
ar
P
os

N
eg
W
or
Pr
ec
R
ec
H
ar
H
y

C
ôn
T

Đi

Đi

T

Đ

Đ

Tr
un
Gi

ao


DANH MỤC CÁC BẢNG
Bảng 2.1: Một số từ tăng cường ................................................................................... 15
Bảng 2.2: Bảng so sánh hiệu suất của các bộ từ điển khác nhau với từ điển SO-CAL 17
Bảng 2.3: Một số từ trong bộ từ điển danh từ .............................................................. 19
Bảng 2.4: Một số từ trong bộ từ điển động từ .............................................................. 19
Bảng 2.5: Một số từ trong bộ từ điển tính từ ................................................................ 20
Bảng 2.6: Một số từ trong bộ từ điển trạng từ .............................................................. 20
Bảng 2.7: Một số từ trong bộ từ điển từ tăng cường .................................................... 21
Bảng 3.1: Dữ liệu thu thập liên quan từ khóa............................................................... 38
Bảng 3.2: Vị trí và trọng số của các từ trong câu tích cực ........................................... 50
Bảng 3.3: Vị trí và trọng số của các từ trong câu tiêu cực ........................................... 51
Bảng 3.4: Vị trí và trọng số các từ trong câu không cảm xúc ...................................... 51
Bảng 4.1: Bộ dữ liệu thử nghiệm ................................................................................. 53
Bảng 4.2: Dữ liệu huấn luyện ....................................................................................... 54
Bảng 4.3: Số lượng từ loại trong bộ từ điển SO-CAL tiếng Việt................................. 55
Bảng 4.4: Nội dung bài báo .......................................................................................... 58
Bảng 4.5: Định dạng bài viết theo cấu trúc XML ........................................................ 60
Bảng 4.6: Kết quả thực nghiệm SVM (phần 1) ............................................................ 60
Bảng 4.7: Kết quả nghiệm SVM (phần 2) .................................................................... 61
Bảng 4.8: Một số bài báo trong các lĩnh vực................................................................ 62


DANH MỤC CÁC HÌNH
Hình 1.1: Mô hình tổng quan hệ thống phân tích cảm xúc dựa vào bình luận trên các
trang tin tức và mạng xã hội Tiếng Việt ......................................................................... 7
Hình 2.1: Mô hình Support Vectormachine ................................................................. 29
Hình 2.2: Mô hình phân hai lớp SVM .......................................................................... 30

Hình 3.1: Mô hình hệ thống thực nghiệm tổng quát .................................................... 33
Hình 3.2: Cơ chế thực hiện thu thập dữ liệu từ Internet ............................................... 35
Hình 3.3: Nội dung bài báo và bình luận trên VnExpress............................................ 37
Hình 3.4: Crawler lấy dữ liệu theo từ khóa tiếng Việt ................................................. 39
Hình 3.5: Hệ thống lấy dữ liệu từ các trang tin tức ...................................................... 39
Hình 3.6: Lấy dữ liệu thô và lưu trữ theo định dạng XML .......................................... 40
Hình 3.7: Giai đoạn tiền xử lý và định dạng văn bản có cấu trúc ................................ 41
Hình 3.8: Định dạng nội dung bài báo sang XML ....................................................... 42
Hình 3.9: Dữ liệu qua giai đoạn tiền xử lý và định dạng XML ................................... 43
Hình 3.10: Mô hình huấn luyện SVM .......................................................................... 46
Hình 3.11: Mô hình phân loại chủ quan ....................................................................... 46
Hình 3.12: Mô hình phân loại cảm xúc ........................................................................ 47
Hình 4.1: Minh họa Pseudocode cho xác định tỷ lệ bình luận tích cực và tiêu cực..... 57
Hình 4.2: Biểu đồ thống kê kết quả thực nghiệm SVM ............................................... 61
Hình 4.3: Kết quả thực nghiệm phân tích cảm xúc ...................................................... 63


CHƯƠNG 1. GIỚI THIỆU VÀ TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN
CỨU
1.1. Lý do và động lực thực hiện đề tài
Trong bối cảnh của thế giới nói chung và Việt Nam nói riêng, đặc biệt trong thời điểm
Việt Nam đã gia nhập WTO thì vấn đề cạnh tranh và thử thách giữa các doanh nghiệp để
tìm kiếm thị phần trên thị trường là vô cùng khốc liệt.
Nhu cầu giao thương giữa doanh nghiệp và người tiêu dùng là một nhu cầu tất yếu hằng
ngày. Câu hỏi đặt ra ở đây là làm sao người tiêu dùng có thể mua một sản phẩm mang lại
hiệu quả về mặt chất lượng và chi phí? Cơ sở, công cụ nào để có thể hỗ trợ giúp người
tiêu dùng đánh giá một cách tương đối về một sản phẩm hay một thương hiệu?
Việc đánh giá từ những phản hồi, bình luận của độc giả từ những các trang tin tức và
mạng xã hội tiếng Việt nổi tiếng tại Việt Nam về sản phẩm, thương hiệu là một kênh
thông tin hiệu quả để người tiêu dùng có thêm những quyết định trong việc mua những

sản phẩm nào, thương hiệu nào.
Về phía doanh nghiệp, việc đón nhận và xử lý tốt các thông tin phản hồi này sẽ là một
trong những kênh sẽ góp phần giúp doanh nghiệp cải tiến mẫu mã, chất lượng, giá thành
sản phẩm…đáp ứng được nhu cầu ngày càng cao của người tiêu dùng. Quan trọng hơn là
nâng cao hình ảnh, thương hiệu và sức cạnh tranh thị trường của doanh nghiệp. Tuy
nhiên, với lượng thông tin bình luận rất lớn và diễn ra từng phút, từng giây và đa chiều
thì không thể phân tích bằng thủ công mà đòi hỏi phải có một công cụ chuyên dụng.
Để xây dựng thành công hệ thống như vậy cần có quá trình nghiên cứu và thử nghiệm lâu
dài với lượng dữ liệu đủ lớn kết hợp với quá trình phân tích, xây dựng, thử nghiệm, điều
1


chỉnh giải pháp trong thực tế. Hiện tại, trên thế giới có rất nhiều sản phẩm và công trình
nghiên cứu về vấn đề này nhưng phân tích bằng những ngôn ngữ khác. Vì vậy, việc thực
hiện ở đây là phân tích cảm xúc trên thông tin tiếng Việt và áp dụng vào một doanh
nghiệp Việt Nam sẽ có ý nghĩa thực tiễn.
Ở Việt Nam, các công trình nghiên cứu lĩnh vực này chưa được nhiều, không tập trung
vào bài toán cảnh báo doanh nghiệp và cũng có nhiều hạn chế vì tính phức tạp liên quan
như: xây dựng bộ từ điển cảm xúc tiếng Việt, xử lý ngôn ngữ tự nhiên….

1.2. Mục đích và phạm vi nghiên cứu của đề tài
Thực hiện việc xây dựng mô hình phân tích ý kiến về sản phẩm của doanh nghiệp qua
thông tin trên các trang tin tức và mạng xã hội tiếng Việt. Để thực hiện được các mục tiêu
và yêu cầu của đề tài đặt ra, các bước sẽ thực hiện như sau:
-

Nghiên cứu các lý thuyết, phương pháp, giải thuật liên quan đến phân tích cảm xúc.

-


Nghiên cứu các đặc trưng cơ bản trong tiếng Việt.

-

Xây dựng mô hình phân tích ý kiến dựa trên cơ sở phân loại cảm xúc tiếng Việt.

-

Áp dụng mô hình phân tích ý kiến dựa trên cơ sở phân loại cảm xúc tiếng Việt cho
các trang tin tức, mạng xã hội tiếng Việt cho một sản phẩm cụ thể.

1.3. Các công trình nghiên cứu liên quan
Trong nước: Ở Việt Nam, cũng có một số nghiên cứu về lĩnh vực này. Tuy nhiên, kết
quả vẫn mới ở bước đầu. Một số công trình nghiên cứu nổi bật.


Sentiment classification using Enhanced Contextual Valence Shifters[4].
Nhóm tác giả Võ Ngọc Phú và Phan Thị Tươi trình bày phương pháp phân
loại cảm xúc tiếng Việt dựa vào giá trị cảm xúc và ngữ cảnh của văn bản
với kỹ thuật xử lý ngôn ngữ tự nhiên phức tạp. Nhóm tác giả này đã xây
dựng bộ từ điển cảm xúc tiếng Việt và liệt kê các ngữ cảnh ảnh hưởng đến
giá trị cảm xúc của các từ và câu văn trong văn bản[16]. Với độ chính xác
2


gần 70% trên dữ liệu thử nghiệm và huấn luyện về phim ảnh là một kết quả
rất khả quan.


Tóm tắt ý kiến trên cơ sở phân loại cảm xúc[1]. Tác giả Nguyễn Ngọc Duy

đã xây dựng mô hình tóm tắt các ý kiến trên cơ sở phân loại cảm xúc từ ý
kiến của bạn đọc trên các trang mạng xã hội tiếng Việt. Với kho ngữ liệu
gồm hơn 200 ý kiến từ hai chủ đề là xã hội và kinh doanh kết hợp với bộ từ
điển cảm xúc tiếng Việt gồm 2000 từ đã cho kết quả chính xác đến hơn
60%.

Ngoài nước: Công trình nghiên cứu, phân tích cảm xúc bằng tiếng Anh được bắt đầu vào
những năm 2001 và đã cho những kết quả cụ thể như sau:
 Large-Scale Sentiment Analysis for News and Blogs[8]
Những nhận xét, ý kiến… thông qua những bài viết trên các phương tiện
như các trang tin tức, blog... Bài báo trình bày cơ chế gán điểm số để thấy
quan điểm tích cực hay tiêu cực cho từng đối tượng thực thể liên quan với
nội dung. Hệ thống được xây dựng bao gồm giai đoạn xác định cảm xúc
với việc bày tỏ ý kiến với từng đối tượng có liên quan. Tập hợp những cảm
xúc được ghi lại cụ thể qua từng giai đoạn, trong đó điểm số mỗi thực thể
liên quan đến những người dùng khác nhau trong cùng một chủ đề được đề
cập.
Kỹ thuật này đã được nhóm tác giả đánh giá tầm quan trọng của nó lên một
bộ ngữ liệu lớn các tin tức và bài viết được công khai trên Internet.
 Sentiment

Analysis:

Adjectives

and

Adverbs

are


better

than Adjectives Alone[9]
Các nghiên cứu trước đây về thể hiện cảm xúc chủ yếu được xác định qua
các từ loại: danh từ, động từ và tính từ. Trong bài báo này đã đề xuất một
kỹ thuật phân tích cảm xúc AAC (sử dụng kết hợp trạng từ, tính từ) dựa

3


trên phương pháp tuyến tính. Thực nghiệm trên thực tế trên 200 bài viết đã
cho kết quả với độ chính xác cao.
 A

Sentimental

Education:

Sentiment

Analysis

Using

Subjective

Summarization Based on Minimum Cuts[6]
Đây là phương pháp giải quyết bài toán phân tích cảm xúc, tâm lý. Cách giải
quyết là tìm cách xác định những quan điểm nằm bên dưới một chuỗi ký tự.

Để xác định được tình cảm này, nhóm tác giả để xuất một phương pháp học
máy nhằm phân loại văn bản để xác định phần chủ quan trong văn bản. Điều
này sẽ giảm thiểu được sự phức tạp trong việc tìm kiếm trên đồ thị.
Phương pháp này tạo thuận lợi lớn cho việc phân tích dữ liệu sử dụng câu
trong từng ngữ cảnh cụ thể, xác định.
Ngoài ra, còn có rất nhiều công trình và nghiên cứu được thực hiện trên nhiều
lĩnh vực khác nhau như thương mại (đánh giá sản phẩm), xã hội (tình trạng
thất nghiệp), giải trí (bình luận phim ảnh), …

1.4. Các điểm mới và đóng góp trong luận văn
Từ ý tưởng ban đầu đến các bước triển khai ra thực tế, một số đóng góp và cải tiến đã
được đề xuất và mô tả trong trong luận văn và được gói gọn trong 5 thành phần chính
sau:
a) Kế thừa từ những nghiên cứu và công bố của tác giả [1][2]. Trong quá trình
thực hiện đề tài, luận văn chúng tôi có đề ra một số hình thức cải tiến nhằm
nâng cao sự chính xác trong việc việc đánh giá cảm xúc qua bình luận.
b) Kế thừa và phát triển máy tìm kiếm theo từ khóa tiếng Việt.

4


c) Xây dựng bộ từ điển cảm xúc tiếng Việt dựa trên nền tảng bộ cảm xúc tiếng
Anh (SO-CAL) và điều chỉnh trọng số phù hợp sau những thử nghiệm nhằm
nâng cao hiệu quả chính xác trong việc đánh giá cảm xúc bằng tiếng Việt.
d) Xây dựng mô hình đánh giá cảm xúc dựa trên giải thuật phân lớp SVM đạt
hiệu suất tương đối cao.
e) Xây dựng hệ thống hỗ trợ cho doanh nghiệp Việt Nam trong việc phân tích
phản hồi thông tin từ người dùng qua các trang tin tức và mạng xã hội tiếng
Việt. Đây cũng được xem như một kênh để giúp doanh nghiệp tự đánh giá
được mình nhằm đưa ra các chiến lược trong việc cải tiến sản phẩm, nâng cao

thương hiệu…để đáp ứng tốt hơn cho nhu cầu ngày càng cao của người dùng.

1.5. Tính khả thi của đề tài
Trọng tâm của đề tài: Đề tài được xây dựng trên trọng tâm chính là xây dựng một hệ
thống hỗ trợ doanh nghiệp qua phân tích ý kiến phản hồi của người dùng từ các trang tin
tức và mạng xã hội tiếng Việt. Thông tin phản hồi của người dùng phải được cập nhật
liên tục nhằm tổng hợp và thống kê thông tin phản hồi của người dùng đến với doanh
nghiệp một cách nhanh & chính xác nhất.
Tính khả thi: Vấn đề cốt lõi là làm thế nào để xây dựng công cụ tìm kiếm tối ưu theo từ
khóa, phương pháp phân tích cảm xúc, bộ từ điển cảm xúc tiếng Việt.
Công trình liên quan: Hiện tại có một số công trình liên quan phân tích cảm xúc bằng
Tiếng Anh đã được công bố của Bing Liu[3], nhóm Bo Pang and Lillian Lee[6] và nhóm
Thanh Ho, Duy Doan and Phuc Do[8]. Bên cạnh đó cũng có một số công trình Việt như
Nguyễn Ngọc Duy[1], Thái Sơn[2], cũng có những kết quả đáng khích lệ và là nguồn
tham khảo cho những nghiên cứu sau này.

5


1.6. Thống kê và nhu cầu sử dụng Internet tại Việt Nam
Trong những năm gần đây, cùng với sự phát triển của lĩnh vực công nghệ thông tin toàn
cầu, Việt Nam cùng đang hòa nhập và từng bước áp dụng thành tựu của công nghệ thông
tin vào đời sống hằng ngày khá hiệu quả. Cụ thể, đó là số lượng người sử dụng Internet
ngày càng nhiều. Theo thống kê đến tháng 6/2016, số lượng người Việt Nam sử dụng
Internet là 52 triệu người(chiếm 54% dân số). Đã có 43% người tiêu dùng Việt Nam chia
sẻ rằng, họ lần đầu biết đến sản phẩm họ mua là thông qua quảng cáo trực tuyến.
Internet cũng làm thay đổi, tác động đến xã hội và cá nhân. Sự ra đời và phát triển của
Internet cũng làm nền móng để phát triển mạng xã hội, báo điện tử, giao dịch trực tuyến,
quảng cáo online…Người tiêu dùng ngày càng có nhiều thông tin và lựa chọn về sản
phẩm, thương hiệu…

Các doanh nghiệp tại Việt Nam đã và đang áp dụng công cụ Internet để quảng bá cho sản
phẩm, thương hiệu của họ. Có rất nhiều tờ báo điện tử tiếng Việt nổi tiếng như
VnExpress, Thanh niên, Tuổi trẻ,…có số lượt truy cập lớn và nhận được nhiều thông tin
phản hồi của độc giả và sản phẩm, thương hiệu của các doanh nghiệp.
Tuy nhiên, với số lượng lớn về dữ liệu trên nhiều nguồn và tính đa chiều phức tạp thì việc
phân tích, xử lý bằng thủ công là điều không khả thi. Vì vậy, các doanh nghiệp cần một
công cụ phân tích, đánh giá tự động để có thể giúp họ có thể xử lý các thông tin trên một
cách khoa học và nhanh chóng là một điều rất cần thiết và thực tế.

6


1.7. Mô hình hệ thống

7


Tiền xử lý
Nội dung
bản tin và
tập bình
luận kèm
bản tin

Phân loại
cảm xúc

Đầu vào

Định dạng

văn bản có
cấu trúc

Đầu ra

Tập bình luận đã
phân tích cảm
xúc

Phân loại
chủ quan

Hình 1.1: Mô hình tổng quan hệ thống phân tích cảm xúc dựa vào bình luận trên
các trang tin tức và mạng xã hội Tiếng Việt
Mô hình trên bao gồm các khối xử lý chính như sau:


Tiền xử lý



Định dạng văn bản có cấu trúc



Phân loại chủ quan



Phân loại cảm xúc


Đầu vào: Tập bình luận tiếng Việt “thô” trên các trang tin tức và mạng xã hội tiếng Việt.
Đầu ra: Tập bình luận tiếng Việt sau khi được hệ thống phân tích cảm xúc đã được phân
thành 2 loại: cảm xúc tích cực và cảm xúc tiêu cực.
Trên thực tế, thông thường các văn bản chứa cảm xúc là các văn bản không có một tiêu
chuẩn rõ ràng. Vì vậy, để có thể xử lý và phân tích cần chuẩn hóa về mặt hình thức
(không cần xử lý về mặt nội dung). Sau đó, sẽ thực hiện tiến hành định dạng thành văn
bản có cấu trúc.
Đầu tiên dữ liệu đầu vào sẽ là tập các bình luận tiếng Việt “thô” trên các trang tin tức và
mạng xã hội Tiếng Việt. Những bình luận này gọi là “thô” bởi vì trước khi có thể sử dụng

8


được, chúng ta cần phải giải quyết nhiều vấn đề như xử lý tiếng Việt không dấu, xử lý
biểu tượng cảm xúc, xử lý “stop words”,… Giai đoạn này gọi là tiền xử lý.
Việc phân tích cảm xúc dựa trên những thực thể chứa cảm xúc và được đánh giá bằng
một trọng số cụ thể với mức độ cảm xúc của nó được thể hiện trong một câu hay trong
văn bản. Dựa vào các đặc trưng cảm xúc đã được rút trích, sử dụng một số thuật toán sẽ
phân lớp, phân cụm cho các bình luận. Các nhãn thông thường bao gồm: tích cực
(positive), tiêu cực (negative) và trung hòa (neutral).
Dựa vào các đặc trưng thu được, tiến hành phân loại chủ quan và phân loại cảm xúc tập
bình luận để cuối cùng xuất ra tập gồm các câu bình luận được phân thành hai loại: có
cảm xúc tích cực và có cảm xúc tiêu cực.

1.8. Các phương pháp luận và phương pháp nghiên cứu được áp dụng
Đối với đề tài nghiên cứu trên cần áp dụng các phương pháp luận cũng như các phương
pháp nghiên cứu cụ thể như sau. Bao gồm 5 vấn đề cần giải quyết trong bài toán:



Đặc trưng về dữ liệu từ mạng xã hội.



Bộ từ điển cảm xúc tiếng Việt.



Phương pháp phân loại chủ quan.



Phương pháp phân loại cảm xúc.



Phương pháp phân lớp Support Vector Machine(SVM)

Hệ thống dựa vào đặc trưng được rút trích sẽ sử dụng phương pháp phân lớp SVM để
phân lớp cho từng câu: lớp chủ quan (subjective) và lớp khách quan (objective).


1.9. Kết luận chương
Chương 1 đã trình bày một cách đầy đủ và có hệ thống về toàn bộ các lý do, mục đích
thực hiện đề tài đi kèm theo sơ lược về tình hình nghiên cứu cũng như các công trình đã
được công bố liên quan đến đề tài - nêu bật được các phạm vi cũng như các đối tượng
liên quan đến đề tài – để từ đó vạch ra được chính xác yếu tố quyết định cũng như
phương hướng để thực hiện đề tài đi kèm với các phương pháp luận, nghiên cứu và đánh
giá kết quả đạt được cho từng thành phần.



CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
Chương này, chúng tôi sẽ trình bày cơ sở lý thuyết làm nền tảng để xây dựng hệ thống
nhằm phân tích ý kiến sản phẩm của doanh nghiệp từ những thông tin trên các trang tin
tức và mạng xã hội tiếng Việt. Hai bước cần thực hiện như sau:
-

Giai đoạn thứ nhất: Dựa vào tập bình luận theo tiêu chí từ khóa tìm kiếm nội dung,
các đặc trưng thể hiện trong nội dung, từ khóa tiêu đề bản tin để phân tích cảm xúc.

-

Giai đoạn thứ hai: Thực hiện phân lớp cảm xúc theo hai lớp chủ quan (subjective) và
khách quan (objective)
Các vấn đề sẽ được áp dụng để giải quyết bài toán trên bao gồm:


Đặc trưng về dữ liệu từ các trang tin tức và mạng xã hội tiếng Việt.



Phân loại cảm xúc là gì?



Bộ từ điển cảm xúc tiếng Việt.



Phương pháp phân loại chủ quan.




Phương pháp phân loại cảm xúc.



Phương pháp phân lớp Support Vector Machine.

2.1. Đặc trưng về dữ liệu từ các trang tin tức và mạng xã hội tiếng Việt
Các trang tin tức và mạng xã hội là nguồn dữ liệu rất lớn và cập nhật các thông tin mới
nhất. Chúng ta có thể dễ dàng nắm bắt được mọi thông tin mới nhất ngoài đặc tính của
Internet và sự chia sẻ của người dùng. Lượng người dùng Internet trên thế giới nói chung
và Việt Nam nói riêng ngày càng phát triển một cách nhanh chóng. Việc bày tỏ cảm xúc,
ý kiến cá nhân, chia sẻ và sự đánh giá của người dùng các trang tin tức, mạng xã hội đối
với các sản phẩm được xem như là một vấn đề tất yếu trong thế giới số. Những lời bình
luận đó thường có một số đặc trưng sau:


Câu bình luận trên các trang tin tức và mạng xã hội thường ngắn gọn, súc
tích. Đây là đặc trưng, dễ dàng thấy trong những bình luận. Người dùng
trên các trang tin tức và mạng xã hội thường bày tỏ ý kiến của mình vào


trực tiếp vào vấn đề. Do đó, câu chữ trong bình luận thường ngắn ngọn, đơn
nghĩa và dễ hiểu. Ví dụ:
o Bài viết với tiêu đề “40.000 thùng nước C2, Rồng Đỏ nhiễm chì
đã bán hết” tại link

/>

khoe/40-000-thung-nuoc-c2-rong-do-nhiem-chi-da-ban-het3412715.html có một số bình luận ngắn như sau: “Ngành y tế phải
có lời giải thích thoả đáng”, “Phát hiện độc tố, cấm, đúng rồi.
Nhưng có điều lạ là hôm qua xem tv vẫn thấy quảng cáo cho sp
này?!!!”, “Không uống nữa là xong”…


Tuy nhiên, vẫn có những bình luận của người dùng vẫn còn mang nét văn
hóa ngôn ngữ tiếng Việt từ trước đến nay vào những lời bình luận này. Đó
là cách bày tỏ ý kiến của mình đa nghĩa, bóng gió, viết tắt … Do đó, bài
toán cũng đặt ra thêm tình huống giải quyết những câu bình luận mang
nhiều nghĩa khác nhau. Ví dụ:
o Bài viết với tiêu đề “Các loại cá biển miền Trung an toàn để ăn” tại
link

/>
mien-trung-an-toan-de-an-3473208.html với các bình luận như sau:
“Cuộc sống này đôi khi nó phải linh hoạt để hoà nhập, không phải
khi nào nó cũng phẳng lặng cả, vì thế muốn hoà nhập tốt các bạn
phải học cách phân biệt đi nhé”, “Hãy tập ăn chay đi. Không ăn bất
cứ con cá nào, dù ở sông hay biển”, “Bạn in cái danh sách này ra,
rồi mang theo khi đi chợ. Hỏi người ta cá đó là cá gì, rồi xem có
trong danh sách này không”


Người dùng có độ tuổi còn trẻ chiếm đa số và ngôn ngữ nước ngoài ngày
càng được sử dụng, lồng ghép trong các bình luận. Ngoài ra, một đặc thù
nữa đối với người dùng ở tuổi vị thành niên đó là việc kết hợp những câu
chữ viết tắt, và biểu tượng cảm xúc được sử dụng hết sức phổ biến. Các
trang tin tức, mạng xã hội, smartphone, ứng dụng…đã xây dựng hệ thống



viết tắt bằng các biểu tượng (emoticon) để tiết kiệm thời gian viết và thể
hiện cảm xúc cũng như cá tính của bản thân. Việc giải quyết và tiền xử lý
dữ liệu từ bộ phận người dùng này cũng là một vấn đề rất quan trọng của
bài toán. Ví dụ:
o Một số từ viết tắt: comment (cmt), status (stt), goodnight (g9)…
o Một số biểu tượng cảm xúc: vui, buồn, ngạc nhiên…


Tính vùng miền, địa phương của bình luận trên mạng xã hội cũng là một
trong những vấn đề nan giải của bài toán này. Vì cũng một nghĩa với nhau
nhưng người dùng ở ba miền khác nhau có thể dùng những ngôn ngữ địa
phương hoàn toàn khác nhau về mặt câu chữ. Ví dụ:
o Tiếng địa phương miền Trung: mi (mày), tao (tao), rứa (thế), hói
(sông)…
o Tiếng địa phương miền Nam: mần (làm), từa lưa (không ra gì), quởn
(rảnh)….
o Tiếng địa phương miền Bắc: cốc (ly), lạc (đậu phộng), bố (ba, cha),
thổi cơm (nấu cơm), trái ngô (trái bắp)…

2.2. Phân loại cảm xúc là gì?
Bắt đầu từ năm 2000, với sự lớn mạnh của truyền thông xã hội trên mạng Internet như
forum (diễn đàn), blog và đặc biệt là mạng xã hội (Facebook, Google plus, Twitter,
Instagram,…) thì bài toán phân tích cảm xúc (Sentiment Analysis) đã phát triển nhanh
chóng và trở thành lĩnh vực nghiên cứu sôi động nhất trong chuyên ngành xử lý ngôn ngữ
tự nhiên. Mạng xã hội ngày càng có tầm ảnh hưởng không chỉ với doanh nghiệp mà còn
với toàn cá nhân, xã hội.
Ý kiến là trung tâm của hầu hết các hoạt động và có ảnh hưởng lớn đến hành vi của con
người. Thông thường khi cần phải đưa ra quyết định, chúng ta thường có trước những



×