Tải bản đầy đủ (.docx) (48 trang)

Phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (498.14 KB, 48 trang )

Bộ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC QUY NHƠN

NGUYỄN NGỌC THẠCH

PHÂN TÍCH QUAN ĐIÊM DựA THEO KHÍA CẠNH
VÀ ỨNG DỤNG XÁC ĐỊNH SỞ THÍCH
CỦA DU KHÁCH VỀ SẢN PHAM DU LỊCH

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Bình Đinh - Năm 2020


Bộ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC QUY NHƠN

NGUYỄN NGỌC THẠCH

PHÂN TÍCH QUAN ĐIEM DựA THEO KHÍA CẠNH
VÀ ỨNG DỤNG XÁC ĐỊNH SỞ THÍCH
CỦA DU KHÁCH VỀ SẢN PHAM DU LỊCH

Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 08. 48. 01. 01

Người hướng dẫn : TS. LÊ QUANG HÙNG



Lời cam đoan
Tơinguồn
xin
cam
đoan
luận
văn
này
làluận
kết
quả
nghiên
cứu
của
tơi,
Hùng.
được
Các
thực
nội
dung
hiện
trích
dưới
sự
dẫn
hướng
từ
các
dẫn

nghiên
củanày
TS.
cứu

của
Quang
các
tác

giả
khác

trong
tơi
phần
trình
tài
bày
liệu
trong
tham
khảo.
văn
đã
được
ghi

3



Lời cảm ơn
Trong q trình nghiên cứu và hồn thành Luận văn, học viên đã nhận được sự đinh
hướng, giúp đỡ, các ý kiến đóng góp quý báu và những lời động viên của các thầy cô
giáo, đồng nghiệp và gia đình.
Trước hết, tơi xin chân thành bày tỏ lời cảm ơn tới thầy TS. Lê Quang Hùng, cô Lê
Thi Xinh đã tận tình hướng dẫn và giúp đỡ trong q trình nghiên cứu.
Tơi xin chân thành cảm ơn Phịng sau đại học, quý thầy cô giáo Khoa Công nghệ
thông tin đã tạo kiện thuận lợi để tơi hồn thành nhiệm vụ nghiên cứu.
Cuối cùng, tôi xin bày tỏ lời cảm ơn tới các đồng nghiệp, gia đình, bạn bè đã luôn
động viên, chia sẻ, ủng hộ và giúp đỡ để tơi có thể vượt qua khó khăn để đạt được
những kết quả nghiên cứu trong Luận văn này.


Tóm tắt
Phân tích quan điểm (sentiment analysis) là q trình phân tích, đánh giá quan điểm
của một (hoặc một số) người về một đối tượng nào đó (quan điểm mang tính tích cực,
tiêu cực hay trung lập). Bài tốn phân tích quan điểm được ứng dụng nhiều thực tế, đặc
biệt là trong hoạt động quảng bá kinh doanh. Việc phân tích các đánh giá của người
dùng về một sản phẩm xem họ đánh giá tiêu cực, tích cực hoặc đánh giá các mặt hạn
chế của sản phẩm sẽ giúp công ty nâng cao chất lượng sản phẩm/dịch vụ và tăng cường
hình ảnh của cơng ty, đặc biệt là các sản phẩm trong lĩnh vực du lịch cụ thể là nhà
hàng, khách sạn.
Các cách tiếp cận để giải quyết bài toán này có thể chia làm ba loại: (i) sử dụng các
tập luật (rule-based), (ii) sử dụng học máy (machine learning) và (iii) kết hợp (i) với
(ii). Phân tích quan điểm cho tồn bộ văn bản là bài tốn cơ bản nhất trong phân tích
quan điểm. Việc phân tích quan điểm theo loại bài toán này thường ở mức tài liệu và
không quan tâm tới vấn đề chi tiết hơn như người đánh giá sản phẩm thích hay khơng
thích khía cạnh nào của sản phẩm.
Như vậy, đánh giá một quan điểm cho tồn bộ văn bản là khơng đủ chi tiết cho các

ứng dụng thực tế. Tức là, một văn bản đánh giá tích cực về một đối tượng cụ thể khơng
có nghĩa là người dùng có ý kiến tích cực về mọi khía cạnh của đối tượng đó. Tương
tự, một văn bản đánh giá tiêu cực cho một đối tượng khơng có nghĩa là người dùng
khơng thích tất cả mọi khía cạnh của đối tượng đó. Để có thể phân tích quan điểm phù
hợp với nhu cầu sử dụng trong thực tế, chúng ta cần phải nghiên cứu sâu về quan điểm
ở mức khía cạnh (aspect-based sentiment analysis).
Phân tích quan điểm theo khía cạnh bao gồm ba bài tốn điển hình như sau:
1. Rút trích khía cạnh;
2. Phân loại quan điểm theo khía cạnh;
3. Xếp hạng khía cạnh.
Trong luận văn này, chúng tơi tập trung giải quyết ba bài
tốn và ứng dụng xác định sở thích của du khách về sản
phẩm du lịch, cụ thể như sau:


• Thứ nhất, đối với bài tốn rút trích khía cạnh, chúng tơi xác đinh các từ thể hiện
khía cạnh trong văn bản. Từ tập khía cạnh, đối với một câu văn bản đánh giá
chưa được gán nhãn, chúng ta cần dự đốn nhãn khía cạnh thích hợp cho nó.
• Thứ hai, với bài toán phân loại quan điểm theo khía cạnh, chúng tơi sử dụng kỹ
thuật học máy có giám sát để phân lớp quan điểm cho văn bản.
• Thứ ba, đối với bài tốn xếp hạng khía cạnh, từ tập văn bản đánh giá của người
dùng, chúng tôi xếp hạng (hay tính điểm) theo mức độ đánh giá quan điểm theo
từng khía cạnh đã được người dùng thảo luận trong mỗi văn bản.
Thực nghiệm được cài đặt trên miền dữ liệu du lich (từ các nhận xét về khách sạn
AVANI () cho thấy kết quả khả quan.
Từ khóa:
khía
cạnh,
phân
khai

tích
pháquan
quanđiểm,
điểm phân tích quan điểm theo

6


Muc luc
Lời cam đoan
Lời cảm ơn

ii


Danh mục các chữ viết tắt
NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên) POS
Part Of
Speech (Nhãn từ loại)
SVM
Support Vector Machine (Máy véc-tơ hỗ trợ)
TF-IDF Term Frequency Inverse Document Frequency (Tần số nghịch đảo từ) PMI
Pointwise Mutual Information (Độ đo thông tin tương hỗ)
SO
Semantic Orientation (Hướng ngữ nghĩa)


Danh sách hình vẽ
1.1
1.2......................................................................................................................



Danh sách bảng

1.3

3.1
3.2


3.3

Mở đầu

1. Lý do chọn đề tài
3.4

Hiện nay Internet đã mang tới sự phát triển mạnh mẽ trong tất cả các lĩnh vực

trong xã hội hiện đại, các hoạt động kinh doanh, thương mại dựa trên nền tảng Internet
ngày càng phổ biến. Khách hàng có thể tự do bày tỏ quan điểm, đánh giá hay nhận xét
về một mặt hàng, sản phẩm, dịch vụ trên các trang thương mại điện tử, các trang mạng
xã hội. Việc phân tích những dịng nhận xét cá nhân này sẽ hữu ích cho những khách
hàng khác khi tìm mua một loại sản phẩm hoặc có tính tích cực trong việc giúp cho nhà
sản xuất nhận biết được nhu cầu của khách hàng để cải tiến sản phẩm dịch vụ tốt hơn.
Ngày nay, đối với mỗi sản phẩm, nhiều trang Web đã tổng hợp các đánh giá tổng thể
của người dùng và hiển thị nó trên trang. Tuy nhiên, điều này là chưa đầy đủ vì nó
khơng thể cung cấp một cách chi tiết những đánh giá của người dùng trên từng khía
cạnh của sản phẩm, dịch vụ.
3.5 Phân tích quan điểm cho tồn bộ văn bản là không đủ chi tiết cho các ứng dụng

thực tế. Để có thể phân tích quan điểm phù hợp với nhu cầu sử dụng trong thực tế, cần
phân tích quan điểm ở mức khía cạnh. Ngồi ra, việc phân tích các đánh giá của người
dùng về một sản phẩm xem họ đánh giá tiêu cực, tích cực hoặc đánh giá các mặt hạn
chế của sản phẩm sẽ giúp công ty nâng cao chất lượng sản phẩm/dịch vụ và tăng cường
hình ảnh của cơng ty. Những điều này đã thúc đẩy chúng tôi lựa chọn và thực hiện đề
tài "Phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du
khách về sản phẩm du lịch

2. Mục tiêu của luận văn
3.6

Trong luận văn này, chúng tơi đặt ra hai mục tiêu chính:
• Thứ nhất, tìm hiểu cơ sở lý thuyết về phân tích quan điểm, phân tích quan điểm
theo khía cạnh.
• Thứ hai, ứng dụng phân tích quan điểm theo khía cạnh vào việc xác định sở
thích của du khách về sản phẩm du lịch.

11


3. Phạm vi nghiên cứu
3.7

Trong thực nghiệm của luận văn này, chúng tôi giới hạn sản phẩm du lịch là

khách sạn.

4. Bố cục của luận văn
3.8


Ngoài phần mở đầu và kết luận, luận văn được tổ chức thành 3 chương, với bố

cục như sau:
• Chương 1. Giới thiệu tổng quan về các vấn đề nghiên cứu trong luận văn, bao
gồm: phân tích quan điểm, phân tích quan điểm theo khía cạnh.
• Chương 2. Trình bày ứng dụng phân tích quan điểm theo khía cạnh vào việc
xác định sở thích của du khách về sản phẩm du lịch.
3.9đặt thực
Chương
nghiệm,
3. Trình
kết quả
bày thực
thực nghiệm,
nghiệm, đánh
bao gồm:
giá. cài

1
2


3.10

Chương 1

3.11

Tổng quan


3.12

Chương này trình bày tổng quan về các vấn đề nghiên cứu trong luận văn, bao

gồm: phân tích quan điểm, phân tích quan điểm theo khía cạnh và các cách tiếp cận để
giải quyết bài toán này. Cuối chương, chúng tôi nêu ra vấn đề luận văn sẽ tập trung giải
quyết.

1.1 Phân tích quan điểm
1.1.1
3.13

Giới thiệu

Trong thực tế, thơng tin dạng văn bản có thể chia làm hai loại chính: Sự kiện

(facts) và quan điểm (opinions). Sự kiện là những biểu hiện khách quan về các thực thể
trong thế giới thực. Ví dụ, “Hơm qua, tơi đã đến một khách sạn”. Trong khi đó, quan
điểm là các ý kiến chủ quan mơ tả sự đánh giá và tình cảm của con người đối với các
thực thể. Ví dụ, “Khách sạn này có thiết kế rất đẹp”.
3.14

Quan điểm có vai trò rất quan trọng, bởi khi cần quyết đinh một vấn đề

nào đó chúng ta thường đặt ra câu hỏi “Mọi người nghĩ về vấn đề đó như thế nào?”.
Chẳng hạn khi bạn muốn đặt một khách sạn để đi du lich, bạn sẽ hỏi bạn bè “Khách
sạn đó có đẹp hay khơng?, “Dịch vụ khách sạn đó thế nào”.. Như vậy quan điểm của
người khác giúp chúng ta có thêm thơng tin khi quyết đinh một vấn đề.
3.15


Ý kiến phản hồi của khách hàng đối với các sản phẩm, dich vụ trực

tuyến trên mạng Internet là nguồn thông tin quan trọng đối với các doanh nghiệp. Bởi
vì nó giúp họ hiểu được điểm mạnh, điểm yếu trong sản phẩm, dịch vụ của mình, đồng


thời nhanh chóng nắm bắt được tâm lý và nhu cầu khách hàng để mang đến cho họ sản
phẩm, dịch vụ tốt hơn. Tuy nhiên với số lượng ý kiến rất lớn và cập nhật liên tục sẽ nảy
sinh nhu cầu xây dựng một hệ thống tự động để phân tích quan điểm.
3.16

Phân tích quan điểm giúp các cơng ty, doanh nghiệp biết được ý kiến,

quan điểm của một bộ phận người quan tâm về vấn đề của công ty, doanh nghiệp, từ đó
họ có thể đề ra các chiến lược phát triển mới. BoPang và Lillian Lee [23] đã chứng
minh vai trị quan trọng của phân tích quan điểm. Các tác giả đã thực hiện cuộc điều tra
vào năm 2006 với 2500 thanh niên Mỹ về hoạt động sử dụng Internet. Kết quả cho thấy
27% để tìm kiếm online, 28% hoạt động trực tuyến để tham gia các hoạt động cộng
đồng mạng, 28% sử dụng để chia sẻ quan điểm và 8% để bình luận chính trị. Như vậy,
ta thấy tỉ lệ người sử dụng Internet để chia sẻ quan điểm rất lớn, đó là kho giá trị giàu
thơng tin cần có cho một hệ thống phân tích quan điểm.
3.17

ở Việt Nam, con số những người sử dụng Internet ngày càng lớn, theo

thống kê của trung tâm Internet Việt Nam VNNIC (Vietnam Network Information
Center), tính đến năm 2015, số người sử dụng Internet ở Việt Nam chiếm 44% số dân
của cả nước.
3.18


Cùng với sự phát triển của mạng xã hội, blog ngày càng nhiều các thông

tin cá nhân, quan điểm cá nhân được đưa lên Internet, tạo kho dữ liệu lớn cho khai phá
và tổng hợp quan điểm. Đây là một lợi thế nhưng cũng là một thách thức cho bài tốn
phân tích quan điểm.

3.19

AVANI Quy Nhơn Resort & Spa ■> ưu dãi đặc biệt COVID-19
Đánh giá

Trang Tran đã viết đánh giá vào thg 7 năm 2020
2 đóng góp

3.1
3.20

3.21
3.22
3.23

••••o
Trài nghiệm tại Avani Quy Nhơn

“Avani Quy Nhơn có khung cành n bình, nhẹ nhàng, có view rất đẹp do bãi biển trải dài
ngay trước cửa phòng. Nhân viên đều thân thiện, nhiệt tinh. Tuy nội thất phịng ốc có vẻ hơi cũ do resort
được đưa vào hoạt động khá lâu nhưng nhìn chung ỞAvani mọi thứ đều tốt.”

3.24


Đọc thêm ▼

3.25

Ngây lưu trú: tháng 7 nàiĩi 2020

3.26

1(2? Hữu ích [1 Chia sẻ

3.27

Hình 1.1: Minh họa nhận xét của người dùng

Giới thiệu


1.1.2 Một số khái niệm
• Đối tượng (object): Dùng để chỉ thực thể (người, sản phẩm, sự kiện, chủ đề,...)
được đánh giá. Mỗi đối tượng có một tập các thành phần (components) hay
thuộc tính (atributes), gọi chung là các đặc trưng (features). Mỗi thành phần hay
thuộc tính lại có một tập các thành phần con hay thuộc tính con. Như vậy, một
đối tượng O được biểu diễn bởi một cặp (T,A):
3.28 — T là cấu trúc phân cấp thành phần cha - thành phần con;
3.29 — A là tập các thuộc tính của đối tượng O.
3.30

Ví dụ, một khách sạn có một tập các thành phần: giá phịng, phịng, vị

trí, nhân viên,... và các thuộc tính: đắt, rẻ, đẹp, xấu, thân thiện,... Trong đó, thành

phần giá cả có thuộc tính con đắt, rẻ,...
• Các đặc trưng hiện và ẩn: Với mỗi một đánh giá d bao gồm một tập các câu d =
{s ,
1

s ,..., s }. Nếu đặc trưng f xuất hiện trong d, ta nói f là đặc trưng hiện (explicit
2

n

feature). Ngược lại, ta nói, f là đặc trưng ẩn (implicit feature). Ví dụ, “ Dịch vụ
khách sạn này có giá cả rất đắt”: Đặc trưng “dịch vụ” là đặc trưng hiện.
“Phòng khách sạn này quá nhỏ”: đặc trưng “kích cỡ” là đặc trưng ẩn.
• Quan điểm hiện, ẩn: Quan điểm hiện (explicit opinion) là quan điểm tường minh
về một đặc trưng f là một câu thể hiện quan điểm mang tính chủ quan, diễn tả
trực tiếp quan điểm tích cực hay tiêu cực của tác giả. Quan điểm ẩn (implicit
opinion) về một đặc trưng f là câu thể hiện quan điểm tích cực, tiêu cực một
cách khơng tường minh (hàm ý, ẩn ý). Ví dụ, “Khách sạn này rất đẹp” - Quan
điểm hiện. “Khách sạn này không được đẹp cho lắm” - Quan điểm ẩn.
• Người đánh giá (opinion header): Là người hay tổ chức cụ thể đưa ra lời đánh
giá. Với các đánh giá trên forum, blogs,... người đánh giá chính là các tác giả
của bài đánh giá đó. Trong phạm vi đề tài này, du khách là người đánh giá về
sản phẩm du lịch.
• Đoạn đánh giá (opinion passage) về một đặc trưng: Đoạn đánh giá về một đặc
trưng f của đối tượng O trong d là một tập các câu liên tiếp trong d diễn tả quan
điểm tích cực hay tiêu cực về đặc trưng f. Đoạn đánh giá bao gồm tối thiểu ít
nhất một câu. Hầu hết các nghiên cứu hiện tại tập trung vào mức câu, mỗi một
đoạn bao gồm một câu. Khái niệm đoạn và câu được dùng tương đương về ngữ
nghĩa trong ngữ cảnh này.



1.1.3 Một số bài tốn trong phân tích quan điểm
1.1.3.1
3.31

Tong quan một hệ thống phân tích quan điểm

Ngày nay đã có nhiều hệ thống phân tích quan điểm làm việc với những miền

dữ liệu khác nhau, như hệ thống smcc1 của công ty InfoRe làm việc trên miền dữ liệu
sản phẩm điện thoại di động, hệ thống Vsocial2 của công ty Tecapro làm việc trên miền
dữ liệu ngân hàng. Nhìn chung, mơ hình biểu diễn kiến trúc chung của một hệ thống
khai phá và phân tích quan điểm được thể hiện như trong Hình 1.2 . Xuất phát từ nguồn
dữ liệu đánh giá thực thể của người sử dụng trên các hệ thống như Amazon 3,
Tripadvisor 4, Youtube 5, thegioididong6. Hệ thống phân tích quan điểm làm việc với
các nguồn dữ liệu này, gồm các thành phần chính như sau:

• Thu thập (crawler): thành phần tự động lấy dữ liệu đánh giá của người dùng từ
các hệ thống trực tuyến Web.
• Tiền xử lý (pre-processing): Thành phần này có nhiệm vụ xử lý dữ liệu, gồm các
công việc như: loại bỏ từ dừng, chuẩn hóa các từ và dấu cách, tách từ.
• Trích chọn đặc trưng (feature extraction, data representation): Sử dụng kỹ thuật
biểu diễn văn bản (ví dụ, mơ hình bag of word) để biểu diễn các văn bản đầu
vào thành các vector đặc trưng.

1

2

3

zon .com
4
5 tube .com
6


3.32
3.33

3.34

Hình 1.2: Kiến trúc tổng quan hệ thống phân tích quan điểm theo hướng
tiếp cận học máy

Học máy (machine learning): Gồm có hai pha: huấn luyện và dự đốn. Pha

huấn luyện sử dụng tập dữ liệu huấn luyện làm đầu vào và có nhiệm vụ học một mơ
hình dự đốn. Pha dự đốn có nhiệm vụ tính tốn để phân loại quan điểm cho các
vector biểu diễn văn bản từ đầu vào.

E

4

Tiện nghi cùa khách sạn
Tuyệt vời

ỊO »•••€> 817 đánh giá só 1 trong
đỉẻm
Sự

141 khách sạn tạiĐịa
Quy
Nhơn

••••o
••••€ ••••€
sạch sẽ

Bãi đỏ xe miễn phí

Internet tóc độ miễn
phí (WiFi)

Bể bơi

Trung tâm thễdục
thảm mỹ

Quầy bar / sảnh chờ

Bãi biển

Dịch vụ
Giá trị

Cho thuê xe đạp

o Travellers' Choice

3.35

3.36
3.37
3.38

Giới thiêu
3.39 Nếu bạn đang tìm kiếm khu nghỉ
dưỡng sang trọng ở Quy Nhơn: hãy thử
nghiệm AVANI Quy Nhơn Resort & Spa.

3.40

1.1.3.2
3.41

li

Hiển thị thêm

Tiện nghi trong phịng

Hình 1.3: Đánh giá về khách sạn Avani Quy Nhơn
trên trang Tripadvisor.com.vn

Phân lớp quan điếm

Với bài tốn này có thể coi phân tích quan điểm như bài tốn phân lớp văn bản.

Bài tốn phân lớp văn bản là đánh giá tích cực hay tiêu cực. Ví dụ, với một đánh giá



sản phẩm, hệ thống xác đinh xem nhận xét về sản phẩm ấy là tốt hay xấu. Phân lớp này
thường phân lớp ở mức tài liệu. Thông tin được phát hiện khơng mơ tả chi tiết về
những gì mọi người thích hay khơng thích. Bài tốn phân lớp quan điểm và phân lớp
văn bản về cơ bản tương tự nhau, tuy nhiên có một số khác biệt như sau:
• Khác biệt thứ nhất trong bài toán phân lớp văn bản dựa vào chủ đề được xác
đinh trước như chính tri, thể thao, ca nhạc, hội họa... trong bài toán phân lớp
các quan điểm vào hai nhóm là tích cực và tiêu cực.
• Khác biệt thứ hai là trong bài tốn phân lớp văn bản các từ khóa liên quan tới
chủ đề là quan trọng, trong bài toán phân lớp quan điểm từ khóa diễn tả quan
điểm, tình cảm đóng vai trị quan trọng.

1.1.3.3
3.42

Phân tích và tổng hỢp quan điếm dựa trên đặc trưng

Bài toán đi sâu vào phát hiện ở mức câu, tức là tìm kiếm các khía cạnh của đối

tượng mà người đánh giá thích hay khơng thích. Một đối tượng có thể là sản phẩm,
dich vụ, chủ đề, cá nhân hay tổ chức... Ví dụ, trong một bài đánh giá về một sản phẩm,
bài toán xác đinh các đặc trưng của sản phẩm mà người dùng bình luận và xác đinh các
ý kiến là tích cực hay tiêu cực. Ví dụ, trong câu: “Giá phịng của khách sạn này quá
đắt”. Người dùng nhận xét về “Giá phòng” và ý kiến là tiêu cực. Kết quả bài toán đưa
ra một bản đánh giá tổng hợp quan điểm về đối tượng được đề cập.

1.1.3.4
3.43

Phân tích quan điếm so sánh


Ngồi cách biểu diễn các quan điểm bằng cách trực tiếp nhận xét về đối tượng

cịn có một cách đánh giá khác bằng cách so sánh đối tượng muốn nhận xét với một đối
tượng khác. Ví dụ, câu sau so sánh hai khách sạn: “View của khách sạn A đẹp hơn
khách sạn B”. Chúng ta muốn xác đinh câu trên là trích xuất các mối quan hệ so sánh
thể hiện trong câu. Trong giới hạn của luận văn này, bài toán phân lớp quan điểm là
trọng tâm nghiên cứu. Coi phân lớp quan điểm như là phân lớp văn bản được đề cập.
Mỗi văn bản thể hiện một quan điểm và quá trình phân lớp quan điểm chính là phân
lớp văn bản. Các quan điểm được phân vào hai lớp tích cực và tiêu cực, và không quan
tâm tới lớp trung lập bởi những nhận đinh mang tính trung lập khơng ảnh hưởng tới kết
quả tổng hợp quan điểm.


1.1.4 ứng dụng của phân tích quan điểm
3.44

"Những gì người khác nghĩ" đã luôn luôn là một phần quan trọng trong việc

cung cấp thơng tin cho q trình ra quyết đinh của hầu hết chúng ta. Trước khi Internet
trở nên phổ biến, chúng ta thường nhờ bạn bè, người thân cho ý kiến về vấn đề chúng
ta đang quan tâm nhưng như thế được rất ít thơng tin, thường khơng hiệu quả nhiều.
Ngày nay việc tiếp cận với các đánh giá của khách hàng về các sản phẩm, dich vụ mà
chúng ta quan tâm đã dễ dàng. Và khách hàng thường tìm kiếm sự tin cậy trong những
lời khuyên, tư vấn trực tuyến là rất nhiều nên nhu cầu có một hệ thống ứng dụng để hỗ
trợ người tiêu dùng tìm kiếm thơng tin là cần thiết cho cả khách hàng và doanh nghiệp:
• Nghiên cứu thi trường dành cho người mua và bán: Khi chúng ta muốn mua một
sản phẩm nào đó, chúng ta khơng biết được loại sản phẩm này có phù hợp hay
khơng, cửa hàng nào có dich vụ khách hàng tốt, giá bán ở đâu rẻ hơn, chất
lượng ở đâu tốt hơn,... các quan điểm về sản phẩm của những người dùng trước
là một kênh thông tin quan trọng cho chúng ta. Hay đối với người bắt đầu kinh

doanh, họ chưa biết kinh doanh mặt hàng gì, loại sản phẩm nào đang được
người tiêu dùng ưa chuộng, hình thức kinh doanh nào là hợp lý, kinh doanh ở
khu vực nào thu được lợi nhuận cao nhất. Khi đó, các đánh giá của khách hàng
sẽ hỗ trợ cho họ.
• Cải thiện chất lượng của sản phẩm, dich vụ: Dựa vào quan điểm của người dùng,
các nhà sản xuất có thể thay đổi một số tính năng của sản phẩm, dich vụ theo
hướng tích cực nhằm phục vụ nhu cầu của khách hàng.
• Hệ thống gợi ý: phân tích quan điểm cũng có vai trị quan trọng như một công
nghệ hỗ trợ cho các hệ thống khác. Một ứng dụng tiềm năng đó là ta có thể áp
dụng phân tích quan điểm trong các hệ thống khuyến cáo, giúp cho hệ thống
đưa ra các gợi ý về các sản phẩm cho người dùng có khả năng người dùng quan
tâm là cao nhất, tăng lợi nhuận cho doanh nghiệp.
• Hỗ trợ thơng minh trong chính quyền: Thơng minh trong chính quyền là một
dạng ứng dụng vơ cùng hữu ích đối với các chính tri gia. Chẳng hạn như khi
một dự luật được đưa ra, quốc hội rất muốn lấy ý kiến của nhân dân về dự thảo
luật, xem rằng nó có hợp lý hay khơng, nhân dân có những phản ứng như thế
nào về nó. Hay đối với những cuộc bầu cử tổng thống, thủ tướng, những ý kiến
đánh giá của người dân giữ một vai trò cực kỳ quan trọng đối với kết quả của


cuộc bầu cử.
• Xác đinh sở thích của du khách về sản phẩm du lich như nhà hàng, khách sạn...
để đưa ra các chiến lược kinh doanh tốt hơn nhằm phục vụ khách hàng, tăng
doanh thu cho các doanh nghiệp.

1.1.5 Những khó khăn trong lĩnh vực phân tích quan điểm
• Những người khác nhau có phong cách viết khác nhau: Thực tế, các bình luận
hay quan điểm được đưa ra bởi những người khác nhau, họ có cách viết khác
nhau từ cách thức sử dụng ngôn ngữ, chữ viết tắt đến cách biểu đạt quan điểm.
Mọi người đều không bày tỏ ý kiến theo cùng một cách.

• Quan điểm thay đổi theo thời gian: Một thách thức khác cần phải xem xét đến là
vấn đề làm thế nào để có thể theo dõi các quan điểm thay đổi theo thời gian.
Một sản phẩm có thể là tốt nhất tại thời điểm này nhưng tại thời điểm 2, 3 năm
sau nó khơng phải là tốt nhất nữa, người ta sẽ có nhiều sự lựa chọn hơn khi các
sản phẩm mới tốt hơn về giá cả và chất lượng. Tuy nhiên, cũng có những sản
phẩm ban đầu đưa ra ngồi thi trường chưa được tốt nhưng qua quá trình cải
thiện chất lượng của sản phẩm hoặc dich vụ lại được người tiêu dùng đánh giá
cao hơn.
• Độ mạnh của quan điểm: Xác đinh độ mạnh của một quan điểm là một thách
thức phải đối mặt trong phân tích quan điểm. Nhiều nỗ lực đã được thực hiện để
xác đinh các yếu tố quyết đinh sức mạnh của một ý kiến trong một bối cảnh nào
đó. Bổ sung thêm việc phân lớp các từ thành các mức độ xu hướng quan điểm
khác nhau, một số từ bổ nghĩa có thể được dùng để xác đinh độ mạnh của quan
điểm (“rất”, “một chút”, “hết sức”, “hơi”,...). Cụm từ “rất hài lòng” và “hơi
hài lòng” sẽ được phân lớp thành rất tích cực và kém tích cực nếu “rất” và
“hơi” được phân tích và sử dụng để xác đinh mức độ đối lập.
• Quan điểm theo ngữ cảnh: Tương tự như phân loại một quan điểm là tích cực,
tiêu cực hoặc trung lập có thể là một nhiệm vụ khó khăn trong phân tích quan
điểm. Một từ quan điểm có thể được coi là tích cực trong một tình huống này
nhưng nó lại mang tính tiêu cực trong các tình huống khác.
3.45

Một quan điểm về một sản phẩm hoặc một tính năng sản phẩm cũng có

thể gây hiều lầm cho một hệ thống phân tích quan điểm để đánh giá. Ví dụ, từ
“dài” nếu được sử dụng để mô tả khung cảnh một bãi biển bên khách sạn theo


cách đó là “Khách sạn .sạn nằm bên một bãi biển dài và thơ mộng”, nó sẽ được
coi là tích cực nhưng nếu nó được sử dụng theo một cách khác là “thời gian làm

thủ tục (Check in)nhận phòng dài”, nó sẽ được coi là một ý kiến tiêu cực.
• Các câu đánh giá có sự pha trộn: Một thách thức lớn đối với phân tích quan điểm
xuất hiện khi mọi người thể hiện đánh giá tích cực và tiêu cực trong cùng một
câu. Mọi người có nhiều ý kiến khác nhau trong cùng một câu. Những câu như
vậy có thể gây khó khăn để phân tích cú pháp hoặc phân tích quan điểm.
• Quan điểm mang tính châm biếm, mỉa mai: Các quan điểm mang tính châm
biếm, mỉa mai tồn tại khá nhiều trong văn bản. Trong đó một quan điểm tiêu
cực nhưng lại được người nêu quan điểm thể hiện dưới dạng quan điểm tích
cực. Điều này gây khó khăn rất lớn trong q trình phân tích quan điểm. Ví dụ,
“Dịch vụ khách sạn tuyệt vời thế này mà anh cũng khuyên tôi ở lại” khác với
“dịch vụ khách sạn này rất tuyệt vời”.
• Xử lý ngơn ngữ tự nhiên trong câu quan điểm: Các ý kiến mà mọi người nêu lên
trên các trang mạng xã hội thường là họ viết theo ngôn ngữ rất tự nhiên của họ.
Họ có thể dùng ngơn ngữ, cách viết tắt hay các biểu tượng cảm xúc riêng. Mỗi
người khác nhau sẽ có các phong cách viết khác nhau. Vì thế nên các câu đánh
giá thường ở dạng bán cấu trúc. Trong khi việc cần thiết là từ những dữ liệu bán
cấu trúc, được viết bằng ngơn ngữ rất tự nhiên đó, chúng ta phải đưa ra được
các thơng tin hữu ích. Tuy nhiên, trong đánh giá của người tiêu dùng họ thường
dùng các ngơn ngữ văn bản khơng chính thức và khơng theo quy tắc ngữ pháp.
Vì vậy, vấn đề xử lý ngôn ngữ tự nhiên trong việc xử lý các ý kiến đánh giá là
một vấn đề cực kỳ khó khăn.

1.1.6 Hướng tiếp cận phân tích quan điểm
3.46

Các kỹ thuật phân tích quan điểm được chia thành các loại: Phương pháp học

máy (machine learning approach), phương pháp dựa trên từ vựng (lexicon - based
approach) và phương pháp lai (hydrid approach). Cách tiếp cận học máy áp dụng các
thuật toán học máy nổi tiếng và sử dụng các đặc trưng ngôn ngữ. Cách tiếp cận dựa

trên từ vựng phụ thuộc vào một từ điển cảm xúc. Nó được chia thành cách tiếp cận dựa
trên từ điển (dictionary - based approach) và cách tiếp cận dựa trên tập ngữ liệu (corpus
- based approach), sử dụng các phương pháp ngữ nghĩa hoặc thống kê để xác đinh cực
quan điểm. Phương pháp lai là sự kết hợp giữa hai cách tiếp cận học máy và từ vựng.
3.47

Các phương pháp phân loại văn bản sử dụng cách tiếp cận học máy


được chia thành phương pháp học có giám sát (supervised learning) và phương pháp
học không giám sát (unsupervised learning). Học có giám sát tạo ra một số lượng lớn
tài liệu huấn luyện đã được gán nhãn. Phương pháp học không giám sát được sử dụng
khi gặp khó khăn trong việc xác đinh nhãn cho dữ liệu huấn luyện.
3.48

Cách tiếp cận dựa trên từ vựng phụ thuộc vào việc xác đinh từ điển

mang quan điểm cái mà được sử dụng để phân tích văn bản. Có hai phương pháp trong
cách tiếp cận này. Phương pháp dựa trên từ điển phụ thuộc vào các từ quan điểm hạt
nhân và sau đó tìm kiếm từ điển cho các từ đồng nghĩa và trái nghĩa. Phương pháp dựa
trên tập ngữ liệu bắt đầu bằng một danh sách các từ quan điểm hạt nhân, và sau đó tìm
các từ quan điểm khác trong một tập ngữ liệu lớn để xác đinh các từ quan điểm theo
hướng ngữ cảnh cụ thể [18].

3.49
3.50

Hình 1.4: Các hướng tiếp cận phân tích quan điểm.

1.2 Phân tích quan điếm theo khía cạnh

1.2.1
3.51

Bài tốn phân tích quan điếm theo khía cạnh

Phân tích quan điểm cho tồn bộ văn bản là bài tốn cơ bản nhất trong phân

tích quan điểm. Cũng giống bài tốn phân lớp văn bản thơng thường. Cho trước một
tập các văn bản đánh giá sản phẩm, đối với từng văn bản đầu vào, bài tốn u cầu tính
điểm (phân loại) quan điểm chung cho nó. Dựa trên điểm quan điểm đã đạt được, từng
văn bản sau đó được gán các nhãn quan điểm hoặc các hạng tương ứng. Các nhãn có
thể được gán như nhãn tích cực (positive) hoặc tiêu cực (negative) hoặc trung lập.
Trong trường hợp cần xếp hạng quan điểm cho văn bản thì hạng được gán cho văn bản
là “1 sao” (rất tiêu cực) hoặc “2 sao” (tiêu cực mức trung bình) hoặc “3 sao” (trung lập)
hoặc “4 sao” (tích cực) hoặc “5 sao” (rất tích cực).
3.52

Việc phân tích quan điểm theo loại bài tốn này thường ở mức tài liệu


và không quan tâm tới vấn đề chi tiết hơn như người đánh giá sản phẩm thích hay
khơng thích khía cạnh nào của sản phẩm.
3.53

Chúng ta thấy rằng đánh giá một quan điểm cho tồn bộ văn bản là

khơng đủ chi tiết cho các ứng dụng thực tế. Một văn bản đánh giá tích cực về một đối
tượng cụ thể khơng có nghĩa là người dùng có ý kiến tích cực về mọi khía cạnh của đối
tượng đó. Tương tự, một văn bản đánh giá tiêu cực cho một đối tượng khơng có nghĩa
là người dùng khơng thích tất cả mọi khía cạnh của đối tượng đó. Ví dụ, trong một ý

kiến đánh giá sản phẩm, người đánh giá thường ghi cả khía cạnh tích cực và tiêu cực
của sản phẩm, mặc dù quan điểm chung về sản phẩm có thể là tích cực hoặc tiêu cực.
Để có thể phân tích quan điểm phù hợp với nhu cầu sử dụng trong thực tế, chúng ta cần
phải nghiên cứu sâu về quan điểm ở mức khía cạnh.
3.54

Cho trước một tập các văn bản đánh giá sản phẩm, đối với từng văn bản

đầu vào, bài tốn u cầu tính điểm quan điểm cho từng khía cạnh của thực thể đã
được thể hiện trong nó. Dựa trên điểm quan điểm đã đạt được, từng khía cạnh sau đó
được gán nhãn quan điểm (ví dụ, nhãn tích cực, tiêu cực, hoặc trung lập) hoặc hạng (ví
dụ, hạng “1 sao”, “2 sao”, “3 sao” , “4 sao”, hoặc “5 sao”) tương ứng.
3.55

Ta có thể đinh nghĩa một mơ hình của một thực thể và một mơ hình của

một tài liệu có quan điểm như sau, một thực thể e được thể hiện bằng chính nó và một
i

tập hợp các khía cạnh hữu hạn, A = ai1,ai2,..., ain. Các thực thể có thể được biểu thi với
i

bất kỳ một trong các tập hợp biểu thức thực thể EEi = ee , ee ,..., eein. Mỗi khía cạnh
i1

i2

một ij của A của thực thể e có thể được biểu thi bằng bất kỳ một tập hợp hữu hạn nào
i


của biểu thức khía cạnh AEj = aeij1,aeij,...,aeijm, mặt khác, một tài liệu có quan điểm dk Q
D chứa quan điểm về một tập hợp các thực thể e , e , e e tự một tập hợp người có quan
1

2

3

r

điểm h , h , h ... .hp. Các quan điểm về mỗi thực thể e được thể hiện trên chính thực thể
1

2

3

i

đó và một tập hợp con A của các khía cạnh của nó.
ik

1.2.2 Cách tiếp cận giải quyết bài toán
3.56

Các tiếp cận dựa trên học máy như nghiên cứu sử dụng SVM [22], [16], sử

dụng Naive Bayes [26],[37] . Một hướng tiếp cận khác sử dụng từ điển để biểu diễn
đặc trưng cho các văn bản, chính vì thế họ bỏ qua mối quan hệ ngữ nghĩa giữa các từ
và khía cạnh.

3.57

Phương pháp tiếp cận dựa trên tần suất từ cũng là một trong những

phương pháp được dùng phổ biến và hiệu quả cao [18]. Theo phương pháp này các


khía cạnh được diễn tả thơng qua tần suất xuất hiện của các danh từ và cụm danh từ.
Điển hình là [10], [27], [21]. Hu and Liu [10] đã sử dụng một thuật toán khai phá dữ
liệu. Danh từ và cụm danh từ được xác đinh bằng gán nhãn từ loại. Tần suất xuất hiện
của chúng được đếm và chỉ những từ có tần suất cao được giữ lại. Việc xác đinh
ngưỡng tần suất được thực hiện nhờ thực nghiệm. Mặc dù, phương pháp này rất đơn
giản nhưng nó thực sự khá hiệu quả [18]. Một số các công ty thương mại hiện nay đang
sử dụng phương pháp này với một vài cải tiến.
3.58

Một phương pháp khác theo hướng này là nghiên cứu của Moghaddam

và Ester [18], trong đó nhóm tác giả đã sử dụng tần số nghịch đảo từ (TF-IDF) kết hợp
với việc thêm vào một bộ lọc dựa trên các mẫu (pattern-based filter) để loại bỏ một vài
thuật ngữ phi khía cạnh (non-aspect terms). Long, Zhang and Zhu [19] trích rút các
khía cạnh dựa trên tần suất và khoảng cách thông tin. Đầu tiên, các từ lõi của khía cạnh
được phát hiện sử dụng phương pháp dựa trên tần suất. Sau đó, các từ liên quan khác
đối với khía cạnh được tìm ra dựa trên khoảng cách thơng tin [5] để tìm ra các thuật
ngữ có liên quan đối với khía cạnh.
3.59

Trong phân lớp ngữ nghĩa, những từ ngữ nghĩa thường là yếu tố quyết

định. Tuy nhiên rất khó để chúng ta hình dung ra các từ và cụm từ ngữ nghĩa nào có thể

sử dụng trong phương pháp học bán giám sát. Phương pháp học trong [34] là một trong
các phương pháp để giải quyết vấn đề này. Turney và các cộng sự đưa ra cách giải
quyết vấn đề phân lớp ngữ nghĩa dựa trên việc trích rút từ và cụm từ theo một số mẫu
cú pháp nhất đinh. Ngoài ra, để thực hiện học phân lớp nhóm tác giả cịn đưa ra độ đo
xác đinh hướng ngữ nghĩa (SO) của cụm từ dựa trên độ đo thông tin tương hỗ (PMI).
3.60

Một cách tiếp cận không giám sát khác là phương pháp dựa trên từ vựng

(lexicon-based method)[40]. Phương pháp này sử dụng một từ điển của các từ và cụm
từ ngữ nghĩa có kèm theo xu hướng và mức độ ngữ nghĩa liên quan. Đồng thời phương
pháp cũng kết hợp các từ chỉ mức độ tăng cường hay giảm nhẹ và các từ phủ đinh để
tính tốn điểm ngữ nghĩa cho các văn bản [31]. Phương pháp này ban đầu đã được sử
dụng trong phân lớp ngữ nghĩa mức câu và khía cạnh trong các cơng bố [7], [10], [15]
để thực hiện học phân lớp.
3.61

Trong những năm gần đây một số mơ hình học biểu diễn đã đạt được

nhiều kết quả xuất sắc trong lĩnh vực xử lý ngơn ngữ tự nhiên. Các mơ hình học biểu
diễn đã được đề xuất với các mức, như mức từ, mức câu, mức đoạn văn, và mức cả văn
bản. Học biểu diễn (còn được gọi là học đặc trưng (feature learning)) [1] là một lĩnh
vực của học máy, tự động học biểu diễn đặc trưng thông qua dữ liệu huấn luyện. Các


mơ hình cho học biểu diễn đã được sử dụng bao gồm phân tích thành phần độc lập
(independent component analysis) [11], các bộ tự giải mã (autoencoders) [9], phântích
ma trận thành nhân tử (matrix factorization) [39], và mạng nơ-ron [1].
3.62


Một số nghiên cứu khai phá và phân tích quan điểm theo khía cạnh gần

đây đã áp dụng các kỹ thuật học biểu diễn để khắc phục điểm yếu về ngữ nghĩa của từ.
Pavlopoulos và các cộng sự [25] đã mở rộng phương pháp trích xuất khía cạnh của
Zhuang [43] bằng cách sử dụng các véc-tơ biểu diễn từ Word2Vec. Poria và các cộng
sự [28] đề xuất mơ hình mạng nơ-rơn tích chập (Convolutional Neural Network
(CNN)) nhiều tầng cho cơng việc trích xuất từ thể hiện khía cạnh. Wang và các cộng sự
[38] đề xuất mơ hình mạng bộ nhớ ngắn-dài (Long Short Term Memory (LSTM)) và
Tang [32] đề xuất mô hình mạng nơ-ron nhớ sâu (Deep Memory Network) cho bài tốn
phân loại quan điểm khía cạnh

1.2.3 Nghiên cứu liên quan
3.63

Phân tích quan điểm bắt đầu được nghiên cứu từ những năm 2000 với các bài

tốn điển hình như phân lớp quan điểm cho văn bản [24], [34], phát hiện và phân lớp
văn bản rác [12], [17], [13]. Tuy nhiên, điểm hạn chế của các bài toán ban đầu là ngầm
đinh đối tượng đối với các văn bản đầu vào và khơng xét tới các khía cạnh của thực thể
đã được người dùng bày tỏ quan điểm trong văn bản đánh giá. Để giải quyết điểm yếu
này, gần đây nhiều bài tốn phân tích quan điểm theo khía cạnh đã được quan tâm và
nghiên cứu [41].
3.64

Các bài nhận xét trên các trang online cùng với xếp hạng đã được chứng

minh là nguồn dữ liệu có giá tri trong nhiều hệ thống ứng dụng như khuyến nghi sản
phẩm [2], khai thác đặc trưng [27], phân tích ngữ nghĩa [34]. Do tính đa dạng của các
ứng dụng khai thác dữ liệu này đã dẫn đến sự cần thiết của các phương pháp có hiệu
quả tốt hơn [8], [10], [4]. Một trong những nhánh quan trọng của khai phá quan điểm là

bài tốn trích rút khía cạnh và dự đốn xếp hạng khía cạnh [29].
3.65

Một số cách tiếp cận phổ biến trong bài toán trích rút khía cạnh tiềm ẩn

và phân lớp quan điểm bao gồm tiếp cận theo mơ hình chủ đề (topic model), tiếp cận
dựa trên thuật ngữ và tần suất (terms and their frequency), tiếp cận dựa trên từ và cụm
từ ngữ nghĩa (sentiment words and phrases). Phương pháp trong [3], đầu tiên các tác
giả sử dụng mơ hình chủ đề để khám phá ra các khía cạnh. Sau đó với mỗi khía cạnh
được trích rút ra tất cả các tính từ có liên quan và xây dựng một đồ thi kết nối. Thuật
toán lan truyền nhãn [42] được sử dụng trên đồ thi để học điểm phân cực ngữ nghĩa của
các tính từ. Sauper and Barzi-lay [30] cũng tiếp cận dựa trên mơ hình chủ đề nhưng sử


×