Tải bản đầy đủ (.pdf) (70 trang)

ĐỒ án dự đoán KHÍA CẠNH và cảm xúc dựa TRÊN bộ dữ LIỆU TIẾNG VIỆT THÔNG QUA PHƯƠNG THỨC học đa tác vụ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.7 MB, 70 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
KHOA KHOA HỌC MÁY TÍNH

LÊ SI LẮC

ĐỒ ÁN

DỰ ĐỐN KHÍA CẠNH VÀ CẢM XÚC
DỰA TRÊN BỘ DỮ LIỆU TIẾNG VIỆT
THÔNG QUA PHƯƠNG THỨC HỌC ĐA
TÁC VỤ

TP. HỒ CHÍ MINH, 2020


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
KHOA KHOA HỌC MÁY TÍNH

LÊ SI LẮC – 172520669

DỰ ĐOÁN KHÍ A CẠNH VÀ CẢM XÚ C
DỰA TRÊN BỘ DỮ LIỆU TIẾNG VIỆT THÔNG QUA
PHƯ ƠNG THỨC HỌC ĐA TÁC VỤ

GIẢNG VIÊN HƯỚNG DẪN
TS. NGUYỄN LƯU THÙY NGÂN


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN


LỜI CẢM ƠN
Lời đầu tiên, tôi xin chân thành cảm ơn sâu sắc đến TS. Nguyễn Lưu Thùy Ngân, cô
đã luôn quan tâm, lo lắng, nhắc nhỡ cũng như hỗ trợ tơi trong suốt q trình thực hiện.
Cơ là người đã truyền cảm hứng giúp tôi định hướng trong con đường học thuật và
nghiên cứu khoa học. Đồng thời, tôi cũng xin gửi lời cảm ơn đế n các thầ y cô, anh chi ̣
ta ̣i Phò ng thí nghiệm Truyề n thông Đa phương tiện, Trường đa ̣i ho ̣c Công nghệ Thô ng
tin đã luôn đồ ng hành và góp ý tận tình cho tôi trong ngay từ nhữ ng bước đầ u thực
hiện đồ án.
Bên cạnh đó, tôi xin được gửi lời cảm ơn chân thành nhất đến anh Đặng Văn
Thìn. Người đã ln đồng hành, giúp đỡ và động viên tơi trong q trình hiện thực
NCKH này. Đồng thời, tôi xin gửi lời cảm ơn đến anh Nguyễn Minh Hảo, chị Tôn
Nữ Thị Sáu đã cho phép tôi sử dụng bộ dữ liệu để thực hiện phần NCK của mình.
Trong quá trình thực hiện nghiên cứu, dù có hồn chỉnh đến đâu thì giới hạn
về kiến thức sẽ khơng tránh khỏi những sai sót trong đồ án. Tơi mong nhận được ý
kiến đóng góp từ q thầy cô.
Một lần nữa, tôi xin chân thành cảm ơn!
Tp. Hồ Chí Minh, ngày 18 tháng 1 năm 2020
Sinh viên. Lê Si Lắc


MỤC LỤC
LỜI CẢM ƠN ......................................................................................................................... 3
DANH MỤC HÌNH ẢNH .......................................................................................................... 7
DANH MỤC TỪ VIẾT TẮT ....................................................................................................... 9
Chương 1. MỞ ĐẦU ............................................................................................................ 2
1.1.


ĐẶT VẤN ĐỀ ........................................................................................................................... 2

1.2.

ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................................................................. 4

1.3.

MỤC TIÊU CỦA ĐỒ ÁN ............................................................................................................ 4

1.4.

KẾT QUẢ CỦA NGHIÊN............................................................................................................ 5

1.5.

CẤU TRÚC KHÓA LUẬN ........................................................................................................... 5

Chương 2. TỔNG QUAN ....................................................................................................... 7
1.1.

PHÂN TÍCH Ý KIẾN................................................................................................................... 7

2.2.

PHÂN TÍCH Ý KIẾN THEO KHÍA CẠNH ...................................................................................... 8

3.3.

TÌNH HÌNH NGHIÊN CỨU ...................................................................................................... 10


2.3.1.

TÌNH HÌNH NGHIÊN CỨU TRÊN THẾ GIỚI .......................................................................... 10

2.3.2.

TÌNH HÌNH NGHIÊN CỨU TRONG NƯỚC ........................................................................... 11

2.3.3.

NHẬN XÉT......................................................................................................................... 13

4.4.

PHÁT BIỂU BÀI TOÁN............................................................................................................ 14

Chương 3. TỔNG QUAN VỀ BỘ NGỮ LIỆU PHÂN TÍCH Ý KIẾN THEO KHÍA CẠNH .................... 16
1.1.

TỔNG QUAN THU THẬP VÀ TIỀN XỬ LÝ NGỮ LIỆU ............................................................... 17

3.1.1.

THU THẬP NGỮ LIỆU ........................................................................................................ 17

3.1.2.

TIỀN XỬ LÝ NGỮ LIỆU ....................................................................................................... 17


2.2.

QUY TẮC GÁN NHÃN NGỮ LIỆU............................................................................................ 19

3.3.

PHÂN TÍCH NGỮ LIỆU ........................................................................................................... 24

Chương 4. MƠ HÌNH PHÂN TÍCH Ý KIẾN THEO KHÍA CẠNH ................................................... 29
4.1.

MƠ HÌNH HỌC SÂU............................................................................................................... 32

1.1.1.

MẠNG NƠ-RON NHÂN TẠO.............................................................................................. 32

2.1.2.

CONVOLUTIONAL NEURAL NETWORK .............................................................................. 33

4.1.2.1.

TỔNG QUAN ................................................................................................................. 33

4.1.2.2.

DROPOUT CHO OVERFITTING ....................................................................................... 37

4.1.2.3.


CNN TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN ................................................................... 39

3.1.3.
4.2.

BiGRU ............................................................................................................................... 40
ĐẶC TRƯNG CHO MƠ HÌNH PHÂN LỚP................................................................................. 40

1.2.1.

ĐẶC TRƯNG TỪ LOẠI (PART-OF-SPEECH) ......................................................................... 41

2.2.2.

ĐẶC TRƯNG N-GRAMS ..................................................................................................... 42

3.2.3.

WORD EMBEDDING .......................................................................................................... 43


4.2.4.

MƠ HÌNH ĐA TÁC VỤ BiGRU-CNN..................................................................................... 43

Chương 5. THỬ NGHIỆM VÀ KẾT QUẢ THỬ NGHIỆM ........................................................... 47
5.1.

TIỀN XỬ LÝ NGỮ LIỆU ........................................................................................................... 48


5.2.

RÚT TRÍCH ĐẶC TRƯNG ........................................................................................................ 48

5.3.

CÀI ĐẶT VÀ THIẾT LẬP THƠNG SỐ THỬ NGHIỆM.................................................................. 48

5.3.1.

MƠ HÌNH HỌC SÂU........................................................................................................... 48

5.4.

CHỈ SỐ ĐÁNH GIÁ MƠ HÌNH ................................................................................................. 49

5.5.

KẾT QUẢ THỬ NGHIỆM......................................................................................................... 51

Chương 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN..................................................................... 55
6.1.

KẾT LUẬN.............................................................................................................................. 55

6.2.

HẠN CHẾ............................................................................................................................... 56


6.3.

HƯỚNG PHÁT TRIỂN ............................................................................................................ 56

TÀI LIỆU THAM KHẢO .......................................................................................................... 57


DANH MỤC BẢNG
Bảng 2.1. Cặp thực thể và thuộc tính trong miền dữ liệu nhà hàng, quán ăn ..........13
Bảng 3.1. Độ đồng thuận giữa các thành viên gán nhãn ..........................................25
Bảng 3.2. Phân bố số lượng và tỉ lệ các thể loại khía cạnh ......................................27
Bảng 3.3. Số lượng các nhãn khía cạnh và cảm xúc trên các khía cạnh trong bộ ngữ
liệu .............................................................................................................................28
Bảng 3.4. Thống kê số lượng câu và tỉ lệ phần trăm theo độ dài câu ......................29
Bảng 3.5. Thống kê số lượng câu và tỉ lệ phần trăm theo số lượng nhãn ................29
Bảng 4.1. Đặc trưng uni-grams, bi-ggrams và tri-grams cho câu "mấy anh_chị
nhân_viên ở đây cũng dễ_thương nữa" .....................................................................45
Bảng 5.1. Kết quả cho bài toán phát hiện thể loại khía cạnh tính theo đơn vị % ....51
Bảng 5.2. Kết quả cho bài tốn phát hiện thể loại khía cạnh kết hợp với xác định
trạng thái cảm xúc tính theo đơn vị %.......................................................................52
Bảng 5.3. Kết quả của mơ hình SVM khi kết hợp với các đặc trưng khác nhau theo
bài tốn phát hiện thể loại khía cạnh .........................................................................56
Bảng 5.4. Kết quả của các hướng tiếp cận khác nhau để giải quyết hai bài tốn phát
hiện thể loại khía cạnh và xác định trạng thái cảm xúc.............................................58


DANH MỤC HÌNH ẢNH
Hình 3.1. Tỉ lệ thời gian dành cho các giai đoạn để xây dựng một hệ thống khoa học
ngữ liệu. Nguồn: báo cáo về học ngữ liệu 2016 [21] ................................................15
Hình 3.2. Định dạng xml cho đoạn bình luận với các câu văn bình luận ................18

Hình 3.3. Quy trình đánh giá độ đồng thuận trong việc gán nhãn ngữ liệu .............24
Hình 3.4. Chi tiết số lượng nhãn thể loại khía cạnh trên tập huấn luyện, tập phát triển
và tập kiểm tra ...........................................................................................................30
Hình 4.1. Các mặc phẳng phân tách hai lớp .............................................................34
Hình 4.2. Margin phân chia hai lớp..........................................................................34
Hình 4.3. Kiến trúc mạng nơ-ron nhân tạo...............................................................36
Hình 4.4. Cấu trúc trong từng nốt của mạng nơ-ron nhân tạo. Nguồn: [28] ............37
Hình 4.5. Ý tưởng Local receptive fields trong mơ hình CNN. Nguồn: [29] ..........38
Hình 4.6. Kiến trúc tổng quan của mơ hình CNN. Nguồn: [30] ..............................39
Hình 4.7. Ví dụ tích chập giữa đầu vào 5x5 và bộ lọc 3x3 với bước trượt là 1 .......39
Hình 4.8. Ví dụ phép tổng hợp lớn nhất (maxpooling) cho đầu vào 5x5 và bộ lọc 3x3
với hai dạng bước trượt 1 và 2 ..................................................................................40
Hình 4.9. Ví dụ phép gộp trung bình (averagepooling) cho đầu vào 5x5 và bộ lọc
3x3 với hai dạng bước trượt 1 và 2 ...........................................................................41
Hình 4.10. Kỹ thuật dropout trong xử lý overfitting ................................................42
Hình 4.11. Mơ hình Convolutional neural network đề xuất.....................................43
Hình 5.1. Sơ đồ tổng quan hệ thống phân tích ý kiến trên khía cạnh ......................47
Hình 5.2. Tổng quan các tham số được sử dụng trong mơ hình CNN .....................50
Hình 5.3. Kết quả chi tiết các thể loại khía cạnh cho bài tốn phát hiện thể loại khía
cạnh theo điểm số F1 giữa hai mơ hình SVM và CNN .............................................53
Hình 5.4. Kết quả chi tiết các khía cạnh cho bài tốn phát hiện thể loại khía cạnh kết
hợp với xác định trạng thái cảm xúc theo điểm số F1 giữa hai mơ hình SVM và CNN
................................................................................................................................. 54
Hình 5.5. Kết quả các nhãn khía cạnh đối với bài tốn phát hiện thể loại khía cạnh
theo tiền xử lý và khơng có tiền xử lý ngữ liệu tính theo điểm F1 ............................55


Hình 5.6. So sánh ảnh hưởng của số lượng câu ngữ liệu đến mơ hình huấn luyện 57



DANH MỤC TỪ VIẾT TẮT

STT

Từ viết tắt

1

ABSA

2

CNN

3

NLP

4

SA

Ý nghĩa
Phân tích ý kiến theo khía cạnh –
Aspect-based sentiment analysis
Mơ hình mạng tích chập –
Convolutional Neural Network
Xử lý ngôn ngữ tự nhiên –
Natural language processing
Phân tích cảm xúc –

Sentiment analysis


TĨM TẮT
Phân tích ý kiến theo khía cạnh (aspect-based sentiment analysis) là một bài toán mở
rộng từ bài toán phân tích cảm xúc (sentiment analysis). Bài tốn phân tích ý kiến theo
khía cạnh có nhiệm vụ xác định trạng thái cảm xúc trên các đánh giá liên quan đến
từng thể loại khía cạnh cụ thể ở miền dữ liệu cụ thể.
Trong đồ án này, chúng tôi tiến hành nghiên cứu và thử nghiệm những mơ hình
học sâu với bộ dữ liệu [31], bao gồm 10302 câu ngữ liệu và giải quyết hai bài tốn
con phát hiện thể loại khía cạnh và xác định trạng thái cảm xúc. Mơ hình được chúng
tơi sử dụng thử nghiệm là mơ hình máy học truyền thống support vector machine và
mơ hình học sâu convolutional neural network. Kết quả thử nghiệm đối với bài toán
phát hiện thể loại khía cạnh: mơ hình chúng tơi đề xuất đạt được kết quả là 93.08% .
Còn kết quả đối với cả hai bài toán phát hiện thể loại khía cạnh kết hợp với xác định
trạng thái cảm xúc, thử nghiệm đạt kết quả 69.13%. Kết quả thử nghiệm cho thấy mơ
hình học sâu cho ra kết quả tốt hơn so với mơ hình máy học truyền thống, đồng thời mơ
hình chúng tơi đưa ra đã có những cải thiện vượt bậc so với các nghiên cứu sử dụng
bộ dữ liệu cho đến thời điểm hiện tại.

1


Chương 1. MỞ ĐẦU
1.1.

ĐẶT VẤN ĐỀ

Trong khoảng những năm gần đây, với sự phát triển mạnh mẽ và vượt bậc của Internet
và nhu cầu tham khảo các phản hồi của những khách hàng trước đó khi mua sắm trực

tuyến ngày càng tăng. Thế nên, những trang mạng hiện nay được phát triển cho phép
các người dùng có thể chia sẻ những trải nghiệm, đánh giá, nhận xét và phản hồi về
các loại hình dịch vụ, sản phẩm của các doanh nghiệp, tổ chức. Khi người dùng quyết
định lựa chọn mua một sản phẩm hay dịch vụ nào đó khơng những xem xét các thơng
tin về sản phẩ, dịch vụ đó mà cịn có xu hướng quan tâm đến phản hồi của những
người dùng khác. Khi tiến hành tham khảo các đánh giá, phản hồi của những người
dùng khác thì các khách hàng thường có xu hướng đưa ra các quyết định lựa chọn
dịch vụ, sản phẩm phù hợp và đáng tin cậy hơn. Cùng với đó, các doanh nghiệp, dịch
vụ và các tổ chức cũng tiến hành thu thập các thông tin phản hồi của người dùng về
các sản phẩm, dịch vụ của họ để đưa ra các hướng đi đúng đắn hơn. Tuy nhiên, với
lượng lớn các thông tin phản hồi của người dùng về dịch vụ, sản phẩm nào đó thì
người dùng và các doanh nghiệp, tổ chức khó có thể mà quan tâm được hết. Để giải
quyết vấn đề này, các doanh nghiệp, tổ chức và người dùng cần một hệ thống có thể
phân tích tự động được tất cả các phản hồi và tóm tắt lại được tất cả các phản hồi để
khách hàng, doanh nghiệp tham khảo và đưa ra các quyết định nhanh chóng.
Hiện nay, những thông tin mà các hệ thống được sử dụng để phân tích các
phản hồi của người dùng trên các trang mạng thường chỉ quan tâm đến các thang
điểm mà người dùng đánh giá về các sản phẩm, dịch vụ đó. Tuy nhiên, các thang
điểm đánh giá phản hồi thì khơng thể hiện khách quan mức độ hài lịng của người
dùng bằng những câu văn, những đoạn bình luận.
Do đó, một số hệ thống cũng đã được xây dựng để tiến hành phân tích các câu
văn bình luận của người dùng. Thế nhưng, các hệ thống này chỉ xây dựng để đáp ứng
cơng việc phân tích câu bình luận của người dùng phản ánh trạng thái cảm xúc tích
cực, trung tính hay tiêu cực đối với các sản phẩm hoặc dịch vụ mà chưa quan tâm đến
các khía cạnh cụ thể trong đó. Ví dụ, đối với câu bình luận của người dùng về nhà

2


hàng như “Đồ ăn thì rất là ngon ln đó, dịch vụ tốt nữa nhưng có nhược điểm thì

hơi khó tìm một tý”. Đối với hệ thống phân tích ý kiến thì với câu bình luận như thế
của người dùng thì hệ thống chỉ trả về là tích cực. Thế nhưng, nếu chúng ta quan tâm
đến những vấn đề cụ thể thì chúng ta sẽ thấy trong câu trên có hai khía cạnh được
đánh giá tích cực là chất lượng của đồ ăn và chất lượng của phục vụ trong khi đó vị
trí của qn thì bị đánh giá là tiêu cực.
Do đó, người dùng và các doanh nghiệp địi hỏi phải có một hệ thống có thể
khai thác, phân tích và tóm tắt được tất cả các khía cạnh của các bình luận của người
dùng và bài tốn mới được được phát sinh là bài tốn phân tích ý kiến theo khía cạnh
của bình luận người dùng.
Đối với lĩnh vực nhà hàng, trước khi khách hàng tiến hành đặt mua đồ ăn, thức
uống hay chọn nhà hàng cho các buổi tiệc thì người dùng cũng chú trọng đến các
phản hồi của những khách hàng trước đó để cân nhắc trong việc lựa chọn. Ngoài ra,
với lĩnh vực nhà hàng, người dùng cịn quan tâm cụ thể đến từng khía cạnh vấn đề để
đưa ra quyết định lựa chọn như chất lượng thức ăn, nước uống, dịch vụ, không gian,
giá cả,…v.v chứ không đơn thuần chỉ quan tâm đến tổng quan của nhà hàng. Bằng
việc phân tích chi tiết trạng thái của các khía cạnh, chúng ta có thể khai thác được
nhiều thông tin từ đánh giá của người dùng. Nhận thấy tầm quan trọng của việc đi
sâu vào phân tích các khía cạnh, chúng ta cần một hệ thống có thể thực hiện bài tốn
phân tích ý kiến theo khía cạnh của bình luận người dùng ở trên miền dữ liệu nhà
hàng.
Hiện nay, bài tốn phân tích ý kiến theo khía cạnh mà cụ thể là bài tốn phân
tích ý kiến theo khía cạnh ở miền dữ liệu nhà hàng đang rất thu hút cộng đồng nghiên
cứu trên thế giới và cũng như trong nước. Hầu hết các bộ ngữ liệu cũng như các thuật
toán được xây dựng và thử nghiệm trên nhiều ngôn ngữ khác nhau như tiếng Anh,
tiếng Trung Quốc...v.v. Tuy nhiên đối với tiếng Việt, chưa có nhiều bộ ngữ liệu được
xây dựng để phục vụ cho cộng đồng nghiên cứu. Thế nên, chúng tôi quyết định tiến
hành xây dựng một bộ ngữ liệu chuẩn ở mức độ câu cho tiếng Việt để phục vụ cho

3



bài toán này và cài đặt một hệ thống sử dụng phương pháp học sâu đa tác vụ.
1.2.

ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
1.2.1.

ĐỐI TƯỢNG NGHIÊN CỨU

Đối tượng quan trọng đầu tiên trong đồ án này, đó là các câu bình luận của người
dùng. Các câu bình luận này được khai thác từ những phản hồi của người dùng trên
các trang mạng về các địa điểm ăn uống như: nhà hàng, quán ăn, tiệm bánh,...v.v.
1.2.2.

PHAM VI NGHIÊN CỨU

Phạm vi được chúng tôi tiến hành nghiên cứu trong đồ án này là những bình luận của
người dùng trên các trang mạng về các địa điểm ăn uống như nhà hàng, quán ăn, quán
bánh, quán cafe,…v.v.
Đối với đồ án của chúng tôi, chúng tơi thực hiện trên hai bài tốn con là phát
hiện thể loại khía cạnh và xác định trạng thái cảm xúc.
1.3.

MỤC TIÊU CỦA ĐỒ ÁN

Trong đồ án này, chúng tơi tiến hành nghiên cứu, tìm hiểu và giải quyết hai mục tiêu
chính như sau:
-

Nghiên cứ u và thử nghiệm mô hình ho ̣c đa tác vu ̣ (multitask learning) dựa trên

các mô hiǹ h ho ̣c sâu (deep neural network) để giải quyế t bài toán xác đinh
̣
khiá ca ̣nh (aspect detection) và dự đoán tra ̣ng thái cảm xúc của khía ca ̣nh
(aspect polarity) cho bình luận của người dùng

-

Phân tić h và so sánh hiệu quả giữa các mô hiǹ h ho ̣c sâu theo hướng tiế p cận
multitask so với các cách tiế p cận ho ̣c giảm sát (supervised learning)

4


1.4.

KẾT QUẢ CỦA NGHIÊN

Từ những nghiên cứu trong đồ án chúng tôi đạt được những kết quả như sau:
- Kết quả thử nghiệm đối với bài toán phát hiện thể loại khía cạnh: mơ hình
chúng tơi đề xuất đạt được kết quả là 93.08% . Còn kết quả đối với cả hai bài
tốn phát hiện thể loại khía cạnh kết hợp với xác định trạng thái cảm xúc, thử
nghiệm đạt kết quả 69.13%. Kết quả thử nghiệm cho thấy mô hình học sâu cho
ra kết quả tốt hơn so với mơ hình máy học truyền thống, đồng thời mơ hình
chúng tơi đưa ra đã có những cải thiện vượt bậc so với các nghiên cứu sử dụng
bộ dữ liệu cho đến thời điểm hiện tại.
-

Ngoài ra, từ kết quả đạt được trong q trình thực hiện, chúng tơi đã có những
đóng góp vào bài báo khoa học:
o Tham gia đề tài NCKH tại trường, “Dự Đốn Khía Cạnh Vảm Xúc Dựa

Trên Bộ Dữ Liệu Tiếng Việt Thông Qua Phương Thức Học Đa Tác
Vụ”
o Xuất bản tạp chí, Transactions on Asian and Low-Resource Language
Information Processing (TALLIP-20-0386.R1), “Two New Large
Corpora for Vietnamese Aspect-Based Sentiment Analysis at Sentence
Level”

1.5.

CẤU TRÚC KHÓA LUẬN

Trong báo cáo NCKH này bao gồm 6 chương với các nội dung như sau:
 Chương 1: Mở đầu. Trình bày lý do chọn đồ án, đối tượng và phạm vi nghiên
cứu, mục tiêu cũng như kết quả của đồ án

5


 Chương 2: Tổng quan. Giới thiệu khái niệm về bài tốn phân tích ý kiến và
bài tốn phân tích ý kiến theo khía cạnh, phân tích các hướng nghiên cứu đã
được thực hiện trong và ngoài nước liên quan đến bài tốn này. Trình bày bài
tốn trong đồ án này tiến hành nghiên cứu và thực hiện
 Chương 3: Trình bày khái lược về bộ ngữ liệu phân tích ý kiến theo khía
cạnh. Trình bày về quy trình gán nhãn ngữ liệu từ thu thập thông tin, xây dựng
các quy tắc gán nhãn đến các công đoạn trong quá trình gán nhãn và phân tích
bộ ngữ liệu xây dựng được
 Chương 4: Mơ hình phân tích ý kiến theo khía cạnh. Trình bày hướng tiếp
cận đối với hai bài tốn con của bài tốn phân tích ý kiến theo khía cạnh. Đồng
thời, trình bày cơ sở lý thuyết của các phương pháp được sử dụng để tiến hành
thử nghiệm với các đặc trưng tương ứng

 Chương 5: Thử nghiệm và kết quả thử nghiệm. Trình bày quá trình cài đặt
thử nghiệm, các bảng thơng số và phân tích kết quả giữa các thử nghiệm
 Chương 6: Kết luận và hướng phát triển. Tổng kết các kết quả quan trọng
đã đạt được trong đồ án, những hạn chế chưa được giải quyết và hướng phát
triển của đồ án trong tương lai

6


Chương 2. TỔNG QUAN
Trong đồ án này, chúng tôi tiến hành nghiên cứu bài tốn phân tích ý kiến theo khía
cạnh (aspect-based sentiment analysis - ABSA) được mở rộng từ bài tốn phân tích
cảm xúc (sentiment analysis - SA) với việc phải giải quyết hai bài toán con là phát
hiện thể loại khía cạnh và xác định trạng thái cảm xúc. Đối với bài tốn SA thơng
thường, từ một câu bình luận của người dùng kết quả trả về là các trạng thái cảm xúc
tương ứng đối với câu đó. Thế nhưng, đối với bài tốn ABSA, chúng tơi phải tiến
hành phân tích chi tiết các khía cạnh được đề cập đến trong câu bình luận và cả trạng
thái cảm xúc tương ứng cho từng khía cạnh đó.

Hình 1. Mơ tả ba nhiệm vụ của ABSA: Mục đích của OTE là trích xuất mục tiêu ý kiến,
trong trường hợp này là "sushi" và "phục vụ". Đối với ACD, đã được thiết đặt các danh
mục xác định trước, nhiệm vụ là xác định: thực thể#khía cạnh, khía cạnh của "sushi" là
"Food" và thực thể biểu thị của khía cạnh là "Quality". SP xác định cảm xúc của một
khía cạnh mục tiêu - tích cực hoặc tiêu cực.

1.1.

PHÂN TÍCH Ý KIẾN

Phân tích ý kiến (opinion mining) hay còn được biết đến với tên gọi là phân tích cảm

xúc (sentiment analysis) là một trong những bài tốn thuộc lĩnh vực xử lý ngơn ngữ
tự nhiên (natural language processing - NLP). Mục đích của bài tốn phân tích ý kiến
là xác định, phân tích và đánh giá các ý kiến, cảm xúc, thái độ,…v.v về các phản hồi
của mọi người đối với các sản phẩm, dịch vụ, tổ chức, cá nhân, sự kiện. Các nghiên
cứu về cảm xúc và ý kiến được đề xuất từ những năm 2000 [1]. Kể từ đó, bài tốn
7


này đã trở thành một nghiên cứu rất được các nhà khoa học quan tâm đến.

Một trong những nguyên nhân mà bài toán này được quan tâm nghiên cứu và phát triển.
Đầu tiên, bài toán này được ứng dụng ở nhiều lĩnh vực thực tế trong đời sống. Thứ hai,
bài toán cung cấp nhiều bài toán nhỏ khác nhau cũng như nhiều cấp độ khác nhau đầy
thách thức và chưa từng được đề cập vào nghiên cứu trước đây. Thứ ba, sự phát triển
của mạng xã hội cung cấp một khối lượng dữ liệu khổng lồ phục vụ cho công tác nghiên
cứu với bài toán này. Nghiên cứu về phân tích ý kiến khơng chỉ có tác động quan trọng
đến xử lý ngơn ngữ tự nhiên mà cịn có thể tác động sâu sắc đến quản lý, chính trị, kinh tế
và khoa học xã hội vì tất cả đều chịu ảnh hưởng bởi ý kiến của con người.
Hiện nay, bài tốn phân tích ý kiến có ba cấp độ khác nhau là cấp độ câu
(sentence level), cấp độ văn bản (document level), cấp độ khía cạnh – thực thể (Entity
– Aspect level) [2]. Các cơng trình nghiên cứu gần đây chủ yếu tập trung vào xác
định ý kiến phản hồi được thể hiện trực tiếp hay ngụ ý qua các trạng thái tích cực,
tiêu cực hay trung tính.
2.2.

PHÂN TÍCH Ý KIẾN THEO KHÍA CẠNH

Phân tích ý kiến theo khía cạnh (aspect-based sentiment analysis - ABSA) là bài toán
được mở rộng từ bài tốn phân tích cảm xúc. Bài tốn ABSA tiến hành phân tích chi
tiết các đánh giá, tình cảm, ý kiến của người dùng theo từng khía cạnh cụ thể. Hiện

nay, có ba cấp độ đối với bài tốn ABSA là cấp độ câu văn (Sentence-level ABSA),
cấp độ văn bản (Text-level ABSA) và cấp độ ngoài miền dữ liệu huấn luyện (Out-ofdomain ABSA) [3]. Trong mỗi cấp độ, có ba bài toán con được quan tâm như phát
hiện thể loại khía cạnh (Aspect Category), xác định ý kiến mục tiêu (Opinion Target
Expression - OTE) và xác định trạng thái cảm xúc (Sentiment Polarity) [3].
Đồng thời, đối với bài toán ABSA, trên các miền dữ liệu khác nhau sẽ có
những thể loại khía cạnh tương ứng được đề cập đến. Các thể loại khía cạnh là sự kết
hợp giữa cặp thực thể (Entity) và thuộc tính (Attribute). Với việc đi sâu vào nghiên
cứu chi tiết trạng thái cảm xúc theo từng thể loại khía cạnh cụ thể, các hệ thống được
xây dựng trên bài toán ABSA sẽ giúp các tổ chức, doanh nghiệp có thể lắng nghe,
phân tích những phản hồi trải nghiệm của khách hàng cũng như kỳ vọng của khách
8


hàng đối với sản phẩm hoặc dịch vụ một cách chi tiết và cụ thể hơn. Ngồi ra, nó
cũng giúp các khách hàng có nhiều thơng tin chi tiết hơn để tham khảo trong quá trình
đưa ra lựa chọn cho phù hợp.

9


3.3.

TÌNH HÌNH NGHIÊN CỨU
2.3.1. TÌNH HÌNH NGHIÊN CỨU TRÊN THẾ GIỚI

Từ những năm 2000 cho đến nay, phân tích ý kiến cũng như phân tích ý kiến theo
khía cạnh đã và đang thu hút được các nhà nghiên cứu quan tâm, phát triển và đưa
vào ứng dụng thực tế. Khái niệm phân tích cảm xúc (sentiment analysis) xuất hiện
lần đầu tiên trong cơng trình của Nasukawa và Yi [4]. Khái niệm phân tích ý kiến
(opinion mining) xuất hiện lần đầu tiên trong cơng trình của Dave, Lawrence and

Pennock [5]. Tuy nhiên, nghiên cứu được xem là đầu tiên đặt nền móng cho phân tích
ý kiến là nghiên cứu của Pang và các cộng sự [1]. Kể từ đó các nghiên cứu trong bài
toán này ngày càng được quan tâm và phát triển.
 Cơng trình [1] đã tiến hành nghiên cứu về phân tích ý kiến từ các phản hồi của
người dùng đối với miền dữ liệu điện ảnh (movie domain) với hai phân lớp
được quan tâm đến trong nghiên cứu là tích cực và tiêu cực. Ba phương pháp
máy học (Naive bayes, maximum entropy classification và support vector
machine) được sử dụng để giải quyết vấn đề phân loại các ý kiến trong nghiên
cứu này.
 Năm 2010, Thet và các cộng sự [6] tiến hành thực hiện nghiên cứu không chỉ
quan tâm đến việc phân tích ý kiến mà cịn phân tích chi tiết các định hướng
cảm xúc và sức mạnh của cảm xúc của đánh giá đối với các khía cạnh khác
nhau trong miền dữ liệu điện ảnh. Phương pháp được đề xuất là sử dụng điểm
số cảm xúc của bộ SentiWordNet để tiến hành tính tốn cảm xúc cho các khía
cạnh khác nhau.
 Cơng trình của Kim Schouten và Flavius Frasincar [7] giới thiệu tổng quan về
bài toán phân tích ý kiến trên khía cạnh. Trong cơng trình này, tác giả đưa ra
các bài toán con của bài toán phân tích ý kiến theo khía cạnh, cách phương
pháp đánh giá và khảo sát các mơ hình và kết quả thử nghiệm được đề xuất
đưa vào nghiên cứu trước đó đối với các bài toán con khác nhau.

10


Để đáp ứng cho công tác nghiên cứu đối với bài tốn phân tích ý kiến theo
khía cạnh được phát triển mạnh mẽ thì nhiều bộ ngữ liệu ở các miền dữ liệu khác
nhau và trên các ngôn ngữ khác nhau đã được xây dựng.
 Bộ ngữ liệu của Marianna Apidianaki và các cộng sự [8] xây dựng trên hai
miền dữ liệu nhà hàng và viện bảo tồn trên ngơn ngữ tiếng Pháp. Trong cơng
trình này, bộ ngữ liệu được xây dựng ở cấp độ câu với 2365 câu đối với lĩnh

vực nhà hàng và 655 câu đối với lĩnh vực viện bảo toàn. Đồng thời, ngữ liệu
này được xây dựng theo hai nhiệm vụ của hội thảo SemEval2016 [3] là cấp độ
câu đánh giá trong miền dữ liệu (in-domain sentence-level ABSA) đối với
miền dữ liệu nhà hàng và ngoài miền dữ liệu (out-of-domain) đối với miền dữ
liệu viện bảo toàn.
 Trong hội thảo SemEval, nhiều bộ ngữ liệu đã được cung cấp ở nhiều ngôn
ngữ khác nhau để phục vụ cho bài tốn phân tích ý kiến theo khía cạnh. Hội
thảo SemEval2014 [9] cung cấp một bộ ngữ liệu tiếng Anh đối với miền dữ
liệu nhà hàng bao gồm 3841 câu với 2041 được trích xuất từ bộ ngữ liệu của
Gayatree Ganu và các cộng sự [10] và miền dữ liệu máy tính xách tay (laptop)
với 3845 câu ngữ liệu. Hội thảo SemEval2015 [11] cung cấp bộ ngữ liệu đối
với ba miền dữ liệu là nhà hàng (2000 câu), khách sạn (266) và máy tính xách
tay (2500 câu). Ngữ liệu cho miền dữ liệu khách sạn được cung cấp để giải
quyết bài toán out-of-domain. Tại hội thảo SemEval2016 [3] đã cung cấp 19
bộ ngữ liệu huấn luyện (training datasets), 20 bộ ngữ liệu kiểm tra (testing
datasets) cho 8 ngôn ngữ và 7 lĩnh vực khác nhau và trong đó, 24 bộ ngữ liệu
phục vụ ở cấp độ câu và 14 bộ ngữ liệu phục vụ cho cấp độ văn bản.
2.3.2.

TÌNH HÌNH NGHIÊN CỨU TRONG NƯỚC

Bên cạnh những cơng trình nghiên cứu trên thế giới, bài tốn phân tích ý kiến và phân
tích ý kiến theo khía cạnh cũng thu hút được cộng đồng nghiên cứu trong nước trên
đa dạng các miền dữ liệu khác nhau như nhà hàng, khách sạn, điện tử và giáo
dục,…v.v. Theo như chúng tơi tìm hiểu, cơng trình nghiên cứu đầu tiên về phân tích
ý kiến trên tiếng Việt được thực hiện bởi Kieu & Pham [12] trên cấp độ câu văn và

11



xây dựng một hệ thống dựa trên luật (rule-based system) sử dụng nền tảng Gate, tiến
hành thực nghiệm đánh giá trên bộ ngữ liệu về miền dữ liệu máy tính và đạt độ đo F1
là 62.84%.
Đối với bài toán phân tích ý kiến theo khía cạnh có những nhiệm vụ như sau:
Xác định thể loại khía cạnh (Aspect Category), xác định ý kiến mục tiêu (Opinion
Target Expression - OTE) và xác định trạng thái cảm xúc (Sentiment Polarity) [3].
Vu và cộng sự [13] trình bày một nghiên cứu về việc khai thác ý kiến dựa trên khía
cạnh đánh giá sản phẩm bằng cách trích xuất các ý kiến rõ ràng hoặc ngụ ý sử dụng
quy tắc cú pháp tiếng Việt. Tiếp theo, Le và các cộng sự [14] đề xuất phương pháp
học bán giám sát GK-LDA cho việc trích xuất và phân loại các thuật ngữ khía cạnh
cho văn bản tiếng Việt.
Mai & Le [15] đã tiến hành thu thập và xây dựng bộ ngữ liệu ABSA cho tiếng
Việt đối với miền dữ liệu điện thoại thông minh và đồng thời, đề xuất một sơ đồ gán
nhãn liên kết với các mạng thần kinh tái phát hai chiều (BRNN) và trường ngẫu nhiên
có điều kiện (CRF) để giải quyết cả hai nhiệm vụ trích xuất mục tiêu ý kiến và phát
hiện tình cảm của nó đồng thời. Các thử nghiệm trên bộ ngữ liệu của họ cho thấy kiến
trúc BRNN-CRF đạt được hiệu suất hài lòng với độ đo F1 là 71.79%, vượt trội so với
CRF với các tính năng được thiết kế bằng tay với độ đo F1 là 54.91%.
Thuy cùng các cộng sự [16] xây dựng bộ ngữ liệu tiếng Việt đối với miền dữ
liệu nhà hàng ở cấp độ câu và giải quyết nhiệm vụ phát hiện khía cạnh bằng việc kết
hợp giữa ngữ liệu gán nhãn bằng tay và bộ ngữ liệu tiếng Anh được dịch sang tiếng
Việt. Cùng với đó đề xuất sử dụng word embedding làm đặc trưng cho mơ hình và
đạt được kết quả trên độ đo F1 là 70.62%.
Năm 2018, cộng đồng xử lý ngôn ngữ tự nhiên (Vietnamese Language and
Speech Processing - VLSP) đã tiến hành tổ chức cuộc thi và sử dụng bộ ngữ liệu cho
bài tốn phân tích ý kiến và phân tích ý kiến trên khía cạnh đối với miền dữ liệu nhà
hàng và khách sạn của Huyen và các cộng sự [17]. Bộ ngữ liệu [17] được xây dựng
ở mức độ đoạn cho bài tốn phân tích ý kiến trên khía cạnh với 4751 đoạn bình luận
đối với miền dữ liệu nhà hàng và 5600 đoạn bình luận đối với miền dữ liệu khách


12


sạn. Trong cuộc thi này, Thin cùng các cộng sự [18] đã sử dụng một phương pháp
chuyển bài toán nhiều nhãn (multi label) thành các bài toán phân nhị phân (binary
classification) sử dụng các đặc trưng được rút trích từ bình luận của người dùng. Mơ
hình của họ đã đạt kết quả tốt nhất tại cuộc thi với kết quả F1 là 77% cho phát hiện
khía cạnh và 61% cho tồn bộ bài tốn đối với miền dữ liệu nhà hàng. Cịn đối với
miền dữ liệu khách sạn, mơ hình của họ đạt kết quả 70% cho phát hiện thể loại khía
cạnh và 61% cho tồn bộ bài tốn. Sau đó, Thin và các cộng sự [19] đề xuất một
phương pháp học sâu Deep Convolutional Neural Network để giải quyết bài tốn phát
hiện thể loại khía cạnh trên bộ ngữ liệu này với chỉ số F1 đạt 80.40% cho miền dữ
liệu nhà hàng và 69.25% cho miền dữ liệu khách sạn.
2.3.3.

NHẬN XÉT

Đối với miền dữ liệu nhà hàng trên ngôn ngữ tiếng Việt, hiện nay, có hai bộ ngữ liệu
của [16] và [17] được cung cấp cho công tác nghiên cứu. Thế nhưng, bộ ngữ liệu của
[16] được xây dựng ở mức độ câu nhưng chỉ phục vụ để giải quyết một bài tốn con
là phát hiện thể loại khía cạnh và có kích thước là 6472 câu bình luận. Trong khi đó,
bộ ngữ liệu của [17] được xây dựng ở mức độ văn bản và số lượng khoảng 5000 văn
bản ngữ liệu và giải quyết hai bài toán con là phát hiện thể loại khía cạnh và xác định
trạng thái cảm xúc.
Nhận thấy tầm quan trọng và nhu cầu cần thiết của bài tốn, chúng tơi tiến
hành xây dựng bộ ngữ liệu đối với miền dữ liệu nhà hàng trên mức độ câu với kích
thước ngữ liệu lớn để phục vụ, thúc đẩy cho công tác nghiên cứu cũng như phát triển
các phương pháp xử lý, thử nghiệm đối với bài tốn này. Bộ ngữ liệu của chúng tơi
xây dựng dựa trên việc giải quyết hai bài toán con phát hiện thể loại khía cạnh và xác
định trạng thái cảm xúc như được đề cập đến ở hội thảo SemEval2016 [3] khác với

việc chỉ giải quyết một bài toán con như bộ ngữ liệu của [s16]. Đồng thời, bộ ngữ liệu

13


của chúng tôi xây dựng trên mức độ câu văn khác so với mức độ văn bản của bộ [17].
Ở mức độ câu văn, sẽ có những câu văn khơng mang ý nghĩa trong các khía cạnh
được đề cập nên chúng tôi tiến hành đề xuất thêm nhãn OTHER để giải quyết những
trường hợp này.
PHÁT BIỂU BÀI TOÁN

4.4.

Trong đồ án này, chúng tơi tiến hành tìm hiểu và nghiên cứu bài tốn phân tích ý kiến
theo khía cạnh mà cụ thể hơn là bài tốn phân tích ý kiến theo khía cạnh đối với miền
dữ liệu nhà hàng và quán ăn. Trong bài tốn phân tích ý kiến theo khía cạnh có hai
bài tốn con được chúng tơi quan tâm là phát hiện thể loại khía cạnh và xác định trạng
thái cảm xúc.
Bảng 2.1. Cặp thực thể và thuộc tính trong miền dữ liệu nhà hàng, quán ăn
Thực thể

Thuộc tính

Ký hiệu thể loại khía cạnh trong cơng

(Entity)

(Attribute)

tác gán nhãn


Nói chung

RESTAURANT#GENERAL

Giá cả

RESTAURANT#PRICES

Thuộc tính khác

RESTAURANT#MISCELLANEOUS

Chất lượng

FOOD#QUALITY

Giá cả

FOOD#PRICES

Kiểu/tùy chọn

FOOD#STYLE&OPTIONS

Chất lượng

DRINKS#QUALITY

Giá cả


DRINKS#PRICES

Kiểu/tùy chọn

DRINKS#STYLE&OPTIONS

Dịch vụ

Nói chung

SERVICE#GENERAL

Vị trí

Nói chung

LOCATION#GENERAL

Khơng gian

Nói chung

AMBIENCE#GENERAL

Nhà hàng

Đồ ăn

Thức uống


Những câu khơng chứa các thực thể
trên

OTHER

14


 Đối với bài tốn phát hiện thể loại khía cạnh, bài toán sẽ đưa ra danh sách các
thể loại khía cạnh tương ứng được đề cập đến trong câu bình luận. Các thể loại
khía cạnh là sự kết hợp của cặp thực thể (Entity) và thuộc tính (Attribute). Đối
với lĩnh vực nhà hàng, qn ăn, thơng thường có 12 nhãn thể loại khía cạnh.
Thế nhưng, đối với đồ án này, chúng tơi có 13 nhãn thể loại khía cạnh trong đó
có 12 thể loại khía cạnh thơng thường và 1 thể loại khía cạnh được đề xuất
thêm là thể loại khía cạnh OTHER. Bảng 2.1 thể hiện các cặp thực thể - thuộc
tính của thể loại khía cạnh được chúng tơi quan tâm đến.
 Bài tốn xác định trạng thái cảm xúc, từ câu bình luận của người dùng và danh
sách thể loại khía cạnh được thực hiện ở bài tốn con phát hiện khía cạnh thì
phải xác định trạng thái cảm xúc tương ứng cho từng thể loại khía cạnh có
trong danh sách đó. Các trạng thái cảm xúc được quan tâm đến trong đồ án này
là tích cực (positive), trung tính (neutral) và tiêu cực (negative).
Mục tiêu trong đồ án của chúng tôi là cài đặt phương pháp máy học truyền
thống và phương pháp học sâu để có thể tự động phân tích các bình luận của người
dùng. Với hai bài tốn con được chúng tơi quan tâm và giải quyết thì tổng quan bài
tốn của chúng tôi nghiên cứu sẽ được phát biểu như sau:
 Đầu vào: Câu bình luận của người dùng về dịch vụ, sản phẩm trong nhà hàng,
quán ăn.
 Đầu ra: Danh sách {thể loại khía cạnh, trạng thái cảm xúc} tương ứng được
đề cập trong câu bình luận của người dùng.

Ví dụ, người dùng có câu bình luận phản hồi về nhà hàng “Ếch khá là ngon, 1
con này cũng k nhỏ lắm đâu.” sẽ được gán nhãn là {FOOD#QUALITY, positive},
{FOOD#STYLE&OPTIONS, positive}. Cịn đối với câu bình luận như “Thái độ
nhân viên phục vụ gầy gầy hơi lùn có tóc =)))) k tốt.” thì sẽ được gán nhãn là
{SERVICE#GENERAL, negative}.

15


Chương 3. TỔNG QUAN VỀ BỘ NGỮ LIỆU PHÂN TÍCH Ý KIẾN
THEO KHÍA CẠNH
Trong chương này, chúng tơi trình bày về bộ ngữ liệu UIT_ABSA 2019 [33] cho bài
toán phân tích ý kiến theo khía cạnh từ bình luận của người dùng đối với miền dữ liệu
nhà hàng . Đối với các hệ thống dự đoán hiện nay, phần lớn các hệ thống được xây
dựng từ các thuật toán học có giám sát (supervised learning) [20]. Với thuật tốn học
có giám sát, chúng ta cần phải có một bộ ngữ liệu mẫu được gán nhãn để tiến hành
huấn luyện cho hệ thống. Bộ ngữ liệu mẫu để huấn luyện sẽ quyết định đến chất lượng
của hệ thống.
Từ hình 3.1 được trích xuất từ báo cáo về khoa học ngữ liệu [21], chúng ta có
thể thấy được rằng q trình xây dựng một hệ thống khoa học ngữ liệu thì gần như
toàn bộ thời gian sẽ liên quan đến ngữ liệu với 88% tổng thời gian (9% thời gian dành
cho công tác phân tích ngữ liệu, 19% thời gian cho việc thu thập ngữ liệu và 60%
thời gian dành cho việc làm sạch và tổ chức lại ngữ liệu).

Hình 3.1. Tỉ lệ thời gian dành cho các giai đoạn để xây dựng một hệ thống khoa
học ngữ liệu. Nguồn: báo cáo về học ngữ liệu 2016 [21]

16



×