Phát triển các mô hình dựa trên mạng nơron cho phân tích quan điểm theo khía cạnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.16 MB, 136 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————

PHẠM ĐỨC HỒNG

PHÁT TRIỂN CÁC MƠ HÌNH DỰA TRÊN MẠNG NƠ-RON CHO
PHÂN TÍCH QUAN ĐIỂM THEO KHÍA CẠNH

LUẬN ÁN TIẾN SĨ NGÀNH KHOA HỌC MÁY TÍNH

Hà Nội - 2019

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————

PHẠM ĐỨC HỒNG

PHÁT TRIỂN CÁC MƠ HÌNH DỰA TRÊN MẠNG NƠ-RON CHO
PHÂN TÍCH QUAN ĐIỂM THEO KHÍA CẠNH

Chuyên ngành: Khoa học máy tính
Mã số: 9480101.01

LUẬN ÁN TIẾN SĨ NGÀNH KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. Lê Anh Cường

Hà Nội - 2019

LỜI CẢM ƠN
Luận án tiến sĩ ngành Khoa học Máy tính này được Chính phủ Việt Nam hỗ trợ một
phần kinh phí thơng qua Đề án 911 và được thực hiện tại Bộ mơn Khoa học máy tính,
Khoa Cơng nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội dưới
sự hỗ trợ về mặt thủ tục của Phịng Tài chính kế tốn, Trường Đại học Cơng nghệ. Bên
cạnh đó cịn có sự hỗ trợ kinh phí đối với các cơng bố có chỉ số SCIE, SCI của Trường
Đại học Điện lực và của đề tài NAFOSTED, mã số 102.01-2014.22 thuộc Quỹ Phát
triển khoa học và công nghệ Quốc gia. Tôi xin chân thành cảm ơn các đơn vị, tổ chức
này đã giúp đỡ tôi trong thời gian nghiên cứu.
Luận án cịn có sự hợp tác và hỗ trợ của các cá nhân, những người đã đóng góp rất
nhiều trong q trình hồn thành các vấn đề nghiên cứu của luận án. Trước hết tôi xin
chân thành cảm ơn PGS.TS. Lê Anh Cường đã trực tiếp hướng dẫn, giúp đỡ ln sẵn
lịng và tạo mọi điều kiện thuận lợi nhất cho tơi trong q trình học tập và nghiên cứu.
Tôi xin gửi lời cảm ơn chân thành tới PGS.TS. Hoàng Xuân Huấn, PGS.TS. Phan Xuân
Hiếu, TS. Nguyễn Văn Vinh, TS. Lê Nguyên Khôi, TS. Nguyễn Bá Đạt, TS. Nguyễn Thị
Ngọc Điệp (Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội), PGS.TS. Lê Thanh
Hương (Trường Đại học Bách khoa Hà Nội), TS. Nguyễn Thị Minh Huyền (Trường Đại
học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội), PGS. TS. Trần Đăng Hưng (Trường
Đại học Sư Phạm Hà Nội), TS. Đặng Thị Thu Hiền (Trường Đại học Thủy lợi) vì sự góp
ý rất chân thành và thẳng thắn, giúp cho luận án của tơi được hồn thiện tốt hơn.
Tôi biết ơn chân thành đối với PGS.TS. Nguyễn Lê Minh (Viện Khoa học công nghệ
Tiên tiến Nhật Bản), TS. Trần Quốc Long (Trường Đại học Công nghệ, Đại học Quốc
gia Hà Nội). Hai thầy đã trực tiếp giảng dạy, chia sẻ cho tôi nhiều hiểu biết liên quan
đến nội dung nghiên cứu.
Tôi xin gửi lời cảm ơn đến tất cả anh, chị, em và bạn bè đồng nghiệp, nghiên cứu
sinh ở Bộ mơn Khoa học máy tính, Khoa Công nghệ thông tin, Trường Đại học Công
nghệ, Đại học Quốc gia Hà Nội đã giúp đỡ tơi hồn thành các kế hoạch và thủ tục hành
chính trong thời gian làm nghiên cứu sinh. Tôi cũng muốn cảm ơn đến anh/chị/em đồng

nghiệp, giảng viên khoa Công nghệ Thông tin, Trường Đại học Điện lực đã luôn cổ vũ
động viên và sát cánh bên tơi trong suốt q trình nghiên cứu.
Cuối cùng, tơi muốn nói lời cảm ơn đặc biệt tới vợ tôi Lê Thị Kim Chung, và con
trai tôi Phạm Cơng Phúc đã dành cho tơi tình u và sự cảm thông, cho phép tôi dành
nhiều thời gian, tập trung cho cơng việc nghiên cứu. Tơi hết lịng biết ơn bố mẹ tơi về
tình u và sự cống hiến to lớn để tôi trưởng thành như ngày hôm nay, cảm ơn các anh,
chị, em của tơi về tình u gia đình và sự quan tâm giúp đỡ của họ cho công việc này.

LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là kết quả nghiên cứu của tôi, được thực hiện dưới sự
hướng dẫn của PGS.TS. Lê Anh Cường. Các nội dung trích dẫn từ các nghiên cứu của
các tác giả khác mà tơi trình bày trong luận án này đã được ghi rõ nguồn trong phần tài
liệu tham khảo.

Phạm Đức Hồng

ii

Mục lục
Lời cảm ơn

i

Lời cam đoan

ii

Mục lục

iii

Danh mục các chữ viết tắt

vii

Danh mục các bảng

ix

Danh mục các hình vẽ

xi

Lời mở đầu

1

1

Tổng quan vấn đề nghiên cứu

5

1.1

Giới thiệu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

1.2

Các bài toán trong phân tích quan điểm . . . . . . . . . . . . . . . . .

6

1.2.1

Tổng quan một hệ thống phân tích quan điểm . . . . . . . . . .

6

1.2.2

Phân tích quan điểm cho toàn bộ văn bản . . . . . . . . . . . .

8

1.2.3

Phân tích quan điểm theo khía cạnh . . . . . . . . . . . . . . .

8

1.2.4

Các bài tốn trong phân tích quan điểm theo khía cạnh . . . . .

8

Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . .

10

1.3.1

Trích xuất từ thể hiện khía cạnh . . . . . . . . . . . . . . . . .

10

1.3.2

Xác định khía cạnh . . . . . . . . . . . . . . . . . . . . . . . .

11

1.3.3

Phân đoạn khía cạnh . . . . . . . . . . . . . . . . . . . . . . .

11

1.3.4

Phân loại quan điểm theo khía cạnh . . . . . . . . . . . . . . .

12

1.3

iii

2

1.3.5

Xếp hạng khía cạnh . . . . . . . . . . . . . . . . . . . . . . . .

12

1.3.6

Xác định hạng và trọng số khía cạnh ẩn . . . . . . . . . . . . .

13

1.4

Các tiếp cận giải quyết bài toán . . . . . . . . . . . . . . . . . . . . . .

14

1.5

Nghiên cứu trên thế giới và Việt nam . . . . . . . . . . . . . . . . . . .

15

1.6

Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

Kiến thức cơ sở

18

2.1

Các ký hiệu và khái niệm liên quan . . . . . . . . . . . . . . . . . . . .

18

2.2

Các mơ hình học máy cơ sở cho phân tích quan điểm theo khía cạnh . .

21

2.2.1

Mơ hình hồi quy đánh giá ẩn . . . . . . . . . . . . . . . . . . .

21

2.2.2

Thuật toán xác suất xếp hạng khía cạnh . . . . . . . . . . . . .

22

Các mơ hình học biểu diễn mức từ, câu, đoạn/văn bản . . . . . . . . . .

25

2.3.1

Mơ hình Word2Vec . . . . . . . . . . . . . . . . . . . . . . . .

25

2.3.2

Mơ hình GloVe . . . . . . . . . . . . . . . . . . . . . . . . . .

26

2.3.3

Mơ hình véc-tơ Paragraph . . . . . . . . . . . . . . . . . . . .

27

2.3.4

Mơ hình mạng nơ-ron tích chập CNN . . . . . . . . . . . . . .

30

2.3.5

Mơ hình véc-tơ kết hợp . . . . . . . . . . . . . . . . . . . . . .

33

Kết luận và thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

2.3

2.4
3

Đề xuất mơ hình dựa trên mạng nơ-ron xác định hạng và trọng số khía cạnh
của thực thể
35
3.1

Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

3.2

Mơ hình hóa bài tốn . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

3.2.1

Bài toán xác định hạng và trọng số khía cạnh ẩn của thực thể . .

36

3.2.2

Bài tốn xác định trọng số khía cạnh chung của các thực thể . .

37

Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

3.3

3.3.1
3.3.2

Xác định hạng và trọng số khía cạnh ẩn của thực thể sử dụng
mơ hình mạng nơ-ron một lớp ẩn . . . . . . . . . . . . . . . . .

38

Xác định hạng và trọng số khía cạnh ẩn của thực thể sử dụng
mơ hình học biểu diễn đa tầng . . . . . . . . . . . . . . . . . .

45

iv

3.3.3
3.4

3.5
4

Xác định trọng số khía cạnh chung của thực thể sử dụng mơ
hình mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . . .

52

Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

54

3.4.1

Các độ đo . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

3.4.2

Cài đặt mơ hình . . . . . . . . . . . . . . . . . . . . . . . . . .

58

3.4.3

Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . .

59

3.4.4

Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

3.4.5

Hiệu quả của các tham số trong mơ hình LRNN-ASR . . . . . .

63

Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

66

Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh

68

4.1

Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

68

4.2

Mơ hình hóa bài tốn . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

4.2.1

Bài toán tinh chỉnh véc-tơ biểu diễn từ . . . . . . . . . . . . . .

70

4.2.2

Bài toán học véc-tơ biểu diễn từ . . . . . . . . . . . . . . . . .

71

Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . .

72

4.3.1

Mơ hình tinh chỉnh véc-tơ biểu diễn từ . . . . . . . . . . . . . .

72

4.3.2

Mô hình học véc-tơ biểu diễn từ SSCWE . . . . . . . . . . . .

77

Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

82

4.4.1

Dữ liệu thực nghiệm và các độ đo . . . . . . . . . . . . . . . .

82

4.4.2

Các độ đo . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

82

Cài đặt và đánh giá mô hình tinh chỉnh véc-tơ từ WEFT . . . . . . . . .

83

4.5.1

Cài đặt mơ hình . . . . . . . . . . . . . . . . . . . . . . . . . .

83

4.5.2

Đánh giá mơ hình . . . . . . . . . . . . . . . . . . . . . . . . .

83

Cài đặt và đánh giá mơ hình SSCWE . . . . . . . . . . . . . . . . . . .

85

4.6.1

Cài đặt mô hình . . . . . . . . . . . . . . . . . . . . . . . . . .

85

4.6.2

Đánh giá mơ hình . . . . . . . . . . . . . . . . . . . . . . . . .

85

4.6.3

So sánh hai mơ hình WEFT và SSCWE . . . . . . . . . . . . .

88

Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

90

4.3

4.4

4.5

4.6

4.7

v

5

Mơ hình đa kênh dựa trên CNN nhằm khai thác đa véc-tơ biểu diễn từ và
ký tự cho phân tích quan điểm theo khía cạnh
91
5.1

Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

92

5.2

Mô tả bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

93

5.3

Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . .

94

5.3.1

Thành phần tích chập . . . . . . . . . . . . . . . . . . . . . . .

94

5.3.2

Mơ hình mạng nơ-ron tích chập đa kênh cho phân tích quan
điểm theo khía cạnh . . . . . . . . . . . . . . . . . . . . . . .

95

5.4

5.5

Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.4.1

Dữ liệu thực nghiệm và cài đặt mơ hình MCNN . . . . . . . . . 100

5.4.2

Môi trường và thời gian thực nghiệm . . . . . . . . . . . . . . . 101

5.4.3

Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

5.4.4

Hiệu quả của các loại tham số . . . . . . . . . . . . . . . . . . 105

Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Kết luận

110

Danh mục cơng trình khoa học của tác giả liên quan đến luận án

112

Tài liệu tham khảo

113

vi

Danh mục các chữ viết tắt
LRNN
LRR
ASR
NNAWs
CNN
MCNN
NLP
POS
SVM

Latent Rating Neural Network (Mạng nơ-ron đánh giá ẩn)
Latent Rating Regression (Hồi quy đánh giá ẩn)
Aspect Semantic Representation (Biểu diễn ngữ nghĩa khía cạnh)
Neural Network Aspect Weights (Mạng nơ-ron trọng số khía cạnh)
Convolutional Neural Network (Mạng nơ-ron tích chập)
Multichannel Convolutional Neural Network (Mạng nơ-ron đa kênh tích chập)
Natural Language Processing (Xử lý ngơn ngữ tự nhiên)
Part Of Speech (Nhãn từ loại)
Support Vector Machine (Máy véc-tơ hỗ trợ)

vii

Danh sách bảng
3.1

Các từ hạt nhân được lựa chọn cho thuật tốn phân đoạn khía cạnh . . .

55

3.2

Thống kế dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . .

55

3.3

Kết quả dự đoán hạng của 5 khách sạn . . . . . . . . . . . . . . . . . .

59

3.4

Kết quả xác định trọng số khía cạnh của 5 khách sạn . . . . . . . . . .

59

3.5

So sánh mơ hình LRNN với phương pháp LRR trong bốn trường hợp
biểu diễn khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . .

61

3.6

Top 10 từ có trọng số tích cực và tiêu cực của từng khía cạnh . . . . . .

61

3.7

Các kết quả thực nghiệm và so sánh các mơ hình trong việc xác định
hạng khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

3.8

Kết quả so sánh chất lượng trọng số khía cạnh chung . . . . . . . . . .

63

3.9

Các kết quả thực nghiệm trên các trường hợp khởi tạo trọng số khía cạnh 64

3.10 Kết quả thực nghiệm mơ hình đề xuất sử dụng trọng số khía cạnh chung
so với sử dụng riêng . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

4.1

Thống kê tập dữ liệu thứ 2 . . . . . . . . . . . . . . . . . . . . . . . .

82

4.2

Kết quả xác định khía cạnh . . . . . . . . . . . . . . . . . . . . . . . .

84

4.3

Kết quả phân loại quan điểm theo khía cạnh . . . . . . . . . . . . . . .

84

4.4

Bốn từ gần ngữ nghĩa với từ đã cho đối với từng mơ hình . . . . . . . .

85

4.5

Các kết quả xác định khía cạnh . . . . . . . . . . . . . . . . . . . . . .

87

4.6

Các kết quả phân loại quan điểm . . . . . . . . . . . . . . . . . . . . .

87

4.7

Năm từ gần ngữ nghĩa với từ đã cho đối với từng mơ hình . . . . . . . .

88

4.8

So sánh kết quả phân loại quan điểm giữa mơ hình WEFT và SSCWE .

89

4.9

So sánh thời gian thực hiện giữa mơ hình WEFT và SSCWE . . . . . .

90

5.1

Thống kê số lượng câu được sử dụng trong thực nghiệm . . . . . . . . . 100
viii

5.2

Bảng từ điển các ký tự tiếng Anh . . . . . . . . . . . . . . . . . . . . . 100

5.3

Kết quả xác định khía cạnh của mơ hình MCNN và các mơ hình cơ sở . 104

5.4

Kết quả dự đốn phân loại quan điểm theo khía canh của mơ hình
MCNN và các mơ hình cơ sở . . . . . . . . . . . . . . . . . . . . . . . 105

5.5

Các từ gần nhau được xác định bằng véc-tơ biểu diễn từ trong kênh CNN3106

5.6

So sánh kết quả, thời gian sử dụng kỹ thuật dropout trong mơ hình
MCNN đối với cộng việc xác định khía cạnh . . . . . . . . . . . . . . . 106

5.7

So sánh kết quả, thời gian sử dụng kỹ thuật dropout trong mơ hình
MCNN đối với cơng việc phân loại quan điểm khía cạnh . . . . . . . . 106

5.8

Kết quả xác định khía cạnh của mơ hình MCNN với các mức lựa chọn
số chiều véc-tơ ký tự nhúng khác nhau . . . . . . . . . . . . . . . . . . 107

5.9

Kết quả phân loại quan điểm của mô hình MCNN với các mức lựa chọn
số chiều véc-tơ ký tự nhúng khác nhau . . . . . . . . . . . . . . . . . . 107

5.10 Kết quả xác định khía cạnh của mơ hình MCNN khi sử dụng số lượng
bộ lọc khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.11 Kết quả phân loại quan điểm của mơ hình MCNN khi sử dụng số lượng
bộ lọc khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

ix

Danh sách hình vẽ
1.1

Kiến trúc tổng quan của hệ thống phân tích quan điểm . . . . . . . . . .

7

2.1

Ví dụ một ý kiến khách hàng thể hiện quan điểm về dịch vụ khách sạn
Vinpearl Phu Quoc Resort . . . . . . . . . . . . . . . . . . . . . . . .

19

2.2

Ví dụ về Hạng chung của sản phẩm iPhone X 64GB . . . . . . . . . . .

20

2.3

Mơ hình hồi quy đánh giá khía cạnh ẩn [1] . . . . . . . . . . . . . . . .

22

2.4

Mơ hình Word2Vec với hai kiến trúc CBOW và Skip-gram . . . . . . .

25

2.5

Mơ hình véc-tơ Paragraph học biểu diễn câu, đoạn hoặc cả văn bản [2] .

28

2.6

Minh họa mơ hình túi từ phân phối của các véc-tơ Paragraph [2] . . . .

29

2.7

Minh họa tích chập trong ma trận câu . . . . . . . . . . . . . . . . . .

31

2.8

Minh họa mơ hình phân lớp câu sử dụng mạng CNN [3] . . . . . . . . .

32

2.9

Minh họa việc sử dung mơ hình véc-tơ kết hợp cho biểu diễn mức câu .

34

3.1

Ví dụ: đầu vào, đầu ra của toán xác định hạng và trọng số khía cạnh ẩn .

37

3.2

Ví dụ: đầu vào, đầu ra của tốn xác định trọng số khía cạnh chung . . .

38

3.3

Các cơng việc cần giải quyết của bài tốn xác định hạng và trọng số

khía cạnh ẩn của thực thể . . . . . . . . . . . . . . . . . . . . . . . . .

39

3.4

Minh họa mơ hình mạng nơ-ron LRNN xếp hạng ẩn . . . . . . . . . . .

41

3.5

Các công việc cần giải quyết của bài tốn xác định hạng, trọng số khía
cạnh ẩn sử dụng mơ hình học biểu diễn đa tầng . . . . . . . . . . . . .

45

Minh họa mơ hình học biểu diễn đa tầng cho phân tích quan điểm theo
khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

3.7

Minh họa mơ hình xác định hạng khía cạnh chung . . . . . . . . . . . .

52

3.8

Quy trình thực nghiệm, đánh giá mơ hình LRNN . . . . . . . . . . . .

56

3.9

Quy trình thực nghiệm, đánh giá mơ hình LRNN-ASR . . . . . . . . .

56

3.6

x

3.10 Quy trình thực nghiệm, đánh giá mơ hình NNAWs . . . . . . . . . . . .

57

3.11 Mơ hình FULL-LRNN-ASR thực hiện với các giá trị khác nhau của
trọng số γ và β (β + γ = 1) trên độ đo Preview . . . . . . . . . . . . . .

63

3.12 Mơ hình FULL-LRNN-ASR thực hiện với số chiều véc-tơ biểu diễn từ
khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

3.13 Kết quả xác định trọng số khía cạnh chung của dịch vụ khách sạn . . . .

65

4.1

Mô tả đầu vào và đầu ra của của bài tốn tính chỉnh véc-tơ biểu diễn từ .

71

4.2

Mô tả đầu vào và đầu ra của của bài toán học véc-tơ biểu diễn từ . . . .

72

4.3

Minh họa mơ hình tinh chỉnh véc-tơ biểu diễn từ WEFT . . . . . . . . .

73

4.4

Minh họa thành phần nhúng ngữ nghĩa của véc-tơ biểu diễn từ sử dụng
mơ hình CBOW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

77

4.5

Minh họa thành phần nhúng thông khía cạnh và quan điểm theo khía cạnh 79

4.6

Hiệu quả của số chiều véc-tơ từ trong cơng việc dự đốn quan điểm khía
cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

Mô tả đầu vào, đầu ra của công việc khai thác đa véc-tơ biểu diễn từ,
biểu diễn ký tự cho phân tích quan điểm theo khía cạnh . . . . . . . . .

93

5.2

Minh họa thành phần tích chập . . . . . . . . . . . . . . . . . . . . . .

94

5.3

Mơ hình mạng nơ-ron tích chập đa kênh MCNN cho cơng việc xác định
khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

96

5.1

5.4

Minh họa mô hình lai CNN1 + CNN2 + CNN3 cho cơng việc xác định
khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.5

Hiệu quả của mô hình MCNN với các kích cỡ mini-batching từ 10 đến
100 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

xi

Mở đầu
1. Tính cấp thiết của luận án
Dữ liệu đánh giá về các sản phẩm, dịch vụ và sự kiện xã hội trên các hệ thống tin tức
và thương mại trực tuyến ngày càng đa dạng, phong phú. Dữ liệu này bao gồm các bài
bình luận, các bài viết chứa ý kiến đánh giá về các sản phẩm, dịch vụ, sự kiện của người
sử dụng mạng tạo ra trong quá trình sử dụng hệ thống. Sự bùng nổ của các trang Web
thương mại trực tuyến, các trang tin tức, các diễn đàn, các mạng xã hội đã dẫn đến số
lượng các bài viết chứa ý kiến ngày càng nhiều và được cập nhật liên tục. Nguồn thông
tin này thực sự hữu ích, giúp các cơng ty, tổ chức nắm bắt thông tin khách hàng một cách
kịp thời để cải tiến sản phẩm, nâng cấp dịch vụ; giúp khảo sát quan điểm mọi người về
các sự kiện, hiện tượng xã hội; hỗ trợ tích cực trong việc quản trị thương hiệu. Với số
lượng thông tin rất lớn và cập nhật liên tục thì nhu cầu về xây dựng một hệ thống phân
tích và tổng hợp quan điểm tự động trở nên cấp thiết và đóng một vai trị quan trọng
trong các hệ thống khai thác dữ liệu và khai phá tri thức.
Các nghiên cứu ban đầu về khai phá và phân tích quan điểm (opinion mining and
sentiment analysis) tập trung vào đánh giá toàn bộ bài viết, xem một bài viết về tổng thể
chứa quan điểm tích cực, tiêu cực, hay trung lập. Trong thực tế khách hàng thường bày
tỏ quan điểm về các khía cạnh khác nhau của thực thể (gọi chung cho sản phẩm, dịch

vụ, sự kiện,... được đánh giá), ví dụ như về khía cạnh giá cả, vị trí, nhân viên, phịng ốc
của một dịch vụ khách sạn. Các ý kiến hỗn hợp giữa tích cực và tiêu cực với nhiều cách
thể hiện phong phú là bản chất của ngơn ngữ tự nhiên. Vì vậy các nghiên cứu hiện tại
tập trung nhiều hơn vào phân tích quan điểm theo từng khía cạnh của thực thể (aspect
based sentiment analysis).
Tiếp cận chung của cộng đồng nghiên cứu để giải quyết bài tốn phân tích quan điểm
là xác định các đặc trưng thể hiện quan điểm và ứng dụng các phương pháp học máy để
xây dựng mơ hình dự đốn, phân loại quan điểm. Các mơ hình học sâu (deep learning)
gần đây đã được nghiên cứu và đã chứng tỏ được sức mạnh trong lĩnh vực học máy và
ứng dụng, đồng thời đã được áp dụng hiệu quả nói chung trong xử lý ngôn ngữ tự nhiên
cũng như cụ thể trong bài tốn khai phá và phân tích quan điểm. Tuy nhiên, các kết quả
nghiên cứu hiện tại vẫn còn hạn chế và gặp khó khăn trong việc xử lý biểu diễn dữ liệu,
học đặc trưng, mơ hình hóa đa khía cạnh của thực thể và sự tương tác giữa các quan
điểm khác nhau.
Đề tài của luận án có nhiệm vụ giải quyết các vấn đề đang đặt ra trong bài tốn phân
tích quan điểm theo khía cạnh. Chúng tơi tập trung vào bài tốn phân tích quan điểm
theo khía cạnh dựa trên việc phát triển các mơ hình học sâu nhằm đồng thời giải quyết
1

bài toán học biểu diễn (representation learning) và bài toán phân loại (classification).
2. Mục tiêu nghiên cứu của luận án
Mục tiêu của luận án là nghiên cứu các kỹ thuật, mơ hình học biểu diễn cho mức từ,
mức câu, và mức văn bản. Đề xuất các mơ hình mới và cải tiến các mơ hình học biểu
diễn hiện có nhằm giải quyết các bài tốn phân tích quan điểm theo khía cạnh. Hướng
đến giải quyết hai bài tốn chính: (1) Bài tốn xếp hạng và xác định trọng số khía cạnh
của thực thể (sản phẩm/dịch vụ); (2) Bài toán xây dựng các mơ hình phân tích quan
điểm theo khía cạnh nhằm xác định khía cạnh cho từng câu đầu vào và phân loại quan
điểm theo khía cạnh tương ứng cho nó.
3. Phạm vi và phương pháp nghiên cứu của luận án

Phạm vi nghiên cứu bao gồm:
• Nghiên cứu, đề xuất các mơ hình xếp hạng và xác định trọng số khía cạnh của
thực thể, tích hợp biểu diễn đa tầng ngữ nghĩa từ mức từ đến mức câu, mức đoạn,
mức khía cạnh đến mức cuối là tổng hợp quan điểm tồn bộ văn bản.
• Nghiên cứu, đề xuất các mơ hình học biểu diễn mức từ cho phân tích quan điểm
theo khía cạnh. Các véc-tơ từ đạt được từ các mơ hình đề xuất được đánh giá hiệu
quả thơng qua hai bài tốn: xác định khía cạnh và phân loại quan điểm theo khía
cạnh.
• Nghiên cứu, đề xuất mơ hình phân tích quan điểm theo khía cạnh tích hợp thơng
tin từ nhiều nguồn khác nhau. Cụ thể khai thác đồng thời đa véc-tơ biểu diễn từ
và véc-tơ biểu diễn ký tự.
Về phương pháp nghiên cứu, luận án nghiên cứu các mơ hình dựa trên mạng nơ-ron
nhân tạo sử dụng các kỹ thuật học biểu diễn hiệu quả, phù hợp cho từng bài tốn cụ thể.
Các mơ hình đề xuất được thực nghiệm trên các tập dữ liệu thực tế. Các độ đo điển hình
cho tính hiệu quả của mơ hình đề xuất cũng sẽ được lựa chọn trong đánh giá kết quả
thực nghiệm.
4. Đóng góp của luận án
Các đóng góp chính của luận án bao gồm:
• Chúng tơi đề xuất mơ hình học biểu diễn đa tầng cho bài tốn xác định hạng khía
cạnh và trọng số khía cạnh ẩn. Phương pháp đề xuất đã mơ hình hóa được tính
phân cấp trong biểu diễn dữ liệu và sự kết nối và chia sẻ thông tin nhằm đưa
đến khả năng dự đốn đồng thời hạng khía cạnh và trọng số (mức độ quan trọng)
tương ứng với khía cạnh đó. Với đề xuất này chúng tôi đã công bố một bài báo
trong tạp chí ISI-SCIE: Data and Knowledge Engineering (DKE) năm 2018.
2

• Để khai thác hiệu quả sự kết hợp nhiều nguồn thơng tin khác nhau chúng tơi
đề xuất mơ hình tích hợp thơng tin dựa trên mạng đa kênh CNN (Convolutional
Neural Network). Các nguồn thông tin khác nhau được đồng thời sử dụng bao gồm

các mơ hình Word2Vec khác nhau và mơ hình Character2Vec. Các nguồn thơng
tin được tích hợp một cách hiệu quả thông qua các tầng CNN và kết hợp giữa
các tầng CNN. Đề xuất này đã được cơng bố trong tạp chí ISI-SCI: International
Journal of Approximate Reasoning năm 2018.
• Chúng tơi đề xuất mơ hình học biểu diễn từ có giám sát cho bài tốn phân tích
quan điểm, nhằm khắc phục điểm yếu của các mơ hình học biểu diễn từ không
giám sát. Đề xuất này giúp cho các véc-tơ biểu diễn từ chứa nhiều thông tin có
ích cho bài tốn phân tích quan điểm, bao gồm: ngữ nghĩa, khía cạnh và quan
điểm. Đề xuất này đã được công bố trong kỷ yếu hội nghị quốc tế Text, Speech,
and Dialogue (TSD) năm 2017, và trong kỷ yếu hội nghị quốc tế the Pacific
Association for Computational Linguistics (PACLING) năm 2017.
Bên cạnh các đóng góp chính, chúng tơi cịn đề xuất mơ hình mạng nơ-ron một lớp ẩn,
sử dụng các biểu diễn khía cạnh được học từ mơ hình Pragraph cho bài tốn xác định
hạng, trọng số khía cạnh ẩn. Đề xuất này đã được công bố trong kỷ yếu hội nghị quốc
tế Computational Social Network (CSoNet) năm 2016. Đồng thời, để khai thác thông
tin chung về mức độ quan trọng của các khía cạnh thực thể cho các nhà quản lý sản
phẩm/dịch vụ, chúng tôi đề xuất mô hình xác định trọng số khía cạnh chung. Kết quả
đã được cơng bố trong tạp chí Indian Journal of Science and Technology năm 2016.
5. Bố cục của luận án
Ngoài phần mở đầu và kết luận, luận án được tổ chức thành 5 chương phù hợp với
các công bố liên quan của luận án, với bố cục như sau:
• Chương 1. Giới thiệu tổng quan về các vấn đề nghiên cứu trong luận án. Luận
án phân tích, đánh giá chung các cơng trình nghiên cứu liên quan; nêu ra một số
vấn đề còn tồn tại mà luận án sẽ tập trung giải quyết.
• Chương 2. Trình bày các ký hiệu và khái niệm liên quan, các mơ hình học máy
cơ sở được sử dụng trong cơng việc đánh giá khía cạnh của thực thể. Một số mơ
hình học biểu diễn cơ sở cho mức từ, mức câu và mức đoạn/văn bản cũng sẽ được
trình bày.
• Chương 3. Trình bày nội dung, kết quả nghiên cứu hai mơ hình xác định hạng và
trọng số khía cạnh ẩn của thực thể. Bên cạnh đó, mơ hình xác định trọng số khía

cạnh chung cũng sẽ được trình bày.
3

• Chương 4. Trình bày nội dung, kết quả nghiên cứu hai mơ hình học véc-tơ từ cho
phân tích quan điểm theo khía cạnh.
• Chương 5. Trình bày nội dung, kết quả nghiên cứu mơ hình tích hợp nhiều nguồn
thơng tin và ứng dụng trong khai thác đa véc-tơ biểu diễn từ và véc-tơ biểu diễn
ký tự cho phân tích quan điểm theo khía cạnh.

4

Chương 1
Tổng quan vấn đề nghiên cứu
Chương này trình bày tổng quan về các vấn đề nghiên cứu trong luận án, bao gồm:
giới thiệu chung về bài toán, kiến trúc chung của một hệ thống phân tích quan điểm; các
bài tốn trong phân tích quan điểm theo khía cạnh; các nghiên cứu liên quan; các tiếp
cận; tình hình nghiên cứu trên thế giới và Việt Nam. Sau khi phân tích, đánh giá những
điểm còn tồn tại từ các nghiên cứu liên quan, phần thảo luận sẽ được trình bày, đưa ra
các bài toán mà luận án sẽ giải quyết. Lý do và động lực đề xuất mơ hình cho mỗi bài
toán cũng sẽ được đưa ra.

1.1

Giới thiệu bài toán

Các ý kiến phản hồi của khách hàng đối với các sản phẩm, dịch vụ trực tuyến trên
mạng Internet là nguồn thông tin quan trọng đối với các doanh nghiệp bởi vì nó giúp
họ hiểu được điểm mạnh, điểm yếu trong sản phẩm, dịch vụ của mình, đồng thời nhanh

chóng nắm bắt được tâm lý và nhu cầu khách hàng để mang đến cho họ sản phẩm, dịch
vụ tốt hơn. Tuy nhiên với số lượng ý kiến rất lớn và cập nhật liên tục thì sẽ nảy sinh nhu
cầu xây dựng một hệ thống tự động để phân tích và khai phá quan điểm.
Mỗi ý kiến đánh giá thường bao gồm thông tin về các sản phẩm hay dịch vụ, các sự
kiện, sự việc, cơ quan tổ chức được đánh giá và quan điểm của người đánh giá đối với
các loại đối tượng này. Sau đây ta sẽ gọi chung các đối tượng được đánh giá là các thực
thể và khi cần sẽ đề cập riêng để nhấn mạnh thực thể chung hay là khía cạnh (aspect)
của thực thể. Quan điểm là các ý kiến chủ quan mà con người nói về các thực thể. Nhiệm
vụ của phân tích quan điểm là xác định thực thể cùng các khía cạnh của nó nhằm tính
tốn quan điểm, đánh giá thái độ và cảm xúc của con người đối với thực thể cũng như
các khía cạnh (thuộc tính, thành phần) của thực thể.
Thơng tin quan điểm đối với một thực thể cụ thể có vai trò rất quan trọng, bởi khi
5

chúng ta cần đưa ra một quyết định liên quan tới một thực thể nào đó, chúng ta thường
quan tâm tới ý kiến của người khác đối với thực thể đó, theo dạng như “Những người
khác đã nghĩ và đánh giá về thực thể đó như thế nào?”. Ví dụ khi chúng ta muốn mua
một chiếc điện thoại iPhone X 64GB chúng ta sẽ muốn tìm hiểu hoặc hỏi bạn bè và
người thân “Điện thoại iPhone X 64GB có tốt không? Hệ điều hành IOS của iPhone
thế nào? Camera quay video và chụp ảnh có đẹp khơng?..v.v”. Như vậy quan điểm của
người khác giúp các cá nhân có thêm thơng tin trước khi quyết định một vấn đề. Ngoài
ra khi biết được thông tin quan điểm đối với một sản phẩm, dịch vụ từ các khách hàng
thì rõ ràng nó giúp mang lại các thơng tin hữu ích cho các cơng ty, tổ chức thay đổi hoặc
cải tiến dịng sản phẩm, dịch vụ của mình. Bên cạnh đó thơng tin quan điểm phân tích
được trên một cộng đồng dân chúng cịn giúp các chính quyền nắm được hiểu quả của
các chính sách khi áp dụng trong xã hội.

1.2

Các bài tốn trong phân tích quan điểm

1.2.1

Tổng quan một hệ thống phân tích quan điểm

Ngày nay đã có nhiều hệ thống phân tích quan điểm làm việc với những miền dữ
liệu khác nhau, như hệ thống Smcc1 của công ty InfoRe làm việc trên miền dữ liệu sản
phẩm điện thoại di động, hệ thống Vsocial 2 của công ty Tecapro làm việc trên miền dữ
liệu ngân hàng. Nhìn chung, mơ hình biểu diễn kiến trúc chung của một hệ thống khai
phá và phân tích quan điểm được thể hiện như trong Hình 1.1. Xuất phát từ nguồn dữ
liệu đánh giá thực thể của người sử dụng trên các hệ thống như Amazon3 , Tripadvisor4 ,
Youtube5 , Thegioididong6 . Hệ thống phân tích quan điểm làm việc với các nguồn dữ
liệu này, gồm các thành phần chính như sau:
1 smcc.vn
2 vsocial.vn
3 www.amazon.com
4 www.tripadvisor.com
5 www.Youtube.com
6 www.thegioididong.com

6

Hình 1.1: Kiến trúc tổng quan của hệ thống phân tích quan điểm
• Thu thập (crawler)
• Tiền xử lý (pre-processing)
• Trích chọn đặc trưng (feature extraction, data representation)
• Học máy (machine learning)
Thu thập: Là thành phần tự động lấy dữ liệu đánh giá của người dùng từ các hệ

thống trực tuyến (Web).
Tiền xử lý: Thành phần này có nhiệm vụ xử lý dữ liệu, gồm các công việc như: loại
bỏ từ dừng, chuẩn hóa các từ và dấu cách, tách từ. etc.
Trích chọn đặc trưng: Sử dụng kỹ thuật biểu diễn văn bản (ví dụ mơ hình bag of
word) để biểu diễn các văn bản đầu vào thành các véc-tơ đặc trưng.
Học máy: Gồm có hai pha: huấn luyện, và dự đoán. Pha huấn luyện sử dụng tập dữ
liệu huấn luyện làm đầu vào và có nhiệm vụ học một mơ hình dự đốn. Pha dự đốn có
nhiệm vụ tính toán để phân loại quan điểm cho các véc-tơ biểu diễn văn bản từ đầu vào.

7

1.2.2

Phân tích quan điểm cho tồn bộ văn bản

Phân tích quan điểm cho tồn bộ văn bản là bài tốn cơ bản nhất trong phân tích quan
điểm. Cũng giống bài tốn phân lớp văn bản thơng thường. Cho trước một tập các văn
bản đánh giá sản phẩm, đối với từng văn bản đầu vào, bài tốn u cầu tính điểm (phân
loại) quan điểm chung cho nó. Dựa trên điểm quan điểm đã đạt được, từng văn bản sau
đó được gán các nhãn quan điểm hoặc các hạng tương ứng. Các nhãn có thể được gán
như nhãn tích cực (Positive) hoặc tiêu cực (Negative) hoặc trung lập. Trong trường hợp
cần xếp hạng quan điểm cho văn bản thì hạng được gán cho văn bản là “1 sao” (có nghĩa
là rất tiêu cực) hoặc “2 sao” (tiêu cực mức trung bình) hoặc “3 sao” (trung lập) hoặc “4
sao” (tích cực) hoặc “5 sao” (rất tích cực).
Việc phân tích quan điểm theo loại bài tốn này thường ở mức tài liệu và khơng quan
tâm tới vấn đề chi tiết hơn như người đánh giá sản phẩm thích hay khơng thích khía cạnh
nào của sản phẩm.

1.2.3

Phân tích quan điểm theo khía cạnh

Chúng ta dễ thấy rằng đánh giá một quan điểm cho toàn bộ văn bản là không đủ chi
tiết cho các ứng dụng thực tế. Một văn bản đánh giá tích cực về một đối tượng cụ thể
khơng có nghĩa là người dùng có ý kiến tích cực về mọi khía cạnh của đối tượng đó.
Tương tự, một văn bản đánh giá tiêu cực cho một đối tượng khơng có nghĩa là người
dùng khơng thích tất cả mọi khía cạnh của đối tượng đó. Ví dụ, trong một ý kiến đánh
giá sản phẩm, người đánh giá thường ghi cả khía cạnh tích cực và tiêu cực của sản phẩm,
mặc dù quan điểm chung về sản phẩm có thể là tích cực hoặc tiêu cực. Để có thể phân
tích quan điểm phù hợp với nhu cầu sử dụng trong thực tế, chúng ta cần phải nghiên cứu
sâu về quan điểm ở mức khía cạnh.
Cho trước một tập các văn bản đánh giá sản phẩm, đối với từng văn bản đầu vào,
bài toán yêu cầu tính điểm quan điểm cho từng khía cạnh của thực thể đã được thể hiện
trong nó. Dựa trên điểm quan điểm đã đạt được, từng khía cạnh sau đó được gán nhãn
quan điểm (ví dụ: nhãn tích cực, tiêu cực, hoặc trung lập) hoặc hạng (ví dụ: hạng “1
sao”, “2 sao”, “3 sao” , “4 sao”, hoặc “5 sao”) tương ứng.

1.2.4

Các bài tốn trong phân tích quan điểm theo khía cạnh

Trong thực tế, phân tích quan điểm theo khía cạnh bao gồm các bài tốn điển hình
như sau:
(1) Trích xuất từ thể hiện khía cạnh: Cho trước một tập các ý kiến (văn bản) đánh
8

giá của một số thực thể được xác định trước (ví dụ: Các khách sạn, các quán ăn,
điện thoại), mỗi văn bản bao gồm một số câu. Yêu cầu xác định các từ thể hiện

khía cạnh trong từng câu, sau đó thu thập các từ đó vào trong các khía cạnh tương
ứng.
(2) Xác định khía cạnh: Cho trước một tập nhãn khía cạnh của một thực thể, đối với
một câu văn bản đánh giá chưa được gán nhãn, chúng ta cần dự đốn nhãn khía
cạnh thích hợp cho nó.
(3) Phân loại quan điểm theo khía cạnh: Tương ứng với tập nhãn khía cạnh của
một thực thể đã được xác định trước, cho trước một tập nhãn quan điểm (ví dụ bao
gồm các nhãn: tích cực (positive), trung lập (neutral), tiêu cực (negative)), đối với
một câu đầu vào đã được gán nhãn khía cạnh, bài tốn cần dự đốn nhãn quan
điểm tương ứng cho nó.
(4) Phân đoạn khía cạnh: Cho trước một tập văn bản đánh giá của một tập thực thể
(một số thực thể hay một tập thực thể trong luận án này được hiểu là các dòng sản
phẩm/dịch vụ cùng loại), yêu cầu xác định các đoạn văn bản đề cập tương ứng tới
các khía cạnh của thực trong từng văn bản.
(5) Xếp hạng khía cạnh: Xếp hạng khía cạnh là công việc định hướng ước lượng
đánh giá qua điểm theo khía cạnh của thực thể, giá trị ước lượng quan điểm theo
khía cạnh thường theo các giá trị từ 1 đến 5. Bài toán cho trước một tập văn bản
đánh giá của một tập thực thể (ví dụ thực thể khách sạn) bao gồm các quan điểm
về sản phẩm này và các khía cạnh của nó. u cầu xếp hạng hay tính điểm theo
mức độ đánh giá quan điểm từ 1 đến 5 của từng khía cạnh đã được người dùng
thảo luận trong mỗi văn bản.
(6) Xác định hạng và trọng số khía cạnh ẩn: Cho trước một tập văn bản đánh giá
của một tập thực thể (ví dụ: tập thực thể sản phẩm khách sạn) bao gồm các quan
điểm về sản phẩm này và các khía cạnh của nó. Từng văn bản đánh giá được gán
một hạng chung, hạng chung này xác nhận quan điểm chung cho cả văn bản. Yêu
cầu xác định hạng và trọng số khía cạnh cho từng thực thể, đây là bài tốn giả
thiết hạng khía cạnh và trọng số khía cạnh ẩn, chưa biết và làm thế nào chúng ta
có thể xác định được các hạng cũng như các trọng số khía cạnh đó.
Trong nội dung luận án, chúng tơi giải quyết bài toán (2), (3), và (6). Đối với bài
toán (6), để giải quyết được nó chúng tơi cần thực hiện các cơng việc liên quan tới tất cả

các bài tốn. Do đó trong phần trình bày các nghiên cứu liên quan, chúng tơi cũng trình
bày các nghiên cứu liên quan tới các bài toán này.

9

1.3
1.3.1

Các nghiên cứu liên quan
Trích xuất từ thể hiện khía cạnh

Trích xuất từ thể hiện khía cạnh là cơng việc đầu tiên cần giải quyết trong một hệ
thống phân tích quan điểm theo khía cạnh, và đã được nghiên cứu nhiều hơn so với các
công việc khác. Các kỹ thuật sử dụng bao gồm các phương pháp học giám sát và không
giám sát. Phương pháp giám sát học một mô hình trích xuất từ một tập các ý kiến đánh
giá được gán nhãn. Mơ hình trích xuất học được sẽ được sử dụng để trích xuất các khía
cạnh trong các ý kiến đánh giá mới. Hầu hết các phương pháp học giám sát dựa trên kỹ
thuật học tuần tự (sequential learning) hoặc gán nhãn chuỗi (sequential labeling), như
Wong và các cộng sự trong nghiên cứu [4] đã học trích xuất khớa cnh s dng mụ hỡnh
Hidden Markăov (HM) v Conditional Random Fields (CRF). Jin [5] sử dụng mơ hình
HM huấn luyện để trích xuất khía cạnh và các từ thể hiện quan điểm. Kết hợp hai mơ
hình biến thể của mơ hìnhCRF là Skip-CRF và Tree-CRF [6]. Tất cả các phương pháp
này địi hỏi phải có đủ các mẫu được gán nhãn để huấn luyện. Tuy nhiên, họ phải mất
nhiều thời gian và tốn nhiều công lao động để gán nhãn mẫu huấn luyện. Gần đây nhiều
nghiên cứu sử dụng các kỹ thuật học biểu diễn, Poria và các cộng sự [7] sử dụng véc-tơ
từ Word2Vec và mơ hình mạng nơ-ron tích chập đa tầng. Lin [8] đề xuất một mơ hình
mới dựa trên mạng LSTM, sử dụng thơng tin tóm tắt quan điểm và lịch sử phân loại khía
cạnh. Zhang và các cộng sự [9] dựa trên kiến trúc mơ hình kết hợp LSTM và CNN đã
giới thiệu mơ hình mới, sử dụng một cổng ngữ cảnh nhằm mã hóa thơng tin mối quan

hệ tương tác phụ thuộc cú pháp giữa các từ trong cùng một ngữ cảnh.
Các phương pháp học không giám sát cũng đã đạt được kết quả tốt, tiêu biểu là tiếp
cập học không giám sát được đề xuất bởi Hu và các cộng sự [10], họ giả thiết khía cạnh
thơng thường là các danh từ và cụm danh từ, các tác giả đầu tiên trích xuất danh từ như
là các ứng cử viên của khía cạnh, sau đó các tính tần suất xuất hiện của danh từ và cụm
danh từ, và cuối cùng chỉ những từ có tần xuất hiện cao được giữ lại và coi như là các
từ thuộc các khía cạnh cần xác định. Popescu và cộng sự [11] đã phát triển hệ thống
OPINE, cho phép trích xuất các khía cạnh dựa trên hệ thống web KnowItAll trích xuất
thơng tin của Etzioni và các cộng sự [12]. Mei và các cộng sự [13] sử dụng một mơ hình
chủ đề xác suất để thu thập các khía cạnh và quan điểm. Wu và cộng sự [14] đã sử dụng
một bộ phân tích cú pháp phụ thuộc vào cụm từ để trích xuất các cụm danh từ các ý
kiến đánh giá và cói chúng như là các ứng cử viên của khía cạnh. Sau đó họ sử dụng
mơ hình ngơn ngữ để lọc ra các từ khía cạnh. Luo và các cộng sự [15] xây dựng một hệ
thống thực hiện thông qua ba giai đoạn: (1) thiết kế tập luật cú pháp để trích xuất các
từ là ứng cử viên thể hiện khía cạnh; (2) sử dụng một mạng từ (WordNet) để xác định
các từ thể hiện khía cạnh nhưng đồng nghĩa, và thu thập chúng thành những tập từ riêng
biệt. (3) xếp hạng các từ và trích chọn những từ có điểm xếp hạng cao. Dragoni và cộng
10

sự [16] sử dụng một tập chiến lược không giám sát để khai thác quan điểm và một công
cụ giám sát người sử dụng trong trực quan hóa dữ liệu.

1.3.2

Xác định khía cạnh

Bài tốn xác định khía cạnh u cầu xác định khía cạnh cho từng câu trong một ý
kiến đánh giá, nó giống với bài tốn phân loại văn bản mức câu thông thường. Ganu và
cộng sự [17] đã sử dụng trực tiếp bộ phân loại SVM để huấn luyện bộ phân loại trên

các ý kiến đánh giá trên miền dữ liệu “Restaurant”. Kiritchenko và cộng sự [18] đã áp
dụng một thuật toán tương tự nhưng đã khai thác một bộ từ điển gồm các liên kết giữa
từ và khía cạnh để cải thiện kết quả dự đốn khía cạnh cho từng câu. Hệ thống của họ
đạt được thứ hạng cao nhất trong cuộc thi xác định khía cạnh của hội nghị SemEval năm
2014. McAuley và cộng sự [19] đã đề xuất một mơ hình phân biệt để dự đốn khía cạnh
sản phẩm. Họ sử dụng hai loại tham số để mã hóa từ kết hợp. Trong đó, một loại học
các từ được kết hợp với từng khía cạnh. Một loại học các từ được kết hợp với từng hạng
đánh giá của các văn bản đánh giá.
Các nghiên cứu gần đây, Zhou và cộng sự [20] biểu diễn khía cạnh bằng phương
pháp lai đặc trưng và sử dụng nó làm đầu vào cho mơ hình phân lớp hồi quy. Sun và
các cộng sự [21] xây dựng các câu phụ dựa trên các khía cạnh và chuyển đổi việc xác
định khía cạnh thành cơng việc phân loại cặp câu, sau đó họ tinh chỉnh và áp dụng mơ
hình học sâu BERT [22] cho qua trình huấn luyện và dự đốn. Hu và cộng sự [23]đề
xuất mơ hình mạng chú ý có điều kiện. Movahedi và các cộng sự [24] đề xuất mơ hình
mạng chú ý theo chủ đề. Nhìn chung, mơ hình trong [23] và [24] đều được xây dựng
dựa trên mạng bộ nhớ ngắn dài LSTM, nhưng ở cập độ sâu và linh hoạt hơn so với mơ
hình LSTM thơng thường.

1.3.3

Phân đoạn khía cạnh

Một số nghiên cứu thực hiện kết hợp cả hai cơng việc: trích xuất khía cạnh và xác
định khía cạnh. Lu và cộng sự [25] sử dụng kỹ thuật probabilistic latent semantic analysis (PLSA) để xác định các từ thể hiện khía cạnh và phân cụm các câu theo các khía
cạnh được xác định trước. Wang và cộng sự [1] đề xuất một thuật toán phân đoạn dựa
trên phương pháp bootstrapping, họ sử dụng các tập từ hạt nhân cho các khía cạnh tương
ứng, sau đó các tập từ hạt nhân được sử dụng làm đầu vào cho thuật toán. Các tập từ hạt
nhân sẽ được mở rộng và các câu có từ thể hiện khía cạnh sẽ được gán nhãn khía cạnh
trong mỗi bước lặp của thuật toán. Sử dụng phương pháp cú pháp phụ thuộc shallow
dependency parser [14, 26], xác định khía cạnh dựa vào nội dung đánh Ưu (Pros) và

Nhược điểm (Cons) trên mỗi ý kiến/văn bản của thực thể. Đầu tiên, tần xuất xuất hiện
11

của mỗi danh từ được tính, sau đó những danh từ xuất hiện với tần số cao được coi là
ứng cử viên cho các khía cạnh.

1.3.4

Phân loại quan điểm theo khía cạnh

Sau cơng việc xác định khía cạnh là cơng việc phân loại quan điểm theo khía cạnh.
Hai tiếp cập chính cho phân loại quan điểm theo khía cạnh là dựa trên từ điển và các
tiếp cập học giám sát. Các phương pháp dựa trên từ điển là loại không giám sát. Họ sử
dụng một bộ từ điển gồm một danh sách các từ thể hiện quan điểm là tích cực và tiêu
cực. Để xây dựng được một bộ từ điển chất lượng cao, kỹ thuật bootstrapping thường
được áp dụng. Minqing và cộng sự [10] ban đầu sử dụng một danh sách các từ hạt nhân
cho từng lớp quan điểm. Rồi họ sử dụng các mối quan hệ từ đồng nghĩa hoặc antonym
được định nghĩa trong WordNet để mở rộng các tập từ hạt nhân, cuối cùng thu được một
bộ từ vựng. Ding và các cộng sự [27] đã đề xuất phương pháp dựa trên từ điển tổng quát
để cải tiến phương pháp trong [10] bằng cách giải quyết hai vấn đề: quan điểm của các
từ thể hiện quan điểm sẽ nhạy cảm với nội dung và xung đột trong ý kiến đánh giá. Họ
bắt nguồn từ một bộ từ điển bằng cách khai thác các khó khăn. Ngược lại, các phương
pháp học giám sát phân loại quan điểm trên các khía cạnh được thực hiện bằng cách học
một bộ phân lớp từ tập dữ liệu cho trước. Một số mơ hình truyền thống học giám sát đã
được áp dụng, như Support Vector Machine (SVM), Naive Bayes, Maximum Entropy.
Bên cạnh các phương pháp truyền thống, nhiều nghiên cứu gần đầy sử dụng các
phương pháp học sâu, hiện đại hơn, có thể tự động trích xuất đặc trưng và biểu diễn dữ
liệu ở mức giàu thông tin ngữ nghĩa nhất. Xu [28] đề xuất một phương pháp bán giám
sát để trích xuất và sử dụng quan điểm cơ bản của các mẫu khơng được gán nhãn thơng

qua một mơ hình học sâu chung. Họ giả thiết rằng khi cho trước một khía cạnh, câu văn
bản sẽ được sinh ra bởi hai biến ngẫu nhiên: ngữ cảnh và quan điểm. Đề xuất mơ hình
mạng nơ-ron hoạt động dựa trên mạng bộ nhớ ngắn dài (LSTM) [29–31], tuy nhiên chi
phí thời gian huấn luyện cho các mơ hình này là rất lớn. Xue và cộng sự [32] đề xuất mơ
hình sử dụng cổng tích chập (Gated Convolutional Networks) chất lượng học, dự đốn
của mơ hình vẫn đảm bảo, đồng thời giúp cho thời gian huấn luyện được tốt hơn.

1.3.5

Xếp hạng khía cạnh

Nghiên cứu đầu tiên về xếp hạng khía cạnh được nghiên cứu bởi Snyder và các cộng
sự [33]. Trong nghiên cứu của họ mơ hình GG (Good Grief) được đề xuất, gồm một mơ
hình xếp hạng cho từng khía cạnh và một mơ hình đồng thuận (agreement model). Mơ
hình được huấn luyện bởi thuật toán GG, thuật toán GG được xây dựng dựa trên thuật
tốn PRank [34]. Mơ hình này giả thiết các đặc trưng của các thuộc tính là như nhau,
12

Phát triển các mô hình dựa trên mạng nơron cho phân tích quan điểm theo khía cạnh

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về