Tải bản đầy đủ (.pdf) (61 trang)

Nghiên cứu một phương pháp phi giám sát phát hiện cảm xúc trong văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (866.96 KB, 61 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
——————————

Ngô Thế Quyền

NGHIÊN CỨU MỘT PHƯƠNG PHÁP PHI GIÁM SÁT
PHÁT HIỆN CẢM XÚC TRONG VĂN BẢN

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
——————————

Ngô Thế Quyền

NGHIÊN CỨU MỘT PHƯƠNG PHÁP PHI GIÁM SÁT
PHÁT HIỆN CẢM XÚC TRONG VĂN BẢN

Chuyên ngành: Cơ sở toán cho tin học
Mã số: 60460110

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Lê Hồng Phương

Hà Nội - 2015




LỜI CẢM ƠN
Trong quá trình học tập và nghiên cứu, em đã nhận được sự hướng dẫn tận
tình của thầy Lê Hồng Phương và cô Nguyễn Thị Minh Huyền. Em xin chân
thành cảm ơn Thầy, Cô đã giúp đỡ em rất nhiều trong học tập cũng như trong
công việc.
Em xin gửi lời cảm ơn tới các Thầy, Cô đã nhiệt tình giảng dạy các chuyên
đề Cao học cho chúng em.
Em cũng xin được cảm ơn gia đình, bạn bè, đồng nghiệp, những người luôn
quan tâm, động viên em trong quá trình học tập và làm luận văn.
Hà Nội, ngày 19 tháng 05 năm 2015
Học viên

Ngô Thế Quyền

i


Mục lục
Giới thiệu

1

1 Tổng quan về bài toán phát hiện cảm xúc trong văn bản

3

1.1.Lý thuyết về cảm xúc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


3

1.2.Mô hình cảm xúc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

1.2.1. Mô hình cảm xúc theo loại . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

1.2.2. Mô hình cảm xúc theo chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.3.Các phương pháp phát hiện cảm xúc . . . . . . . . . . . . . . . . . . . . . . .

7

1.3.1. Hướng tiếp cận dựa vào từ vựng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

1.3.2. Hướng tiếp cận dựa vào học máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

1.4.Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12


1.4.1. Độ đo F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

1.4.2. SemEval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

1.5.Tổng kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

2 Phương pháp phi giám sát cho bài toán phát hiện cảm xúc trong
văn bản

17

2.1.Phương pháp sử dụng mô hình không gian véc-tơ . . . . . . . .

17

2.1.1. Term by Document Matrix. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.1.2. Chỉ số tf-idf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

2.1.3. Phương pháp giảm số chiều cho Term by Document Matrix . . . . . . . . . . . . . .


23

2.1.4. Đánh giá sự tương đồng ngữ nghĩa trên văn bản . . . . . . . . . . . . . . . . . . . . . . . . .

24

ii


2.2.Phương pháp sử dụng quan hệ ngữ nghĩa và ngữ pháp . . . .

26

2.2.1. Tổng quan về mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

2.2.2. Trích chọn các từ ảnh hưởng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

2.2.3. Phân tích ngữ cảnh sử dụng cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . . . . . . . .

28

2.2.4. Biểu diễn cảm xúc theo véc-tơ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29


2.2.5. Phân tích quan hệ ngữ nghĩa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

2.2.6. Xác định véc-tơ cảm xúc cho từ NAVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

31

2.2.7. Tính véc-tơ cảm xúc cho câu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

2.3.Tổng kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Thực nghiệm

33
34

3.1.Ứng dụng phương pháp phi giám sát phát hiện cảm xúc trong
văn bản tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

3.2.Một số kết quả thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

Kết luận

45


Tài liệu tham khảo

46

Phụ lục

50

iii


Danh sách bảng
1.1

Tập các loại cảm xúc được đưa ra bởi các nhà nghiên cứu . . . . . . . 4

1.2

Một số hướng tiếp cận . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3

Mục tiêu của SemEval qua các hội thảo . . . . . . . . . . . . . . . . . 15

2.1

Ví dụ Term by Document Matrix (TDM) . . . . . . . . . . . . . . . . 19

2.2


Term by Documnet Matrix . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3

Bảng chỉ số tf-idf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.4

Tập từ đại diện . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.1

Tập từ đại diện cho các khái niệm cảm xúc . . . . . . . . . . . . . . . 37

3.2

Kết quả thử nghiệm trên 938 câu trong VietTreeBank . . . . . . . . . 39

3.3

Kết quả thử nghiệm trên 1141 câu trong trích từ truyện . . . . . . . . 39

3.4

kết quả thử nghiệm 1141 câu trích từ truyện, kho ngữ liệu 40.000 câu 40

3.5

Kết quả thử nghiệm trên dữ liệu ISEAR


3.6

Kết quả theo chỉ số F giữa các phương pháp phi giám sát . . . . . . . 41

3.7

Tổng hợp ý kiến của học sinh . . . . . . . . . . . . . . . . . . . . . . . 42

3.8

Kết quả đánh giá ý kiến học sinh . . . . . . . . . . . . . . . . . . . . . 42

3.9

Kết quả phương pháp bán giám sát của Desmond C. Ong . . . . . . . 43

. . . . . . . . . . . . . . . . 41

3.10 Kết quả thử nghiệm sử dụng phương pháp lai (Hybird) . . . . . . . . 43
3.11 Tập nhãn từ loại trong VietTreeBank . . . . . . . . . . . . . . . . . . 50
3.12 Tập nhãn cụm từ trong VietTreeBank . . . . . . . . . . . . . . . . . . 51
3.13 Các nhãn chức nang cú pháp trong VietTreeBank . . . . . . . . . . . 52

iv


Danh sách hình vẽ
1.1


Mô hình của Watson và Tellegen (1985). . . . . . . . . . . . . . . . . . 5

1.2

Phân bố các thuật ngữ theo các chiều cảm xúc (Russell, 1980). . . . . 7

1.3

Độ chính xác, độ hồi tưởng . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4

SemEval Workshop framework . . . . . . . . . . . . . . . . . . . . . . . 14

2.1

Tổng quan về mô hình. . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

v


Giới thiệu

Sự phát triển nhanh chóng của mạng toàn cầu (World Wide Web) đã tạo
điều kiện cho việc giao tiếp trực tuyến như các mạng xã hội hay các hệ thống
bán hàng trực tuyến, nhờ đó mở ra con đường mới cho các thành viên cộng đồng
mạng có thể trực tiếp đăng tải các ý kiến cá nhân. Điều này tạo ra một lượng
lớn nội dung trực tuyến rất phong phú bao gồm các quan điểm, ý kiến của người
dùng, chứa đựng thông tin về tình cảm, cảm xúc và các đánh giá về một sự kiện
hay một đối tượng nào đó. Từ đó, một vấn đề được đặt ra là việc tự động xác

định cảm xúc trong các nội dung mà người dùng đăng tải.
Thực vậy, trong thời gian gần đây, lĩnh vực khai phá quan điểm và phân tích
tình cảm ngày càng được quan tâm, nhằm đáp ứng nhu cầu tìm kiếm, khai thác
thông tin của con người. Vấn đề xác định cảm xúc trong văn bản được ứng dụng
trong các hệ thống như: đánh giá thái độ của khách hàng (hài lòng/không hài
lòng) trong hệ thống bán hàng trực tuyến, đánh giá thái độ của người dùng trên
mạng xã hội về một cá nhân hay một vấn đề nào đó,... Đối với tiếng Việt, đã có
một số nhóm quan tâm và nghiên cứu liên quan đến vấn đề phân tích quan điểm
như nhóm của PST.TS Hà Quang Thụy và nhóm của PGS.TS Lê Anh Cường.
Nhiều phương pháp đã được đưa ra để áp dụng cho bài toán xác định cảm
xúc trong văn bản như: phương pháp dựa trên từ điển, phương pháp dựa trên
quy tắc ngôn ngữ, phương pháp học máy. Phương pháp dựa trên từ điển và
phương pháp dựa trên quy tắc ngôn ngữ sử dụng từ điển định nghĩa trước các
từ mang cảm xúc hoặc các luật ngôn ngữ để xác định cảm xúc, các phương pháp
này không cho kết quả tốt nếu dữ liệu có những từ hoặc những luật không có
trong từ điển được định nghĩa trước. Phương pháp học máy chia ra hai hướng
1


chính đó là phương pháp học máy có giám sát và phương pháp học máy phi
giám sát. Phương pháp học máy có giám sát cho bài toán phát hiện cảm xúc
trong văn bản thường cho kết quả tốt nhưng phương pháp này yêu cầu cần có
tập dữ liệu (dữ liệu đã gán nhãn cảm xúc) đủ lớn. Phương pháp học máy phi
giám sát thường cho kết quả thấp hơn phương pháp học máy có giám sát nhưng
phương pháp này không đòi hỏi cần có tập dữ liệu lớn đã được gán nhãn, kết
quả của phương pháp này có thể là nguồn dữ liệu tốt cho phương pháp học máy
có giám sát.
Mục tiêu chính của luận văn này là tìm hiểu một số phương pháp phi giám
sát và ứng dụng một phương pháp trong việc xác định cảm xúc trong văn bản
và áp dụng nó cho văn bản tiếng Việt. Cách tiếp cận phi giám sát được ứng

dụng trong luận văn là phương pháp sử dụng quan hệ ngữ nghĩa và phụ thuộc
cú pháp.
Nội dung của luận văn được trình bày trong 3 chương:
• Chương 1 trình bày tổng quan về bài toán phát hiện cảm xúc trong văn

bản, các cách tiếp cận giải quyết vấn đề phát hiện cảm xúc trong văn bản.
• Chương 2 trình bày về kỹ thuật phi giám sát cho bài toán xác định cảm

xúc trong văn bản.
• Chương 3 trình bày ứng dụng một phương pháp phi giám sát xác định cảm

xúc trong văn bản tiếng Việt, bao gồm việc xây dựng dữ liệu, cài đặt mô
hình và đánh giá kết quả.

2


Chương 1
Tổng quan về bài toán phát hiện
cảm xúc trong văn bản
Chương này sẽ trình bày tổng quan về phát hiện cảm xúc trong văn bản, các
khái niệm liên quan cùng các hướng tiếp cận đã có.

1.1.

Lý thuyết về cảm xúc

Cảm xúc là vấn đề liên quan đến nhiều lĩnh vực nghiên cứu như tâm lý học,
ngôn ngữ học, khoa học xã hội, và giao tiếp,... Cảm xúc của con người có thể
được biểu lộ thông qua nét mặt, lời nói, cử chỉ hành động, ghi chép,... Gần

đây các nhà nghiên cứu đã xem xét một số khía cạnh của cảm xúc con người
và đưa ra tập các loại cảm xúc khác nhau như (Tomkins, 1962), (Izard, 1977),
(Plutchick, 1980), (Ekman, 1992),... Bảng 1.1 dưới đây liệt kê các trạng thái
cảm xúc đã được đề xuất.
Một số nhà tâm lý học đã nghiên cứu các nét mặt biểu thị cảm xúc để
phân biệt sự khác nhau giữa chúng, từ đó phân ra các cảm xúc cơ bản của
con người. Ekman (1992)[10] đưa ra sáu cảm xúc cơ bản đó là vui (happiness),
buồn (sadness), sợ hãi (fear), tức giận (anger), ghê tởm (disgust), và ngạc nhiên
(surprise). Các loại cảm xúc Ekman đưa ra được sử dụng nhiều trong các nghiên
cứu liên quan đến vấn đề phát hiện cảm xúc, ví dụ trong các công trình của Liu
cùng cộng sự (2003)[16], Alm cùng cộng sự (2005)[4].
3


Tomkins

Izard

Plutchik

Ortony

Ekman

(1962)

(1977)

(1980)


(1988)

(1992)

joy

enjoyment

joy

joy

happiness

anguish

sadness

sorrow

sadness

sadness

fear

fear

fear


fear

fear

anger

anger

anger

anger

anger

disgust

disgust

disgust

disgust

disgust

surprise

surprise

surprise


surprise

surprise

interest

interest

acceptance

shame

shame

anticipation

shyness
guilt
Bảng 1.1: Tập các loại cảm xúc được đưa ra bởi các nhà nghiên cứu

Một số nhà nghiên cứu khác như Schlosberg (1954)[22] lại đưa việc phân
biệt cảm xúc theo các chiều như: valence (tích cực/tiêu cực) và arousal (yên
bình/kích động). Watson và Tellegen (1985)[23] đã đưa ra hai chiều chính của
cảm xúc bao gồm: chiều thứ nhất chỉ tính tích cực của cảm xúc được phân từ
hài lòng đến không hài lòng (pleasantness - unpleasantness) và chiều thứ hai thể
hiện tính hứa hẹn của cảm xúc từ hứa hẹn đến không hứa hẹn (engagement disengagement). Việc xác định cảm xúc trong văn bản có thể dựa trực tiếp vào
các từ chỉ cảm xúc hoặc dựa vào ngữ cảnh. Một số từ truyền đạt cảm xúc rất
rõ ràng, nhưng cũng có một số từ có được dùng để truyền đạt cảm xúc nhưng
hoàn toàn phụ thuộc vào ngữ cảnh (Clore và đồng nghiệp, 1987)[5]. Strapparava
và Valitutti (2006)[21] đã phân lớp các từ chỉ cảm xúc thành hai loại là từ trực

tiếp chỉ cảm xúc (direct affective words) và từ gián tiếp chỉ cảm xúc (indirect
affective words). Có hai mô hình chính để biều diễn cảm xúc đó là: mô hình cảm
xúc theo loại (categorical model) và mô hình cảm xúc theo chiều (dimensional
model). Mỗi loại mô hình truyền đạt một khía cạnh riêng của cảm xúc con người
và cả hai loại mô hình đều cho chúng ta khả năng hiểu được các cảm xúc được

4


Hình 1.1: Mô hình của Watson và Tellegen (1985).

biểu diễn như thế nào và làm sáng tỏ ý nghĩ bên trong con người. Hai mô hình
có cách ước lượng khác nhau để xác định trạng thái cảm xúc của một người.

1.2.

Mô hình cảm xúc

1.2.1.

Mô hình cảm xúc theo loại

Phương pháp chính để trực tiếp nhận biết cảm xúc là sử dụng các từ biểu
thị cảm xúc (emotion-denoting words) hoặc các nhãn phân loại (category labels).
Các mô hình nhãn cảm xúc giả định các loại cảm xúc là rời rạc như sáu loại
cảm xúc được định nghĩa bởi Ekman, hoặc sử dụng các miền cụ thể diễn đạt các
loại cảm xúc. Mỗi cảm xúc được đặc tả bởi một tập các đặc trưng. Đa số các
nghiên cứu tập trung vào sáu cảm xúc cơ bản, tuy nhiên, nhiều nhà nghiên cứu
đã chứng tỏ rằng cần có các tập cảm xúc khác nhau cho các miền khác nhau. Ví
dụ, trong lĩnh vực giảng dạy và giáo dục, D’Mello, Picard and Graesser (2007)[9]

đưa ra năm loại nhãn (boredom, confusion, delight, flow, frustration) để mô tả
các trạng thái ảnh hưởng trong hệ thống đối thoại sinh viên (student-system
dialogue). Lợi thế việc biểu diễn cảm xúc theo các loại là nó biểu diễn cảm xúc
con người theo trực giác, rất dễ để hiểu được các nhãn cảm xúc này. Tuy nhiên,
5


có một số nhược điểm của mô hình nhãn cảm xúc là số lượng các nhãn bị hạn
chế (thường cố định trước). Các nhãn cảm xúc không bao trùm hết các loại cảm
xúc vì có nhiều cảm xúc được nhóm lại dưới cùng một nhãn. Hơn nữa, cũng có
thể cùng một trạng thái cảm xúc có thể bị hiểu theo các loại cảm xúc khác nhau
phụ thuộc vào văn hóa, môi trường, ngôn ngữ hay tính cách cá nhân khác nhau,
dẫn đến sự kém thống nhất giữa các loại cảm xúc. Điều này cho thấy rằng các
loại cảm xúc có thể không đại diện cho một trạng thái cảm xúc cụ thể, mặc dù
tập các loại cảm xúc đã được định nghĩa trước. Thêm vào đó, điều này có thể
dẫn đến vấn đề về sự tối ưu của kết quả và hiệu quả của việc xác định cảm xúc.
Do số lượng loại cảm xúc là hạn chế và được định nghĩa trước nên việc lựa chọn
loại cảm xúc có thể dẫn đến bị “ép buộc” (forced-choice) chọn vào một nhãn nào
đó đã có trong khi nó thực sự không thuộc một loại cảm xúc nào đã được định
nghĩa. Một vấn đề nữa là không thể lựa chọn một nhãn thích hợp cho đối tượng
nếu như nhãn đó không được định nghĩa trong tập nhãn. Mô hình nhãn cảm
xúc tồn tại một số hạn chế, tuy nhiên mô hình này khá đơn giản và dễ tiếp cận.
Sự khác nhau chủ yếu giữa các mô hình nhãn cảm xúc là số lượng nhãn hay các
loại nhãn được định nghĩa trước. Việc chọn tập nhãn đủ tốt phù hợp với dữ liệu
và mô hình làm tăng đáng kể chất lượng kết quả.

1.2.2.

Mô hình cảm xúc theo chiều


Mô hình thứ hai thường được sử dụng trong phát hiện cảm xúc đó là mô hình
theo chiều cảm xúc. Trong mô hình này, các đối tượng được biểu diễn thành
các véc tơ n chiều. Mỗi đối tượng cần xác định cảm xúc khi đó được biểu diễn
theo các chiều cảm xúc và khi đó các đối tượng cảm xúc là một điểm trên không
gian. Các chiều cảm xúc có thể là các thái cực đối lập hay có liên quan. Ví dụ
mô hình của Russell [18][19], các thuật ngữ cảm xúc được biểu diễn như một
điểm trên không gian hai chiều (valence-arousal) với hai lưỡng cực thể hiện cảm
xúc đối lập. Trục cảm xúc (valence) phân biệt giữa cảm xúc tích cực và cảm xúc
tiêu cực. Trục kích động (arousal) phân biệt giữa trạng thái kích động (excited)
và bình tĩnh (calm). Mô hình của (Mehrabian, 1995)[17] dựa trên ba chiều cảm
xúc PDA (Pleasure-Arousal-Dominance). Mô hình theo chiều cảm xúc rất hiệu
6


Hình 1.2: Phân bố các thuật ngữ theo các chiều cảm xúc (Russell, 1980).

quả trong việc biểu diễn liên quan giữa các đối tượng cảm xúc, thực tế các loại
cảm xúc không phải là hoàn toàn tách rời nhau, mô hình này còn thể hiện các
mức độ cảm xúc khác nhau của cùng một loại cảm xúc, đồng thời cung cấp một
cách để đo sự tương tự giữa các trạng thái cảm xúc.
Chúng ta có thể thấy được là không có mô hình nào là tốt nhất, cả hai mô
hình đều có ưu điểm và nhược điểm riêng, việc lựa chọn một mô hình cảm xúc
phụ thuộc vào mục đích cụ thể.

1.3.

Các phương pháp phát hiện cảm xúc

Các kỹ thuật sử dụng trong phát hiện cảm xúc có thể được chia thành hai
hướng chính đó là hướng tiếp cận dựa vào từ vựng và hướng tiếp cận dựa vào

học máy. Hướng tiếp cận dựa vào tài nguyên từ vựng như từ điển, túi từ hay
các bản thể (ontology). Hướng tiếp cận dựa vào học máy sử dụng thuật toán học
máy áp dụng trên các đặc trưng ngôn ngữ.

1.3.1.

Hướng tiếp cận dựa vào từ vựng

Hướng tiếp cận dựa vào từ vựng là hướng tiếp cận sử dụng một số tài nguyên
từ vựng cho vấn đề phát hiện cảm xúc trong văn bản, các tài nguyên này là
từ điển, từ điển cảm xúc hay các bản thể. Hướng tiếp cận dựa vào từ khóa là
7


một ví dụ, hướng tiếp cận này dựa trên việc định nghĩa trước một tập các thuật
ngữ (terms) để phân lớp văn bản theo các nhãn cảm xúc. Trong công trình của
(Strapparava và Mihalcea, 2008)[6], họ cài đặt một thuật toán đơn giản để kiểm
tra sự có mặt của các từ mang cảm xúc trong các dòng tiêu đề và tính toán
điểm số được phản ánh qua tần số của các từ này trong từ điển cảm xúc trong
văn bản. Từ điển cảm xúc họ sử dụng là WordNe-Affect. Hướng tiếp cận dựa
vào bản thể là một ví dụ khác. (Balahur và cộng sự 2011)[3] sử dụng EmotiNet,
EmotiNet là một tài nguyên có thể được sử dụng cho việc phát hiện cảm xúc
từ văn bản dựa vào các tri thức phổ biến trên các khái niệm, các tương tác
và các cảm xúc ảnh hưởng để phát hiện cảm xúc. EmotiNet mô hình các tình
huống như là một chuỗi các hành động tương ứng với các tác động cảm xúc sử
dụng một biểu diễn bản thể. Việc xác định cảm xúc thông qua việc tính toán sự
tương đồng giữa chuỗi cảm xúc của một tình huống mới với chuỗi cảm xúc trong
EmotiNet. Hướng tiếp cận dựa vào thống kê cũng có thể được xem là một hướng
tiếp cận dựa trên từ vựng. Đa số các công trình sử dụng phương pháp phân tích
ngữ nghĩa ẩn (Latent Semantic Analysis - LSA) để tính toán mối quan hệ giữa

tập các tài liệu và các thuật ngữ được đề cập trong các tài liệu này, từ đó tạo ra
tập các mẫu mang ý nghĩa liên quan đến các tài liệu và các thuật ngữ, (Wang và
Zheng, 2013)[25] đã đưa ra một phương pháp sử dụng thuật toán LSA cải tiến
để phân lớp cảm xúc văn bản trong tập dữ liệu ISEAR (International Survey of
Emotional Antecedents and Reactions).

1.3.2.

Hướng tiếp cận dựa vào học máy

Tiếp cận dựa trên học máy được sử dụng để tự động nhận diện các thể hiện
cảm xúc trong văn bản như buồn, vui, giận dữ,... Phương pháp học máy có thể
chia thành hai loại chính đó là học có giám sát (supervised) và học phi giám
sát (unsupervised). Trong phương pháp học có giám sát, dữ liệu để học mô hình
cần được gán nhãn và có số lượng đủ lớn để đảm bảo chất lượng của mô hình.
Trong phương pháp học phi giám sát không yêu cầu có dữ liệu đã được gán
nhãn, phương pháp này dựa vào việc phân tích và tìm ra các đặc trưng có tính
phân loại của dữ liệu. Hai phương pháp học có giám sát và học phi giám sát
8


đều có ưu và nhược điểm riêng, phương pháp lai giữa học có giám sát và học
phi giám sát có thể đem lại ưu điểm của cả hai phương pháp trên, nhưng việc
triển khai thường rất phức tạp.
Học có giám sát

Phương pháp học có giám sát dựa trên tập dữ liệu huấn luyện đã được gán
nhãn. Thuật toán học có giám sát phân tích dữ liệu huấn luyện và đưa ra hàm
phân loại (classification function), hàm phân loại sẽ gán nhãn cho các dữ liệu
chưa được gán nhãn. Như vậy, yếu tố quan trọng đối với phương pháp này là

tập dữ liệu huấn luyện, tập dữ liệu này cần được gán nhãn và có kích thước đủ
lớn. Đối với vấn đề phát hiện cảm xúc trong văn bản, việc gán nhãn cảm xúc
bằng tay cho văn bản tốn rất nhiều thời gian, kém thống nhất do yếu tố chủ
quan của từng người khi gán nhãn. Đối với tiếng Việt, hiện chưa có tập dữ liệu
nào đã được gán nhãn cảm xúc. Một vấn đề nữa của phương pháp học có giám
sát là việc lựa chọn các đặc trưng (feature), lựa chọn các đặc trưng ảnh hưởng
trực tiếp đến kết quả của mô hình, không dễ để chọn được các đặc trưng tốt
một cách tổng quát do các ngôn ngữ khác nhau, việc lựa chọn các đặc trưng
cũng phụ thuộc vào các mục đích phân lớp, mục đích phân lớp khác nhau yêu
cầu đặc trưng khác nhau.
Một số kỹ thuật phân lớp dựa vào học có giám sát được áp dụng để tự
động phát hiện cảm xúc như Na¨ıve Bayesian, máy véc tơ hỗ trợ (Support Vector
Machines - SVM), mạng Neural,... Các kỹ thuật này đạt kết quả rất tốt trong
việc phân lớp các nhận xét về các bộ phim hay các video thành hai lớp tích cực
và tiêu cực (Dave, Lawrence, Pennock, 2003)[7] (Li, Bontcheva, Cunningham,
2007)[15]. Strapparava và Rada Mihalcea (2008)[6] đã so sánh giữa phương pháp
học có giám sát Na¨ıve Bayesian và học phi giám sát sử dụng LSA cho bài toán
phát hiện cảm xúc.
Học phi giám sát

Phương pháp học có giám sát yêu cầu tập dữ liệu huấn luyện đủ lớn để học
mô hình, tuy nhiên không phải lúc nào cũng có sẵn dữ liệu đã được gán nhãn
9


để tiếp cận theo phương pháp này. Phương pháp học phi giám sát không yêu
cầu tập dữ liệu đã được gán nhãn, phương pháp này khai thác các thông tin
dựa trên tập dữ liệu thô và đưa ra các dự báo cho dữ liệu kiểm tra.
Trong thực tế, việc hiểu các văn bản có chứa cảm xúc phụ thuộc vào yếu tố
chủ quan của người đọc, vì vậy việc sử dụng phương pháp học máy phi giám sát

là thích hợp và tự nhiên cho bài toán phát hiện cảm xúc trong văn bản. Một
số phương pháp học phi giám sát tận dụng được lợi thế từ tập các từ hay cụm
từ cảm xúc được định nghĩa trước (từ điển từ cảm xúc), các đối tượng văn bản
cần xác định cảm xúc sẽ được tính toán mức độ cảm xúc thông qua từ điển
cảm xúc. Việc lựa chọn tập từ, cụm từ cảm xúc được định nghĩa trước có vai
trò quan trọng trong các phương pháp này, việc lựa chọn tập từ cảm xúc phù
hợp sẽ làm cho mô hình đạt kết quả tốt hơn. Phương pháp học phi giám sát
thường sử dụng một số độ đo như độ đo thông tin tương hỗ (Pointwise Mutual
Information - PMI) hay tf-idf (term frequency – inverse document frequency)
để tính toán cảm xúc cho các đối tượng văn bản. Bảng 1.2 thống kê một số bài
báo về vấn đề phát hiện cảm xúc trong văn bản dựa vào học máy và dựa vào từ
vựng.
Tác giả

Loại cảm xúc

Mô hình

(Strapparava and
Mihalcea, 2008)

Anger, Disgust, Fear, Joy,
Sadness, Surprise

Categorical

Lexical-based

(Gill et al., 2008)


Anger, Fear, Surprise, Joy,
Anticipation, Acceptance,
Sadness, Disgust

Categorical

Lexical-based

(Balahur et al.,2011)

Anger, Disgust, Fear, Guilt, Joy,
Sadness, Shame

Categorical

Lexical-based

(Sykora et al.,2013)

Anger, Confusion, Disgust,
Fear, Happiness, Sadness,
Shame, Surprise

Categorical

Lexical-based

(Wang and
Zheng,2013)


Anger, Disgust, Fear, Guilt,
Joy, Sadness, Shame

Categorical

Lexical-based

(Alm et al., 2005)

Anger, Disgust, Fear, Happiness,
Sadness, Positively Surprise,
Negatively Suprise

Categorical

Supervised
Learning-based

10

Tiếp cận


(Strapparava and
Mihalcea, 2008)

Anger, Disgust, Fear, Joy,
Sadness, Surprise

Categorical


Supervised
Learning-based

(Balabantaray
et al., 2012)

Anger, Disgust, Fear, Happiness,
Sadness, Surprise

Categorical

Supervised
Learning-based

(Roberts
et al.,2012)

Anger, Disgust, Fear, Joy,
Sadness, Surprise, Love

Categorical

Supervised
Learning-based

(Suttles and
Ide,2013)

Anger, Disgust, Fear,

Happiness, Sadness,
Surprise, Trust, Anticipation

Categorical

Supervised
Learning-based

(Hasan et al.,2014b)

Happy-Active, Happy-Inactive,
Unhappy-Active, Unhappy-Inactive

Dimensional

Supervised
Learning-based

(Strapparava and
Mihalcea, 2008)

Anger, Disgust, Fear, Joy,
Sadness, Surprise

Categorical

Unsupervised
Learning-based

(Agrawal and

An, 2012)

Anger, Disgust, Fear,
Happiness, Sadness, Surprise

Categorical

Unsupervised
Learning-based

(Agrawal and
An, 2012)

Anger-Disgust, Fear, Joy,
Sadness

Categorical

Unsupervised
Learning-based

(Agrawal and
An, 2012)

Anger-Disgust, Fear, Joy,
Sadness

Dimensional

Unsupervised

Learning-based

Bảng 1.2: Một số hướng tiếp cận

Học bán giám sát

Phương pháp học bán giám sát sử dụng cả dữ liệu đã được gán nhãn và dữ
liệu chưa được gán nhãn để huấn luyện cho mô hình. Lượng dữ liệu đã được gán
nhãn thường khá nhỏ so với lượng dữ liệu chưa được gán nhãn. Phương pháp
này sử dụng dữ liệu đã được gán nhãn để xây dựng mô hình ban đầu, từ đó
thực hiện gán nhãn cho các dữ liệu chưa được gán nhãn. Các dữ liệu sau khi
được gán nhãn bởi mô hình sẽ được chọn lựa để đưa vào tập dữ liệu đã được
gán nhãn để phục vụ cho việc học mô hình lần tiếp theo. Ví dụ trong công trình
của Valentina Sintsova cùng đồng nghiệp [24] đã sử dụng phương pháp bán giám
sát trong việc phát hiện cảm xúc trong văn bản (trên các Tweets). Trong mô
hình của Valentina Sintsova, một phần dữ liệu mới được gán nhãn có điểm số
cao nhất được chọn ra để đưa vào tập dữ liệu đã được gán nhãn cho lần học mô
11


hình tiếp theo. Phương pháp học bán giám sát kết hợp đặc điểm của phương
pháp học có giám sát và học phi giám sát, tăng hiệu quả của mô hình và chỉ
cần lượng nhỏ dữ liệu đã được gán nhãn để huấn luyện mô hình.

1.4.

Đánh giá

1.4.1.


Độ đo F

Bài toán phát hiện cảm xúc trong văn bản có thể được xem như bài toán
phân lớp, đầu vào là một đối tượng văn bản, đầu ra là nhãn cảm xúc cho đối
tượng văn bản đó. Giả sử tập nhãn cảm xúc e = {e1 , e2 , ..., ek }, độ đo thường
được sử dụng trong việc đánh giá kết quả của mô hình là độ đo F (F measure).
Độ đo F được xác định thông qua hai chỉ số là độ chính xác (precision) và độ
hồi tưởng (recall ).

Hình 1.3: Độ chính xác, độ hồi tưởng

Giả sử tập A là tập chứa tất cả nghiệm đúng của mô hình, tập B là nghiệm
thực tế mà mô hình trả lại. Khi đó độ chính xác P được tính bằng công thức
P =

|A∩B|
,
|B|

độ hồi tưởng R được tính bằng công thức R =

|A∩B|
.
|A|

Độ chính xác

cho biết độ tin cậy của mô hình, tỷ lệ giữa số nghiệm đúng với tổng số nghiệm
mà mô hình trả về. Độ hồi tưởng cho biết độ phủ của mô hình thông qua tỷ lệ
giữa số nghiệm đúng tìm được và tổng số nghiệm đúng.

Độ đo F với tham số β được tính bằng công thức: F = (1 + β 2 ). (β 2P.R
.P )+R
Độ đo thường được sử dụng là F1 , trong đó tham số β = 1.
Công thức tính F1 F1 = 2. PP.R
+R .
12


Đối với bài toán phát hiện cảm xúc trong văn bản, giả sử trong tập dữ liệu
kiểm tra có m1 dữ liệu nhãn e1 , kết quả khi chạy mô hình trên tập dữ liệu kiểm
tra cho ra mt dữ liệu gán đúng nhãn e1 , và mf dữ liệu được gán nhãn e1 nhưng
là gán sai. Khi đó, độ chính xác của mô hình đối với nhãn cảm xúc ei được tính
bằng Pei =

mt
mt +mf

và độ hồi tưởng Rei =

mt
m1 .

Độ chính xác, độ hồi tưởng và chỉ

số F1 của cả mô hình có thể được tính bằng trung bình của các nhãn cảm xúc.
Việc đánh giá theo độ đo F1 đối với từng loại cảm xúc giúp chỉ những loại cảm
xúc nào mô hình cho kết quả tốt, và những cảm xúc cho kết quả chưa tốt, từ đó
có thể đưa ra hướng điều chỉnh tham số mô hình để đạt được kết quả tốt hơn.

1.4.2.


SemEval

Bài toán xác định cảm xúc trong văn bản là một trong những bài toán được
quan tâm trong lĩnh vực tính toán ngữ nghĩa trong ngôn ngữ, lĩnh vực này được
cộng đồng các nhà nghiên cứu đề cập đến ở SemEval. SemEval là chuỗi các sự
kiện đánh giá thông qua các hội thảo quốc tế về đánh giá các hệ thống tính
toán và phân tích ngữ nghĩa, tiền thân của SemEval là Senseval (word sense
evaluation), trước đây, Senseval từ năm 1998 đến năm 2010, hội thảo được tổ
chức ba năm một lần, từ năm 2012 đến nay, hội thảo quốc tế SemEval được tổ
chức thường niên. Chủ đề được quan tâm trong SemEval là khai thác ý nghĩa
bản chất trong ngôn ngữ. Trong khi ý nghĩa được hiểu thông qua các trực giác
của con người thì việc chuyển đổi từ các trực giác đó để phân tích tính toán được
chứng minh là rất khó nắm bắt. SemEval đưa ra cơ chế để mô tả một cách chính
xác hơn những gì cần thiết cho việc tính toán ngữ nghĩa. Như vậy, SemEval cung
cấp cơ chế cấp thiết để xác định vấn đề và các giải pháp cho việc tính toán ý
nghĩa. Các giải pháp được phát triển để làm rõ hơn về các khía cạnh liên quan
đến cách chúng ta sử dụng ngôn ngữ. SemEval bắt đầu từ những bài toán đơn
giản như xác định các nghĩa của từ, từ đó phát triển lên bài toán nghiên cứu
mối tương quan giữa các thành phần trong câu (ví dụ bài toán gán nhãn vai
nghĩa (semantic role lableing)), quan hệ giữa các câu (ví dụ bài toán xác định
đồng sở chỉ (coreference)) và bản chất của những gì chúng ta đang nói (quan hệ
ngữ nghĩa và phân tích quan điểm). Các dữ liệu được đưa ra bởi SemEval cũng
13


thường được các nhà nghiên cứu sử dụng để tiến hành thực nghiệm và đánh giá
phương pháp. Hình 1.4 mô tả về framework của hội thảo SemEval.

Hình 1.4: SemEval Workshop framework


Các mục tiêu của SemEval qua các hội thảo được liệt kê trong Bảng 1.3.
Workshop
S1

No. of

Areas of study

Tasks
3

Languages

of

Data Evaluated

Word Sense Disambiguation (WSD) -

English,

Lexical Sample WSD tasks

Italian
Czech,

French,
Dutch,


English, Estonian,
S2

12

Word Sense Disambiguation (WSD) -

Basque,

Chinese,

Lexical Sample, All Words, Translation

Danish,

English,

WSD tasks

Italian,

Japanese,

Korean,

Spanish,

Swedish

S3


16 (incl. 2
cancelled)

Logic Form Transformation, Machine
Translation (MT) Evaluation, Semantic
Role Labelling, WSD

Basque,

Catalan,

Chinese,

English,

Italian, Romanian,
Spanish

Cross-lingual, Frame Extraction, Information Extraction, Lexical SubstituSE07

19 (incl. 1

tion, Lexical Sample, Metonymy, Se-

cancelled)

mantic Annotation, Semantic Relations, Semantic Role Labelling, Senti-

Arabic,


Catalan,

Chinese,

English,

Spanish, Turkish

ment Analysis, Time Expression, WSD
Coreference, Cross-lingual, Ellipsis, In-

SE10

18 (incl. 1
cancelled)

formation Extraction, Lexical Substi-

Catalan,

Chinese,

tution, Metonymy, Noun Compounds,

Dutch,

English,

Parsing, Semantic Relations, Seman-


French,

German,

tic Role Labeling, Sentiment Analysis,

Italian,

Japanese,

Textual Entailment, Time Expressions,

Spanish

WSD

14


Common Sense Reasoning, Lexical Simplification, Relational Similarity, SpaSE12

8

tial Role Labelling, Semantic Depen-

Chinese, English

dency Parsing, Semantic and Textual
Similarity

Temporal Annotation, Sentiment Analysis, Spatial Role Labeling, Noun Compounds, Phrasal Semantics, Textual
SE13

14

Similarity, Response Analysis, Crosslingual Textual Entailment, BioMedical Texts, Cross and Multilingual WSD,

Catalan,

French,

German,

English,

Italian, Spanish

Word Sense Induction, and Lexical
Sample
Compositional Distributional Semantic, Grammar Induction for Spoken
Dialogue Systems, Cross-Level SemanSE14

10

tic Similarity, Sentiment Analysis, L2

English,

Spanish,


Writing Assistant, Supervised Seman-

French,

German,

tic Parsing, Clinical Text Analysis, Se-

Dutch

mantic Dependency Parsing, Sentiment
Analysis in Twitter, Multilingual Semantic Textual Similarity
Text Similarity and Question AnswerSE15

18 (incl. 1

ing, Time and Space, Sentiment, Word

English,

cancelled)

Sense Disambiguation and Induction,

Arabic, Italian

Spanish,

Learning Semantic Relations
Textual Similarity and Question Answering, Sentiment Analysis, Semantic


SE16

Parsing, Semantic Analysis, Semantic
Taxonomy
Bảng 1.3: Mục tiêu của SemEval qua các hội thảo

1.5.

Tổng kết

Chương này giới thiệu tổng quan về học thuyết cảm xúc, bài toán phát hiện
cảm xúc trong văn bản cũng như các hướng tiếp cận để giải quyết. Hướng tiếp
cận dựa vào học máy có giám sát, xây dựng mô hình dựa trên tập dữ liệu đã
được gán nhãn. Việc gán nhãn cảm xúc cho văn bản bằng tay là việc không dễ,
khả năng có gán nhãn sai cao, hơn nữa lại phụ thuộc vào yếu tố chủ quan. Do
15


đó, kho dữ liệu cho việc học mô hình trong phương pháp học máy có giám sát
không phải luôn sẵn có, nhất là đối với tiếng Việt, hiện tại chưa có kho dữ liệu
được gán nhãn cảm xúc nào được công bố. Hướng tiếp cận dựa vào từ vựng phụ
thuộc vào nguồn dữ liệu từ vựng (có thể là từ điển), hướng tiếp cận này khó có
sự linh động để thích nghi khi có thêm từ mới hay các quy tắc mới xuất hiện
trong văn bản. Hướng tiếp cận học máy phi giám sát có thể xem là lựa chọn
phù hợp tự nhiên cho bài toán phát hiện cảm xúc trong văn bản đối với những
ngôn ngữ chưa có nguồn tài nguyên liên quan đến cảm xúc, ví dụ trong tiếng
Việt. Chương tiếp theo sẽ trình bày chi tiết về hai phương pháp phi giám sát
cho bài toán phát hiện cảm xúc trong văn bản.


16


Chương 2
Phương pháp phi giám sát cho bài
toán phát hiện cảm xúc trong văn
bản
Chương này trình bày về hai phương pháp phi giám sát cho bài toán phát
hiện cảm xúc trong văn bản. Thứ nhất là phương pháp sử dụng mô hình không
gian véc tơ, đây là phương pháp thường được sử dụng trong việc biểu diễn văn
bản cũng như tính toán ngữ nghĩa trong văn bản. Thứ hai là phương pháp sử
dụng quan hệ ngữ nghĩa và ngữ pháp, phương pháp này khai thác thông tin ngữ
nghĩa và sử dụng cú pháp phụ thuộc để tính toán cảm xúc trong văn bản.

2.1.

Phương pháp sử dụng mô hình không gian véctơ

Mô hình không gian véc-tơ (Vector Space Model - VSM) thường được dùng
để biểu diễn văn bản, trong đó, đối tượng văn bản có thể được biểu diễn bằng
một véc-tơ trên không gian m chiều. VSM được áp dụng cho bài toán phát hiện
cảm xúc trong văn bản bằng cách xây dựng véc-tơ biểu diễn văn bản và véc-tơ
biểu diễn các khái niệm cảm xúc, cảm xúc của tài liệu được tính toán thông qua
khoảng cách giữa véc-tơ biểu diễn tài liệu và véc-tơ biểu diễn cảm xúc. Phương
17


pháp sử dụng Mô hình không gian véc-tơ cho bài toán phát hiện cảm xúc trong
văn bản được thực hiện thông qua các bước sau: Tính ma trận tương quan giữa
thuật ngữ và tài liệu (term-by-document matrix - TDM). Ma trận TDM chứa

thông tin về tần số xuất hiện của các thuật ngữ (term) trong các tài liệu, thể
hiện mức độ quan trọng của các thuật ngữ trong các tài liệu hay đánh giá sự
tương đồng giữa các thuật ngữ hay các tài liệu. Để khai thác thông tin ngữ
nghĩa ẩn, tìm ra những thuật ngữ đặc trưng cho từng tài liệu, ma trận TDM
được tính trọng số theo chỉ số tf-idf. Ma trận TDM thường có kích thước rất
lớn do số lượng các thuật ngữ và tài liệu, vì vậy cần áp dụng một số phương
pháp giảm số chiều cho ma trận TDM như loại bỏ các thuật ngữ là từ dừng,
hay những thuật ngữ có tần số xuất hiện quá ít, áp dụng một số phương pháp
giảm số chiều như Phân tích ngữ nghĩa ẩn LSA, phân tích ngữ nghĩa ẩn theo xác
suất (Probabilistic LSA - PLSA) hay ma trận thừa số không âm (Non-negative
Matrix Factorisation - NMF). Bước tiếp theo là xây dựng các tài liệu đại diện
cho các loại cảm xúc. Khi đó mỗi loại cảm xúc cũng được biểu diễn bởi một
véc-tơ, các tài liệu được xác định nhãn cảm xúc thông qua việc tính khoảng cách
giữa véc-tơ biểu diễn tài liệu đó với véc-tơ biểu diễn cảm xúc, độ đo khoảng cách
giữa hai véc-tơ thường dùng là cosine của góc giữa hai véc-tơ hoặc khoảng cách
Euclid giữa hai véc-tơ.
Dưới đây là chi tiết phương pháp sử dụng VSM cho bài toán phát hiện cảm
xúc trong văn bản theo các bước đã trình bày ở trên.

2.1.1.

Term by Document Matrix

TDM là ma trận biểu diễn sự xuất hiện của các thuật ngữ trong các tài liệu
(document). Thuật ngữ tài liệu ở đây có thể là một văn bản, một đoạn, hay một
câu. Một thuật ngữ có thể là một từ, một cụm từ,... trong văn bản. Giả sử ta có
n văn bản và m thuật ngữ khi đó TDM được biểu diễn bằng ma trận kích thước
m ×n. Trong đó, n véc-tơ cột tương ứng với n tài liệu, m véc-tơ hàng tương ứng
với thông tin về m thuật ngữ trong tập tài liệu. Khi đó mỗi tài liệu có thể được
biểu diễn thông qua véc-tơ cột trên không gian m chiều. Kích thước của TDM

thường là rất lớn, do số lượng của tài liệu cũng như số lượng của các thuật ngữ,
18


×