Tải bản đầy đủ (.pdf) (47 trang)

Nghiên cứu rút trích thông tin dựa trên cơ sở phân tích cảm xúc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.85 MB, 47 trang )

TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ

BÁO CÁO KHOA HỌC TỔNG KẾT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƢỜNG

NGHIÊN CỨU RÚT TRÍCH THƠNG TIN DỰA TRÊN
CƠ SỞ PHÂN TÍCH CẢM XÚC
Mã số:

Chủ nhiệm đề tài: ThS.Nguyễn Tấn Lộc

Bình Dƣơng, 08/01/2018


TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƢỜNG

NGHIÊN CỨU RÚT TRÍCH THƠNG TIN TRÊN CƠ SỞ
PHÂN TÍCH CẢM XÚC
Mã số:

Xác nhận của đơn vị chủ trì đề tài
(chữ ký, họ và tên)

Chủ nhiệm đề tài


(chữ ký, họ và tên)

Bình Dƣơng, 08/01/2018


Danh sách thành viên

Chủ nhiệm: ThS.Nguyễn Tấn Lộc
Email:
ĐTDD: 0914290456
Đơn vị chủ trì: Khoa Kỹ thuật Cơng nghệ
Địa chỉ: 06 Trần văn Ơn, P.Phú Hịa, tp.Thủ Dầu Một, Bình Dƣơng.


Mục lục
Danh mục hình ................................................................................................................................ 1
Danh mục bảng ............................................................................................................................... 2
Danh mục chữ viết tắt ..................................................................................................................... 3
Thông tin kết quả nghiên cứu ......................................................................................................... 4
Chƣơng Mở đầu .............................................................................................................................. 6
Chƣơng 1: Tổng quan về phân tích cảm xúc .................................................................................. 8
1.1 Phân tích cảm xúc là gì? ....................................................................................................... 8
1.2 Mục tiêu nghiên cứu ........................................................................................................... 10
1.3 Các mức độ phân tích cảm xúc........................................................................................... 11
1.4 Các vấn đề thách thức khó khăn ......................................................................................... 13
Chƣơng 2 : Lƣợc sử nghiên cứu ................................................................................................... 15
2.1 Các phƣơng pháp phân tích cảm xúc.................................................................................. 15
2.2 Các Phƣơng pháp rút trích thơng tin .................................................................................. 19
2.2.1 Rút trích cụm từ .......................................................................................................... 20
2.2.2 Rút trích dựa trên nhận dạng thực thể ......................................................................... 20

2.3 Các phƣơng pháp phân loại cảm xúc dựa trên máy học ..................................................... 21
2.3.1 Học có giám sát (Supervised Learning) ...................................................................... 21
2.3.2 Học không giám sát .................................................................................................... 22
Chƣơng 3: Xây dựng mô hình phân tích cảm xúc ........................................................................ 24
3.1 Kiến trúc hệ thống .............................................................................................................. 24
3.2 Thu thập dữ liệu.................................................................................................................. 25
3.3 Tiền xử lý dữ liệu ............................................................................................................... 25
3.4 Phƣơng pháp phân tích văn bản ......................................................................................... 26
3.4.1 Mơ hình N-gram ......................................................................................................... 27
3.4.2 Phƣơng pháp thống kê TF-IDF ................................................................................... 28
3.4.3 Xây dựng mơ hình huấn luyện với hồi quy logistic .................................................... 29
3.4.4 Phƣơng pháp đánh giá hiệu suất phân loại cảm xúc ................................................... 30
3.4.5 Tối ƣu tham số cho mơ hình ....................................................................................... 31
3.5 Rút trích thông tin.............................................................................................................. 32
Chƣơng 4: Đánh giá thực nghiệm ............................................................................................. 34


4.1 Kết quả thực nghiệm phân loại cảm xúc ............................................................................ 34
4.2 Kết quả thực nghiệm rút trích thơng tin ............................................................................. 35
Kết luận ......................................................................................................................................... 37
Tài liệu tham khảo ........................................................................................................................ 38
Phụ lục .......................................................................................................................................... 40


Danh mục hình
Hình 1. Các trạng thái cảm xúc........................................................................................... 9
Hình 2. Mơ hình tính tốn trọng số từ, cụm từ ................................................................. 10
Hình 3. Các vấn đề thách thức .......................................................................................... 13
Hình 4. Các hƣớng tiếp cận phân tích cảm xúc ................................................................ 15
Hình 5. Kiến trúc hệ thống ................................................................................................ 24

Hình 6. Thống kê nhà hàng từng quốc gia ........................................................................ 25
Hình 7. Mơ hình hồi quy logistic ...................................................................................... 30
Hình 8. Đánh giá mơ hỉnh huấn luyện và kiểm thử dữ liệu .............................................. 34
Hình 9. Phân phối các từ có tần suất cao của ẩm thực Việt Nam ..................................... 35
Hình 10.Các từ ảnh hƣởng mạnh ẩm thực Việt ................................................................ 36
Hình 11.Phân phối các từ có tần suất cao của ẩm thực Nhật ............................................ 36
Hình 12.Các từ ảnh hƣởng mạnh ẩm thực Nhật bản......................................................... 36
Hình 13.Các từ khóa có tần suất cao nhất ẩm thực Pháp .................................................. 40
Hình 14.Các từ khóa có tần suất cao nhất ẩm thực Trung Quốc ...................................... 41
Hình 15.Các từ khóa có tần suất cao nhất ẩm thực Ấn độ ................................................ 42

1


Danh mục bảng
Bảng 1.So sánh các hƣớng tiếp cận phân tích cảm xúc .................................................... 18
Bảng 2.Tài liệu văn bản .................................................................................................... 26
Bảng 3. Ma trận tần số các từ, cụm từ document term word ............................................ 26
Bảng 4.Ma trân đánh giá hệ thống phân loại .................................................................... 30
Bảng 5. Các bình luận tích cực nhất cho các doanh nghiệp ............................................. 32
Bảng 6.Các bình luận cảm xúc tích cực nhất cho các doanh nghiệp Việt Nam ............... 33
Bảng 7.Nhóm bình luận cảm xúc tiêu cực nhất cho doanh nghiệp Việt Nam .................. 33
Bảng 8. Ma trân đánh giá phân loại cảm xúc .................................................................... 34
Bảng 9. Nhóm 10 từ quan trọng cảm xúc rút ra từ kết quả phân tích ............................... 35
Bảng 10.Nhóm bình luận tích cực ẩm thực Pháp ............................................................. 40
Bảng 11.Nhóm bình luận tích cực ẩm thực Trung Quốc .................................................. 41
Bảng 12.Nhóm bình luận tích cực ẩm thực Ấn độ............................................................ 42

2



Danh mục chữ viết tắt

TF: term frequency
IDF: inverse document frequency
TF.IDF: term frequency. inverse document frequency
DTM: document term matrix
Logistic: hồi quy logistic.
P(A): Xác xuất sự kiện A
NER: Named Entity Recognition
SoA: Sentiment analysis – Phân tích cảm xúc

3


TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT
Đơn vị: Khoa Kỹ thuật Cơng nghệ

THƠNG TIN KẾT QUẢ NGHIÊN CỨU
1. Thơng tin chung:
- Tên đề tài: Nghiên cứu rút trích thơng tin trên cơ sở phân tích cảm xúc
- Mã số:
- Chủ nhiệm: Ths.Nguyễn Tấn Lộc
- Đơn vị chủ trì: Khoa Kỹ thuật Công nghệ
- Thời gian thực hiện: 11/2016-11/2017
2. Mục tiêu:
- Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và các ứng dụng của lĩnh vực
trong đời sống và thực nghiện phân tích cảm xúc với các mơ hình học máy.
- Trích xuất nhóm cụm từ quan trọng để hỗ trợ ra quyết định dựa trên cơ sở cảm xúc
của cơng chúng về một vấn đề nào đó cần quan tâm.

3. Tính mới và sáng tạo:
- Đề xuất xây dựng mơ hình học máy tự động phân loại cảm xúc dựa vào nội dung
bình luận phi cấu trúc nhằm tăng tốc sự hiểu biết về dữ liệu.
- Tiếp cận các phƣơng pháp rút trích thơng tin nhằm trích xuất nhóm bình luận tích
cực, tiêu cực nhất và nắm bắt quan điểm, cảm xúc dựa trên kết quả phân loại cảm xúc
nhằm ra quyết định chiến lƣợc kinh doanh phù hợp cho doanh nghiệp.
4. Kết quả nghiên cứu:
- Kết quả thực nghiệm dữ liệu với mơ hình logistic cho độ chính xác 90%,
recall=89.8%, precision=96.9% và hệ số tối ƣu chuẩn hóa cho mơ hình C=0.2154.
4


- Trích xuất các cụm tử quan trọng cho các doanh nghiệp nhà hàng Việt Nam, Trung
Quốc, Nhật Bản…
- Trích xuất các doanh nghiệp nhà hàng đƣợc bình luận tốt nhất và tiêu cực nhất.
5. Sản phẩm: bài báo khoa học
6. Hiệu quả, phƣơng thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:
Ứng dụng kết quả nghiên cứu để phát triển mơ hình phân tích dữ liệu và nắm bắt các
quan điểm, cảm xúc cho các trang website Việt Nam: Tripadvisor, Lazada…

Ngày
Đơn vị chủ trì
(chữ ký, họ và tên)

tháng 11 năm 2017
Chủ nhiệm đề tài
(chữ ký, họ và tên)

XÁC NHẬN CỦA CƠ QUAN


5


Mở đầu
1. Tính cấp thiết
-

Ngơn ngữ của con ngƣời rất phức tạp. Vì vậy, diễn giải ngơn ngữ cho máy tính
hiểu và phân tích các ngữ pháp, vùng miền ứng dụng hay ngữ cảnh, tiếng lóng
và lỗi chính là một q trình khó khăn.

-

Nghiên cứu phân tích cảm xúc khơng chỉ tác động quan trọng trong lĩnh vực
xử lý ngôn ngữ tự nhiên, mà còn tác động sâu sắc về khoa học quản lý, khoa
học chính trị, kinh tế và khoa học xã hội bởi tất cả các lĩnh vực đều bị ảnh
hƣởng bởi ý kiến các chủ thể.

2. Mục tiêu
Nghiên cứu phân loại cảm xúc và rút trích thơng tin hữu ích nắm bắt các quan
điểm, nâng ao sự hiểu biết cho các doanh nghiệp nhà hàng Yelp từ đó hỗ trợ ra
quyết định.
3. Cách tiếp cận
- Thu thập dữ liệu từ trang website Yelp.
- Xử lý và lƣu trữ vào kho dữ liệu.
- Xây dựng mơ hình dựa trên các thuật toán học máy và đánh giá hiệu suất
- Thu thập các bài báo khoa học thuộc lĩnh vực nghiên cứu.
4. Phƣơng pháp nghiên cứu
-


Thu thập tài liệu của các tác giả trong, ngồi nƣớc có liên quan đến đề tài.

-

Nghiên cứu và phát triển lý thuyết phục vụ đề tài.

-

Nghiên cứu thực nghiệm và đánh giá kết quả dựa vào phƣơng pháp thống kê

5. Đối tƣợng và phạm vi nghiên cứu
- Trích xuất nội dung phi cấu trúc của trang web và lƣu trữ kho dữ liệu tập trung.
- Các bộ từ điển cảm xúc.
- Tài liệu văn bản, câu, từ, cụm từ tiếng Anh.
6


- Đánh giá cảm xúc các về dịch vụ nhà hàng, các sản phẩm.
- Ngôn ngữ tiếng Anh
6. Nội dung nghiên cứu
Chƣơng 1: Tổng quan về phân tích cảm xúc
1.1 Phân tích cảm xúc là gì?
1.2 Ứng dụng
1.3 Mục tiêu nghiên cứu
Chƣơng 2 : Lƣợc sử nghiên cứu và các phƣơng pháp rút trích thơng tin
2.1 Rút trích thơng tin là gì?
2.2 Một số phƣơng pháp phân tích cảm xúc
2.3 Mơt số phƣơng pháp rút trích ý kiến
Chƣơng 3: Xây dựng các mơ hình phân loại cảm xúc, rút trích thông tin
3.1 Thu thập dữ liệu

3.2 Tiền xử lý dữ liệu
3.3 Phân loại cảm xúc
3.4 Thực hiện rút trích thơng tin
Chƣơng 4: Thực nghiệm và đánh giá
4.1 Kết quả thực nghiệm phân loại cảm xúc
4.2 Kết quả thực nghiệm rút trích thơng tin

7


Chƣơng 1: Tổng quan về phân tích cảm xúc

1.1 Phân tích cảm xúc là gì?
Phân tích cảm xúc đƣợc ứng dụng trong nhiều ngành để trích xuất tri thức,
cảm xúc và quan điểm của khách hàng. Rút trích cảm xúc khách hàng có vai trị
quan trọng trong q trình ra quyết, đƣa ra chiến lƣợc kinh doanh hợp lý.. Những
quyết định này có thể từ việc mua sản phẩm trực tuyến hoặc dịch vụ ăn uống, tất
cả các cảm xúc, quan điểm ảnh hƣởng rất lớn đến cuộc sống hàng ngày. Rút trích
thơng tin quan điểm và cảm xúc là một lĩnh vực nghiên cứu của xử lý ngôn ngữ
tự nhiên. Nhiệm vụ trích xuất thơng tin từ các dịng tin bình luận, trích dẫn để
xác định ý kiến, cảm xúc của ngƣời dùng về một một chủ đề cụ thể, thƣờng cố
gắng trích cảm xúc có trong tồn bộ tài liệu là tích cực hay tiêu cực. Do đó,
nghiên cứu phân tích cảm xúc khơng chỉ tác động quan trọng trong lĩnh vực xử lý
ngôn ngữ tự nhiên, mà còn tác động sâu sắc về khoa học quản lý, khoa học chính
trị, kinh tế và khoa học xã hội bởi tất cả các lĩnh vực đều bị ảnh hƣởng bởi ý kiến
các chủ thể.
Ngôn ngữ của con ngƣời rất phức tạp. Vì vậy, diễn giải ngơn ngữ cho máy tính
hiểu và phân tích các ngữ pháp, vùng miền ứng dụng hay ngữ cảnh, tiếng lóng và
lỗi chính là một q trình khó khăn.
Ngữ điệu ngơn ngữ kết hợp với ngữ cảnh có thể ảnh hƣởng đến ngữ cảnh thậm

chí mơ tả nó cịn khó khăn hơn.

8


Hình 1.các trạng thái

cảm xúc

Ví dụ: “My flight was delayed. Brilliant!”
Con ngƣời khá trực quan khi giải thích giai điệu của một bài viết. Hầu hết mọi
ngƣời giải thích rằng ngƣời bình luận cảm xúc mỉa mai, châm biếm. Chúng ta biết
rằng đối với hầu hết những ngƣời có chuyến bay trễ không phải là một trải
nghiệm tốt . Bằng cách áp dụng ngữ cảnh này cho câu này, có thể dễ dàng xác
định cảm xúc là tiêu cực.
Nếu không áp dụng ngữ cảnh, máy tính phân tích câu trên có thể thấy từ
"Brilliant" và nó phân loại là tích cực.
Giả sử bạn muốn biết mọi ngƣời trên Yelp nghĩ rằng thực phẩm nhà hàng Việt
Nam là tốt hay xấu, món ăn nào là phổ biến nhất.
Phân tích cảm xúc bộ dữ liệu nhà hàng Yelp sẽ giúp chúng ta trả lời câu hỏi này.
Doanh nghiệp thậm chí có thể tìm hiểu lý do tại sao mọi ngƣời nghĩ rằng thực
phẩm là tốt hay xấu, bằng cách trích xuất các từ chính xác cho thấy lý do tại sao
ngƣời ta hoặc khơng thích thức ăn. Trích xuất món ăn phổ biến và các chủ đề xuất
hiện nhiều nhất. Doanh nghiệp ngay lập tức có một ý tƣởng tốt hơn về lý do tại
sao ngƣời tiêu dùng khơng hài lịng.

9


Doanh nghiệp muốn đạt đƣợc tầm nhìn sâu sắc về khảo sát và tìm kiếm thơng qua

nghiên cứu thị trƣờng, thay vì phải dành rất nhiều ngân sách và thời gian để tiến
hành các cuộc điều tra và gọi điện thoại khách hàng? Thông qua các công cụ khai
thác văn bản, bạn sẽ nhận đƣợc câu trả lời trong vài giây và kết quả rất khách
quan từ mạng xã hội.
Phân tích cảm xúc có thể đƣợc xác định trên nhiều cấp độ. Cấp mức tài liệu (Một
cách nhìn tổng thể tiêu cực hoặc tích cực chung) và cảm xúc của từng từ hoặc
cụm từ trong tài liệu.

Hình 2. Mơ

hình tính toán trọng số từ, cụm từ

1.2 Mục tiêu nghiên cứu
- Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và các ứng dụng của lĩnh
vực trong đời sống.
- Thực nghiện phân tích cảm xúc dựa trên các mơ hình học máy.
- Trích xuất các bình luận tích cực và tiêu cực nhất.
- Trên cơ sở phân tích cảm xúc, chúng tơi tiến hành rút trích tri thức các đặc
trừng và các khía cạnh của các thực thể đang đƣợc quan tâm nhằm nắm bắt

10


khuynh hƣớng cảm xúc khách hàng nhà hàng Yelps về chất lƣợng thái độ dịch
vụ, tóm tắt ẩm thực từng quốc gia, các món ăn phổ biến.
- Hỗ trợ ra quyết định dựa trên cơ sở phân tích quan điểm, cảm xúc của cơng
chúng về một vấn đề nào đó cần quan tâm.

1.3 Các mức độ phân tích cảm xúc
Phân tích cảm xúc là một lĩnh vực nghiên cứu của xử lý ngôn ngữ tự nhiện và

đƣợc nghiên cứu ở 3 mức độ:
Mức tài liệu (Document level): Nhiệm vụ phân tích ở mức độ này là phân loại
xem nội dung chính của một tài liệu văn bản thể hiện ý kiến tích cực hay tiêu
cực. Ví dụ, đƣa ra đánh giá tổng thể một sản phẩm hay hệ thống là tích cực
hay tiêu cực. Nhiệm vụ này thƣờng đƣợc gọi là phân loại cảm xúc cấp tài liệu.
Mức độ phân tích giả định rằng mỗi tài liệu thể hiện ý kiến về một thực thể duy
nhất (một sản phẩm). Do đó, khơng thể áp dụng với các tài liệu so sánh và
đánh giá nhiều thực thể.
Phân loại cảm xúc ở mức tài liệu cung cấp một ý kiến tổng thể về một thực thể,
chủ đề hoặc sự kiện. Tuy nhiên, mức độ phân loại này có một số hạn chế thiếu
sót đối với các miền ứng dụng:
 Trong nhiều ứng dụng, ngƣời dùng cần biết thêm nhiều chi tiết bổ sung,
chẳng hạn : khía cạnh của các thực thể đƣợc u thích và khơng thích bởi
ngƣời tiêu dùng. Khám phá các chi tiết rất thú vị, tuy nhiên phân tích ở mức
tài liệu khơng trích xuất các thơng tin hữu ích này.
 Việc phân loại tình cảm mức tài liệu không dễ áp dụng chẳng hạn nhƣ các
cuộc thảo luận trên diễn đàn, blog và các bài báo. Các bài đăng có thể chứa
nhiều cảm xúc của nhiều thực thể .
Mức câu (Sentence level): Nhiệm vụ ở cấp độ này đi vào các câu và xác định
xem mỗi câu thể hiện một ý kiến tích cực, tiêu cực hoặc trung tính. Trung tính

11


nghĩa là khơng có ý kiến. Mức độ phân tích có liên quan chặt chẽ với phân loại
tính chủ quan.
Mức thực thể và khía cạnh (Entity and Aspect level): Cả 2 mức tài liệu và mức
câu khơng phát hiện chính xác những gì mọi ngƣời thích và khơng thích. Mức độ
khía cạnh ban đầu cịn có tên gọi là mức đặc trƣng (feature level) [5] thực hiện
phân tích chi tiết hơn. Thay vì nhìn vào cấu trúc ngơn ngữ (câu, mệnh đề hoặc

cụm từ), Mức khía cạnh trực tiếp xem xét bản chất ý kiến. Dựa trên ý tƣởng một ý
kiến bao gồm một mục tiêu nhất định và một cảm xúc (tích cực hoặc tiêu cực).
Phân tích mức thực thể và khía cạnh đầu vào là một tập hợp các mơ tả đặc trƣng
khía cạnh và nội dung thảo luận về một chủ thể cụ thể (ví dụ, một mẫu điện thoại
di động mới, dịch vụ ăn uống). Các hệ thống khám phá các khía cạnh chính của
thực thể (món ăn tƣơi ngon, sạch, giá cả, phục vụ tốt hay thơ lỗ hoặc sản phẩm
điện thoại 'pin', 'màn hình', giá cả…) và để ƣớc tính chỉ số cảm xúc tổng thể của
bình luận trên các khía cạnh (ví dụ, tính tích cực hay tiêu cực là những ý kiến có
chỉ số trên hoặc dƣới trung bình cho mỗi khía cạnh). Có 04 hƣớng tiếp cận chính:
- Rút trích dựa trên danh từ và cụm danh từ thƣờng xuyên.
- Rút trích bằng cách khai thác ý kiến và quan hệ mục tiêu.
- Rút trích sử dụng phƣơng pháp học có giám sát.
- Rút trích sử dụng chủ đề mơ hình.
Các phƣơng pháp phân tích cảm xúc dựa trên khía cạnh xuất hiện thì chủ yếu đƣợc
dùm cho mục đích là đánh giá các sản phẩm trực tuyến.

12


1.4 Các vấn đề thách thức khó khăn

Vấn đề

Đảo ngƣợc cảm
xúc

Phân loại
tích cực và tiêu
cực


Dữ liệu thƣa

Hình 3. các vấn đề thách thức

-

Đảo ngƣợc cảm xúc: à một vấn đề quan trọng nhất cần đƣợc giải quyết trong
phân tích cảm xúc. Vấn đề này phát sinh do sự dịch chuyển trạng thái phân cực
nhƣ phủ định (ví dụ: "Tơi khơng thích phở") và tƣơng phản (ví dụ "phở thì
ngon, nhƣng khơng phải sở thích của tơi"). Câu “Tơi khơng thích phở” rất
giống với
câu “Tơi thích phở”. Vì vậy phát hiện đảo ngƣợc phân cực có ý nghĩa rất quan
trọng cho trích xuất quan điểm và cảm xúc.

-

Phân loại cảm xúc: các thuật toán học máy chƣa phân loại đƣợc độ mạnh cảm
xúc, chỉ dừng lại tích cực hay tiêu cực. Trong khi đó, cảm xúc từ các bình luận
phản ánh đa dạng và mức độ ảnh hƣởng cảm xúc là khác nhau. "Tích cực",
"tích cực hơn", "Tiêu cực", “ rất tiêu cực " và "trung tính". Bằng cách tăng
hạng phân loại chính xác cải thiện độ chính xác làm cơ sở cho trích xuất cảm
xúc.

-

Dữ liệu thƣa: dữ liệu phát sinh từ một số nguồn giới hạn ký tự giới hạn trong
vi blog / các trang web truyền thông xã hội. Chẳn hạn, giới hạn bình luận trong
twitter là 140 ký tự. Chủ thể sẽ không diễn đạt ý kiến của họ một cách rõ ràng.

-


Tóm lại, Tất cả ba các vấn đề liên quan chặt chẽ đến tính chính xác cảm xúc và
trong một bài viết thƣờng tồn tại các phát biểu mâu thuẫn nhau, đối với những

13


câu văn nói ngắn gọn hoặc khơng theo quy tắc, thì ngƣời nói thƣờng lồng
nhiều ý kiến vào trong một câu.

14


Chƣơng 2 : Lƣợc sử nghiên cứu

2.1

Các phƣơng pháp phân tích cảm xúc
Trong phần này, chúng tơi khảo sát các phƣơng pháp và các hƣớng tiếp cận

phân tích cảm xúc. Dữ liệu văn bản tiềm ẩn rất nhiều tri thức có giá trị do con
ngƣời tạo ra nhằm chia sẻ với cộng đồng chẳn hạn nhƣ kinh nghiệm,ý kiến và cảm
xúc trải qua. Mỗi khi cần đƣa ra một quyết định gì, chúng ta thƣờng tham khảo
đến ý kiến của cộng đồng bằng cách tìm kiếm trên Internet. Các cơng cụ khai phá
quan điểm thực hiện một cách tự động và hệ thống trích xuất các khía cạnh liên
quan cho một vấn đề cụ thể, trên cơ sở phân tích ý kiến, chúng ta đƣa ra các quyết
định hành động hợp lý.

Phân tích cảm xúc


Học máy

Từ điển

Hình 4. Các

Ontology

hƣớng tiếp cận phân tích cảm xúc

Nhiệm vụ phân tích cảm xúc là xác định các quan điểm, các đặc trƣng khía cạnh,
các thực thể và xác định chủ thể. Công việc khai thác tri thức giúp họ hiểu rõ hơn về
khách hàng, sản phẩm, dịch vụ đề (B. Agarwal et al.,2013)[1]. Mục tiêu tự động hóa
trích xuất đặc trƣng đối tƣợng và phân loại cảm xúc (Basant et al., 2015)[2] dựa trên
xử lý ngơn ngữ tự nhiên từ nguồn các bình luận.
Mục tiêu chính thực hiện phân loại cảm xúc là xếp hạng các chỉ số đánh giá cảm xúc
diễn giải trong văn bản. Nó đƣợc xem xét ở 03 mức độ : Tài liệu (RuiXia
15


et.al.,2016)[3].(Ainur et al.,2010)[4], câu từ (Noura et al., 2010)[5], và mức khía cạnh
đặc trƣng đối tƣợng (Haochen et.al.,2015)[6].
Trong nghiên cứu này, chúng tơi phân tích cảm xúc dựa vào nguồn dữ liệu thu
thập từ dịch vụ Yelp. Yelp là một tập đoàn đa quốc gia của Hoa Kỳ đƣợc thành lập vào
2004 nhằm giúp mọi ngƣời định vị doanh nghiệp dựa trên rên mạng xã hội chức năng
và đánh giá xếp hạng dịch vụ. Hàng triệu ngƣời sử dụng dịch vụ Yelp cung cấp một
khối dữ liệu khổng lồ và ảnh hƣởng đến quyết định lựa chọn thực phẩm của ngƣời tiêu
dùng. Do đó, các bình luận từ Yelp trở thành chỉ số đánh giá cho chất lƣợng ngành dịch
vụ ẩm thực. Những năm gần đây, nhiều cơng trình nghiên cứu tiếp cận khai thác dữ liệu
nhằm rút trích cảm xúc và diễn giải ý nghĩa.

Hƣớng tiếp cận phƣơng pháp học máy đƣợc sử dụng rộng rãi cho lĩnh vực xử lý ngôn
ngữ tự nhiên chẳn hạn nhƣ: (RuiXia et al.,2016) đề xuất mơ hình PSDEE để phát hiện
cảm xúc khơng nhất qn trong văn bản. Nghiên cứu này trình bày mơ hình ba giai
đoạn để phân loại cảm xúc:(1) phát hiện chuyển đổi phân cực, (2) loại bỏ phân cực
trong các phủ định, và (3) chuyển đổi phân cực theo mơ hình tổ hợp. (Haochen Zhou et
al.,2015)[6] xây dựng mơ hình POSLDA lựa chọn các đặc trƣng văn bản. Nó thực hiện
tách các lớp ngữ nghĩa (danh từ, động từ, tính từ và trạng từ) và các lớp cú pháp ( giới
từ, và từ liên kết), xác định các từ có ý nghĩa và bổ sung thơng tin các thực thể cụ thể.
(James Huang et al,.2014.) Nhóm tác giả áp dụng Latent Dirichlet Allocation (LDA)
khám phá các chủ đề ẩn , dự đoán xếp hạng sao mỗi chủ đề ẩn đồng thời liên hệ thông
tin thời gian cao điểm của nhà hàng, rút trích thơng tin chi tiết thú vị và chắc chắn hữu
ích cho chủ nhà hàng.
(Ruhui Shen, et al,2016) xây dựng các mơ hình hồi quy tuyến tính, hồi quy LASSO ,
hồi quy học máy vector (SVM) và thƣớc đo RMSLE để tiên lƣợng và trích lọc các bình
luận hữu ích dựa trên cơ sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống kê, phổ
biến và khác các tính năng định tính đƣợc trích từ ngƣời dùng, doanh nghiệp.

16


Trong nghiên cứu này, chúng tôi tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây dựng
mơ hình hồi quy logistic phân loại cảm xúc.(2) trích xuất thơng tin các bình luận quan
trọng chứa cảm xúc tốt nhất và tệ nhất ẩm thực theo quốc gia.

TT

Tiêu đề

Giải quyết vấn


Phƣơng pháp

đề

1

RuiXia,

Dịch chuyển

Các quy tắc

FengXu et

phân cực cảm

PSDEE và

al (2016)

xúc

phƣơng pháp

Bộ

Độ chính

dữ liệu


xác

Movie Reivew

87.1%

Hạn chế

Độ chính xác
chƣa cao

thống kê
2

V.K

Dịch chuyển

Từ điển cảm

SWN(AC

Khó mở rộng

Singh,

phân cực cảm

xúc


C)

từ điển,

R.Piryani

xúc và độ

=77.6%

khơng xác

et al

chính xác

SWN(AA

định đƣợc

AVC)-

ngữ cảnh.

Movie Reivew

78.7%
Alchemy=
77.4%


3

Y. Ainur,

Kết hợp trích

Y. Yisong

xuất các câu

ánh mức độ

et al (2010)

hữu ích làm cơ

cảm xúc chỉ

sở phân loại

có tích cực

cảm xúc ở

và tiêu cực

SVM

Movie Reviews


92.2%

Khơng phản

mức tài liệu
4

A. Basant,

dựa trên các

Ontology,

restaurant

M. Namita

thơng tin phổ

ConcepNet

review

biến và ngữ

80.1%

Khó mở rộng
ontology cho
các domain

17


cảnh
5

TripAdvisor

Chỉ mới thực

Hao chen

Topic

POSLDA,

Zhou and

modelling,

Maximum

hiện cho

Fei Song

Lựa chọn các

Entropy


unigram

95%

đặc trƣng, chia classifier
tách ngữ nghĩa
và cú pháp câu
6

Huang, J.,

Phát hiện chủ

Latent

Rogers, S.,

đề phụ - Topic

Dirichlet

& Joo

modelling

Allocation

Yelp

Không đề


Chỉ thực

cập

hiện unigram

RMSLE of

Không phát

0.47769

hiện ngữ

(LDA)

7

Ruhui

Dự đốn và

Mơ hình

Shen,

trích lọc các

tuyến tính


Jialiang

bình luận hữu

Locally

cảnh bình

Shen,

ích cho các

Weighted

luận

Yuhong Li

nhà hàng địa

Regression

phƣơng

(LOESS)

Yan

Các vấn đề


Kỹ thuật

Zhao,Hong

chuyển đổi cú

lei, et al

pháp câu

(2016)

8

(2015)

Yelp

No_comp

Kỹ thuật

cộng hƣởng

_ssc=

cộng hƣởng

cảm xúc


88.78%

cảm xúc

trƣớc khi

Manual_c

chƣa đạt độ

thực hiện

omp_ssc=

chính xác

phân tích

88.5%

cao

Chinese blog

cảm xúc
Bảng 1. So sánh các hƣớng tiếp cận phân tích cảm xúc

18



Trong nƣớc, Nhóm tác giả Huong Nguyen Thi Xuan, Anh Cuong Le, (2012) [15]
thực hiện phân loại câu văn chứa xúc cảm hay không chứa cảm xúc dựa trên 22
mẫu phân tích trên mẫu cơ sở cú pháp (syntax-based patterns). Phƣơng pháp phân
tích của các tác giả [15] dựa vào phân tích từ vựng để xác định từ loại từ trong câu
văn bản và sử dụng mẫu cú pháp để nhận dạng tính từ, cụm tính từ tƣơng ứng; trợ
động từ, động từ và cụm động từ; danh từ và cụm danh trên cơ sở cú pháp mà các
tác giả đề xuất để thực hiện trích xuất.

2.2 Phƣơng pháp rút trích thơng tin
Trích xuất thơng tin là tìm ra các thông tin cấu trúc, thông tin cần thiết từ
một tài liệu, trong khi truy vấn thơng tin là tìm ra các tài liệu liên quan, hoặc một
phần tài liệu liên quan từ kho dữ liệu nhƣ thƣ viện số hoặc nguồn tài liệu online để
phản hồi cho ngƣời dùng tùy vào một truy vấn cụ thể.
Các cơng trình nghiên cứu truy vấn và rút trích thơng tin hiện nay hƣớng tới các
phƣơng pháp tối ƣu nhằm cho kết quả phản hồi tốt hơn, gần đúng hoặc đúng với
nhu cầu ngƣời dùng và tập trung vào các hƣớng sau.
Rút trích các thuật ngữ (Terminology extraction): tìm kiếm các thuật
ngữ chính có liên quan, thể hiện ngữ nghĩa, nội dung, chủ đề tài liệu hay một tập
các tài liệu.
Rút trích các thực thể (named entity recognition): việc rút trích ra các
thực thể tập trung vào các phƣơng pháp nhận diện các đối tƣợng, thực thể nhƣ: tên
ngƣời, tên công ty, tên tổ chức, một địa danh, nơi chốn.
Rút trích quan hệ (Relationship Extraction): cần xác định mối quan hệ
giữa các thực thể đã nhận biết từ tài liệu.

19


2.2.1 Trích rút cụm từ

Turney (2000) đƣợc xem là ngƣời đầu tiên giải quyết bài tốn rút trích các
keyphrase dựa trên phƣơng pháp học giám sát [13], trong khi các nghiên cứu khác
dùng heuristic, kỹ thuật phân tích n-gram, phƣơng pháp nhƣ mạng Neural. KEA
[14] là một thuật tốn trích xuất các cụm từ khóa (keyphrases) từ dữ liệu văn bản.
KEA xác định danh sách các cụm ứng viên dùng các phƣơng pháp từ vựng học,
sau đó tiến hành tính toán giá trị đặc trƣng cho mỗi ứng viên, tiếp đến dùng thuật
toán học máy để tiên đoán xem các cụm ứng viên nào là các cụm từ khóa. Hiện
nay KEA đƣợc xem là một thuật toán đơn giản và hiệu quả nhất để rút các
keyphrases. KEA dùng phƣơng pháp học máy Nạve Bayes để huấn luyện và rút
trích các keyphrase.
2.2.2 Rút trích dựa trên nhận dạng thực thể
Nhận diện thực thể có tên (NER-Named Entity Recognition) là một cơng việc
thuộc lĩnh vực trích xuất thơng tin nhằm tìm kiếm, xác định và phân lớp các thành
tố trong văn bản khơng cấu trúc thuộc vào các nhóm thực thể đƣợc xác định trƣớc
nhƣ tên ngƣời, tổ chức, vị trí, biểu thức thời gian, con số, giá trị tiền tệ, tỉ lệ phần
trăm, v.v. Thực thể có tên (Named Entity) có rất nhiều ứng dụng, đặc biệt trong
các lĩnh vực nhƣ hiểu văn bản, dịch máy, truy vấn thông tin, và hỏi đáp tự động.
Nhận diện thực thể có tên gồm 2 tác vụ con sau đây.


Nhận diện thực thể có tên trong văn bản đầu vào.



Gán nhãn cho các thực thể có tên đã nhận diện đƣợc .

Nhận diện thực thể đơn ngữ
Nhận diện thực thể có tên trên đơn ngữ là hƣớng tiếp cận đầu tiên và đa dạng
nhất tính đến hiện nay. Sự đa dạng của nó nằm ở việc phát triển trên nhiều ngôn ngữ
đặc biệt là các ngôn ngữ khan hiếm tài nguyên nhƣ tiếng Việt, Hoa... Trong khi đó,

với các ngơn ngữ nhƣ tiếng Anh, việc nhận diện thực thể có tên đã đạt đƣợc độ
20


×