Tải bản đầy đủ (.pdf) (87 trang)

(Luận văn thạc sĩ hcmute) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.85 MB, 87 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

LUẬN VĂN THẠC SĨ
NGUYỄN THẾ BẢO

PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG
VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU

NGÀNH: KHOA HỌC MÁY TÍNH – 8480101

SKC006698

Tp. Hồ Chí Minh, tháng 05/2020

Luan van


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂT THÀNH PHỐ HỒ CHÍ MINH


LUẬN VĂN THẠC SỸ
NGUYỄN THẾ BẢO

PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT
SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU

NGÀNH: KHOA HỌC MÁY TÍNH – 8480101


Tp. Hồ Chí Minh, tháng 5/2020

Luan van


Luan van


Luan van


ii

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂT THÀNH PHỐ HỒ CHÍ MINH



LUẬN VĂN THẠC SỸ
NGUYỄN THẾ BẢO

PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT
SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU

NGÀNH: KHOA HỌC MÁY TÍNH – 8480101
Hướng dẫn khoa học:
TS. LÊ VĂN VINH

Tp. Hồ Chí Minh, tháng 5/2020


Luan van


iii

LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của riêng tôi.
Tất cả các số liệu và kết quả luận văn đều trung thực và chưa từng có ai cơng
bố trong các nghiên cứu khác.
Tp. Hồ Chí Minh, ngày 04 tháng 05 năm 2020
Học viên thực hiện

Nguyễn Thế Bảo

Luan van


iv

LỜI CẢM ƠN
Đề hoàn thành luận văn này, ngoài những nỗ lực nghiên cứu của bản thân, tôi
xin chân thành cảm ơn TS. Lê Văn Vinh người hướng dẫn khoa học, đã định hướng
đi cho đề tài của tôi. Những chỉ bảo, góp ý, đợng viên của thầy ln là nguồn cở vũ
tinh thần để tơi hồn thành đề tài.
Tơi cũng xin chân thành cảm ơn TS. Nguyễn Phương người đã định hướng
và hướng dẫn ban đầu cho tôi khi tơi thực hiện chun đề “Tìm hiểu giải thuật deep
learning”. Mặc dù không thể đồng hành cùng Thầy đi hết khóa luận, nhưng những
chỉ dẫn tận tình của Thầy trong suốt q trình xây dựng đề cương và hồn thành
chun đề là nguồn đợng lực lớn lao để tơi hồn thành đề tài.
Tôi xin chân thành cảm ơn các Thầy/Cô Khoa Công nghệ Thông tin – Đại học

Sư phạm Kỹ thuật Tp. Hồ Chí Minh đã truyền đạt cho chúng tơi những kiến thức quý
báu trong q trình học Cao học cũng như q trình hồn thiện luận văn này.
Tơi chân thành cảm ơn các bạn bè, anh chị em trong lớp cao học KHMT2017A
đã giúp đỡ, đóng góp ý kiến chia sẻ những kinh nghiệm học tập, nghiên cứu trong
suốt khóa học.
Mặc dù tơi đã cố gắng hồn thành luận văn trong phạm vi và khả năng cho
phép nhưng chắc chắn khơng tránh khỏi những thiếu sót. Xin kính mong nhận được
sự cảm thơng và tận tình chỉ bảo của quý Thầy Cơ và các bạn.
Tp. Hồ Chí Minh, ngày 04 tháng 05 năm 2020
Học viên thực hiện luận văn

Nguyễn Thế Bảo

Luan van


v

MỤC LỤC
LỜI CAM ĐOAN ..................................................................................................... iii
LỜI CẢM ƠN ............................................................................................................iv
MỤC LỤC ...................................................................................................................v
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ........................................... vii
DANH SÁCH BẢNG ............................................................................................. viii
DANH MỤC BIỂU ĐỒ .............................................................................................ix
DANH SÁCH HÌNH...................................................................................................x
TĨM TẮT ...................................................................................................................1
CHƯƠNG 1:

GIỚI THIỆU ...................................................................................4


1.1. Mục tiêu, đối tượng và phương pháp nghiên cứu ............................................4
1.1.1.

Mục tiêu .................................................................................................4

1.1.2.

Đối tượng nghiên cứu ............................................................................4

1.1.3.

Phạm vi nghiên cứu ...............................................................................4

1.2. Nghiên cứu liên quan .......................................................................................5
1.3. Vấn đề tồn tại ...................................................................................................6
1.4. Kết luận ............................................................................................................6
CHƯƠNG 2:

CƠ SỞ LÝ THUYẾT ......................................................................7

2.1. Tổng quan về xử lý ngôn ngữ tự nhiên ............................................................7
2.1.1.

Đặc trưng của ngôn ngữ tiếng Việt .........................................................7

2.1.2.

Công cụ tách từ vnTokenizer ..................................................................9


2.1.3.

Biểu diễn từ thành Vector đặc trưng sử dụng Word2vec......................11

2.1.4.

Cảm xúc người dùng (Sentiment) .........................................................13

2.2. Tởng quan về mơ hình mạng neuron .............................................................15
2.2.1.

Giới thiệu về mạng neuron ..................................................................15

2.2.2.

Cấu trúc và hoạt động của mạng neuron .............................................15

2.3. Các mơ hình học sâu ......................................................................................23
2.3.1.

Multi Layer Perceptron (MLP) ...........................................................24

2.3.2.

Convolutional Neuron Networks (CNN) ............................................25

Luan van


vi


2.3.3.

Recurrent neuron Networks (RNN) ....................................................27

2.3.4.

Long short-term memory (LSTM) ......................................................29

2.4. Kết luận ..........................................................................................................34
CHƯƠNG 3:

XÂY DỰNG ỨNG DỤNG PHÂN LOẠI CẢM XÚC TRONG

CÂU BÌNH LUẬN TIẾNG VIỆT ............................................................................35
3.1. Phát biểu bài toán ...........................................................................................35
3.2. Mơ hình ứng dụng xử lý văn bản tiếng Việt ..................................................35
3.3. Các giai đoạn xử lý dữ liệu ............................................................................38
3.3.1.

Thu thập dữ liệu ..................................................................................38

3.3.2.

Giai đoạn tách từ sử dụng công cụ word_tokenier..............................38

3.3.3.

Gán nhãn dữ liệu .................................................................................40


3.3.4.

Biểu diễn câu bình luận thành các vector đặc trưng ...........................42

3.4. Quá trình huấn luyện sử dụng mơ hình LSTM ..............................................43
3.5. Kết luận ..........................................................................................................45
CHƯƠNG 4:

KẾT QUẢ THỰC NGHIỆM ........................................................46

4.1. Mơ hình thực nghiệm .....................................................................................46
4.2. Phương pháp đánh giá ....................................................................................47
4.3. Kết quả thực nghiệm ......................................................................................48
4.4. So sánh với các mơ hình huấn luyện khác .....................................................50
4.5. Giao diện người dùng.....................................................................................54
4.6. Nhận xét và đánh giá ......................................................................................57
4.7. Kết luận ..........................................................................................................57
KẾT LUẬN ...............................................................................................................58
1. Kết quả đạt được ............................................................................................58
1.1.

Về mặt lý thuyết ..................................................................................58

1.2.

Về mặt thực tiễn ..................................................................................58

2. Hạn chế...........................................................................................................58
3. Hướng phát triển ............................................................................................59
DANH MỤC CÁC TÀI LIỆU THAM KHẢO .........................................................60


Luan van


vii

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Viết tắt

Tiếng Anh

Tiếng Việt

AI

Artificial intelligence

Trí tuệ nhân tạo

LSTM

Long Short - Term Memory

Mạng bộ nhớ dài hạn - ngắn hạn

W

Weight

Trọng số


NLP

Natural Language Processing

Xử lý ngôn ngữ tự nhiên

CNN

Convolutional neural network

Mạng nơ-ron kết hợp

RNN

Recurrent Neural Network

Mạng nơ-ron hồi quy

MLP

Multi Layer Perceptron

Mạng nhiều tầng truyền thẳng

Luan van


viii


DANH SÁCH BẢNG
Bảng 2.1: Bảng thống kê chiều dài và số lượng từ được đo bằng âm tiết .................8
Bảng 2.2: Các hàm truyền cơ bản ............................................................................23
Bảng 3.1: Môi trường thực hiện thực nghiệm và dữ liệu .........................................37
Bảng 3.2: Bảng phân loại cảm xúc của người dùng theo điểm đánh giá .................41
Bảng 4.1: Các đợ đơ của thuật tốn LSTM ..............................................................49
Bảng 4.2: Tỉ lệ gán nhãn chính xác bằng các thuật tốn khác nhau ........................52
Bảng 4.3: Các đợ đơ của thuật toán MLP, CNN và CNN kết hợp LSTM ...............52

Luan van


ix

DANH MỤC BIỂU ĐỒ
Biểu đồ 3.1: Số lượng các bình luận tích cực và tiêu cực của bợ dữ liệu .................42
Biểu đồ 4.1: Đợ chính xác trong q trình huấn luyện với LSTM ...........................48
Biểu đồ 4.2: Hàm chi phí trong q trình huấn luyện với LSTM .............................48
Biểu đồ 4.3: Đợ chính xác mơ hình LSTM với k-fold=5 .........................................49
Biểu đồ 4.4: Hàm chi phí trong q trình huấn luyện mơ hình LSTM .....................50
Biểu đồ 4.5: Đợ chính xác của từng fold ..................................................................50
Biểu đồ 4.6: Đợ chính xác bằng các mơ hình huấn luyện khác nhau .......................53
Biểu đồ 4.7: Các độ đo của các mơ hình huấn luyện khác .......................................53

Luan van


x

DANH SÁCH HÌNH

Hình 2.1: Quy trình tách từ ......................................................................................11
Hình 2.2: Biểu diễn từ dưới dạng one-hot vector ....................................................12
Hình 2.3: Vector của từ được biểu diễn bằng ma trận trọng số ...............................13
Hình 2.4: Cấu trúc của mợt neuron sinh học điển hình............................................16
Hình 2.5: Cấu trúc của mợt neuron nhận tạo ...........................................................17
Hình 2.7: Mạng tự kết hợp .......................................................................................20
Hình 2.8: Mạng kết hợp khác kiểu ...........................................................................21
Hình 2.9: Mạng truyền thẳng ...................................................................................22
Hình 2.10: Mạng phản hồi ......................................................................................22
Hình 2.11: Mạng MLP tởng qt .............................................................................24
Hình 2.12: Mơ hình mạng neuron tích chập ............................................................25
Hình 2.13: Minh họa tích chập .................................................................................26
Hình 2.14: Phương thức Avarage Pooling và Max Pooling ....................................27
Hình 2.15: Q trình xử lý thơng tin trong mạng RNN [13] ...................................27
Hình 2.16: Mơ đun lặp lại trong mợt tiêu chuẩn RNN chứa mợt lớp duy nhất .......30
Hình 2.17: Mô đun lặp đi lặp lại trong một LSTM chứa bốn lớp tương tác ............30
Hình 2.18: Tế bào trạng thái LSTM .........................................................................31
Hình 2.19: Cởng trạng thái của mạng LSTM...........................................................31
Hình 2.20: LSTM focus f [14] ................................................................................32
Hình 2.21: LSTM focus I [14] .................................................................................33
Hình 2.22: LSTM focus c [14] ................................................................................33
Hình 2.23: LSTM focus o [14] .................................................................................34
Hình 3.1: Mơ hình huấn luyện bình luận văn bản Tiếng Việt .................................36
Hình 3.2: Các thơng tin câu bình luận thu thập trên các bài viết của trang thương
mại điện tử điện tử foody.vn .....................................................................................40
Hình 3.3: Giao diện đánh giá điểm của trang ......................41
Hình 3.4: Quá trình word embedding của 1 câu ......................................................43

Luan van



xi

Hình 3.5: Mơ hình huấn luyện LSTM ......................................................................44
Hình 3.6: Q trình huấn luyện dữ liệu dùng LSTM ...............................................45
Hình 4.1 :Quá trình gán nhãn dữ liệu câu bình luận bất kỳ .....................................46
Hình 4.2: Mơ hình huấn luyện MLP .......................................................................51
Hình 4.3: Mơ hình huấn luyện CNN ........................................................................51
Hình 4.4: Mơ hình huấn luyện kết hợp CNN và LSTM ..........................................52
Hình 4.5: Câu bình luận được gán nhãn cảm xúc Tích cực .....................................54
Hình 4.6: Kết quả “Tích cực” khi nhập bình luận vào thực nghiệm ........................54
Hình 4.7: Ví dụ về câu bình luận được gán nhãn “tích cực” từ thực nghiệm ..........55
Hình 4.8: Câu bình luận được gán nhãn cảm xúc Tiêu cực .....................................55
Hình 4.9: Kết quả “Tiêu cực” khi nhập bình luận vào thực nghiệm........................55
Hình 4.10: Ví dụ về câu bình luận được gán nhãn “tiêu cực” từ thực nghiệm ........56
Hình 4.11: Chức năng gán nhãn các câu bình luận cho mợt bài viết .......................56

Luan van


1

TĨM TẮT
Xã hợi ngày càng phát triển, u cầu của khách hàng đối với sản phẩm, dịch
vụ ngày càng cao, khơng chỉ là chất lượng mà cịn dịch vụ đi kèm. Do đó doanh
nghiệp ln mong muốn mang lại sự hài lịng tuyệt đối cho khách hàng của mình. Vì
vậy việc phân tích các phản hồi, đánh giá của người tiêu dùng đối với sản phẩm hoặc
dịch vụ nào đó là rất cần thiết. Chúng góp phần quan trọng trong việc xây dựng chiến
lược quản lý và phát triển thương hiệu.
Có rất nhiều các doanh nghiệp đã đầu tư chi phí trong việc khảo sát lấy ý kiến

người sử dụng về sản phẩm, dịch vụ thông qua các phiếu khảo sát, tham khảo ý kiến
người tiêu dùng. Sau đó các ấy sẽ được mang về để phân loại một cách thủ công. Việc
này gây mất rất nhiều thời gian, chi phí và nguồn lực của cơng ty, chưa kể đến sự hạn
chế về số lượng phiếu khảo sát. Thế nên việc tìm hiểu và phân tích tâm lí cũng như
quan điểm của người tiêu dùng là một trong những vấn đề được quan tâm hàng đầu
trong lĩnh vực xử lí ngôn ngữ tự nhiên.
Cảm xúc được định nghĩa là phản ứng của con người trước các sự kiện, hiện
tượng (kể cả bên trong hoặc bên ngoài cơ thể) - cái mà đối với mỗi con người sẽ có
ý nghĩa quan trọng khác nhau. Cảm xúc, tình cảm là vấn đề được nhiều nhà khoa học
quan tâm, nghiên cứu. Vì thế có nhiều quan điểm khác nhau về số lượng các loại cảm
xúc. Căn cứ vào tính chất của cảm xúc có thể chia cảm xúc thành 2 loại: cảm xúc tích
cực và cảm xúc tiêu cực. Căn cứ vào biểu hiện và nợi dung, chúng ta có thể chia cảm
xúc thành 6 loại cơ bản: vui, buồn, giận dữ, ngạc nhiên, ghét, sợ hãi. Từ những cảm
xúc cơ bản nhưng dưới sự tác đợng của các kích thích khác nhau trong những điều
kiện, hoàn cảnh khác nhau mà cảm xúc của con người cũng có lúc đan xen, pha lẫn
nhiều cảm xúc khác loại đặc biệt là chúng cùng tồn tại trong mợt thời điểm. Và chính
điều này đã tạo ra hàng loạt các cảm xúc khác.
Mạng xã hội phát triển rộng khắp, các thông tin về sản phẩm, dịch vụ được
nhiều người biết đến hơn. Các phản hồi cũng được cập nhật, chia sẻ liên tục từ người
dùng. Thông qua đây, các doanh nghiệp tở chức có thể tiếp cận trực tiếp với người
dùng mợt cách nhanh chóng và hiệu quả. Vì vậy việc phân tích các phản hồi trên một

Luan van


2

cách tự đợng, nhanh chóng, trực tiếp góp phần tiết kiệm chi phí, nguồn lực cho các
doanh nghiệp và hơn thế nữa, chúng giúp cho việc định hướng và xây dựng các chiến
lược trở nên dễ dàng, hiệu quả hơn.

Để có cái nhìn chính xác hơn về các nợi dung bình luận hoặc phản hồi thì việc
phân tích ngữ nghĩa của câu văn, đoạn văn là rất quan trọng, việc hiểu sai có thể ảnh
hưởng tới kết quả của các bước, các quyết định, các chiến lược tiếp theo. Câu văn hay
đoạn văn chính là mợt trong những cách thể hiện ngơn ngữ tự nhiên trên hình thức
văn bản. Vì vậy việc xử lý ngôn ngữ tự nhiên là một phần của trí tuệ nhân tạo tập
trung vào các ứng dụng trên ngơn ngữ của con người. Trong trí tuệ nhân tạo thì việc
xử lý ngơn ngữ tự nhiên là mợt trong những phần khó khăn nhất vì nó liên quan đến
việc phải hiểu được ý nghĩa của ngôn ngữ. Để thực hiện được những ứng dụng mang
tính trí tuệ ưu việt, thì phương pháp máy học đã được áp dụng mợt cách linh hoạt.
Máy học có lịch sử phát triển với những bước sơ khai từ năm 1950 do nhà bác học
Alan Turing khởi sáng, là nơi mà các thuật tốn máy tính được sử dụng để tự học từ
dữ liệu. Đến nay, công nghệ Máy học đã thực sự lan tỏa rợng khắp và đóng mợt vai
trị quan trọng trong các phát minh và ứng dụng công nghệ của đời sống con người.
Máy học đã được áp dụng rất nhiều trong các ngành cơng nghiệp có sử dụng dữ liệu
lớn: Các dịch vụ tài chính, Chính phủ, chăm sóc sức khỏe, dầu khí, vận tải,…Với
mong muốn được tiếp cận và nghiên cứu sâu hơn về lĩnh vực Máy học, tôi chọn đề
tài: “Phân loại cảm xúc trong văn bản tiếng Việt sử dụng phương pháp học sâu” với
hy vọng đóng góp mợt phần cơng sức của mình đưa thuật ngữ Máy học đến gần hơn
nữa với người dùng.
Luận văn được trình bày theo bố cục từng chương như sau:
Chương 1: Giới thiệu - Là chương mở đầu của luận văn nhằm giới thiệu và
tập trung xem xét một cách tởng quan về bài tốn phân loại cảm xúc người dùng. Từ
đó giúp chúng ta có mợt cái nhìn sơ lược về bài toán, những thách thức cũng như khó
khăn khi nghiên cứu lĩnh vực này.
Chương 2: Cơ sở lý thuyết - Nợi dụng chương này trình bày tởng quan về xử
lý ngôn ngữ tự nhiên, tổng quan về mạng neuron, các khái niệm liên quan đến mô

Luan van



3

hình học sâu. Đặc biệt là mơ hình mạng LSTM (Long short-term memory) là mơ hình
sẽ được dùng để tiến hành thực nghiệm.
Chương 3: Xây dựng ứng dụng xử lý văn bản tiếng Việt – Chương này mô
tả chi tiết các bước để giải quyết bài toán phân loại cảm xúc người dùng trong trang
thương mại điện tử foody.vn.
Chương 4: Kết quả thực nghiệm - Trong chương này, luận văn đã trình bày
chi tiết kết quả thực nghiệm cũng như so sánh với những mơ hình huấn luyện khác.
Ngồi ra, chương 4 cịn trình bày 2 chức năng ứng dụng thực tiễn đã xây dựng được
nhằm giúp người dùng có thể phân loại cảm xúc các câu bình luận mợt cách dễ dàng.

Luan van


4

CHƯƠNG 1:

GIỚI THIỆU

1.1. Mục tiêu, đối tượng và phương pháp nghiên cứu
1.1.1. Mục tiêu
Với sự phát triển mạnh mẽ của mạng xã hợi, diễn đàn, báo chí, các doanh nghiệp
có thể tiếp cận với các phản hồi của khách hàng về sản phẩm của họ mợt cách nhanh
chóng và dễ dàng. Thay vì trước đây, các cơ quan doanh nghiệp phải thực hiện lấy ý
kiến người tiêu dùng bằng các bản khảo sát ý kiến trên giấy sẽ mất nhiều thời gian,
cơng sức và tài chính.
Thu thập thơng tin phản hồi, đánh giá của khách hàng là một cách tuyệt vời giúp
cho các doanh nghiệp hiểu được điểm mạnh, điểm yếu trong sản phẩm, dịch vụ của

mình; đồng thời nhanh chóng nắm bắt được tâm lý và nhu cầu khách hàng để mang
đến cho họ sản phẩm, dịch vụ hoàn hảo nhất. Nhằm giúp các doanh nghiệp tổng hợp
các ý kiến đánh giá mợt cách nhanh chóng, rõ ràng, luận văn thực hiện đề tài “Phân
loại cảm xúc trong văn bản tiếng Việt sử dụng phương pháp học sâu”.
Mục tiêu chung của luận văn: Đề xuất mơ hình phân loại các câu bình luận,
nhận xét, phản hồi của người dùng về một sản phầm hay dịch vụ trong lĩnh vực ăn
uống; Mục tiêu cụ thể là phân loại các câu bình luận thành 2 nhóm: Tích cực và tiêu
cực.

1.1.2. Đối tượng nghiên cứu
Đối tượng nghiên cứu của luận văn là tập trung khai phá phân loại cảm xúc của
người dùng dựa trên các bình luận vào các địa điểm ăn uống hoặc dịch vụ. Dữ liệu
thu thập là những bình luận của người dùng. Luận văn tập trung vào biểu diễn từ
thành vector đặc trưng sử dụng word2vec và xử lý dữ liệu của các thuật toán học máy,
đi sâu hơn vào nghiên cứu thuật toán LSTM.

1.1.3. Phạm vi nghiên cứu
Chương trình thực nghiệm của luận văn được thực hiện trong phạm vi nghiên
cứu các ứng dụng xử lý văn bản tiếng Việt, cụ thể hơn là các bình luận về lĩnh vực ăn
uống hoặc dịch vụ bằng tiếng Việt.

Luan van


5

1.2. Nghiên cứu liên quan
Khoa học kỹ thuật ngày càng phát triển, khái niệm trí tuệ nhân tạo đã khơng
cịn lạ lẫm với người dùng, các cơng trình nghiên cứu, các sản phẩm được cho ra đời
và cải tiến liên tục. Về lĩnh vực nghiên cứu liên quan đến ngôn ngữ tiếng Việt như:

Nhận dạng giọng nói, chữ viết tay, phân loại cảm xúc người dùng có thể kể ra mợt số
cơng trình nghiên cứu trong và ngồi nước như sau:
-

Wawre và cộng sự [15] đã nghiên cứu xây dựng mợt mơ hình phân loại

cảm xúc các bình luận của phim. Mỗi bình luận sẽ đại diện cho cảm xúc của người
dùng lúc đó và được phân vào mợt trong hai lớp “Cảm xúc tích cực” hay “Cảm xúc
tiêu cực”. Nghiên cứu đánh giá, so sánh, tính hiệu quả của hai bộ phân loại SVM và
Naive Bayes. Theo kết quả Wawre đưa ra, mơ hình SVM có đợ chính xác là 45.71%
và mơ hình Naive Bayes có đợ chính xác là 65.57%; Duyu Tang và cộng sự [6] nghiên
cứu đi xây dựng mơ hình phân loại ý kiến cho từng bình luận trên Twitter theo hướng
quan điểm tích cực hay tiêu cực. Luận văn cũng nêu ra rằng thuật toán sentiment
specific word embedding (SSWE) mang lại đợ chính xác tốt nhất là 77.3%.
-

Phương và cộng sự [8] đã đề xuất phương pháp tách từ tiếng Việt với

đợ chính xác 97%. Nghiên cứu của Phương và các cợng sự góp phần đắc lực vào lĩnh
vực nghiên cứu liên quan đến xử lý ngôn ngữ và văn bản tiếng Việt; Lưu Tuấn Anh
[2] đã đề xuất xây dựng một phần mềm thêm dấu cho tiếng Việt dựa vào từ và âm
tiết. Tác giả đề xuất phương pháp mới tiến hành thêm dấu ở từng âm tiết mợt cách
đợc lập. Đợ chính xác của phương pháp này lên đến 94.7%; Nguyễn Thái Ân [7] đã
đề xuất xây dựng mợt mơ hình phân loại cảm xúc người dùng trong mạng xã hội
Twitter, đồng thời dựa vào phân tích để phân loại các chia sẻ thành các loại (N negative – tệ, Neu – neutral – bình thường, P – positive – tốt) bằng các mơn hình
CNN, RNN, mơ hình kết hợp giữa CNN và RNN (xử lý song song và xử lý tuần tự)
với đợ chính xác 64.2%. Mơ hình mạng neural kết hợp giữa CNN và RNN luôn cho
kết quả tốt nhất; Phạm Hùng [11] đề xuất mơ hình LSTM trong bài tốn trích xuất
thơng tin quan điểm đối với 2 tập dữ liệu tiếng Anh và tiếng Việt. Tập dữ liệu tiếng
Anh có đợ chính xác là 82.76% và tập dữ liệu tiếng Việt có đợ chính xác là 43.7%.


Luan van


6

Và rất nhiều các cơng trình nghiên cứu khác có liên quan tới vấn đề xử lý ngôn
ngữ tự nhiên Tiếng Việt nói chung và bài tốn phân loại cảm xúc nói riêng.

1.3. Vấn đề tồn tại
- Nợi dung bình luận, tán gẫu trên mạng xã hội của người dùng có số ký tự khá
ngắn, thường chỉ mợt đến hai câu; Cảm xúc của người dùng sẽ bị chi phối bởi nội
dung người dùng đang đọc, nghe hoặc tâm trạng của họ trước đó. Nên việc phân loại
cảm xúc người dung trong mạng xã hội là một thách thức.
- Các ký tự cảm xúc (emoticons) trên mạng xã hội khá đa dạng, có nhiều loại
ký tự được thay đởi liên tục. Điều này gây khó khăn trong việc nắm bắt những biểu
tượng cảm xúc đó thể hiện cho tâm trạng nào.
- Trong mạng xã hội, nội dung do người dùng viết ra khơng phải là văn bản
chính thống nên từ ngữ bị viết tắt hoặc biến tướng đi rất nhiều, thậm chí là sai chính
tả. Ngơn ngữ viết mang tính chất đa dạng, phụ thuộc vào cách viết của mỗi người
dùng, nên việc nhận biết, chuyển đổi chúng sang cảm xúc khơng thể chính xác tuyệt
đối.
- Đối với bài tốn phân loại cảm xúc người dùng, ý kiến của người dùng là về
mợt sự vật hiện tượng được nói đến trong chính nợi dung câu đó. Nhưng trong vấn
đề khai phá cảm xúc, thì đối tượng nói tới khơng hẳn là có sẵn. Ví dụ: “Bài hát này
rất hay, mỗi lần nghe nó tơi lại cảm thấy buồn” thì đối tượng nói tới ở đây là “tơi”
chứ khơng phải là bài hát. Do đó việc nhận diện chính xác đối tượng cũng là một
thách thức lớn.
1.4. Kết luận
Đây là chương mở đầu của luận văn nhằm giới thiệu và tập trung xem xét mợt

cách tởng quan về bài tốn phân loại cảm xúc người dùng. Điều này giúp chúng ta có
mợt cái nhìn sơ lược về bài tốn, những thách thức cũng như khó khăn khi nghiên
cứu lĩnh vực này.

Luan van


7

CHƯƠNG 2:

CƠ SỞ LÝ THUYẾT

2.1. Tổng quan về xử lý ngôn ngữ tự nhiên
Ngôn ngữ tự nhiên là ngôn ngữ mà các lồi đợng sử dụng để giao tiếp với
nhau. Con người cũng là một loại động vật sử dụng ngôn ngữ để giao tiếp. Thế giới
ngôn ngữ của con người rất phong phú, theo thống kê của các nhà khoa học thì có tới
hàng ngàn ngơn ngữ tồn tại trên trái đất. Ngơn ngữ tự nhiên có 2 dạng là chữ viết (ký
tự) và âm thanh (tiếng nói). Ngơn ngữ của mỗi dân tộc, quốc gia lại khác nhau bao
gồm cách viết và cách phát âm.
Xử lý ngôn ngữ tự nhiên (Natural Language Processing – viết tắt là NLP) là
mợt nhánh của trí tuệ nhân tạo tập trung vào việc nghiên cứu sự tương tác giữa máy
tính và ngơn ngữ tự nhiên của con người. Mục tiêu của lĩnh vực này là giúp máy tính
hiểu và thực hiện hiệu quả những nhiệm vụ liên quan đến ngôn ngữ của con người
như: tương tác giữa người và máy nhằm nâng cao hiệu quả xử lý văn bản và tiếng
nói [19].
Xử lý ngơn ngữ chính là xử lý thơng tin khi đầu vào là “dữ liệu ngơn ngữ”
gồm có dữ liệu “văn bản” hay “tiếng nói”. Đặc điểm chính của các kiểu dữ liệu này
là khơng có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôn
dạng cố định như các bảng biểu. Với sự ra đời và phổ biến của Internet, của sách báo

điện tử, của máy tính cá nhân, của viễn thơng, của thiết bị âm thanh, ai cũng có thể
tạo ra dữ liệu văn bản hay tiếng nói. Xử lý ngơn ngữ là mợt kĩ thuật quan trọng nhằm
giúp máy tính hiểu được ngơn ngữ của con người, qua đó hướng dẫn máy tính thực
hiện và giúp đỡ con người trong những cơng việc có liên quan đến ngơn ngữ như:
dịch thuật, phân tích dữ liệu văn bản, nhận dạng tiếng nói, tìm kiếm thông tin.

2.1.1. Đặc trưng của ngôn ngữ tiếng Việt
Trước khi đi sâu vào tìm hiểu đặc trưng của ngơn ngữ tiếng Việt, bài luận xin
giới thiệu một định nghĩa sau làm ví dụ về định nghĩa từ:
“Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm bền vững, hồn chỉnh,
có chức năng gọi tên, được vận dụng độc lập, tái hiện tự do trong lời nói để tạo
câu”.[4]

Luan van


8

Theo nghiên cứu và tổng hợp của Vietnam Lexicography Center, Tiếng Việt
có khoảng 40.181 từ, số âm tiết là 7.729 âm tiết. Trong đó có 81.55% các âm tiết
đồng thời là các từ đơn, 70.72% các từ ghép có 2 âm tiết, 13.59% các từ ghép có 3, 4
âm tiết, 1.04% các từ ghép có từ 5 âm tiết trở lên. [18]
Dưới đây là bảng thống kê chiều dài và số lượng từ được đo bằng âm tiết:
Bảng 2.1: Bảng thống kê chiều dài và số lượng từ được đo bằng âm tiết
Chiều dài
1
2
3
4
>=5

Tởng

Số lượng
6,303
28,416
2,259
2,784
419
40,181

Tỷ lệ (%)
15.69
70.72
5.62
6.93
1.04
100

Tiếng Việt có các phương thức cấu tạo như sau [4]:
Từ đơn:
Từ đơn, hay cịn gọi là từ có 1 âm tiết, là các từ được cấu tạo bởi 1 từ duy nhất,
ví dụ: Tôi, bạn, hoa, quả.
Từ ghép:
Từ ghép là các từ được tạo nên từ hai hoặc nhiều hơn hai từ. Giữa các từ có
mối quan hệ về nghĩa với nhau, vì thế ta cũng có các loại từ ghép khác nhau.
-

Từ ghép đẳng lập: Các thành phần cấu tạo từ có mối quan hệ bình đẳng với
nhau, ví dụ: đi đứng, ăn nói.


-

Từ ghép chính phụ: Các thành phần cấu tạo từ có mối quan hệ phụ tḥc
với nhau về nghĩa. Thành phần phụ sẽ có vai trị làm chun biệt hóa, tạo
sắc thái cho thành phần chính. Ví dụ: hoa hồng, đường sắt, áo xanh.

Từ láy:
Một từ được coi là từ láy khi các yếu tố cấu tạo nên có thành phần ngữ âm
được lặp lại, ví dụ: long lanh, lung linh.
Độ dài từ láy thay đổi từ 2 tiếng đến 4 tiếng. Nhưng trong tiếng Việt đa số là
từ láy hai tiếng.

Luan van


9

Ngồi ra, trong văn bản cịn có các thành phần sau:
-

Thành ngữ (cao chạy xa bay, tránh vỏ dưa gặp vỏ dừa…).

-

Quán ngữ (nói tóm lại, đáng chú ý là, mặt khác thì…).

-

Tên riêng (người, địa danh, tở chức).


-

Các dạng ngày – tháng – năm.

-

Các dạng số – chữ số – kí hiệu.

-

Dấu câu, dấu ngoặc.

-

Từ tiếng nước ngồi.

-

Chữ viết tắt.

2.1.2. Công cụ tách từ vnTokenizer
Với đầu vào là các văn bản tiếng Việt, sau khi sử dụng công cụ vnTokenizer
để tách từ bằng phương pháp so khớp cực đại và xử lý nhập nhằng ta sẽ thu được các
văn bản đã được tách từ, từ đó thu được bợ từ điển từ.
Tách từ là mợt q trình xử lý nhằm mục đích xác định ranh giới của các từ
trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn,
từ ghép… có trong câu. Đối với xử lý ngơn ngữ, để có thể xác định cấu trúc ngữ pháp
của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là phải xác
định được đâu là từ trong câu.
Trong tiếng Việt, dấu cách (khoảng trắng) không mang ý nghĩa phân tách các

từ mà chỉ mang ý nghĩa phân tách các âm tiết với nhau. Để thấy được tầm quan trọng
của việc tách từ, ta xét các ví dụ sau:
Ví dụ 1: Từ “Đất nước” được tạo ra từ 2 âm tiết “Đất” và “Nước”, cả 2 âm tiết
này đều có nghĩa riêng khi đứng đợc lập, nhưng khi ghép lại sẽ mang mợt nghĩa khác.
Ví dụ 2: "Xồi phun thuốc sâu khơng ăn." có thể được tách từ như sau, với ý
nghĩa hoàn toàn khác nhau:
Xoài / phun thuốc / sâu / khơng / ăn.
Xồi / phun / thuốc sâu / khơng / ăn.
Ví dụ 3: "Ăn cơm khơng được uống rượu." có thể được tách từ như sau:
Ăn / cơm / không / được / uống / rượu.

Luan van


10

Ăn / cơm khơng / được / uống / rượu.
Vì đặc điểm này, bài toán tách từ trở thành 1 bài tốn tiền đề cho các ứng dụng
xử lý ngơn ngữ tự nhiên khác như phân loại văn bản, tóm tắt văn bản, máy dịch tự
động…
Với ngôn ngữ Tiếng Việt, tḥc loại hình đơn lập, mang đặc điểm là từ Tiếng
Việt khơng biến đởi hình thái, ranh giới từ khơng được xác định mặc nhiên bằng
khoảng trắng. Tiếng Việt có đặc điểm là ý nghĩa ngữ pháp nằm ở ngoài từ, phương
thức ngữ pháp chủ yếu là trật tự từ và từ hư. Cho nên có trường hợp mợt câu có thể
có nhiều ngữ nghĩa khác nhau tuỳ vào cách ta tách từ như thế nào, gây nhập nhằng
về ngữ nghĩa của câu.
Sự nhập nhằng trong Tiếng Việt có thể chia thành 2 dạng như sau:


Nhập nhằng chồng chéo: Chuỗi “abc” được gọi là nhập nhằng chồng


chéo nếu như từ “ab”, “bc” đều xuất hiện trong từ điển tiếng Việt.
Ví dụ: “Ơng già đi nhanh q” thì chuỗi “ơng già đi” bị nhập nhằng chồng
chéo vì các từ “ơng già” và “già đi” đều có trong từ điển.


Nhập nhằng kết hợp: Chuỗi “abc” được gọi là nhập nhằng kết hợp nếu

như từ “a”, “b”, “ab” đều xuất hiện trong từ điển tiếng Việt.
Ví dụ: “Bàn tay ta làm nên tất cả” thì chuỗi “bàn tay” bị nhập nhằng kết hợp,
do các từ “bàn”, “tay”, “bàn tay” đều có trong từ điển.
Điều đó cho thấy, cơng việc tách từ trong Tiếng Việt khơng phải là chuyện dễ
dàng, vì nó tạo ra các câu có ngữ nghĩa hồn tồn khác nhau, gây ảnh hưởng đến chất
lượng huấn luyện mơ hình học.
vnTokenizer là cơng vụ tách từ Tiếng Việt được nhóm tác giả Lê Hồng
Phương, Nguyễn Thị Minh Huyền, Vũ Xuân Lương [8] phát triển dựa trên phương
pháp so khớp cực đại (Maximum Matching) với tập dữ liệu sử dụng là bảng âm tiết
tiếng Việt và từ điển từ vựng tiếng Việt với giả thiết: Những từ dài thường có đợ
chính xác cao hơn những từ ngắn. Phiên bản đầu tiên được viết từ năm 2001.
vnTokenizer có đợ chính xác là 97.33%.
Các tính năng chính của vnTokenizer:

Luan van


11

-

Tách các đơn vị từ vựng trong từ điển kèm thông tin từ loại.


-

Tách các dấu chấm câu, các ký hiệu chữ và số.

-

Tách các tên riêng, ngày tháng, các số (nguyên, thập phân).
Với đầu vào là các câu văn hay các văn bản, sau bước tách từ bằng phương

pháp so khớp cực đại sẽ thu được các đơn vị từ.
Quy trình thực hiện tách từ như hình 2.1:

Câu văn,
Văn bản

Tách từ

Các đơn vị
từ

Từ điển
Bảng âm
tiết

Hình 2.1: Quy trình tách từ

2.1.3. Biểu diễn từ thành Vector đặc trưng sử dụng Word2vec
Sử dụng bộ từ điển làm dữ liệu đầu vào, sau khi thực hiện chuyển đổi từ thành
vector bằng công cụ Word2vec, thu được đầu ra là bộ các vector từ, các vevtor này

được gọi là vector đặc trưng của từ. Với bợ các vector từ có thể thực hiện được nhiều
ứng dụng sau giai đoạn này, các ứng dụng có thể thực hiện như: Tìm từ gần nhau, tìm
vector đặc trưng của câu.
Đối với xử lý ngôn ngữ tự nhiên, việc biểu diễn mợt từ dưới dạng mợt vector
đóng vai trò cực kỳ quan trọng. Giai đoạn này giúp ích rất nhiều trong việc tìm từ gần
nghĩa, trái nghĩa, mơ phỏng câu, thậm chí là tìm các câu có nghĩa tương đồng.
Word2vec là một trong những phương pháp đơn giản và dễ hiểu.

Luan van


×