ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
NGUYỄN ĐĂNG THÀNH
PHÂN TÍCH CẢM XÚC TRONG GIÁO DỤC
ĐẠI HỌC QUA CÁC THÔNG TIN TIẾNG VIỆT
TRÊN WEB
LUẬN VĂN THẠC SĨ
NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 60 48 01 01
TP HỒ CHÍ MINH – 2016
ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
---------------------------------------------------------
NGUYỄN ĐĂNG THÀNH
PHÂN TÍCH CẢM XÚC TRONG GIÁO DỤC
ĐẠI HỌC QUA CÁC THÔNG TIN TIẾNG VIỆT
TRÊN WEB
LUẬN VĂN THẠC SĨ CAO HỌC
NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 60 48 01 01
HƯỚNG DẪN KHOA HỌC:
PGS. TS. ĐỖ PHÚC
TP HỒ CHÍ MINH - 2016
LỜI CẢM ƠN
Tôi xin chân thành cảm ơn sâu sắc đến PGS. TS Đỗ Phúc là người nhiệt tình
hướng dẫn tôi hoàn thành luận văn này. Trong thời gian hướng dẫn Thầy luôn quan
tâm, chỉ bảo kịp thời là nguồn động viên quý báu đối với tôi để xây dựng hoàn
thành luận văn này.
Tiếp theo, tôi chân thành gửi đến các Thầy cô công tác tại khoa Khoa học máy
tính và khoa Sau Đại học, các Thầy trực tiếp giảng dạy lớp Khoa học máy tính cao
học khóa 8 đã cung cấp những kiến thức nền tảng để tôi áp dụng vào luận văn.
TP. Hồ Chí Minh, Ngày 22 tháng 04 năm 2016
Học viên
Nguyễn Đăng Thành
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này do cá nhân tôi hoàn toàn thực hiện được, các
tài liệu tham khảo đều trích dẫn rõ ràng về nguồn gốc khoa học và mang tính hợp
pháp.
Tôi xin hoàn toàn chịu trách nhiệm các hình thức kỷ luật theo quy định theo
lời cam đoan trên.
TP. Hồ Chí Minh, Ngày 22 tháng 04 năm 2016
Học viên
Nguyễn Đăng Thành
MỤC LỤC
MỤC LỤC ...................................................................................................................1
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT .......................................................4
DANH MỤC CÁC BẢNG..........................................................................................5
DANH MỤC HÌNH VẼ, ĐỒ THỊ ..............................................................................6
MỞ ĐẦU .....................................................................................................................8
Chương 1 : TỔNG QUAN ........................................................................................10
1.1
Giới thiệu .....................................................................................................10
1.2
Thách thức ...................................................................................................11
1.3
Tình hình nghiên cứu ...................................................................................11
1.3.1
Ngoài nước ............................................................................................11
1.3.2
Trong nước ............................................................................................12
1.4
Tính khoa học và tính mới của đề tài ..........................................................12
1.4.1
Tính mới................................................................................................12
1.4.2
Những hạn chế và vấn đề cần giải quyết ..............................................13
1.4.3
Tính cấp thiết của luận văn ...................................................................13
1.4.4
Lợi ích khoa học và thực tiễn nếu hoàn thành nghiên cứu ...................13
1.5
Mục tiêu, đối tượng và phạm vi nghiên cứu luận văn cần hướng tới, khả
năng giải quyết .......................................................................................................14
1.5.1
Mục tiêu của luận văn ...........................................................................14
1.5.2
Đối tượng nghiên cứu ...........................................................................14
1.5.3
Phạm vi nghiên cứu ..............................................................................14
1
Chương 2 : CƠ SỞ LÝ THUYẾT .............................................................................15
2.1
Giới thiệu .....................................................................................................15
2.2
Tiền xử lý dữ liệu .......................................................................................15
2.3
Rút trích đặc trưng văn bản .........................................................................16
2.3.1
Phương pháp rút trích dựa vào tần số (Term Frequency) .....................16
2.3.2
Phương pháp tần số nghịch đảo (Term Frequency – Inverse Document
Frequency) ..........................................................................................................16
2.4
Mô hình vector.............................................................................................17
2.5
Mô hình chủ đề (Topic Modeling) ..............................................................18
2.6
Mô hình Latent Dirichlet Allocation ...........................................................18
2.7
Lấy mẫu Gibbs cho LDA.............................................................................21
2.8
Các phương pháp phân loại văn bản ...........................................................24
2.8.1
Phương pháp Naïve Bayes ....................................................................24
2.8.2
Phương pháp Support Vector Machine ................................................26
2.9
Phân lớp cảm xúc.........................................................................................30
2.9.1
Phân lớp cảm xúc mức tài liệu ..............................................................31
2.9.2
Phân lớp cảm xúc mức câu ...................................................................32
2.9.3
Phân lớp cảm xúc mức khía cạnh .........................................................32
2.9.4
Tổng hợp quan điểm .............................................................................34
Chương 3 : HƯỚNG TIẾP CẬN VÀ GIẢI PHÁP...................................................36
3.1
Giới thiệu .....................................................................................................36
3.2
Các phương pháp nền ..................................................................................36
3.3
Hướng tiếp cận ............................................................................................37
3.3.1
Hướng tiếp cận từ điển cảm xúc ...........................................................37
3.3.2
Hướng tiếp cận máy học kết hợp từ điển ..............................................38
3.3.3
Nhận xét về 2 hướng tiếp cận ...............................................................38
2
3.4
Giải pháp đề xuất .........................................................................................38
3.4.1
Tiền xử lý ..............................................................................................40
3.4.2
Tìm chủ đề ẩn .......................................................................................40
3.4.3
Tập từ điển cảm xúc tiếng Việt .............................................................43
3.4.4
Phân lớp chủ quan .................................................................................48
3.4.5
Phân lớp cảm xúc ..................................................................................54
3.4.6
Tổng hợp quan điểm .............................................................................59
Chương 4 : THỰC NGHIỆM VÀ XÂY DỰNG CHƯƠNG TRÌNH .......................60
4.1
Giới thiệu .....................................................................................................60
4.2
Xây dựng chương trình ................................................................................60
4.2.1
Cở sở dữ liệu .........................................................................................60
4.2.2
Cấu hình phần cứng ..............................................................................63
4.2.3
Các phần mềm được sử dụng................................................................64
4.2.4
Tổ chức mã nguồn chương trình ...........................................................65
4.3
Kết quả thực nghiệm....................................................................................79
4.4
Đánh giá chương trình .................................................................................82
Chương 5 : KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .............................................83
TÀI LIỆU THAM KHẢO .........................................................................................85
PHỤ LỤC ..................................................................................................................87
3
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
LDA: Latent Dirichlet Allocation
LR: Likelihood Ratio
NB: Naïve Bayes
POS: Part Of Speech
SVM: Support Vector Machine
TBL: Transformation – based Learning
TF: Term Frequency
TF-IDF: Term Frequency – Inverse Document Frequency
SA: Sentiment Analysis
OP: Opinion Mining
MAP: Maximum A Posterior
MLE: Maximum Likelihood Estimation
4
DANH MỤC CÁC BẢNG
Bảng 3.1 Số lượng tin tức ứng với mỗi chủ đề huấn luyện. .....................................41
Bảng 3.2 Danh sách các từ loại trong tập từ điển cảm xúc .......................................44
Bảng 3.3 Đánh giá điểm số của những từ tích cực ...................................................44
Bảng 3.4 Đánh giá điểm số của những từ tiêu cực ...................................................45
Bảng 3.5 Danh sách một vài tính từ và điểm cảm xúc của các tính từ đó. ...............45
Bảng 3.6 Danh sách một vài danh từ và điểm cảm xúc của các danh từ đó. ............46
Bảng 3.7 Danh sách một vài trạng từ và điểm cảm xúc của các trạng từ đó. ...........46
Bảng 3.8 Danh sách một vài động từ và điểm cảm xúc của các động từ đó.............47
Bảng 3.9 Danh sách một vài từ tăng cường và điểm cảm xúc các từ tăng cường. ...47
Bảng 3.10 Các bước thực hiện trong việc phân lớp chủ quan. .................................51
Bảng 3.11 Các bước tách từ ......................................................................................51
Bảng 3.12 Mô tả các bước phân loại chủ quan .........................................................52
Bảng 3.13 Mô tả các bước tách từ ............................................................................57
Bảng 4.1 Thông số phần cứng của hệ thống thử nghiệm ..........................................63
Bảng 4.2 Các phần mềm và môi trường được sử dụng trong thực nghiệm. .............64
Bảng 4.3 Các gói của chương trình thực nghiệm. .....................................................65
Bảng 4.4 Cấu trúc HTML của 1 trang báo VnExpress .............................................68
Bảng 4.5 Kết quả so sánh vnTokenizer và JvnTextPro ............................................71
Bảng 4.6 Thời gian chạy từng công đoạn của chương trình .....................................79
Bảng 4.7 Kết quả sau khi phân loại chủ đề ...............................................................80
Bảng 4.8 Độ chính xác phân lớp chủ quan. ..............................................................80
Bảng 4.9 Kết quả so sánh giữa phương pháp máy học kết hợp từ điển và từ điển
cảm xúc .....................................................................................................................81
Bảng 4.10 So sánh phương pháp đề xuất với các nghiên cứu trước .........................81
5
DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 2.1 Mô tả chi tiết các tham số của LDA trên văn bản (Blei et al, 2003)..........19
Hình 2.2 Giải thuật mô hình sinh ..............................................................................20
Hình 2.3 Lược đồ LDA (Blei, 2013) .........................................................................20
Hình 2.4 Giải thuật khởi tạo lấy mẫu Gibbs .............................................................22
Hình 2.5 Giải thuật lấy mẫu Gibbs ở chu kỳ burn-in ................................................23
Hình 2.6 Giải thuật kiểm tra độ hội tụ ......................................................................23
Hình 2.7 Giải thuật Naïve Bayes cho phân lớp cảm xúc ..........................................26
Hình 2.8 Đường kẻ phân tách tập dữ liệu .................................................................28
Hình 2.9 Các đường biên quyết định ........................................................................28
Hình 2.10 Giải thuật SVM cho phân lớp văn bản .....................................................29
Hình 3.1 Sơ đồ luồng của bài toán phân tích cảm xúc ..............................................39
Hình 3.2 Sơ đồ các bước tìm chủ đề của tập các bài báo..........................................42
Hình 3.3 Sơ đồ phân lớp chủ quan ............................................................................49
Hình 3.4 Giải thuật phân lớp chủ quan .....................................................................50
Hình 3.5 Sơ đồ phân lớp chủ quan bằng máy học kết hợp từ điển ...........................53
Hình 3.6 Sơ đồ phân lớp cảm xúc bằng từ điển ........................................................55
Hình 3.7 Thuật giải phân lớp quan điểm bằng từ điển cảm xúc. ..............................56
Hình 3.8 Sơ đồ phân lớp cảm xúc bằng máy học kết hợp từ điển ............................59
Hình 4.1 Lược đồ quan hệ của chương trình ............................................................60
Hình 4.2 Crawler lấy thông tin từ trang VnExpress .................................................66
Hình 4.3 Dữ liệu sau khi thu thập được trên trang VnExpress .................................67
Hình 4.4 Nội dung của 1 trang tin VnExpress ..........................................................68
Hình 4.5 Nội dung của các bình luận bạn đọc ..........................................................69
Hình 4.6 Quá trình duyệt từng thẻ html trong 1 trang VnExpress. ...........................70
Hình 4.7 Tập tin model-final.others ..........................................................................73
Hình 4.8 Tập tin model-final.phi...............................................................................73
Hình 4.9 Tập tin model-final.tassign ........................................................................74
Hình 4.10 Tập tin model-final.theta ..........................................................................74
6
Hình 4.11 Tập tin model-final.twords .......................................................................75
Hình 4.12 Tập tin wordmap.txt .................................................................................76
Hình 4.13 Phân lớp cảm xúc trên các bình luận .......................................................77
Hình 4.14 Kết quả tổng hợp quan điểm tuyển sinh với 15 ý kiến tiêu cực...............78
Hình 4.15 Kết quả tổng hợp quan điểm tuyển sinh với 3 ý kiến tích cực.................78
7
MỞ ĐẦU
Cùng với sự phát triển mạnh mẽ của mạng Internet, người dân có xu hướng
cập nhật thông tin thời sự, chính trị, khoa học, giáo dục thông qua các nguồn tài
nguyên như trên Internet như mạng xã hội, diễn đàn, báo điện tử. Tại đây, người
dân bày tỏ ý kiến, tâm tư nguyện vọng của mình bằng cách để lại những lời nhắn,
đoạn bình luận về một chủ đề nào đó.
Phân tích cảm xúc hay khai phá ý kiến đóng vai trò quan trọng trong việc phân
tích, tóm lược ý kiến của khách hàng về sản phẩm hay dịch vụ. Tác giả chọn đối
tượng để nghiên cứu phân tích cảm xúc và tóm lược ý kiến là các thông điệp theo
các chủ đề trong giáo dục đại học trên mạng gồm diễn đàn, mạng xã hội, các báo
điện tử. Qua diễn đàn và mạng xã hội, người dân bày tỏ quan điểm của mình về các
vấn đề giáo dục đại học. Từ kết quả phân tích, các nhà quản lý giáo dục có thể nắm
được ý kiến của xã hội đồng tình hay phê phán các chủ trương, chính sách, hoạt
động của trường đại học qua đó có thể cải tiến, nâng cao hiệu quả hoạt động của
nhà trường.
Luận văn tập trung vào việc xây dựng mô hình phân loại cảm xúc cho tiếng
Việt trên các báo điện tử, các bình luận của người dân bằng cách rút trích khía cạnh
bằng mô hình chủ để, sau đó sẽ tiến hành phân tích cảm xúc ứng với các khía cạnh
đó bằng các phương pháp máy học kết hợp với bộ từ điển cảm xúc tiếng Việt, cuối
cùng là tổng hợp quan điểm tương ứng với từng khía cạnh.
Bố cục luận văn gồm có 5 chương:
Chương 1: Tổng quan. Giới thiệu khái quát về mục tiêu của luận văn, những
thách thức, các công trình nghiên cứu liên quan, tính mới, tính khoa học của luận
văn, mục tiêu, phạm vi và đối tượng nghiên cứu của luận văn.
Chương 2: Cơ sở lý thuyết. Giới thiệu những lý thuyết về cảm xúc, xử lý văn
bản, các mô hình được dùng trong phân lớp cảm xúc và tổng hợp quan điểm.
8
Chương 3: Hướng tiếp cận và giải pháp. Chương này sẽ trình bày các phương
pháp được áp dụng vào bài toán phân lớp quan điểm trong luận văn như thu thập
dữ liệu, trích xuất khía cạnh, phân lớp chủ quan, phân lớp cảm xúc và tổng hợp
quan điểm.
Chương 4: Kết quả thực nghiệm của chương trình. Chương này sẽ chỉ ra kết
quả thực nghiệm sau khi áp dụng những phương pháp được đề xuất ở trong chương
3.
Chương 5: Kết luận và hướng phát triển trong tương lai. Chương này sẽ tổng
kết những gì mà luận văn đã đạt được như tính mới, tính khoa học và đề xuất những
hướng pháp triển mới trong tương lai.
9
Chương 1 : TỔNG QUAN
1.1 Giới thiệu
Hiện nay trên mạng Internet, thông qua các diễn đàn, mạng xã hội, các báo
điện tử như VnExpress, Vietnamnet,... người dân bày tỏ ý kiến về các vấn đề liên
quan đến giáo dục đại học. Ví dụ về vấn đề tăng học phí ở các trường đại học đăng
trên vnexpress ngày 23/03/2015, chúng ta có các thông tin mang tính cảm xúc như
sau:
-
“Tăng thế này thì nghỉ học đi làm luôn cho rồi! Mỗi năm một đợt tăng
học phí, trong khi nguồn thu nhập của người nông dân thì giảm xuống! Hỏi các
thầy cô em đóng học phí bằng lá cây ạ???”
-
“Đau lòng, chắc phải vất vả lắm. Nghĩ thế nào mà tăng học phí một cách
ghê gớm thế này..ai có thể hiểu nỗi khổ của sv khi mà phải đóng một cục tiền
như thế này,riêng học phí giờ còn cắn răng mà nộp..”
Rõ ràng các bình luận này ẩn chứa cảm xúc với tâm trạng bi quan về vấn đề
tăng học phí của trường đại học. Phân tích quan điểm (sentiment analysis) là hướng
nghiên cứu nhằm phát hiện các cảm xúc (lạc quan, bi quan) ẩn chứa trong các thông
tin trên mạng. Các bài toán chính của phân tích cảm xúc là: tìm tác giả biểu lộ cảm
xúc, tìm đối tượng mà tác giả muốn biểu lộ cảm xúc; phân loại cảm xúc, tóm lược ý
kiến.
Phân tích cảm xúc hay khai phá ý kiến đóng vai trò quan trọng trong việc phân
tích, tóm lược ý kiến của khách hàng về sản phẩm hay dịch vụ. Chúng tôi chọn đối
tượng để nghiên cứu phân tích cảm xúc và tóm lược ý kiến là các thông điệp theo
các chủ đề trong giáo dục đại học trên mạng gồm diễn đàn, mạng xã hội, các báo
điện tử. Qua diễn đàn và mạng xã hội, người dân bày tỏ quan điểm của mình về các
vấn đề giáo dục đại học. Từ kết quả phân tích, các nhà quản lý giáo dục có thể nắm
được ý kiến của xã hội đồng tình hay phê phán các chủ trương, chính sách, hoạt
động của trường đại học qua đó có thể cải tiến, nâng cao hiệu quả hoạt động của
nhà trường.
10
1.2 Thách thức
Hướng nghiên cứu còn mới, còn tồn động nhiều vấn đề cần giải quyết.
Phát hiện các ý kiến spam rất khó khăn, hiện nay để nhận ra ý kiến spam
chúng ta phải thực hiện bằng cách thủ công là đọc chúng.
Xác định một từ là tích cực hay tiêu cực phụ thuộc vào các miền ứng dụng
khác nhau.
Một câu chứa các từ quan điểm có thể không bày tỏ quan điểm.
Một vài câu không có những từ quan điểm cũng có thể bao hàm những ý
kiến.
Phát hiện những câu châm biếm có hoặc không có những từ ngữ bày tỏ quan
điểm.
Thông tin quan điểm trên các mạng xã hội, diễn đàn thường viết tắt, sai
chính tả, sai ngữ pháp, thiếu viết hoa, thiếu chấm câu.
Việc xử lý ngôn ngữ tiếng Việt vẫn còn nhiều khó khăn.
Giải pháp: Trong luận văn này sẽ sử dụng bộ từ điển cảm xúc, mô hình chủ
đề, các phương pháp xử lý ngôn ngữ tự nhiên để khắc phục những khó khăn về sự
khác biệt ngữ cảnh, miền ứng dụng, thông tin sai chính tả.
1.3 Tình hình nghiên cứu
1.3.1
Ngoài nước
Bing Liu [4] đã khám phá cảm xúc và khai phá ý kiến liên quan đến việc
nghiên cứu, đánh giá cảm xúc, thái độ, tâm lý đối tượng. Việc xuất hiện các diễn
đàn thảo luận, mạng xã hội, các ý kiến trao đổi đánh giá trên Web là nguồn thông
tin to lớn cho phép chúng ta phân tích thông tin và tìm ra các ý kiến đánh giá, và
cảm xúc của người dùng qua các phương tiện truyền thông xã hội. S. Padmaja [14]
đã tiến hành phân tích bài báo và xác định các mục tiêu; tách nội dung tin tốt và xấu
dựa trên cảm xúc tốt và xấu thể hiện trên các mục tiêu và quan điểm tường minh
trong bài báo. Alexandra Balahur et al [2] đã xác định phạm vi nghiên cứu của phân
tích cảm xúc là các văn bản chủ quan nhằm đánh giá ý kiến hoặc cảm xúc về đối
tượng nào đó. Alexander Pak et al [3] tập trung vào việc sử dụng phân tích cảm xúc
trên Twitter. Tác giả tự động thu thập một kho ngữ liệu cho mục đích phân tích cảm
11
xúc và khai thác ý kiến. Sau đó phân tích ngôn ngữ của kho ngữ liệu đã thu thập.
Tiếp đến tác giả xây dựng bộ phân lớp cảm xúc có khả năng xác định cảm xúc tích
cực, tiêu cực và trung lập cho một vản bản.
1.3.2
Trong nước
Đã có một số nghiên cứu bước đầu như: Kieu B.T., Pham S.B [11] tập trung
vào bài toán phân tích cảm xúc ở mức câu tiếng Việt và xây dựng một hệ dựa trên
luật dùng khung Gate. Tác giả thử nghiệm trên các ý kiến về sản phẩm máy tính.
Hong Nam Nguyen et al [12] trình bày cách khám phá các ý kiến của quần chúng từ
văn bản tiếng Việt bằng cách dùng từ điển cảm xúc để nâng cao độ chính xác. Võ
Ngọc Phú [15], Nguyễn Ngọc Duy [1] tập trung vào việc thu thập thông tin tự động
và phân loại theo hướng phân tích cảm xúc. Hai tác giả đã dựa trên từ điển cảm xúc
tiếng Việt do họ xây dựng và tiến hành phân tích cảm xúc các ý kiến tiếng Việt.
Bài báo của Hong Nam Nguyen thực hiện phân lớp cảm xúc chủ yếu dựa vào
bộ từ điển cảm xúc, việc phân lớp cảm xúc dựa vào các bình luận, đánh giá các sản
phẩm điện tử như điện thoại. Luận văn của Nguyễn Ngọc Duy chỉ tập trung vào
việc phân lớp cảm xúc ở mức câu, mức văn bản bằng phương pháp học máy. Trong
2 luận văn trên, việc phân lớp cảm xúc tập trung vào đối tượng là các bình luận để
tìm ra lớp tích cực và tiêu cực nhưng chưa trình bày phương pháp tìm các chủ đề
ẩn nhằm trích xuất các khía cạnh của cảm xúc. Trong luận văn của này, ngoài
việc phân lớp cảm xúc, tác giả xin trình bày thêm phương pháp tìm chủ đề ẩn, sau
đó phân lớp cảm xúc theo chủ đề đó.
1.4 Tính khoa học và tính mới của đề tài
1.4.1
Tính mới
Thông thường để phân tích ý kiến trên báo điện tử, người ta sẽ phân loại bài
báo thuộc về một nội dung nhất định. Sau đó, người ta phân tích cảm xúc các lời
bình luận theo nội dung đã được xác lập cho bài báo đó.
Trong luận văn này, tác giả đi sâu vào việc phân tích các chủ đề ẩn trong nội
dung bài báo, ví dụ một văn bản thuộc về nội dung đào tạo có thể bình luận đến các
chủ đề giáo dục như tuyển sinh, đào tạo, du học… Tác giả sử dụng mô hình LDA để
12
phát hiện các chủ đề này trong bài báo. Nhờ vậy việc phân tích cảm xúc, ý kiến có
thể tập trung vào các chủ đề nhỏ hơn trong văn bản.
1.4.2
Những hạn chế và vấn đề cần giải quyết
Mặc dù hướng nghiên cứu về khai phá quan điểm đã đạt được những bước tiến
đáng kể nhưng vẫn còn nhiều hạn chế và việc ứng dụng vào thực tế trong nước còn
gặp nhiều khó khăn do:
Sự khác biệt về môi trường, văn hóa, vùng miền, ngôn ngữ, ngữ cảnh dẫn
đến khó khăn trong việc nắm bắt quan điểm.
Các ý kiến, quan điểm phân tán cũng dẫn đến khó khăn trong việc thu thập.
Sử dụng các từ địa phương, tiếng lóng, ngôn ngữ tuổi teen nên vẫn còn gặp
nhiều khó khăn trong xử lý tiếng Việt, ngoài ra hiện tại vẫn chưa có bộ từ
điện từ điển chính thống về cảm xúc bằng tiếng Việt.
1.4.3
Tính cấp thiết của luận văn
Hiện nay việc thu thập thông tin tiếng Việt và phân tích cảm xúc của các thông
tin về các vấn đề liên quan đến giáo dục trên diễn đàn, mạng xã hội, báo điện tử là
vấn đề cấp thiết và thu hút sự quan tâm của toàn xã hội, ví dụ các vấn đề liên quan
đến thi cử, học phí, chương trình đào tạo, …
1.4.4
Lợi ích khoa học và thực tiễn nếu hoàn thành nghiên cứu
Xây dựng ứng dụng phục vụ trong môi trường giáo dục của các trường đại
học.
Xây dựng được bộ dữ liệu kiểm thử với nguồn dữ liệu là các trang báo điện
tử trong nước.
Mô hình LDA là một mô hình xác suất, nghiên cứu ứng dụng mô hình LDA
đòi hỏi các kiến thức về xác suất thống kê. Nghiên cứu về phân loại cảm xúc
đòi hỏi các kiến thức về phân lớp và xử lý ngôn ngữ tự nhiên. Do đó luận
văn vừa nghiên cứu học thuật, vừa có tính triển khai thực tiển.
13
1.5 Mục tiêu, đối tượng và phạm vi nghiên cứu luận văn cần hướng tới,
khả năng giải quyết
1.5.1
Mục tiêu của luận văn
Mục tiêu của đề tài là nghiên cứu, xây dựng hệ thống phần mềm hỗ trợ thu
thập thông tin các bài báo thuộc giáo dục đại học qua các thông tin tiếng Việt trên
mạng các trang báo điện tử sau đó xác định cảc chủ đề con của các bài báo, từ đó
phân tích cảm xúc theo các khía cạnh tiêu cực, tích cực trong các bình luận của bạn
đọc và tổng hợp quan điểm trên các bình luận đó.
1.5.2
Đối tượng nghiên cứu
Ý kiến từ các độc giả hoặc những người quan tâm đến giáo dục đại học trên Web.
Những thông điệp trên các trang báo điện tử tiếng Việt, điển hình là tờ VnExpress.
1.5.3
Phạm vi nghiên cứu
Những thông điệp tiếng Việt trên trang báo điện tử VnExpress.
14
Chương 2 : CƠ SỞ LÝ THUYẾT
2.1 Giới thiệu
Trong chương này, tác giả trình bày sơ lược cơ sở lý thuyết về máy học như
phân lớp Naïve Bayes, máy Support Vector Machine, mô hình chủ đề, mô hình
Latent Dirichlet Allocation và cách áp dụng những giải thuật này vào văn bản.
Ngoài ra, chương này cũng trình bày các sơ lược các phương pháp xử lý văn bản
như tách từ, biến đổi văn bản, gán nhãn từ loại.
2.2 Tiền xử lý dữ liệu
Tiền xử lý là bước đầu tiên và rất quan trọng khi phân tích các văn bản. Mục
đích của bước này là làm sạch dữ liệu. Nếu không thực hiện công đoạn tiền xử lý thì
kết quả khi phân lớp văn bản, xử lý ngôn ngữ tự nhiên sẽ không cao. Dưới đây là
một vài bước thực hiện:
Rút trích dữ liệu: thu thập dữ liệu là các văn bản trên các trang báo điện tử.
Tách ngữ: công đoạn này sẽ loại bỏ các ký tự đặc biệt (icon) vì những ký tự
này gây nhiễu khi xử lý ngôn ngữ tự nhiên.
Tách từ, gán nhãn từ loại: tách từ là bước quan trọng, sau đó dựa vào những
từ được tách tiến hành tiếp việc gán nhãn từ loại (POS Tagging).
Loại bỏ các hư từ (stop words): hư từ là những từ xuất hiện nhiều trong văn
bản. Tuy nhiên sự hiện diện của những từ này không quan trọng. Ví dụ:
“lúc_trước”,
“trước_lúc”,
“bao_nhiêu”,
“bấy_nhiêu”,
“trong_khi”,
“như_thế_nào”,… Trong tiếng Anh đã có rất nhiều bộ từ điển hư từ được
tích hợp trong các thư viện xử lý văn bản như ngôn ngữ như Java, Python
(NLTK), R. Riêng tiếng Việt cho tới thời điểm hiện tại vẫn chưa có bộ từ
điển hư từ chuẩn.
Loại bỏ thẻ trong Web như các thẻ <html>, các liên kết (link) và hình ảnh.
Loại bỏ các các ký tự nhiều hơn 2 khoảng trắng. Các khoảng trắng dư thừa
làm mất thời gian xử lý của chương trình trong bước tách từ, gán nhãn từ
loại.
15
2.3 Rút trích đặc trưng văn bản
Rút trích đặc trưng là bước không thể thiếu trong phân lớp văn bản. Mục đích
chính của rút trích đặc trưng là rút trích các từ trong tập văn bản sao cho những từ
được rút trích vẫn có thể đại diện cho văn bản và tập ngữ liệu.
2.3.1
Phương pháp rút trích dựa vào tần số (Term Frequency)
Phương pháp TF tính toán bằng cách đếm xem một từ xuất bao nhiêu lần trong
một văn bản. Vì mỗi văn bản có độ dài khác nhau, thế nên có khả năng rằng một từ
xuất hiện nhiều lần hơn trong văn bản này nhưng lại ít hơn trong văn bản khác.
Ví dụ: Ta có 2 văn bản A và B. Từ t có số lần xuất hiện là 5, nếu A có tổng số
từ là 50 và B có tổng số từ là 500. Do đó độ quan trong từ t thuộc văn bản A sẽ cao
hơn khi so với B.
Khuyết điểm của phương pháp này là không xét đến trường hợp một từ có thể
xuất hiện ở nhiều văn bản trong tập ngữ liệu.
Công thức tính tần suất của một từ trong tập văn bản được biểu diễn bởi công
thức (2.1)
2.3.2
Phương pháp tần số nghịch đảo (Term Frequency – Inverse
Document Frequency)
Phương pháp TF-IDF được sử dụng khá phổ biến. Với TF là tần số từ và IDF
là tần số nghịch đảo tài liệu. Có rất nhiều biến thể của phương pháp này, trong luận
văn tác giả xin trình bày ở mức độ cơ bản nhất.
Ta có N là tổng số tài liệu trong tập ngữ liệu và dfi là số lượng tài liệu mà từ ti
xuất hiện ít nhất một lần. Cho fij là tần số của từ ti trong tài liệu dj. Do đó, tfij của ti
trong dj được tính bởi công thức sau:
tfij
fij
max{ f1 j , f 2 j ,..., f|v| j }
16
(2.1)
Với giá trị lớn nhất (max) được tính toán trên tất cả các từ xuất hiện trong tài
liệu dj. Nếu từ ti không xuất hiện trong dj thì tfij = 0. |V| là số lượng từ trong tập ngữ
liệu.
Tần số nghịch đảo trong tài liệu của từ ti được tính bởi công thức:
idf i log
N
df i
(2.2)
Trọng số TF-IDF được tính bằng công thức sau:
wij tfij idfi
(2.3)
Nếu 1 từ xuất hiện trong một số lượng lớn các tài liệu trong tập ngữ liệu. Có
khả năng từ đó không quan trọng (hư từ).
2.4 Mô hình vector
Quá trình phân lớp văn bản đòi hỏi phải chuyển dữ liệu văn bản đang được
biểu diễn dưới dạng chuỗi thành mô hình khác để phù hợp với công đoạn phân lớp.
Hiện nay, có rất nhiều phương pháp để biểu diễn văn bản, điển hình là biểu
diễn văn bản bằng mô hình vector. Không như mô hình Boolean, mô hình vector
không tạo ra điểm quyết định. Thay vào đó, các tài liệu được xếp hạng theo mức độ
liên quan đến câu truy vấn. Một câu truy vấn q được biểu diễn tương tự như là một
tài liệu trong tập ngữ liệu. Trọng số wiq của của mỗi từ ti trong q cũng có thể được
tính toán giống như ở trong một tài liệu thông thường.
Có một cách để tính độ liên quan là tính toán độ tương đồng của câu truy vấn
q tới mỗi tài liệu dj trong tập ngữ liệu D. Có rất nhiều độ đo tương đồng nhưng được
biết đến nhiều nhất vẫn là độ tương đồng cosin được tính bởi cách lấy cos của góc
giữa vector câu truy vấn q và vector văn bản dj. Độ tương đồng cosin cũng được sử
dùng rộng rãi phân cụm văn bản.
17
Công thức độ tương đồng được trình bày như sau:
V
cos d j , q
w
ij
i 1
wiq
V
w
i 1
2
ij
(2.4)
V
W
i 1
2
iq
2.5 Mô hình chủ đề (Topic Modeling)
Mô hình chủ đề là một thuật giải dùng cho việc khám phá các chủ đề từ một
tập hợp các tài liệu phi cấu trúc. Đầu ra của một mô hình chủ đề là một tập các cụm
từ và phân phối chủ đề cho từng tài liệu. Mỗi cụm từ được gọi là một chủ đề và là
một phân phối xác suất trên các từ trong tập ngữ liệu. Phân phối chủ đề của một tài
liệu chỉ ra tỷ lệ của mỗi chủ đề trong tài liệu. Trong luận văn này, tác giả tập trung
vào mô hình LDA (Blei et al, 2003).
Trong ngữ cảnh của phân tích cảm xúc, các chủ đề là các khía cạnh (chính xác
hơn là loại khía cạnh). Mỗi thuật ngữ chủ đề hoặc từ trong một chủ đề là một từ
khía cạnh (hay biểu thức). Trong hầu hết các mô hình chủ đề hiện tại, một từ thuộc
chủ đề là một từ riêng lẻ hay unigram. Trên lý thuyết, lợi ích của mô hình chủ đề
cho việc trích xuất khía cạnh là khả năng thực thi cả hai việc : trích xuất khía cạnh
tường minh và không tường minh. Ví dụ, ta có thể trích xuất và gom nhóm “giá”,
“chi phí” và “đắt tiền” lại với nhau thành một khía cạnh hoặc chủ đề. Những khả
năng này rất hữu ích cho việc phân tích cảm xúc.
2.6 Mô hình Latent Dirichlet Allocation
Mô hình chủ đề đơn giản nhất là phân phối Dirichlet ẩn (LDA). Mô hình phân
phối ẩn Dirichlet (LDA) là một mô hình sinh được giới thiệu lần đầu bởi Blei et al
(2003) để tìm các chủ đề ẩn trong các tập văn bản. Ý tưởng chính của mô hình LDA
dựa trên cơ sở giả định rằng mỗi tài liệu có thể được xem như là một hỗn hợp các
chủ đề khác nhau, với một chủ đề được biểu diễn như là một phân phối đa thức trên
các từ. Ví dụ như chủ đề về tuyển sinh sẽ có các từ tuyển sinh xuất hiện trong văn
bản với xác suất cao.
18
Hình 2.1 Mô tả chi tiết các tham số của LDA trên văn bản (Blei et al, 2003)
LDA là một mô hình học bán giám sát đưa ra giả định rằng :
Mỗi chủ đề là một phân phối trên các từ.
Mỗi tài liệu là một hỗn hợp các chủ đề.
Mỗi từ được rút ra từ một trong các chủ đề này.
Đầu vào LDA là một tập ngữ liệu bao gồm một tập các tài liệu D. Đầu ra từ
LDA một phân phối trên các chủ đề ứng với mỗi tài liệu, được gọi là phân phối θ
(tài liệu – chủ đề) và một phân phối trên các từ ứng với mỗi chủ đề, được gọi lại
phân phối ϕ (chủ đề - từ). Cả ϕ và θ được sinh ra bởi các phân phối đa thức. Để làm
mịn các phân phối, ta giả sử dụng ưu tiên Dirichlet với tham số thượng tầng
(hyperparameter) là alpha và beta tương ứng.
Cho số lượng chủ đề là T. Các chủ đề được đánh chỉ mục {1,…,T} và các thực
thể trong từ vựng của tập ngữ liệu được đánh chỉ mục {1,…,V} với V là số lượng
các từ duy nhất trong toàn bộ nội dung tập ngữ liệu văn bản. Tập ngữ liệu có D tài
liệu. Mỗi tài liệu d là một câu của Nd các từ. w là túi của các từ dự trữ với các yếu
tố trong một tập hợp | w | = ∑𝑑 𝑁d, z biểu diễn các chủ đề được gán của tất cả từ
trong tất cả tài liệu và zi biểu diễn chủ đề được gán của từ thứ i trong tài liệu d.
19
Như một mô hình sinh, thủ tục của LDA dùng cho việc sinh tài liệu như sau:
for với mỗi chủ đề t ∈ {1,…, T} do
đưa ra một phân phối từ cho chủ đề t, ϕt ∼
Dirichlet(β)
for với mỗi tài liệu d ∈ {1,…, D} do
đưa ra một phân phối chủ đề cho tài liệu d, θd
~ Dirichlet(α)
for mỗi từ wi, i ∈ {1,…, Nd} do
đưa ra một chủ đề cho từ, đưa ra một từ,
zi ~ Đa thức (θd, đưa ra một từ, wi ~ Đa
thức (φz)
Hình 2.2 Giải thuật mô hình sinh
Hình 2.3 Lược đồ LDA (Blei, 2013)
20
Lược đồ LDA được trình bày trong hình 2.3, với θ, φ, z là các biến tiềm ẩn, và
từ w được theo dõi. siêu tham số Dirichlet α và β thì coi là hằng số do đó cũng quan
sát thấy. Tất cả các nốt giá trị bị quan sát được làm mờ, và tất cả các nốt biến tiềm
ẩn thì không được làm mờ.
2.7 Lấy mẫu Gibbs cho LDA
Giải thuật dùng cho việc tính được phân phối và là lấy mẫu Gibbs
(Griffiths và Steyvers, 2004). Phương pháp này không trực tiếp ước lượng phân
phối ϕ và θ, thay vào đó sẽ ước lượng phân phối hậu nghiệm trên z, dùng các từ
quan sát w trong khi đó để ngoài rìa và . Với mỗi zi đưa ra một giá trị số nguyên
{1,...,T} cho các chủ đề ứng với từ wi đã được gán trong tài liệu d. Lấy mẫu Gibbs
là một giải thuật chuỗi Markov Monte Carlo sẽ được trình bày sơ lược như sau:
Đối với việc lấy mẫu Gibbs trên cơ sở LDA, qui trình quan trọng nhất là cập
nhật chủ đề cho từng từ wi trong mỗi tài liệu d tương ứng với công thức tính toán
xác suất.
P(zi t | z , w) lim
i
nwii,t
(n t,id )
x T
n
t '1
i
t ', d
V
(n )
v '1
,
i
v ',t
(2.5)
Với zi = t biểu diễn phép gán của chủ đề t với từ thứ i (wi) trong tài liệu d (ví
dụ, zi cho biết chủ đề gán cho từ wi)
z-i biểu diễn các chủ đề được gán cho tất cả các từ trong tập ngữ liệu ngoại
trừ từ thứ i (wi) trong d.
nt,di là số lần mà chủ đề t được gán cho các từ trong tài liệu d ngoại trừ từ thứ
i (wi).
nwii,d là số lần mà từ v wi được gán cho chủ đề t ngoại trừ wi. Nói cách
khác, đó là số lần mà chủ đề t được gán cho từ vựng v wi ngoại trừ trường
hợp hiện tại wi của v. Ở đây, v là từ tương ứng với wi .
21