Tải bản đầy đủ (.pdf) (63 trang)

Ứng dụng deep learning để dự đoán quan điểm trong tài liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.07 MB, 63 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

DƯƠNG PHƯỚC QUỐC CƯỜNG

ỨNG DỤNG DEEP LEARNING
ĐỂ DỰ ĐOÁN QUAN ĐIỂM TRONG TÀI LIỆU

Chuyên ngành : Khoa học máy tính
Mã số : 8480101

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: PGS.TS. NGUYỄN THANH BÌNH

Đà Nẵng - Năm 2019


LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực
tiếp của PGS.TS. Nguyễn Thanh Bình.
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên
công trình, thời gian, địa điểm công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu
hoàn toàn trách nhiệm.


TRANG TÓM TẮT LUẬN VĂN
ỨNG DỤNG DEEP LEARNING ĐỂ DỰ ĐOÁN QUAN ĐIỂM TRONG TÀI
LIỆU


Học viên: Dương Phước Quốc Cường

Chuyên ngành: Khoa học máy tính

Mã số: 8480101 - Khóa: 34

Trường Đại học Bách khoa – ĐHĐN

Tóm tắt -Những năm gần đây, ngày càng nhiều người nói về cách mạng công nghệ lần
thứ 4. Các chủ đề được nhắc tới nhiều nhất bao gồm Big Data, Deep Learning, IoT,
Blockchain. Mặc dù những sự đầu tư nghiên cứu gần đây tập trung vào nhiều hướng tiếp
cận khác nhau, nhưng tất cả các nghiên cứu đó đều dần dần hướng tới một mục đích
chung. Mục đích chung đó là làm sao để máy tính thông minh hơn để có thể dần dần thay
thế con người. Để máy tính thông minh hơn thì chúng ta tìm cách làm cho máy tính học
được từ con người. Vì thế, lĩnh vực máy học (tiền thân của Deep Learning) chính là một
trong những hướng tiếp cận quan trọng trong giai đoạn cách mạng công nghiệp này.
Máy học là một lĩnh vực mà trong đó nhiều bài toán lớn được đưa ra để các nhà
khoa học cùng nghiên cứu. Một trong những bài toán rất có giá trị kinh tế rất cao của máy
học là bài toán tự động phân tích quan điểm. Lời giải của bài toán đánh giá quan điểm sẽ
mang đến cho các doanh nghiệp cái nhìn tổng quan về thị trường và về những dịch vu liên
quan. Vì bài toán phân tích quan điểm cũng là một trong những bài toán xử lý ngôn ngữ
tự nhiên, nên lời giải của nó cũng đóng góp đáng kể vào quá trình nghiên cứu xử lý ngôn
ngữ tự nhiên này.
Trong luận văn này, học viên đã trình bày việc so sánh các lời giải cho bài toán phân
tích quan điểm đối với ngôn ngữ Tiếng Việt. Trong đó, học viên đã làm nổi bật lên sự
khác nhau giữa phương pháp máy học deep learning và not deep learning. Với những
phương pháp và hướng tiếp cận khác nhau, học viên đã thực hiện đánh giá định lượng để
so sách độ chính xác của các phương pháp. Đóng góp cơ bản của luận văn này là một bộ
khung để so sánh đánh giá đối với bài toán phân tích quan điểm trong tiếng Việt. Những
đọc giả quan tâm có thể áp dụng các phương pháp này cho bài toán của mình để có những

so sánh định lượng tương đối để có thể chọn ra giải pháp tốt nhất cho mình.
Từ khoá: Khai phá, xử lý dữ liệu, ngôn ngữ tự nhiên, dự đoán quan điểm, thực nghiệm đề xuất và
đánh giá giải pháp


ABSTRACT OF THESIS
USING DEEP LEARNING TO PREDICT OPINIONS IN DOCUMENTS
Student: Duong Phuoc Quoc Cuong

Major: Computer Science

Code:8480101 Course: K34 University of Science and Technology- University of Danang

Abstract-In recent years, more and more people talk about the 4th generation of
industrial revolution. The most popular topics include Big Data, Deep Learning, IoT,
Blockchain. Although people invest different researches in diversity of approaches, most
of researches follow a common purpose. This common purpose is how to make machine
more intelligent in orrder to replace human. Then, the Machine Learning topic (the
previous topic prior to Deep Learning) is one of the most important approaches during
this generation of industrial revolution.
Machine Learning domain proposes plenty of problems which challenge modern
researchers. One of the valuable problemin economic domain is the problem of Sentiment
Analysis. The solution of Sentiment Analysis brings a vision about the market and about
the services to the company who invests the research to solve this problem. Since
Sentiment Analysis is also a Natural Language Processing, its solutions also contribute
significantly the development of this domain.
In this thesis, author presents a set of evaluation of solutions for the problem of
Sentiment Analysis in Vietnamese language. Authors also clarifies the difference between
Deep Learning approaches and not-Deep Learning approaches. With these difference
approaches and solutions, author also present a quantitative comparison in order to

evaluate the accuracy of these solutions for this Sentiment Analysis problem. The main
contribution of this thesis is an framework of evalutation which is recommended to use to
compare and to evaluate the solutions for Sentiment Analysis problem in Vietnamese
language. Interest readers can apply these methods to their own problem in order to
approximately compare these solutions and then to select the best one.
Keywords: Mining, processing data, natural language, predicting views, proposing and evaluating
solutions.


MỤC LỤC
TRANG BÌA
LỜI CAM ĐOAN
TRANG TÓM TẮT LUẬN VĂN
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH
MỞ ĐẦU ......................................................................................................................... 1
1. Lý do chọn đề tài ......................................................................................................1
2. Mục đích nghiên cứu ................................................................................................2
3. Đối tƣợng và phạm vi nghiên cứu ............................................................................2
4. Phƣơng pháp nghiên cứu..........................................................................................2
5. Ý nghĩa khoa học và thực tiễn của đề tài .................................................................3
6. Bố cục luận văn ........................................................................................................3
CHƢƠNG 1. TỔNG QUAN, CƠ SỞ LÝ THUYẾT ...................................................... 4
1.1. Bài toán khai phá quan điểm .................................................................................4
1.1.1. Khái niệm khai phá dữ liệu ............................................................................ 4
1.1.2. Quá trình khai phá tri thức từ dữ liệu ............................................................. 5
1.2. Machine learning ...................................................................................................5
1.3. Deep Learning .......................................................................................................7

1.3.1. Khái niệm........................................................................................................ 7
1.3.2. Các bài toán và ứng dụng ............................................................................... 8
1.4. Xử lý ngôn ngữ tự nhiên .......................................................................................9
1.4.1. Định nghĩa....................................................................................................... 9
1.4.2. Cấu tạo, đặc điểm của ngôn ngữ tiếng Việt: ................................................... 9
1.4.3. Các bƣớc xử lý ngôn ngữ tự nhiên: .............................................................. 12
Kết chƣơng 1 ..............................................................................................................12
CHƢƠNG 2. BÀI TOÁN DỰ ĐOÁN QUAN ĐIỂM .................................................. 13
2.1. Bài toán liên quan dự đoán quan điểm ................................................................13
2.1.1. Nguồn từ vựng nâng cao để phân tích tình cảm và khai thác ý kiến. ........... 13
2.1.2. Một số khảo sát vềphân tích tình cảm và khai thác ý kiến ........................... 14
2.2. Phƣơng pháp máy học để giải bài toán dự đoán quan điểm ...............................16
2.2.1. Trích xuất đặc trƣng...................................................................................... 16
2.2.2. Huấn luyện và dự đoán ................................................................................. 19


2.2.3. Mạng nơ ron hồi quy .................................................................................... 22
Kết chƣơng 2 ..............................................................................................................23
CHƢƠNG 3. MÔ TẢ BÀI TOÁN VÀ ĐỀ XUẤT GIẢI PHÁP .................................. 24
3.1. Vấn đề đề tài tập trung giải quyết .......................................................................24
3.2. Đề xuất giải pháp ................................................................................................24
3.2.1. Thu thập và tiền xử lý dữ liệu ....................................................................... 24
3.2.2. Thực nghiệm kiểm tra độ chính xác với phƣơng pháp kiểm tra chéo .......... 28
3.2.3. Kiểm tra thực tế ............................................................................................ 30
3.3. Mô hình giải pháp ...............................................................................................30
3.3.1. Mô tả ............................................................................................................. 30
3.3.2. Thƣ viện đƣợc sử dụng ................................................................................. 31
3.3.3. Công cụ thực hiện ......................................................................................... 34
Kết chƣơng 3 ..............................................................................................................34
CHƢƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP .................................... 35

4.1. Thực ngiệm .........................................................................................................35
4.1.1. Thực nghiệm 1: Trích xuất đặc trƣng bình thƣờng và thuật toán phân loại
truyền thống. ........................................................................................................... 35
4.1.2. Thực nghiệm 2: Trích xuất đặc trƣng bình thƣờng và thuật toán phân loại
neutral network. ...................................................................................................... 35
4.1.3. Thực nghiệm 3: Trích xuất đặc trƣng learning và thuật toán phân loại truyền
thống ................................................................................................................... 38
4.1.4. Thực nghiệm 4: Trích xuất đặc trƣng learning và thuật toán phân loại
neutral network. ...................................................................................................... 39
4.1.5. Thực nghiệm 5: Trích xuất đặc trƣng và dự đoán bằng deep learning. ........ 42
4.2. Đánh giá kết quả..................................................................................................44
Kết chƣơng 4 ..............................................................................................................44
KẾT LUẬN VÀ KIẾN NGHỊ ....................................................................................... 45
1. Kết quả đạt đƣợc: ...................................................................................................45
2. Một số hạn chế: ......................................................................................................45
3. Hƣớng phát triển và đề xuất: ..................................................................................45
TÀI LIỆU THAM KHẢO ............................................................................................. 46
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN ................................................................ 48
BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC
PHẢN BIỆN.


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Diễn giải
Ký hiệu
Tiếng Anh

Tiếng Việt

NLP


Natural Language Processing

Xử lý ngôn ngữ tự nhiên

TTNT

Trí tuệ nhân tạo

Trí tuệ nhân tạo

AI

Artificial intelligence

Trí tuệ nhân tạo

ANN

Artificial Neural Network

Mạng nơ-ron nhân tạo

CNN

Convolution Neural Network

Mạng nơ-ron tích chập

DNN


Deep Neural Network

Mạng neural sâu

GPU

Graphics Processing Unit

Đơn vị xử lý đồ họa

NN

Neural Network

Mạng nơ-ron

ReLU

Rectified Linear Unit

Hiệu chỉnh đơn vị tuyến tính

SIFT

Scale-Invariant Feature
Transform

Biến đổi đặc trƣng tỉ lệ không
thay đổi


SOM

Self Organizing Maps

Mạng nơ-ron tự tổ chức

SVM

Support Vetor Machines

Máy vector hỗ trợ


DANH MỤC CÁC BẢNG

Bảng 1-1.Tần suất xuất hiện độ dài từ tiếng Việt trên vdict.com..................................10
Bảng 4-1. Kết quả thực nghiệm 1 với Bag of word ......................................................35
Bảng 4-2. Kết quả thực nghiệm 1 với tf-idf ..................................................................35
Bảng 4-3. Kết quả thực nghiệm 2 với Bag of word ......................................................36
Bảng 4-4. Kết quả thực nghiệm 2 với tf-idf ..................................................................38
Bảng 4-5. Kết quả thực nghiệm 3 với word2vec ...........................................................39
Bảng 4-6. Kết quả thực nghiệm 3 với doc2vec .............................................................39
Bảng 4-7. Kết quả thực nghiệm 4 với word2vec ...........................................................40
Bảng 4-8. Kết quả thực nghiệm 4 với doc2vec .............................................................41
Bảng 4-9. Thống kê số từ của câu .................................................................................44


DANH MỤC CÁC HÌNH
Hình 1-1. Minh họa về khai phá dữ liệu ..........................................................................4

Hình 1-2. Quy trìnhkhaiphá tri thức ................................................................................5
Hình 1-3. Minh họa về machine learning ........................................................................6
Hình 1-4. Deeplearning trong lĩnh vực AI ......................................................................7
Hình 1-5. Mạng Deep learning gồm các node neural......................................................8
Hình 2-1. Top 10 những từ tƣơng tự nghĩa giữa postive và negative ...........................13
Hình 2-2. Sentiment Classification Amazon review .....................................................14
Hình 2-3. Summary of the survey .................................................................................15
Hình 2-4. Minh họa phân bố từ bằng word2vec ............................................................18
Hình 2-5. Minh họa Logistic Regression ......................................................................21
Hình 2-6. Minh họa Multi-layer Perceptron ..................................................................22
Hình 3-1. Tổng quát quy trình thực hiện .......................................................................24
Hình 3-2. Dataset đƣợc thực nghiệm.............................................................................25
Hình 3-3. Loại bỏ nhiễu.................................................................................................25
Hình 3-4. Trích xuất đặc trƣng đầu vào (Feature extraction) ........................................26
Hình 3-5. Quy trình tiền xử lý dữ liệu ...........................................................................27
Hình 3-6. Mô tả cross-validate ......................................................................................28
Hình 3-7. Quy trình nghiệm dự đoán vơi kiểm nghiệm cross validate .........................29
Hình 3-8. Đánh giá và kiểm tra thực tế .........................................................................30
Hình 3-9. Hình dạng đầu vào của LSTM ......................................................................32
Hình 3-10. Mô tả LSTM với times step ........................................................................33
Hình 4-1. Kết quả thực nghiệm 2 với Bag of word .......................................................36
Hình 4-2. Kết quả thực nghiệm 2 với tf-idf ...................................................................37
Hình 4-3. Kết quả thực nghiệm 4 với word2vec ...........................................................40
Hình 4-4. Kết quả thực nghiệm 4 với doc2vec..............................................................41
Hình 4-5. Các bƣớc của bài toán trích xuất thông tin quan điểm sử dụng RNN ..........42
Hình 4-6. Thống kê số từ của câu..................................................................................43


1


MỞ ĐẦU
Cùng với sự phát triển không ngừng của khoa học công nghệ, đặc biệt là cuộc
cách mạng công nghiệp lần thứ tƣ đang diễn ra rộng khắp trong tất cả các lĩnh vực của
đất nƣớc cũng nhƣ các nƣớc trên thế giới, các chủ đề đƣợc nhắc tới nhiều nhất bao
gồm Big Data, Deep Learning, IoT, Blockchain… Các sản phẩm CNTT trí tuệ nhân
tạo và học máy ngày càng phát triển và là lĩnh vực đƣợc quan tâm đầu tƣ nghiên cứu
nhiều nhất hiện, trong đó lĩnh vực học sâu (Deep Learning) là một loại phổ biến của
máy học đã có những thành tựu phát triển vƣợt bậc.
Ngày nay, để đáp ứng nhu cầu cuộc sống ngày càng cao của con ngƣời, các sản
phẩm và dịch vụ đã có những bƣớc phát triển rất mạnh mẽ. Với mỗi loại sản phẩm và
dịch vụ hiện nay lại rất phong phú về chủng loại, chất lƣợng, dịch vụ và đến từ nhiều
nhà cung cấp khác nhau. Do đó, việc duy trì phát triển sản phẩm dịch vụ có đƣợc số
lƣợng khách hàng lớn đòi hỏi rất nhiều công sức. Một trong những phƣơng pháp cơ
bản và hiệu quả nhất là lắng nghe ý kiến phản hồi của khách hàng về sản phẩm dịch
vụ. Dựa trên những ý kiến phản hồi này, nhà cung cấp có thể đánh giá đƣợc chất lƣợng
sản phẩm, dịch vụ cũng nhƣ sự phục vụ từ đó điều chỉnh sản phẩm phù hợp để đạt
đƣợc hiệu quả kinh doanh tốt nhất. Công việc trên có tên gọi là trích xuất thông tin
quan điểm của ngƣời dùng. Đây là bài toán cơ bản nhƣng có ứng dụng rất lớn trong
cuộc sống.
Ngƣời tiêu dùng ngày càng có nhiều kênh khác nhau để tƣơng tác với nhà cung
cấp dịch vụ. Bên cạnh các kênh truyền thống nhƣ email, điện thoại, fax thì các hình
thức mới hơn nhƣ bình luận, phản hồi, chia sẽ trên các trang mạng xã hội, viết bài
đánh giá sản phẩm, phản hồi trên các diễn đàn... Và mạng xã hội là những kênh trao
đổi thông tin phổ biến nhất hiện nay. Qua các nguồn trên, dữ liệu đƣợc thu thập lại
dƣới dạng văn bản. Từ dữ liệu dạng văn bản, luận văn sẽ trình bày phƣơng pháp áp
dụng deep learning để đƣa ra các mô hình xử lý thông tin văn bản nhằm trích xuất
đƣợc thông tin quan điểm của ngƣời dùng.
1. Lý do chọn đề tài
Trong cuộc sống hiện đại ngày nay, du lịch đã trở nên vô cùng phổ biến. Việc lên
kế hoạch điểm đến, đặt phòng, đặt vé,... là những điều thiết yếu của mỗi chuyến đi.

Với sự phát triển của công nghệ, những nhận xét, bình luận và phản hồi của ngƣời sử
dụng về trải nghiệm của họ với chuyến du lịch đóng vai trò nhƣ một nguồn thông tin
quan trọng, nhất là với những ngƣời chủ doanh nghiệp khi họ muốn cải thiện dịch vụ
của mình. Đặc biệt, với việc đặt phòng khách sạn, thì nhận xét của khách hàng đã từng
sử dụng sẽ mang tính thực tế, khách quan và chi tiết hơn những gì đƣợc in sẵn trên


2

những tờ quảng cáo, phản ánh trực tiếp và gần nhƣ chính xác tình hình chất lƣợng dịch
vụ ở khách sạn đó.
Hơn nữa, khách sạn và đại lý du lịch thƣờng tiếp nhận và công khai nhận xét một
cách có hệ thống thông qua việc đề xuất khách hàng đánh giá bình luận sau khi sử
dụng dịch vụ. Điều đó sẽ gây khó khăn cho các nhà quản lý trong việc cập nhật theo
dõi nếu nhƣ chỉ dụng các công cụ tìm kiếm bình thƣờng, bởi những nhận xét mới nhất
sẽ xuất hiện thƣờng xuyên hơn đẩy những nhận xét cũ về sau, và họ có thể mất dấu
hoặc bỏ qua những phản hồi mang thông tin quan trọng.
2. Mục đích nghiên cứu
Xây dựng hệ thống phần mềm hỗ trợ trích xuất thông tin, phân loại và phân tích
một cách tự động những dữ liệu nhận xét, đánh giá (review) trực tuyến của khách hàng
ở dạng văn bản (ngôn ngữ tiếng Việt) về mức độ hài lòng: trƣờng hợp bài toán dịch vụ
khách sạn.
Nghiên cứu các giải thuật dựa trên lý thuyết máy học và ứng dụng deep learning,
cụ thể LSTM để thực nghiệm dự đoán quan điểm của ngƣời dùng về một sản phẩm,
dịch vụ.
3. Đối tượng và phạm vi nghiên cứu
Nghiên cứu về các phƣơng pháp học máy (Machine Learning), máy học (deep
learning) để dự đoán quan điểm của ngƣời dùng.
Xử lý ngôn ngữ tự nhiên và các phƣơng pháp vector hóa từ.
Lý thuyết về trí tuệ nhân tạo, mạng neural và deep learning.

Đánh giá trên các tập dữ liệu bằng các kỹ thuật học máy và deep Learning với
mạng LSTM.
Công cụ lập trình Python, các thƣ viện keras, tensorflow…
4. Phương pháp nghiên cứu
Nghiên cứu lý thuyết: Tổng hợp thu thập và nghiên cứu các tài liệu có liên quan
đến đề tài nhƣ đã nêu trong mục 3 bao gồm: lý thuyết về khai phá quan điểm, xử lý
ngôn ngữ tự nhiên, trích xuất đặc trƣng. Lý thuyết về học máy, mạng neural,
deeplearning trong dự đoán quan điểm của tài liệu bình luận.
Phƣơng pháp thực nghiệm:Triển khai và đánh giá một số kỹ thuật về dự đoán
quan điểm trong tài liệu bằng các kỹ thuật học máy và deep Learning với mạng LSTM.
Lựa chọn công cụ đã có để cài đặt, đề xuất mô hình và thể hiện cụ thể những kết quả
đã nghiên cứu, kết quả thực nghiệm so với các cơ sở dữ liệu chuẩn để so sánh
đánh giá.


3

5. Ý nghĩa khoa học và thực tiễn của đề tài

Ý nghĩa khoa học
Ứng dụng các giả thuyết về các kỹ thuật xử lý trích xuất đặc trƣng, xử lý ngôn
ngữ tự nhiên,... để phân loại ý kiến nhận xét một cách hoàn toàn tự động.
Ứng dụng các kỹ thuật học máy, khai phá dữ liệu trong huấn luyện và trang bị
khả năng tự học cho hệ thống.

Ý nghĩa thực tiễn
Tự động hóa hoạt động trích xuất, thống kê, phân loại, phân tích thông tin phản
hồi từ khách hàng dựa trên nền tảng của trí tuệ nhân tạo, từng bƣớc đƣa Việt Nam bắt
nhịp và hội nhập theo xu hƣớng phát triển của cuộc cách mạng công nghiệp lần thứ tƣ.
Tối ƣu hóa chi phí, tăng hiệu suất và hiệu quả của hoạt động kinh doanh dịch vụ

cũng nhƣ trải nghiệm của khách hàng.
6. Bố cục luận văn
Luận văn đƣợc chia thành các phần sau:
Chƣơng 1: Trình bày tổng quan cơ sở lý thuyết, một số khái niệm liên quan nhƣ
bài toán khai phá quan điểm, machine learning, deep learning, xử lý ngôn ngữ tự
nhiên.
Chƣơng 2: Đề tài liên quan bao gồm tên đề tài, tác giả, dữ liệu, phƣơng pháp thực
hiện và kết quả đạt đƣợc.Trình bày các phƣơng pháp thực hiện trong luận văn bao gồm
vector hóa nhƣ Bag of Words, TF-IDF, Word2vec, Doc2vec và thuật toán phân loại
nhƣ SVM, Logistic Regression, Multi-layer Perceptron, mạng nơ ron hồi quy.
Chƣơng 3: Mô tả bài toán và đề xuất giải pháp. Chƣơng này đề cập vấn đề mà
luận văn tập trung giải quyết, đề xuất giải pháp thực hiện, cụ thể hóa quy trình bằng
mô hình giải pháp.
Chƣơng 4: Thực nghiệm và đánh giá kết quả. Chƣơng này sẽ trình bày cái thực
nghiệm khác nhau với phƣơng pháp vector hóa và thuật toán phân loại khác nhau.
Đánh giá và so sánh từng thực nghiệm.
Kết luận: Kết quả đạt đƣợc, hạn chế, hƣớng phát triển trong tƣơng lai.


4

CHƯƠNG 1. TỔNG QUAN, CƠ SỞ LÝ THUYẾT
1.1. Bài toán khai phá quan điểm

1.1.1. Khái niệm khai phá dữ liệu (Data mining)
Khái niệm về khai phá dữ liệu là một bƣớc của quá trình khai thác tri thức có rất
nhiều cách diễn đạt khác nhau nhƣng về bản chất đó là quá trình tự động trích xuất
thông tin có giá trị (Thông tin dự đoán - Predictive Information) ẩn chứa trong khối
lƣợng dữ liệu khổng lồ trong thực tế.


Hình 1-1. Minh họa về khai phá dữ liệu
Hand, D.J., 2006. Data Mining. Encyclopedia of Environmetrics
Chuẩn bị dữ liệu để cho máy tính ―học‖ (Data).
Xây dựng mô hình thông qua dữ liệu đầu vào (Algorithm).
Đánh giá mô hình vừa mới xây dựng (Model).
Khai phá dữ liệu nhấn mạnh 2 khía cạnh chính đó là khả năng trích xuất thông tin
có ích tự động và thông tin mang tính dự đoán.
Tóm lại, Khai phá dữ liệulà quá trình tìm kiếm các mẫu từ tập dữ liệu lớn hay có
thể nói là quá trình biến dữ liệu thôthành thông tin hữu ích. Nó cho phép doanh nghiệp
phân tích dữ liệu từ nhiều góc độ khác nhau, tìm hiểu thêm thông tin về khách hàng,
về thói quen mua sắm của mình, phát hiện mối quan hệ tiềm ẩn, đƣa ra các dữ liệu có
ý nghĩa.Từ đó, doanh nghiệp có cơ sở để xây dựng chiến lƣợc tiếp thị và bán hàng hiệu
quả hơn. Khai phá dữ liệu phụ thuộc vào quá trình thu thập dữ liệu, tổ chức dữ liệu và
xử lý dữ liệu [8]


5

1.1.2. Quá trình khai phá tri thức từ dữ liệu

Hình 1-2. Quy trìnhkhaiphá tri thức
Quy trình khai phá dữ liệu là chuỗi lặp lại các thao tác:[8]
Làm sạch dữ liệu: Loại bỏnhiễu và Loại bỏ từ dừng (stopwords), loại bỏ các ký
tự không phải chữ cái hoặc chữ số.
Tích hợp dữ liệu: Dữliệu của nhiều nguồn có thểtổhợplại.
Lựa chọn dữ liệu: Những dữliệu phù hợp với phân tíchđƣợc trích rút từ nguồn dữ
liệu ban đầu.
Chuyển đổi dữ liệu: Dữliệuđƣợc chuyểnđổi hayđƣợc hợp nhất về dạng thích hợp
cho việc khai phá.
Khai phá dữ liệu: Là tiến trình chính, trongđó các phƣơngpháp tính toán đƣợc áp

dụng nhằm trích ra các mẫu dữ liệu.
Đánh giá mẫu: Dựa trên các phƣơng phápđo nhằmxác định độ chuẩn xác và lợi
ích từ các mẫu biểu diễn tri thức.
Biễu diễn tri thức: Sửdụng kỹthuật biểu diễnvà hiển thị tri thức đƣợc tổng hợp
cho ngƣời dùng.
1.2. Machine learning
―Học máy(machine learning) là một lĩnh vực của Trí tuệ nhân tạo liên quan đến
việc nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống ―học‖ tự động từ dữ
liệu để giải quyết những vấn đề cụ thể nào đó‖(Theo wikipedia).
Machine Learning là một nhánh con của AI. Theo định nghĩa của
Wikipedia, ―Machine learning is the subfield of computer science that ―gives


6

computers the ability to learn without being explicitly programmed‖. Nói đơn giản,
Machine Learning là một lĩnh vực của Khoa Học Máy Tính, nó có khả năng tự học
dựa trên dữ liệu đƣa vào mà không cần phải đƣợc lập trình cụ thể.
Ví dụ nhƣ các máy tính học cách phân loại thƣ điện tử xem có phải thƣ rác
(spam) hay không và tự động xếp thƣ vào thƣ mục tƣơng ứng; dạy máy tính (rô-bôt)
cách băng qua đƣờng thì theo cách truyền thống bạn sẽ đƣa cho nó một loạt quy tắc
hƣớng dẫn cách nhìn trái phải hay đợi xe và ngƣời đi qua,… Tuy nhiên nếu dùng học
máy, chúng ta sẽ cho máy tính xem hàng nghìn video quay cảnh ngƣời ta băng qua
đƣờng an toàn và hàng nghìn video quay cảnh con ngƣời đó bị xe đâm để nó tự học.
Từ đó máy tính có thể nhận thức và phân tích nhiều đặc trƣng tốt hơn (thông minh
hơn) từ các video để nhận biết đƣợc các sự vật hiện tƣợng mới xung quanh thông qua
kho dữ liệu đã huấn luyện; Dạy máy tính có thể dự đoán quan điểm của ngôn ngữ, từ
một câu bình luận đƣa vào, máy các thể xác định đƣợc câu bình luận đó là tiêu tực hay
tích cực … bằng cách ta huấn luyện cho máy tính học hàng nghìn câu mang ngữ nghĩa
là tích cực, hàng nghìn câu mang ngữ nghĩa là tiêu cực từ đó máy tính có thể tự động

nhận thức và trích rút đƣợc đặc trƣng của các câu bình luận thông qua kho dữ liệu đã
đƣợc huấn luyện; Thuật toán phân lớp, có thể phân chia dữ liệu vào nhiều nhóm khác
nhau. Thuật toán phân lớp đƣợc dùng để nhận dạng chữ số tay cũng có thể đƣợc sử
dụng để phân loại thƣ rác mà không cần thay đổi dòng mã nào. Chúng đều dùng chung
một thuật toán nhƣng đƣợc truyền vào các dữ liệu huấn luyện khác nhau do đó nó dẫn
đến các logic phân lớp khác nhau

Hình 1-3. Minh họa về machine learning
Vì vậy, việc phân tích hàng triệu dữ liệu về quan điểm, bình luận của khách hàng
đối với các sản phẩm dịch vụ trong thời gian ngắn và đƣa ra số liệu tổng hợp kết quả
đánh giá của Khách hàng thì machine learning là một giải pháp đƣợc ƣu tiên thực hiện.


7

Nhƣ trong luận văn này giúp xử lý một lƣợng dữ liệu khá lớn, sau đó tính toán ra kết
quả đánh giá của ngƣời dùng với thời gian rất nhanh.
1.3. Deep Learning

1.3.1. Khái niệm
Học sâu (Deep Learning) là một phƣơng pháp của máy học dựa trên một tập hợp
các thuật toán để cố gắng mô hình dữ liệu trừu tƣợng hóa ở mức cao bằng cách sử
dụng nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến
đổi phi tuyến‖(Theo wikipedia). Hay nói cách khác là học sâu làmột kỹ thuật trong học
máy, sử dụng các thuật toán liên quan đến các thuật toán dựa trên cấu trúc và hoạt
động của bộ não động vật gọi là Mạng nơ ron nhân tạo dựa trên việc phân tích dữ liệu
về nhiều đặc trƣng hơn nhờ sự hỗ trợ khả năng tính toán của máy tính.
Học sâu tập trung giải quyết các vấn đề liên quan đến mạng nơ ron nhân tạo
nhằm nâng cấp các công nghệ về nhận diện gióng nói, thị giác máy tính, và xử lý ngôn
ngữ tự nhiên.[10]


Hình 1-4. Deeplearning trong lĩnh vực AI
Deep learning. nature, 521(7553), p.436
Có 3 loại layer chính của các nơ ron trong mạng nơ ron là: Input layer, các
Hidden layer, Output layer. Từ ―Deep‖ trong Deep Learning chỉ đến việc có nhiều hơn
một hidden layer.


8

Hình 1-5. Mạng Deep learning gồm các node neural
Deep learning. nature, 521(7553), p.436
Nổi tiếng nhất của Deep Learning có thể kể đến là CNN (Convolutional Neural
Networks) đƣợc sử dụng nhiều nhất trong lĩnh vực thị giác máy tính (computer vision),
RNN (Recurrent Neural Network) thƣờng đƣợc ứng dụng trong lĩnh vực xử lý ngôn
ngữ tự nhiên (Natural Language Processing).

1.3.2. Các bài toán và ứng dụng
Nhận dạng chữ viết: Với chƣơng trình nhận dạng chữ viết in có thể chuyển hàng
ngàn đầu sách trong thƣ viện thành văn bản điện tử trong thời gian ngắn. Nhận dạng
chữ viết của con ngƣời có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận
dạng chữ ký điện tử).
Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản tƣơng
ứng. Giúp thao tác của con ngƣời trên các thiết bị nhanh hơn và đơn giản hơn, chẳng
hạn thay vì gõ một tài liệu nào đó bạn đọc nó lên và trình soạn thảo sẽ tự ghi nó ra.
Đây cũng là bƣớc đầu tiên cần phải thực hiện trong ƣớc mơ thực hiện giao tiếp giữa
con ngƣời với robot. Nhận dạng tiếng nói có khả năng trợ giúp ngƣời khiếm thị rất
nhiều.
Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói. Thay vì
phải tự đọc một cuốn sách hay nội dung một trang web, nó tự động đọc cho chúng ta.

Giống nhƣ nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho ngƣời khiếm
thị, nhƣng ngƣợc lại nó là bƣớc cuối cùng trong giao tiếp giữa robot với ngƣời.
Dịch tự động (machine translate): Nhƣ tên gọi đây là chƣơng trình dịch tự động
từ ngôn ngữ này sang ngôn ngữ khác. Một phần mềm điển hình là Google Translate có
thể dịch giữa các ngôn ngữ khác nhau.
Tìm kiếm thông tin (information retrieval): Đặt câu hỏi và chƣơng trình tự tìm ra
nội dung phù hợp nhất.
Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn theo
mong muốn nhƣng vẫn chứa những nội dung thiết yếu nhất.


9

Sinh văn bản: Từ các dữ liệu văn bản của một cá nhân tự tạo ra cú pháp và lối
viết theo phong cách của cá nhân đó
Phân tích cảm xúc trong ngôn ngữ: Đây là khái niệm mới trong xử lý ngôn ngữ,
bằng việc kết hợp giữa nhận dạng ngôn ngữ với phân tích cảm xúc, biểu cảm. Mục tiêu
là máy tính nhận dạng đánh giá các mức độ tâm lý của con ngƣời trong ngôn ngữ.
1.4. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP)

1.4.1. Định nghĩa
Xử lý ngôn ngữ tự nhiên là một nhánh của trí tuệ nhân tạo tập trung vào các ứng
dụng giải quyết các vấn đề về xử lý ngôn ngữ của con ngƣời. Trong trí tuệ nhân tạo thì
việc xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến
việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tƣ duy và giao tiếp.[4]
Xử lý ngôn ngữ là một kỹ thuật quan trọng nhằm giúp máy tính hiểu đƣợc ngôn
ngữ của con ngƣời, qua đó hƣớng dẫn máy tính thực hiện và giúp đỡ con ngƣời trong
những công việc có liên quan đến ngôn ngữ nhƣ: dịch thuật, phân tích dữ liệu văn bản,
dự đoán quan điểm tài liệu, nhận dạng tiếng nói, tìm kiếm thông tin ...


1.4.2. Cấu tạo, đặc điểm của ngôn ngữ tiếng Việt:
1.4.2.1. Cấu tạo từ tiếng Việt
Tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính, tức là mỗi âm tiết phát
âm tách rời và đƣợc thể hiện bằng một từ. Hai đặc trƣng này chi toàn bộ tổ chức của
hệ thống ngôn ngữ tiếng Việt.
1.4.2.2. Tiếng:
Tiếng là đơn vị cơ sở để cấu tạo lên từ. Tiếng là đơn vị nhỏ nhất có nội dung
đƣợc thể hiện. Xét về mặt ý nghĩa, các tiếng có thể chia thành các loại sau:
Tiếng tự thân nó đã có ý nghĩa, thƣờng đƣợc quy chiếu vào một đối tƣợng, khái
niệm. Ví dụ: trời, đất, nƣớc, cây, cỏ…
Tiếng tự thân nó không có ý nghĩa, không đƣợc quy chiếu vào đối tƣợng, khái
niệm nào cả mà chúng thƣờng đi cùng với một tiếng khác có nghĩa và làm thay đổi sắc
thái của tiếng đó, ví dụ nhƣ: (xanh) lè, (đƣờng) xá, (nắng) nôi…
Tiếng tự thân nó không có ý nghĩa nhƣng có thể ghép với nhau để tạo thành từ có
nghĩa, thƣờng xuyên gặp ở những từ mƣợn nhƣ phéc-mơ-tuya, a-pa-tít, mì-chính...
Trong tiếng Việt các tiếng thuộc nhóm đầu tiên chiếm đa số, các tiếng thuộc hai
nhóm sau thƣờng chỉ chiếm số ít, đặc biệt là nhóm thứ 3, chúng thƣờng đƣợc gọi là
tiếng vô nghĩa.


10

1.4.2.3. Từ, cụm từ:
Từ đƣợc cấu tạo từ một hoặc nhiều tiếng. Từ cấu tạo từ một tiếng gọi là từ đơn,
ví dụ: tôi, bạn, nhà, hoa… Từ cấu tạo bởi nhiều tiếng là từ ghép, giữa các tiếng có mối
quan hệ về nghĩa.
Từ ghép đƣợc phân thành từ ghép đẳng lập và từ ghép chính phụ. Đối với từ ghép
đẳng lập các thành phần cấu tạo từ có mối quan hệ bình đẳng với nhau về nghĩa.
Ví dụ: ăn nói, bơi lội…
Đối với từ ghép chính phụ, các thành phần cấu tạo từ có mối quan hệ phụ thuộc

với nhau về nghĩa, thành phần phụ có vai trò làm chuyên biệt hóa, tạo sắc thái cho
thành phần chính.
Ví dụ: hoa hồng, đƣờng sắt…
Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp với nhau theo những quan
hệ ngữ pháp nhất định.
Ví dụ: Từ ―học‖ là từ gồm một tiếng; Từ ―đại học‖ là từ gồm hai tiếng; Cụm từ
―khoa học máy tính‖ gồm 2 từ hay 4 tiếng.
Theo nhƣ thống kê trên trang thì độ dài của một từ tiếng Việt
đƣợc thể hiện trong bảng:

Bảng 1-1. Tần suất xuất hiện độ dài từ tiếng Việt trên vdict.com
Độ dài của từ

Tần số

Tỉ lệ %

1

8399

12,2

2

48995

67.1

3


5727

7.9

4

7040

9.7

≥5

2301

3.1

Tổng cộng

72994

100


11

1.4.2.4. Biến hình từ tiếng Việt
Tiếng Việt không có hiện tƣợng biến hình từ bằng những phụ tố mang ý nghĩa
ngữ pháp bên trong từ nhƣ tiếng Anh. Tuy nhiên, tiếng Việt cũng có một số hình thức
biến hình nhƣ trƣờng hợp thêm từ ―sự‖ trƣớc một động từ để biến nó thành danh từ

hay thêm tiếng ―hóa‖ sau một danh từ để biến nó thành động từ tƣơng đƣơng, ví dụ
nhƣ ―lựa chọn‖ và ―sự lựa chọn‖, ―tin học‖ và ―tin học hóa‖.
1.4.2.5. Từ đồng nghĩa
Từ đồng nghĩa là những từ tƣơng đồng với nhau về nghĩa nhƣng khác nhau về
âm thanh và phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc phong cách nào đó,
hoặc đồng thời cả hai. Những từ đồng nghĩa với nhau lập thành một nhóm gọi là nhóm
đồng nghĩa. Ví dụ: dễ, dễ dàng, dễ dãi là cùng một nhóm từ đồng nghĩa.
Từ đồng nghĩa thực chất không phải là những từ trùng nhau hoàn toàn về nghĩa
mà có những khác biệt nhất định. Chính sự khác biệt đó là lí do tồn tại và làm nên sự
khác nhau giữa các từ trong một nhóm từ đồng nghĩa.
Thông thƣờng các từ chỉ đồng nghĩa ở một nghĩa, một ngữ cảnh nào đó. Vì thế,
một từ có nhiều nghĩa (đa nghĩa) có thể tham gia vào nhiều nhóm đồng nghĩa khác
nhau. Ví dụ, từ ―coi‖ có thể tham gia vào các nhóm nhƣ coi – xem (coi hát, xem hát),
coi – giữ (coi nhà, giữ nhà).
1.4.2.6. Đặc điểm chính tả
Đặc điểm chính tả tiếng Việt có ý nghĩa rất quan trọng trong các hệ thống xử lý
dữ liệu văn bản. Một số đặc điểm chính tả tiếng Việt cần quan tâm nhƣ:
Các tiếng đồng âm: kĩ/kỹ, lí, lý… thƣờng bị sử dụng lẫn nhau nhƣ: lý luận, lí
luận, kĩ thuật, kỹ thuật…
Các từ địa phƣơng: một số từ địa phƣơng sử dụng thay cho các từ phổ thông,
chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc…
Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu đƣợc đặt trên nguyên âm
có ƣu tiên cao nhất. Tuy nhiên, khi soạn thảo văn bản nhiều bộ gõ không tuân thủ
nguyên tắc này nên có hiện tƣợng dấu đƣợc đặt ở các vị trí khác nhau, chẳng hạn: toán,
tóan, thuý, thúy…
Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa, tuy
nhiên vẫn tồn tại một số cách viết tuỳ tiện.
Phiên âm tiếng nƣớc ngoài: tồn tại cách viết giữ nguyên gốc tiếng nƣớc ngoài và
phiên âm ra tiếng Việt, ví dụ: Singapore/Xin−ga−po.
Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt đƣợc giữa nối

tên riêng hay chú thích.


12

Kí tự ngắt câu: sử dụng nhiều loại kí tự đặc biệt nhƣ ―.‖, ―;‖, ―!‖, ―?‖, ―…‖ ngăn
cách giữa các câu hoặc các vế câu trong câu ghép.

1.4.3. Các bước xử lý ngôn ngữ tự nhiên:
Phân tích hình thái: Trong bƣớc này từng từ sẽ đƣợc phân tích và các ký tự
không phải chữ (nhƣ các dấu câu) sẽ đƣợc tách ra khỏi các từ.Trong tiếng Anh và
nhiều ngôn ngữ khác, các từ đƣợc phân tách với nhau bằng dấu cách. Tuy nhiên trong
tiếng Việt, dấu cách đƣợc dùng để phân tách các tiếng (âm tiết) chứ không phải từ và
phân tách từ trong tiếng Việt là một công việc không hề đơn giản.[4]
Phân tích cú pháp: Dãy các từ sẽ đƣợc biến đổi thành các cấu trúc thể hiện sự liên
kết giữa các từ này. Sẽ có những dãy từ bị loại do vi phạm các luật văn phạm.
Phân tích ngữ nghĩa: Thêm ngữ nghĩa vào các cấu trúc đƣợc tạo ra bởi bộ phân
tích cú pháp.
Tích hợp văn bản: Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào những
câu đứng trƣớc, đồng thời nó cũng có thể ảnh hƣởng đến các câu phía sau.
Phân tích thực nghĩa - Cấu trúc thể hiện điều đƣợc phát ngôn sẽ đƣợc thông dịch
lại để xác định nó thật sự có nghĩa là gì.
Tuy nhiên, ranh giới giữa 5 bƣớc xử lý này có thể khác nhau. Chúng có thể đƣợc
tiến hành từng bƣớc một, hoặc tiến hành cùng lúc - tùy thuộc vào giải thuật và ngữ
cảnh cụ thể
Kết chương 1
Chƣơng này giới thiệu tổng quát về cơ sở lý luận của đề tài bao gồm data mining,
khai phá quan điểm, quá trình các bƣớc để khai thác tri thức. Đồng thời chƣơng 1 còn
đề cập đến machine learning, deeplearning, các ứng dụng của deeplearning trong đời
sống. Trong quá trình trình bày có đề cập đếncấu tạo, đặc điểm của ngôn ngữ tiếng

Việt xử lý ngôn ngữ tự nhiên.
Trong chƣơng tiếp theo (chƣơng 2) sẽ giới thiệu các đề tài liên quan đã đƣợc thực
hiện và đề cập đến các phƣơng pháp sẽ đƣợc sử dụng thực hiện trong bài toán của
luận văn.


13

CHƯƠNG 2. BÀI TOÁN DỰ ĐOÁN QUAN ĐIỂM
(SENTIMENT ANALYSIS)
2.1. Bài toán liên quan dự đoán quan điểm

2.1.1. Nguồn từ vựng nâng cao để phân tích tình cảm và khai thác ý kiến.
SENTIWORDNET 3.0: An Enhanced Lexical Resource for Sentiment Analysis
and Opinion Mining[3]
Trong nghiên cứu này trình bày SENTIWORDNET 3.0, một nguồn tài nguyên từ
vựng đƣợc tích lũy rõ ràng để hỗ trợ phân loại tình cảm và ý kiến. SENTIWORDNET
3.0 là phiên bản cải tiến của SENTIWORDNET 1.0, là nguồn tài nguyên từ vựng có
sẵn đƣợc công khai cho mục đích nghiên cứu, hiện đƣợc cấp phép cho hơn 300 nhóm
nghiên cứu và đƣợc sử dụng trong nhiều dự án nghiên cứu trên toàn thế giới. Cả hai
SENTIWORDNET 1.0 và 3.0 là kết quả của việc tự động chú thích tất cả các đồng bộ
WORDNET theo mức độ tích cực, tiêu cực, và trung lập của chúng. Hiện bao gồm
(thêm vào bƣớc học bán giám sát trƣớc đó) một bƣớc đi ngẫu nhiên để tinh chỉnh điểm
số.

Hình 2-1. Top 10 những từ tương tự nghĩa giữa postive và negative
. Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion
mining.
Ý nghĩa:
Các từ ngữ trong dãy đồng nghĩa thƣờng có thể thay thế đƣợc cho nhau trong

những bối cảnh ngôn ngữ cụ thể. Sự thay thế ấy nếu đƣợc sử dụng một cách chính xác,
rõ ràng thì sẽ tránh đƣợc tình trạng cứ phải lặp đi lặp lại nhiều lần một đơn vị ngôn
ngữ, gây cảm giác dƣ thừa và nhàm chán. Do vậy nghiên cứu này có ý nghĩa trong
việc xác định ngữ nghĩa của một từ mới mà không nằm trong tập dữ liệu huấn luyện.


14

Khó khăn:
Đối với phƣơng pháp này yêu cầu về yếu tố thời gian để hoàn thiện.
Cần có bộ dữ liệu huấn luyện đủ lớn và đa dạng thì bộ tài nguyên tự vựng này
mới có ý nghĩa. Đặc biệt đối với ngôn ngữ tiếng việt với đa tầng ngữ nghĩa từ trong
nhiều trƣờng hợp khác nhau.
Chỉ dừng lại ở mức độ từ. Trong khi việc xem xét từ trong ngữ cảnh nào là quan
trọng.bản chất của nó là phải biểu diễn câu thành dạng vector

2.1.2. Một số khảo sát vềphân tích tình cảm và khai thác ý kiến
Sentiment Analysis and Opinion Mining: A Survey [16]
Bài viết này trình bày một khảo sát bao gồm các kỹ thuật và phƣơng pháp trong
phân tích tình cảm với nhiều bộ dữ liệu thuộc các lĩnh vực khác nhau. Giúp so sánh
đánh giá đƣợc hiệu quả bằng phƣơng pháp đánh giá khác nhau.

Hình 2-2. Sentiment Classification Amazon review
Sentiment analysis and opinion mining: a survey. International Journal, 2(6), pp.282292


15

Hình 2-3. Summary of the survey
Sentiment analysis and opinion mining: a survey. International Journal, 2(6), pp.282292

Ý nghĩa:
Cung cấp cái phƣơng pháp cho việc phân loại tình cảm.
Tổng hợp kết quả của từng nghiên cứu với các phƣơng pháp khác nhau với
Precision, Recall, F1.
Khó khăn:
Chủ yếu mang tính báo cáo kết quả dựa trên những nghiên cứu liên quan. Cho
nên sẽ có phần không công bằng bởi mỗi nghiên cứu đƣợc thực hiện trong điều kiện
khác nhau nhƣ con ngƣời, kỹ thuật…


16

2.2. Phương pháp máy học để giải bài toán dự đoán quan điểm
Bằng cách sử dụngmột lƣợng lớn dữ liệu có sẵn, ta có thể ―dạy‖ cho máy tính
―học‖ để chúng có khả năng tự động thực hiện những tác vụ. Vì vậy có thể sử dụng
sức mạnh của máy tính cho việc tính toán, phân tích.
Chúng ta làm cho cái máy học cách chúng ta dự đoán,thay chúng ta để dự đoán.
Đây đƣợc gọi là cách tiếp cận machine learning (machine learning approach) [17]
Bài toán học máy để xử lý ngôn ngữ tự nhiên gồm các việc sau:

2.2.1. Trích xuất đặc trưng
2.2.1.1. Bag of Words
Trong quá trình tìm hiểu thì tôi thấy mô hình Bag-of-words là một trong những
phƣơng pháp phổ biến nhất cho việc trích xuất đặc trƣng vector cho câu.
Bag-of-words không quan tâm đến thứ tự từ trong câu và cũng nhƣ ngữ nghĩa
của từ. Bag-of-word học đƣợc một bộ từ vựng từ tất cả các văn bản, rồi mô hình các
văn bản bằng cách đếm số lần xuất hiện của mỗi từ trong văn bản đó. [18]
Ưu điểm:
Phƣơng pháp đơn giản nhất cho việc trích xuất đặc trƣng vector.
Nhược điểm:

Có một vài điều cần lƣu ý trong BoW[18]
Nhƣợc điểm lớn nhất của BoW là nó không mang thông tin về thứ tự của các từ.
Cũng nhƣ sự liên kết giữa các câu, các đoạn văn trong văn bản.
Ví dụ với tiếng việt, ba câu sau đây: ―Em yêu anh không?‖, ―Em không yêu anh‖,
và ―Không, (nhƣng) anh yêu em‖ khi đƣợc trích chọn đặc trƣng bằng BoW sẽ cho ra
ba vector giống hệt nhau, mặc dù ý nghĩa khác hẳn nhau.
Với những ứng dụng thực tế, từ điển có nhiều từ khác nhau, có thể đến một trăm
nghìn hoặc cả triệu, nhƣ vậy vector đặc trƣng thu đƣợc sẽ rất dài.
Có rất nhiều từ trong từ điển không xuất hiện trong một văn bản. Nhƣ vậy các
vector đặc trƣng thu đƣợc thƣờng có rất nhiều phần tử bằng 0. Các vector có nhiều
phần tử bằng 0 đƣợc gọi là sparse vector.
Nghĩ kỹ một chút, những từ hiếm đôi khi lại mang những thông tin quan trọng
nhất mà chỉ loại văn bản đó có. Đây là một nhƣợc điểm của BoW. Có một phƣơng
pháp cải tiến khác giúp khắc phục nhƣợc điểm này có tên là Term Frequency-Inverse
Document Frequency (TF-IDF) dùng để xác định tầm quan trọng của một từ trong một
văn bản dựa trên toàn bộ văn bản trong cơ sở dữ liệu (corpus).


×