Tải bản đầy đủ (.pdf) (53 trang)

Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.4 MB, 53 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-------------------------------------------

NGÔ THỊ HOA

PHÂN LOẠI QUAN ĐIỂM TRÊN PHƯƠNG TIỆN XÃ HỘI
ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-------------------------------------------

NGÔ THỊ HOA

PHÂN LOẠI QUAN ĐIỂM TRÊN PHƯƠNG TIỆN XÃ HỘI
ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA

Ngành: Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. ĐẶNG THANH HẢI
TS. NGUYỄN CẨM TÚ



Hà Nội - 2015


1
LỜI CẢM ƠN
Lời cảm ơn đầu tiên tôi xin gửi đến TS. Đặng Thanh Hải và TS. Nguyễn
Cẩm Tú. Thầy cô là người đưa ra ý tưởng chọn đề tài và cung cấp cho tôi tài
liệu, phương pháp nghiên cứu và theo sát tôi trong suốt quá trình tôi làm luận
văn. Tôi xin chân thành cảm ơn các bạn, các em trong phòng KT-Lab đã chỉ dẫn
và động viên mỗi khi tôi gặp vướng mắc trong lý thuyết và thực nghiệm.
Tôi xin chân thành cảm ơn các thầy trong Khoa Công nghệ thông tin Phòng Đào tạo sau đại học, Trường Đại học Công nghệ - Đại học Quốc gia Hà
Nội đã tạo mọi điều kiện tốt nhất để tôi hoàn thành khóa học này. Đồng thời, tôi
cũng xin cảm ơn gia đình, bạn bè, những người luôn khuyến khích và giúp đỡ
tôi trong mọi hoàn cảnh khó khăn.
Tác giả luận văn

Ngô Thị Hoa


2

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu độc lập của riêng tôi thực
hiện dưới sự hướng dẫn của TS. Đặng Thanh Hải và TS. Nguyễn Cẩm Tú,
không sao chép ở bất kỳ một luận văn, luận án của các tác giả khác. Nếu có vấn
đề gì tôi xin hoàn toàn chịu trách nhiệm.
Tác giả luận văn


Ngô Thị Hoa


3

MỤC LỤC
LỜI CẢM ƠN .................................................................................................... 1
LỜI CAM ĐOAN .............................................................................................. 2
MỤC LỤC ......................................................................................................... 3
DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT ........................................................... 5
DANH SÁCH CÁC BẢNG ............................................................................... 6
DANH SÁCH CÁC HÌNH ................................................................................. 7
MỞ ĐẦU ......................................................................................................... 8
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, KHAI PHÁ QUAN
ĐIỂM ............................................................................................................... 10
1.1 Khai phá dữ liệu ...................................................................................... 10
1.2 Các phương pháp khai phá dữ liệu .......................................................... 12
1.3 Các kỹ thuật khai phá dữ liệu .................................................................. 13
1.4 Các thách thức trong khai phá dữ liệu ..................................................... 15
1.5 Ứng dụng khai phá dữ liệu ...................................................................... 17
1.6 Phân tích và khai phá quan điểm ............................................................. 18
1.6.1 Phân tích quan điểm qua các cấp độ dữ liệu ...................................... 18
1.6.2 Các thách thức của khai phá quan điểm ............................................. 19
CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÂN LỚP QUAN ĐIỂM .................... 21
2.1 Kỹ thuật học có giám sát ......................................................................... 21
2.2 Lựa chọn đặc trưng.................................................................................. 22
2.3 Các phương pháp phân lớp quan điểm..................................................... 24
2.3.1 Mô hình học máy SVM ..................................................................... 24
2.3.2 Mô hình cây quyết định ..................................................................... 26
2.3.3 Mô hình xác suất Bayes ..................................................................... 29

2.3.4 Thuật toán KNN ................................................................................ 31
2.4 Đánh giá mô hình phân lớp ..................................................................... 33
CHƯƠNG 3: PHÂN LỚP QUAN ĐIỂM TRÊN MÔ HÌNH QUI HỒI
LOGISTIC ....................................................................................................... 35


4
3.1 Cơ sở lý thuyết ........................................................................................ 35
3.1.1 Các khái niệm.................................................................................... 35
3.1.2 Mô hình qui hồi Logistic ................................................................... 36
3.1.3 Phương pháp tìm tham số và tối ưu mô hình qui hồi Logistic ............ 36
3.2 Mô hình qui hồi Logistic áp dụng bài toán phân lớp quan điểm .............. 37
CHƯƠNG 4: THỰC NGHIỆM ........................................................................ 39
4.1 Môi trường và mô hình thực nghiệm ....................................................... 39
4.2. Thu thập và xử lý dữ liệu........................................................................ 40
4.2.1. Dữ liệu về các dự thảo đề án quốc gia .............................................. 40
4.2.2 Xử lý dữ liệu ..................................................................................... 42
4.3 Thực nghiệm phân lớp và đánh giá .......................................................... 43
4.4 Đánh giá kết quả thực nghiệm ................................................................. 48
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾP THEO .............. 49
TÀI LIỆU THAM KHẢO ............................................................................. 50


5

DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT
Từ viết tắt

Từ tiếng Anh


TF

Term Frequency

IDF

Inverse Document Frequency

TFIDF

Term Frequency - Inverse Document Frequency

SVM

Support Vector Machine

KNN

K Nearest Neighbors

Stopword

Những từ phổ biến hoặc hiếm gặp, không có giá trị trong
phân lớp


6

DANH SÁCH CÁC BẢNG
Bảng 1: Môi trường thực nghiệm

Bảng 2: Các phần mềm sử dụng
Bảng 3: Tổng hợp dữ liệu thực nghiệm
Bảng 4: Tổng hợp kết quả với các kích thước tập huấn luyện
Bảng 5: Độ đo phân lớp mô hình qui hồi Logistic và thuật toán KNN


7

DANH SÁCH CÁC HÌNH
Hình 1: Quá trình khai phá dữ tri thức
Hình 2: Các kỹ thuật Khai phá dữ liệu
Hình 3: Thuật toán KNN phân lớp quan điểm
Hình 4: Mô hình thực nghiệm
Hình 5: Quy trình xử lý dữ liệu
Hình 6: Mô tả dữ liệu thực nghiệm
Hình 7: Kết quả thực nghiệm với L1, L2
Hình 8: Kết quả phân lớp
Hình 9: Biểu diễn đánh giá mô hình qui hồi Logistic và KNN


8
MỞ ĐẦU
Khai phá tri thức là lĩnh vực rất phát triển trong những năm gần đây và
được ứng dụng trong nhiều lĩnh vực. Khi quyền tự do ngôn luận ngày càng được
Nhà nước ta chú trọng, công dân có quyền được tham gia bàn bạc, thảo luận và
đóng góp ý kiến vào những vấn đề chung của đất nước đã đặt ra Bài toán cho
khai phá tri thức, cụ thể là khai phá quan điểm: “Làm thế nào để phân tích các
quan điểm được trao đổi trên các phương tiện thông tin đại chúng, để từ đó đưa
ra dự đoán cho vấn đề được thảo luận?”.
Nhận thấy các dự thảo đề án quốc gia luôn có tác động lớn đến nền kinh

tế, đời sống xã hội, luôn nhận được nhiều ý kiến đóng góp của các chuyên gia và
nhân dân. Các ý kiến đóng góp cũng có tác động ngược lại đến đề án trong suốt
quá trình khởi tạo và diễn ra dự án.
Luận văn “Phân loại quan điểm trên phương tiện xã hội đối với dự
thảo đề án quốc gia” đưa ra một giải pháp giải quyết vấn đề Bài toán phân tích
quan điểm trên phương tiện thông tin đại chúng, cụ thể là môi trường mạng. Để
làm được việc này, luận văn tiến hành nghiên cứu các cơ sở lý thuyết, đề xuất
giải pháp thực hiện và áp dụng thực nghiệm trên miền dữ liệu về các dự thảo đề
án quốc gia.
Cấu trúc luận văn gồm bốn chương đi từ tổng quan đến chi tiết vấn đề,
giải pháp và thực nghiệm:
Chương 1: Trình bày tổng quan về khai phá dữ liệu, khai phá quan điểm
Xuất phát điểm từ những kiến thức nền tảng cần nắm được trong lĩnh vực
khai phá tri thức, khai phá quan điểm, luận văn trình bày các cơ sở lý thuyết theo
logic giải quyết Bài toán. Từ đó, ta chọn ra một phương pháp phù hợp với Bài
toán được trình bày trong chương 2.
Chương 2: Nghiên cứu các phương pháp phân lớp quan điểm
Có nhiều phương pháp để phân lớp quan điểm, mỗi phương pháp có một
lịch sử, tư tưởng và đặc trưng riêng phù hợp giải quyết từng vấn đề.
Chương 3: Phân lớp quan điểm với qui hồi Logistic
Mô hình qui hồi Logistic là phương pháp mà luận văn lựa chọn để phân
lớp quan điểm và dự báo, qua đó phân tích kết quả thực nghiệm. Mô hình phân


9
tích mối tương quan biến dự đoán phân loại và biến kết quả dự đoán, mô hình
phù hợp dữ liệu bài toán phân tích quan điểm tiêu cực hay tích cực.
Chương 4: Thực nghiệm phân lớp quan điểm với dự thảo đề án quốc gia
và đánh giá trên kết quả thực nghiệm
- Thu thập và xử lý dữ liệu là các bình luận và bài báo nêu ra các quan

điểm thảo luận về các dự thảo đề án quốc gia.
- Thực nghiệm và đánh giá mô hình phân lớp quan điểm tiêu cực và tích
cực đối với các dự thảo đề án trên mô hình qui hồi Logistis.


10
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, KHAI PHÁ QUAN
ĐIỂM
1.1 Khai phá dữ liệu
Công nghệ thông tin ngày càng phát triển thì các hệ thống thông tin ngày
càng mở rộng để lưu trữ một lượng lớn các dữ liệu đã có và đang tích tụ thêm,
thêm vào đó là việc lưu trữ dữ liệu trực tuyến với dung lượng lớn nhiều khi đã
làm cho ta choáng ngợp và không biết làm thế nào để có những thông tin hữu
ích đang cần. Quá trình lấy ra được những dữ liệu hữu ích được gọi quá trình
khai phá tri thức. Những dữ liệu đó là các tri thức học được.
Có nhiều khái niệm về khai phá dữ liệu, trong đó có khái niệm sau đây dễ
nhớ, dễ hiểu:
“Khai phá tri thức là tìm ra tri thức trong dữ liệu”. [E1]
Quá trình khai phá tri thức:

Hình 1: Quá trình khai phá dữ tri thức


11
Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu
tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã
qua, chi tiết 7 bước:
1) Làm sạch dữ liệu (Data Cleaning):
Dữ liệu được thu thập từ các nguồn được xử lý bỏ dữ liệu nhiễu và không
phù hợp.

2) Tích hợp dữ liệu (Data Integration):
Dữ liệu có thể được kết hợp từ nhiều nguồn khác nhau, sau khi làm sạch
và tiền xử lý được hợp nhất thành những kho dữ liệu (data warehouses).
3) Trích chọn dữ liệu (Data Selection):
Lựa chọn ra những dữ liệu liên quan đến nhiệm vụ phân tích từ kho dữ
liệu.
4) Chuyển đổi dữ liệu (Data Transformation):
Dữ liệu được chuyển đổi sang dạng phù hợp và thống nhất cho quá trình xử lý.
5) Khai phá dữ liệu (Data mining):
Là một bước quan trọng, trong đó các phương pháp thông minh được áp
dụng để lấy ra được dữ liệu mới làm cơ sở cho tri thức.
6) Đánh giá mẫu (Pattern Evaluation):
Dùng các biện pháp là các thước đo để đánh giá kết quả tìm được.
7) Trình diễn dữ liệu (Data Presentation):
Biểu diễn và thể hiện trực quan dữ liệu đã khai phá cho người dùng.
Như vậy, khai phá dữ liệu là một phần không thể thiếu trong khai phá tri
thức. Từ bước 1 đến bước 4 là quá trình tiền xử lý dữ liệu chuẩn bị cho quá trình
khai phá, đến bước 5 khai phá dữ liệu có thể tương tác với người dùng hoặc lưu
trữ như kiến thức mới trong cơ sở tri thức. Do vậy khai phá dữ liệu là một phần
trong khai phá tri thức song thuật ngữ này hay được dùng để tham khảo cho toàn
bộ quá trình khai phá tri thức.
Khai phá dữ liệu được định nghĩa: là quá trìnhkhám phá các mẫu và tri
thức mới từ kho dữ liệu khổng lồ. [E1]


12
1.2 Các phương pháp khai phá dữ liệu
Hiện nay chưa có một tiêu chuẩn nào trong việc quyết định sử dụng
phương pháp khai phá dữ liệu nào vào trường hợp nào thì có hiệu quả nhất. Có
rất nhiều kỹ thuật, mỗi kỹ thuật được sử dụng cho nhiều bài toán khác nhau.

Do vậy, nếu căn cứ vào bài toán cần giải quyết thì khai phá dữ liệu được
chia ra các phương pháp sau:
* Phân lớp (classification) và dự đoán (prediction):
Với một tập dữ liệu huấn luyện có trước các giải thuật và công cụ sẽ xếp
các đối tượng và một trong các lớp đã biết trước.
Bài toán dự đoán tương đương với bài toán phân lớp, khi có đối tượng
mới bộ dự đoán dựa trên thông tin đang có để đưa ra giá trị số học cho hàm cần
dự đoán.
* Phân cụm (clutering):
Phân các đối tượng theo từng cụm, đối tượng và tên cụm chưa được biết
trước nên gọi phân cụm là học không giám sát.
* Tổng hợp (summarization):
Công việc liên quan đến các phương pháp tìm kiếm mô tả tập con dữ liệu,
đó chính là sinh ra các mô tả đặc trưng cho một lớp.
* Qui hồi (regression):
Là bài toán học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự
đoán có giá trị thực. Bài toán qui hồi có nhiệm vụ tương tự bài toán phân lớp
song các thuộc tính dự báo trong bài toán này là liên tục chứ không rời rạc.
* Mô hình ràng buộc (dependency modeling):
Mô hình mô tả sự phụ thuộc giữa các biến, thuộc tính theo hai mức:
- Mức cấu trúc của mô hình mô tả sự phụ thuộc bộ phận của các biến phụ
vào các biến khác, thường biểu diễn dưới dạng đồ thị.
- Mức định lượng mô hình mô tả mức độ phụ thuộc, thường biểu diễn
dưới dạng luật “nếu - thì”.
* Dò tìm biến đổi và độ lệch (change and deviation dectection):


13
Xác định giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của tập
con dữ liệu thực và nội dung mong đợi. Thường dùng 2 mô hình đo độ lệch:

- Lệch theo thời gian: thay đổi có ý nghĩa của dữ liệu theo thời gian.
- Lệch theo nhóm: sự khác nhau giữa hai tập con dữ liệu, nghĩa là xác
định dữ liệu trong một nhóm con của đối tượng có khác đáng kể so với toàn bộ
đối tượng không, qua đó phát hiện những sai sót dữ liệu và sai lệch so với giá trị
thông thường.
1.3 Các kỹ thuật khai phá dữ liệu
Học máy nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống
"học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Trong khai phá dữ
liệu, học máy để dự đoán một số thông tin của dữ liệu dựa trên những đặc tính
đã biết.
Các phương pháp trong lĩnh vực học máy gồm có:
Học máy
Học giám sát

Học bán giám sát

Học không giám sát

Hình 2: Các kỹ thuật Khai phá dữ liệu
* Kỹ thuật học có giám sát (Supervise Machine Learning)
Học có giám sát là một kĩ thuật của ngành học máy để xây dựng một hàm
(function) từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp gồm đối
tượng đầu vào (thường dạng vector), và đầu ra mong muốn. Đầu ra của một hàm
có thể là một giá trị liên tục (gọi là qui hồi), hay có thể là dự đoán một nhãn
phân loại cho một đối tượng đầu vào (gọi là phân loại).
Một số thuật toán thường được lựa chọn khi xây dựng bộ phân lớp gồm
có: máy vector hỗ trợ (Support Vector Machine - SVM); K láng giềng gần nhất
(K Nearest Neighbours); tiếp cận xác suất thống kê (Naïve Bayes); Cây quyết
định (Decision Tree); sử dụng mạng nơron (Neural Network); dựa trên vector



14
trọng tâm (Centroid–base vector); tuyến tính bình phương nhỏ nhất (Linear
Least Square Fit).
* Kỹ thuật học bán giám sát (semi-supervised learning)
Kỹ thuật này sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để huấn
luyện - điển hình là một lượng nhỏ dữ liệu có gán nhãn cùng với lượng lớn dữ
liệu chưa gán nhãn. Học bán giám sát đứng giữa học không giám sát (không có
bất kì dữ liệu có nhãn nào) và có giám sát (toàn bộ dữ liệu đều được gán nhãn).
Nhiều nhà nghiên cứu nhận thấy dữ liệu không gán nhãn, khi được sử dụng kết
hợp với một ít dữ liệu có gán nhãn, có thể cải thiện đáng kể độ chính xác. Để
gán nhãn dữ liệu cho một bài toán học máy thường đòi hỏi một chuyên viên có
kĩ năng để phân loại bằng tay các ví dụ huấn luyện. Khi đó, học bán giám sát có
giá trị thực tiễn lớn lao.
Một ví dụ cho kỹ thuật học máy bán giám sát là đồng huấn luyện (cotraining), trong đó hay nhiều bộ học được huấn luyện cùng một tập ví dụ nhưng
mỗi bộ sử dụng một tập đặc trưng khác nhau, lý tưởng nhất là độc lập với nhau.
Một cách tiếp cận khác là mô hình hoá phân phối xác suất đồng thời của
các đặc trưng và nhãn. Với dữ liệu chưa gán nhãn, có thể coi nhãn là “dữ liệu
còn thiếu”. Các kỹ thuật xử lý dữ liệu còn thiếu như là lấy mẫu Gibbs và tối ưu
kỳ vọng có thể được sử dụng để ước lượng tham số.
* Kỹ thuật học không giám sát (Unsupervise Machine Learning)
Khác với kỹ thuật học có giám sát là không biết trước số đầu ra tương ứng
với tập dữ liệu đầu vào. Trong học không có giám sát, một tập dữ liệu đầu vào
được thu thập. Học không có giám sát thường dùng với các đối tượng đầu vào
như là một tập các biến ngẫu nhiên. Sau đó, một mô hình mật độ kết hợp sẽ
được xây dựng cho tập dữ liệu đó.
Học không giám sát là phương pháp học sử dụng cho lớp bài toán gom
cụm, phân cụm (clustering).
Phương pháp học không giám sát:
- Để thực hiện phân cụm, trước tiên cần một tập dữ liệu huấn luyện

(training dataset) - là một tập các ví dụ học (training examples/instances). Trong
đó, mỗi ví dụ học chỉ chứa thông tin biểu diễn (ví dụ: một vector các giá trị


15
thuộc tính), mà không có bất kỳ thông tin gì về nhãn lớp hoặc giá trị đầu ra
mong muốn (expected output).
- Áp dụng một thuật toán học không có giám sát (ví dụ k-means) để học
hàm/mô hình mục tiêu (trong trường hợp này là hàm phân cụm ứng với thuật
toán được chọn).
- Sử dụng một phương pháp thử nghiệm (có thể kết hợp với một tập dữ
liệu có gán nhãn) để đánh giá hiệu năng của hàm mục tiêu học được.
Một số thuật toán học không giám sát: có nhiều thuật toán học không
giám sát được ra đời và phát triển nhằm giải quyết bài toán phân cụm phục vụ
khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất đa dạng. Việc lựa
chọn sử dụng thuật toán nào tuỳ thuộc vào dữ liệu và mục đích của từng bài
toán. Trong đó các thuật toán thường được sử dụng như: k-means, HAC
(Hierarchical Agglomerative Clustering), SOM (Self-Organizing Map),...
1.4 Các thách thức trong khai phá dữ liệu
Trong tài liệu [E2] đã nêu ra một số thách thức trong khai phá dữ liệu như
sau:
- Phát triển một lý thuyết thống nhất của khai thác dữ liệu:
Có rất nhiều kỹ thuật được thiết kế để khai thác các vấn đề nhưng không
có lý thuyết thống nhất. Phân loại, phân nhóm, luật kết hợp,… hay các cách tiếp
cận khác như thống kê, học máy,… tuy vậy đây sẽ cơ sở cho các nghiên cứu
trong tương lai.
- Dữ liệu nhiều chiều và tốc độ xử lý cơ sở dữ liệu cao:
Ngày nay có nhiều cơ sở dữ liệu có kích thước lớn (terabytes) với hàng
trăm trường, bảng gây khó khăn cho việc lấy mẫu, kết quả lấy mẫu không chính
xác bằng tập dữ liệu có kích thước nhỏ.

- Dữ liệu theo tuần tự và theo thời gian:
Hầu hết nội dung, kích thước cơ sở dữ liệu thay đổi theo thời gian, do vậy
ảnh hưởng đến thời điểm quan sát dữ liệu. Một số dữ liệu phải sắp thứ tự trong
quá trình xử lý như phân tích dự báo thời tiết dữ liệu được sắp theo tuần tự các
hiện tượng thiên nhiên,…


16
- Dữ liệu trong nhiều định dạng phức tạp:
Cần khai phá dữ liệu ở dạng đồ thị, hình ảnh, đa phương tiện cần nghiên
cứu phương pháp khai phá dữ liệu xa hơn việc phân loại, phân nhóm. Từ đó cần
tích hợp khai thác dữ liệu và kiến thức suy luận. Đây là một thách thức rất lớn
trong khai phá dữ liệu.
- Khai thác dữ liệu trong một thiết lập mạng:
Thế giới ngày nay được kết nối với nhau thông qua nhiều loại liên kết:
trang web, blog, email, facebook,… do vậy việc khai thác từ các mạng xã hội là
chủ đề quan trọng. Cần giải quyết các vấn đề đặt ra: cấu trúc mạng, giao thức,
phân quyền,… trong một cộng đồng mạng. Ví dụ: làm thế nào để khai thác dữ
liệu trong hòm thư nội bộ của một tổ chức hay cá nhân trong một thời gian dài.
Dữ liệu được phân phối ở nhiều vị trí với tốc độ mạng cao: khai thác
mạng đặt ra một thách thức lớn cho khai phá dữ liệu khi tốc độ và dịch vụ mạng
ngày càng tăng. Giả sử khi có một cuộc tấn công, các nhà cung cấp mạng cần
nhanh chóng tìm được gói tin IP và phân tích một lượng lớn dữ liệu (vài trăm
GB) với tốc độ nhanh chóng, tìm ra và hủy bỏ gói tin tấn công đó.
- Khai thác dữ liệu cho các vấn đề sinh học và môi trường:
Trong sinh học phân tử nhiều nhiệm vụ khai phá dữ liệu phức tạp tồn tại
mà không xử lý bởi các thuật toán dữ liệu chuẩn, ví dụ liên quan đến các khía
cạnh khác nhanh như ADN, tính chất hóa học, cấu trúc 3D,…, khai thác dữ liệu
trong các ứng dụng sinh thái, môi trường,… ví dụ: thực vật học, khí hậu,…
- Quy trình khai thác dữ liệu:

Làm thế nào để xây dựng một quy trình tự động hóa khai thác dữ liệu với
các thành phần của hoạt động khai thác và xây dựng được các hệ thống khai thác
dữ liệu giúp giảm nhân lực lao động, trong đó có vấn đề quan trọng là xử lý làm
sạch dữ liệu.
- An ninh, bảo mật và toàn vẹn dữ liệu:
Khai phá dữ liệu song cần bảo vệ an ninh và sự riêng tư, đôi khi khai phá
dữ liệu mà không đảm bảo an ninh và riêng tư thì việc khai phá dữ liệu có thể
gây ra tác động xấu tới công chúng. Và cũng cần phải đảm bảo tính toàn vẹn


17
kiến thức, quan điểm trong dữ liệu, tức là cần phải so sánh, kiểm tra tính toàn
vẹn của dữ liệu trong các biên bản của dữ liệu.
- Xử lý dữ liệu động, không cân bằng và chi phí nhạy cảm:
Khi khai phá dữ liệu liên tục thay đổi hoặc phụ thuộc theo thời gian, việc
lấy mẫu và xây dựng mô hình thường không tối ưu, kéo theo đó chi phí thực
hiện cũng bị phụ thuộc vào quá trình xử lý và khắc phục lỗi sai lệch.
1.5 Ứng dụng khai phá dữ liệu
Khai phá dữ liệu ngày càng phát triển sâu rộng nhằm khai thác nguồn dữ
liệu phong phú trong các hệ thống thông tin, đến nay khai phá dữ liệu đã chứng
kiến nhiều thành công lớn trong các ứng dụng. Khó để có thể liệt kê tất cả các
ứng dụng mà khai phá dữ liệu đóng vai trò quan trọng, do vậy luận văn trình bày
các ứng dụng của khai phá dữ liệu theo 2 nhóm:
1) Ứng dụng phân tích, dự báo
- Y học và chăm sóc y tế: từ những thông tin của bệnh nhân trong cơ sở
dữ liệu của bệnh viện, hệ thống phân tích và dự đoán bệnh và đưa ra phác đồ
điều trị,…
- Thương mại: phân tích thông tin sản phẩm, khách hàng,… từ đó dự báo
chiến lược kinh doanh.
- An ninh: phân tích hình ảnh, manh mối, đối chiếu với dữ liệu an ninh để

tìm ra thủ phạm.
- Chính trị, xã hội: phân tích ý kiến, thái độ dư luận để dự báo xu hướng
phát triển.
- Các ngành khoa học: Thiên văn học, Khí tượng (phân tích dự báo các
hiện tượng thiên nhiên); Sinh học (dự báo bệnh di truyền),…
2) Ứng dụng tìm kiếm thông tin
- Web tìm kiếm: mở rộng các phương pháp trong khai thác dữ liệu trong
khai phá thông tin ứng dụng trên bộ dữ liệu phân tán lớn.


18

1.6 Phân tích và khai phá quan điểm
Phân tích tâm lý (Sentiment Analysic) hay khai phá quan điểm (Opinion
Mining) là nghiên cứu về ý kiến, thái độ, cảm xúc của con người đối với một
vấn đề, thực thể. Khai phá quan điểm có ảnh hưởng lớn đến hành vi của con
người trong tương lai vì nó là nhận thức, niềm tin của con người về vấn đề thực
tế và phụ thuộc vào cách nhìn của mỗi người.
Bất cứ khi nào cần đưa ra quyết định, chúng ta thường tham khảo ý kiến
của người khác, đối với cá nhân, lấy ý kiến từ cha mẹ, bạn bè, đối với tổ chức có
thể là các cuộc điều tra, khảo sát hay các cuộc thăm dò dư luận.
Khai phá quan điểm là kỹ thuật để phát hiện và trích xuất thông tin về tình
cảm của con người được lưu trong cơ sở dữ liệu, để làm được việc này vấn đề
quan trọng là phân cực được tình cảm, quan điểm đối với vấn đề, hay nói cách
khác đó là gán nhãn cho tài liệu, đánh giá đó là tích cực hay tiêu cực với đối
tượng mục tiêu (chủ đề). Các ý kiến quan điểm có thể thể hiện theo hai hướng:
- Quan điểm trực tiếp: cho ý kiến hoặc là tích cực, hoặc là tiêu cực về trực
tiếp các đối tượng quan tâm.
Ví dụ: “Tôi đồng ý đề án bỏ chấm điểm tiểu học của Bộ Giáo dục và Đào
tạo”.

- Quan điểm gián tiếp: so sánh các đối tượng quan tâm với với đối tượng
khác tương tự để đưa ra ý kiến khách quan cá nhân.
Ví dụ: “Cải cách này của Bộ giáo dục cải thiện tình trạng bệnh thành tích
và giảm áp lực cho học sinh tiểu học”.
Với mỗi vấn đề trao đổi, mỗi ý kiến đều là quan điểm chủ quan của cá
nhân đưa ra, không đủ cơ sở nhận định chung cho vấn đề. Do vậy, cần thu thập
dữ liệu chứa ý kiến, quan điểm từ nhiều người, sau đó tổng hợp các ý kiến, quan
điểm để rút ra cái nhìn tổng quan cho toàn vấn đề.
1.6.1 Phân tích quan điểm qua các cấp độ dữ liệu
* Phân tích quan điểm ở cấp độ tài liệu


19
Trong tài liệu phân tích có thể có rất nhiều câu không thể hiện quan điểm
tình cảm đối với thực thể đang xét do đó chủ đề hay đối tượng rất là quan trọng
trong việc phân loại ở cấp độ này, còn những câu không phù hợp phải được loại
bỏ ra khỏi quá trình xử lý để giảm phức tạp của tài liệu.
Tần suất từ hay cụm từ nói lên quan điểm là những đặc trưng để phân loại
ở cấp độ tài liệu.
Ưu điểm: Có thể lấy được toàn bộ các quan điểm khác nhau của thực thể
đặc biệt của tài liệu.
Nhược điểm: Những cảm xúc khác nhau về các đặc tính khác nhau của
thực thể không được trích rút riêng biệt.
* Phân tích ở cấp độ câu
Phương pháp phân loại cũng giống như ở cấp độ tài liệu song khai thác
được mức độ quan điểm hơn. Cần tìm ra các đối tượng và chủ đề trong câu chứa
các từ thể hiện ý kiến. Sau đó thì phân cực quan điểm của câu là tích cực, tiêu
cực hay trung lập. Câu đơn giản mang một ý kiến về thực thể, song với câu phức
tạp rất khó cực quan điểm tiêu cực hay tiêu cực, khó xác định đặc tính của đối
tượng trong câu.

Lợi thế của phân loại cấp độ câu nằm trong việc phân loại các chủ đề, đối
tượng, sử dụng các thuật toán truyền thống để huấn luyện.
* Phân tích ở cấp độ cụm từ
Phân loại cụm từ hoàn thành khi tìm ra các từ chứa ý kiến, quan điểm tiêu
cực hay tích cực được xác định từ triết xuất các đặc trưng.
1.6.2 Các thách thức của khai phá quan điểm
- Mỗi người khác nhau có phong cách viết khác nhau:
Cách thức sử dụng ngôn ngữ của mỗi người là khác nhau, sự phong phú
của ngôn ngữ đa dạng hóa cách thể hiện quan điểm của mỗi người. Phong cách
viết còn tùy thuộc vào trình độ, tính cách, tuổi tác, … của từng người.
- Sự phụ thuộc vào bối cảnh và thời gian:
Một từ trong một lời phát biểu được xem là quan điểm tích cực trong tình
huống này song vẫn có thể là tiêu cực trong tình huống khác. Đặc biệt trong bối


20
cảnh châm biếm, mỉa mai, cách dùng từ ẩn dụ rất dễ gây ra hiểu lầm quan điểm
đúng.
Một quan điểm về một vấn đề hoặc chỉ một phần của vấn đề cũng có thể
gây hiểu lầm cho hệ thống khai phá quan điểm. Ví dụ: dự thảo đề án đưa ra áp
dụng cho năm 2015, có ý kiến “đồng ý với việc thực hiện đề án từ năm 2016”.
Với việc ủng hộ đề án đưa ra thì ý kiến này được coi là tích cực nhưng xét về
bối cảnh thời gian thì nó lại là một ý kiến tiêu cực.
- Tồn tại nhiều quan điểm mâu thuẫn trong cùng một tài liệu:
Trong một bình luận, bài viết chứa nhiều quan điểm mâu thuẫn nhau, bao
gồm cả ý kiến tích cực lẫn ý kiến tiêu cực gây khó khăn để phân tích cú pháp và
khai phá quan điểm. Trong trường hợp này cần tách từng câu một để phân tích.
Như vậy, trong chương 1 luận văn đã trình bày các nội dung về khai phá
dữ liệu, khai phá quan điểm. Dựa trên những lý thuyết cơ sở cần có, luận văn
tiếp tục tìm hiểu và phân tích các phương pháp để thực hiện giải quyết Bài toán

đặt ra trong chương 2.


21

CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÂN LỚP QUAN ĐIỂM
Phân lớp quan điểm là một trong những bài toán quan trọng của khai phá
dữ liệu, nhằm phân loại các tài liệu theo định hướng quan điểm. Có nhiều cách
tiếp cận khác nhau để giải quyết bài toán này. Sau đây luận văn trình bày cách
tiếp cận để phân lớp quan điểm dựa vào kỹ thuật học máy, cụ thể là học có giám
sát.
2.1 Kỹ thuật học có giám sát
Nhiệm vụ của chương trình học có giám sát là dự đoán giá trị của hàm
cho một đối tượng bất kì là đầu vào hợp lệ, sau khi đã xem xét dữ liệu huấn
luyện (nghĩa là, các cặp đầu vào và đầu ra tương ứng). Để đạt được điều này,
chương trình học phải tổng quát hóa từ các dữ liệu sẵn có để dự đoán được
những tình huống chưa gặp phải theo một cách “hợp lí”.
* Qui trình học có giám sát
- Xác định loại của dữ liệu huấn luyện. Trước khi làm bất cứ điều gì, cần
quyết định loại dữ liệu nào sẽ được sử dụng làm ví dụ. Chẳng hạn, đó có thể là
kí tự, từ, hay cả dòng.
- Thu thập tập huấn luyện. Tập huấn luyện cần đặc trưng cho thực tế sử
dụng của hàm chức năng. Vì thế, một tập các đối tượng đầu vào được thu thập
và đầu ra tương ứng được thu thập, hoặc từ các chuyên gia hoặc từ việc đo đạc
tính toán.
- Xác định việc biểu diễn các đặc trưng đầu vào cho hàm chức năng cần
tìm. Sự chính xác của hàm chức năng phụ thuộc lớn vào cách các đối tượng đầu
vào được biểu diễn. Thông thường, đối tượng đầu vào được chuyển đổi thành
một vector đặc trưng, chứa các đặc trưng nhằm mô tả cho đối tượng đó. Số
lượng các đặc trưng không nên quá lớn nhưng phải đủ lớn để dự đoán chính xác

đầu ra.
- Xác định cấu trúc của hàm chức năng cần tìm và giải thuật học tương
ứng. Ví dụ, có thể lựa chọn việc sử dụng mô hình học máy SVM, cây quyết
định, xác suất Bayes,...


22
- Để hoàn thiện học máy cần tiến hành chạy giải thuật học từ tập huấn
luyện thu thập được. Các tham số của giải thuật học có thể được điều chỉnh bằng
cách tối ưu hóa hiệu năng trên một tập con (gọi là tập kiểm chứng) của tập huấn
luyện, hay thông qua kiểm chứng chéo. Sau khi học và điều chỉnh tham số, hiệu
năng của giải thuật có thể được đo đạc trên một tập kiểm tra độc lập với tập
huấn luyện.
Để thực hiện phân lớp bằng kỹ thuật học có giám sát như trên, trước hết ta
cần chọn được tập đặc trưng trên dữ liệu phân tích.
2.2 Lựa chọn đặc trưng
Những tài liệu khác nhau có đặc trưng khác nhau, những đặc trưng này có
thể xác định và đo đạc được. Do đó dựa vào đặc trưng là một trong những
phương pháp dùng để phân lớp.
Để trích chọn đặc trưng cần xác định trọng số cho các từ trong văn bản.
Có nhiều phương pháp tính trọng số đó, luận văn sử dụng phương pháp TF*IDF,
phương pháp này tính tần số của từ khóa - TF (Term Frequency) và nghịch đảo
tần số văn bản - IDF (Inverse Document Frequency).
Phương pháp thực hiện như sau:
* Tính trọng số của từ khóa TF tần số xuất hiện của 1 từ trong 1 văn bản.
Công thức:

f(t, d): số lần xuất hiện từ t trong văn bản d.
max{f(w, d) : w ∈ d}: số lần xuất hiện nhiều nhất của một từ bất kỳ trong
văn bản.

tf(t,d) có giá trị thuộc khoảng [0, 1].
* Tính IDF để giảm giá trị của những từ phổ biến. Mỗi từ chỉ có 1 giá trị
IDF duy nhất trong tập văn bản.


23

|D|: tổng số văn bản trong tập D
: số văn bản chứa từ định tính (với tf(t,d)

0))

* Tính Giá trị TF-IDF:

Những từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản
này và xuất hiện ít trong các văn bản khác. Việc này giúp lọc ra những từ phổ
biến và giữ lại những từ mang ý nghĩa phân lớp cao bằng cách đánh trọng số của
từ trên một lớp.
Biểu diễn văn bản dưới dạng vector đặc trưng:
Mỗi bình luận của một người là một văn bản. Với mỗi dự thảo, đề án ta có
tập tài liệu D = (d1, d2, …, dn).
Mỗi tài liệu D được biểu diễn dưới dạng
D),

(vector đặc trưng cho tài liệu

= (x1, x2, …, xn) với xi là trọng số của đặc trưng thứ i. Văn bản dj sẽ được

biểu diễn bằng vector


= (xj1, xj2, …, xjn) Vector hóa dữ liệu thực hiện như

sau:
Input:
- Tài liệu gồm các văn bản.
- Tập liệt kê trọng số (mỗi từ liệt kê 1 lần).
Output:
- Tài liệu biểu diễn dưới dạng vector.
Ví dụ: Vector hóa tài liệu D:
Văn bản doc1: áp_dụng thông_tư cho cấp_hai


×