Tải bản đầy đủ (.pdf) (57 trang)

Xây dựng mô hình phân lớp bài báo bằng phương pháp kết hợp boosting

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.95 MB, 57 trang )

ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KINH TẾ

KI

N
H

TẾ

H

U



KHOA HỆ THỐNG THÔNG TIN KINH TẾ


C

KHÓA LUẬN TỐT NGHIỆP

ẠI

H

XÂY DỰNG MÔ HÌNH PHÂN LỚP BÀI BÁO BẰNG

TR


Ư



N

G

Đ

PHƯƠNG PHÁP KẾT HỢP BOOSTING

Giáo Viên hướng dẫn: TS. Nguyễn Đình Hoa Cương
Sinh viên thực hiện: Võ Đức Nguyên
Lớp: K48A-Tin học kinh tế

Huế, 04/2018


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

LỜI CÁM ƠN
Lời đầu tiên trong khóa luận tốt nghiệp “Xây dựng mô hình phân lớp bài báo
bằng phương pháp kết hợp Boosting” này, em muốn gửi những lời cám ơn chân
thành nhất của mình đến những người đã hỗ trợ, giúp đỡ em về mọi mặt trong quá
trình thực hiện đề tài.
Thứ nhất, em xin chân thành cám ơn TS. Nguyễn Đình Hoa Cương, Giảng
Viên Khoa Hệ Thống Thông Tin Kinh Tế, Trường Đại học Kinh Tế Huế, Đại Học


U



Huế, người đã trực tiếp hướng dẫn, nhận xét, giúp đỡ em tận tình trong quá trình

H

thực hiện đề tài.

TẾ

Thứ hai, em xin chân thành cám ơn anh Đặng Ngọc Thạnh - quản lý công ty

KI

nghiệm để em hoàn tốt đề tài này.

N
H

Lotus Outsourcing đã giúp đỡ em rất nhiệt tình từ việc tìm tài liệu cho đến kinh


C

Cuối cùng là em xin chân thành cám ơn đến ban giám hiệu nhà trường, quý

ẠI


khóa luận tốt nghiệp lần này.

H

thầy cô trong Khoa đã tạo điều kiện tốt nhất tốt nhất cho em được làm và hoàn thiện

Đ

Do kiến thức của em có hạn nên quá trình thực hiện khóa luận tốt nghiệp

N

G

không tránh khỏi những thiếu sót, em rất mong nhận được sự đóng góp của quý

TR

Ư



thầy cô để em có thể hoàn thiện tốt chuyên đề này.
Em xin chân thành cám ơn!
Sinh viên thực hiện
Võ Đức Nguyên

SVTH: Võ Đức Nguyên


i


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

MỤC LỤC
PHẦN MỞ ĐẦU ........................................................................................................1
1. Lý do chọn đề tài .................................................................................................1
2. Mục tiêu nghiên cứu............................................................................................1
3. Phương pháp nghiên cứu.....................................................................................2
4. Bố cục báo cáo khóa luận....................................................................................2
PHẦN NỘI DUNG ....................................................................................................3
CHƯƠNG I: CƠ SỞ LÝ THUYẾT .........................................................................3



1.1. Tổng quan về khám phá tri thức và khai phá dữ liệu .......................................3

U

1.1.1. Khám phá tri thức và quy trình khám phá tri thức ....................................3

H

1.1.2. Khai phá dữ liệu ........................................................................................5

TẾ


1.1.3. Các phương pháp chính trong khai phá dữ liệu ........................................5

N
H

1.1.4. Ứng dụng của khai phá dữ liệu .................................................................6

KI

1.2. Tổng quan về khai phá văn bản .......................................................................7


C

1.2.1. Khái niệm khai phá văn bản ......................................................................7

H

1.2.2. Quy trình khai phá văn bản .......................................................................8

Đ

ẠI

1.2.3. Một số bài toán trong khai phá văn bản ....................................................9

G

1.3. Phát biểu bài toán phân lớp tin tức...................................................................9


N

1.4. Các công trình liên quan ................................................................................10

Ư



1.5. Một số mô hình phân lớp được sử dụng trong khóa luận ..............................22

TR

1.5.1. Mô hình phân lớp kết hợp Boosting (Adaboost) ....................................22
1.5.2. Mô hình phân lớp Support Vector Machines (SVM) .............................23
1.5.3. Mô hình phân lớp cây quyết định (J48) ..................................................26
1.5.4. Mô hình phân lớp k- Lân cận (kNN) ......................................................26
1.5.5. Mô hình phân lớp Naïve Bayes ...............................................................27
CHƯƠNG II: QUY TRÌNH XÂY DỰNG MÔ HÌNH PHÂN LỚP VĂN BẢN
BẰNG PHƯƠNG PHÁP BOOSTING DỰA TRÊN MÔ HÌNH PHÂN LỚP
SVM ..........................................................................................................................29
2.1. Quy trình xây dựng mô hình phân lớp văn bản .............................................29
2.2. Mô hình vector trong quá trình phân lớp văn bản..........................................30
SVTH: Võ Đức Nguyên

ii


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp


2.2.1. Mô hình giỏ từ (Bag-of-Words) ..............................................................30
2.2.2. Phương pháp tính trọng số TF-IDF .........................................................30
2.3. Loại bỏ từ thừa (stopwords) ...........................................................................31
2.4. Đặc trưng bài toán phân lớp văn bản .............................................................32
2.5. Các phương pháp chuẩn bị dữ liệu.................................................................32
2.5.1. Phương pháp Hold-Out ...........................................................................33
2.5.2. Phương pháp K – Fold Cross Validation ................................................33
2.6. Phương pháp đánh giá các mô hình phân lớp ................................................35
2.6.1. Độ chính xác (Accuracy) ........................................................................35

U



2.6.2. Phương pháp đánh giá theo Precision và Recall .....................................35

H

2.6.3. Phương pháp đánh giá F1-score ..............................................................36

TẾ

2.6.4. Phương pháp đánh giá ma trận nhầm lẫn (Confusion Matrix) ...............37

N
H

2.6.5. Phương pháp đánh giá bằng đường ROC ...............................................38


KI

CHƯƠNG III: XÂY DỰNG THÍ NGHIỆM ........................................................39


C

3.1. Xây dựng mô hình phân lớp tin tức tự động ..................................................39

H

3.1.1. Thu thập dữ liệu và tiền xử lý dữ liệu .....................................................39

Đ

ẠI

3.1.2. Xây dựng mô hình ...................................................................................40

G

3.2. Kết quả thí nghiệm .........................................................................................42

N

3.2.1. Hiệu năng của các mô hình .....................................................................42

Ư




3.2.2. Đường ROC của các mô hình phân lớp. .................................................43

TR

3.2.3. Ma trận nhãn lớp của mô hình phân lớp .................................................45
3.3. Ứng dụng mô hình vào phần mềm tổng hợp tin tức tự động. ........................46
PHẦN KẾT LUẬN ..................................................................................................48
DANH MỤC TÀI LIỆU THAM KHẢO .............................................................. vii

SVTH: Võ Đức Nguyên

iii


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

DANH MỤC HÌNH VẼ
Hình 1. 1: Quy trình khám phá tri thức. ......................................................................3
Hình 1. 2: Quy trình khai phá văn bản ........................................................................8
Hình 1. 3: Mô hình phân lớp kết hợp Boosting – Adaboost. ...................................23
Hình 1. 4: Cơ chế hoạt động của mô hình cơ sở SVM ............................................24
Hình 1. 5: Cơ chế hoạt động của mô hình phân lớp cơ sở SVM. .............................24
Hình 1. 6: Cơ chế hoạt động của mô hình phân lớp cơ sở SVM. .............................25
Hình 1. 7: Mô hình cây quyết định. .........................................................................26
Hình 1. 8: Mô hình phân lớp cơ sở kNN..................................................................27

U




Hình 1. 9: Mô hình phân lớp cơ sở kNN...................................................................27

H

Hình 1. 10: Mô hình phân lớp NaiveBayes...............................................................28

TẾ

Hình 2. 1: Kiến trúc mô hình phân lớp văn bản ........................................................29

N
H

Hình 2. 2: Phương pháp Hold-out .............................................................................33

KI

Hình 2. 3: Phương pháp Cross validation. ................................................................34


C

Hình 2. 4: Phương pháp Cross validation .................................................................35

H

Hình 2. 5: Cách tính Precision và Recall. .................................................................36


ẠI

Hình 2. 6: Phương pháp đánh giá ma trận nhầm lẫn trong weka ..............................37

G

Đ

Hình 2. 7: Đường ROC của các mô hình ..................................................................38

N

Hình 3. 1: Xác định nhãn lớp ....................................................................................39

Ư



Hình 3. 2: Phương pháp giảm từ thừa trong weka ....................................................40

TR

Hình 3. 3: Tính TF-IDF và giảm từ trong weka........................................................40
Hình 3. 4: Tiến hành xây dựng mô hình bằng các phương pháp phân lớp ...............41
Hình 3. 5: Kiểm thử mô hình test set trong weka .....................................................41
Hình 3. 6: Lưu mô hình trong weka ..........................................................................42
Hình 3. 7: Sơ đồ xây dựng các mô hình phân lớp .....................................................42
Hình 3. 8: Sơ đồ ROC của các mô hình ....................................................................44
Hình 3. 9: Sơ đồ ROC cho nhiều nhãn lớp của mô hình Boosting(SVM)................45

Hình 3. 10: Ma trận các nhãn lớp của mô hình .........................................................46
Hình 3. 11: Kết quả phân lớp theo mô hình ..............................................................47

SVTH: Võ Đức Nguyên

iv


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

PHẦN MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây, cùng với sự phát triển nhanh chóng của khoa học
kỹ thuật là sự bùng nỗ về tri thức. Kho dữ liệu, nguồn tri thức của nhân loại cũng
trở nên đồ sộ, vô tận làm cho vấn đề khai thác các nguồn tri thức đó ngày càng trở
nên nóng bỏng và đặt ra thách thức lớn cho nền công nghệ thông tin thế giới.
Cùng với những tiến bộ vượt bậc của công nghệ thông tin là sự phát triển
mạnh mẽ của mạng thông tin toàn cầu, nguồn dữ liệu Web trở thành kho dữ liệu
khổng lồ. Nhu cầu về tìm kiếm và xử lý thông tin, cùng với yêu cầu về khả năng kịp

U



thời khai thác chúng để mạng lại những năng suất và chất lượng cho công tác quản

H


lý, hoạt động kinh doanh…đã trở nên cấp thiết trong xã hội hiện đại. Nhưng vấn đề

TẾ

tìm kiếm và sử dụng nguồn tri thức đó như thế nào để phục vụ cho công việc của

N
H

mình lại là một vấn đề khó khăn đối với người sử dụng. Để đáp ứng phần nào yêu

KI

cầu này, người ta đã xây dựng các công cụ tìm kiếm và xử lý thông tin nhằm giúp


C

cho người dùng tìm kiếm được các thông tin cần thiết cho mình, nhưng với sự rộng

H

lớn, đồ sộ của nguồn dữ liệu trên Internet đã làm cho người sử dụng cảm thấy khó

ẠI

khăn trước những kết quả tìm được.

G


Đ

Với các phương pháp khai thác cơ sở dữ liệu truyền thống chưa đáp ứng

N

được các yêu cầu đó. Để giải quyết vấn đề này, một hướng đi mới đó là nghiên cứu

Ư



và áp dụng kỹ thuật khai phá dữ liệu và khám phá tri thức trong môi trường Web.

TR

Do đó, việc nghiên cứu các mô hình dữ liệu mới và áp dụng các phương
pháp khai phá dữ liệu trong khai phá tài nguyên Web là một xu thế tất yếu vừa có ý
nghĩa khoa học vừa mang ý nghĩa thực tiễn cao. Vì vậy, em chọn đề tài “Xây dựng
mô hình phân lớp bài báo bằng phương pháp kết hợp Boosting” để làm luận văn tốt
nghiệp cho mình.
2. Mục tiêu nghiên cứu
 Mục tiêu tổng quát
Mục tiêu của đề tài là nghiên cứu xây dựng mô hình phân lớp bài báo tin tức
dựa trên các phương pháp phân lớp cơ sở cũng như phân lớp kết hợp. Sau đó, chúng

SVTH: Võ Đức Nguyên

Trang 1



GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

ta có thể sử dụng mô hình để phân lớp những bài báo bất kỳ vào danh mục tương
ứng tự động một cách nhanh chóng và chính xác nhất.
Mục tiêu cụ thể
- Nghiên cứu các phương pháp phân lớp cơ sở và phân lớp kết hợp để tiến
hành xây dựng mô hình phân lớp tối ưu nhất với dữ liệu là các bài báo được thu
thập từ các dữ liệu Internet.
- Ứng dụng mô hình vào thực tiễn để phân lớp tin tức tự động vào các danh
mục tương ứng một cách chính xác nhất.
3. Phương pháp nghiên cứu

U



Các phương pháp nghiên cứu được sử dụng trong bài:

H

- Phương pháp đối chiếu – so sánh.

TẾ

- Phương pháp cấu trúc – hệ thống.

N

H

- Thu thập và phân tích các tài liệu và thông tin liên quan đến đề tài.

KI

- Thảo luận, lựa chọn các phương hương giải quyết vấn đề.


C

- Triển khai xây dựng khai phá dữ liệu.

H

- Kiểm tra, thử nghiệm và đánh giá kết quả trong quá trình khai phá.

ẠI

4. Bố cục báo cáo khóa luận

G

Đ

Nội dung chính của báo cáo khóa luận được chia thành 3 chương như sau:

N

Chương I: Cơ sở lý thuyết, trình bày và giới thiệu cơ sở lý thuyết về khám


Ư



phá tri thức và khai phá dữ liệu cũng như khái phá văn bản để làm nền tảng xây

TR

dựng mô hình phân lớp tin tức tự động.
Chương II: Quy trình xây dựng mô hình khai phá văn bản bằng phương pháp
boosting, trình bày chi tiết các bước trong quy trình xây dựng mô hình khai phá văn
bản bằng phương pháp boosting bao gồm gồm các bước: thu thập dữ liệu, tiền xử lý
dữ liệu, chuyển dạng dữ liệu, phân chia dữ liệu, khai phá dữ liệu và trình diễn dữ liệu.
Chương III: Xây dựng thí nghiệm, trình bày chi tiết quá trình xây dựng mô
hình phân lớp bằng dữ liệu đã thu thập cụ thể là trên các tập dữ liệu 500, 1000, 1500
bài báo. Sau đó sẽ tiến hành xây dựng mô hình phân lớp bằng các phương pháp kết
hợp như Boosting, Voting, Bagging, Stacking để thu được mô hình tối ưu nhất.
Cuối cùng là phần đánh giá, kết luận và hướng phát triển của đề tài.

SVTH: Võ Đức Nguyên

Trang 2


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

PHẦN NỘI DUNG

CHƯƠNG I: CƠ SỞ LÝ THUYẾT
1.1. Tổng quan về khám phá tri thức và khai phá dữ liệu
1.1.1. Khám phá tri thức và quy trình khám phá tri thức
1.1.1.1. Khám phá tri thức
Theo R Feldman [1], khám phá tri thức là một khám phá tự động phân tích
và mô hình hóa kho dữ liệu lớn. Khám phá tri thức là quá trình tổ chức, xác định
các mô hình hợp lệ, mới lạ, hữu ích và dễ hiểu từ các mô hình lớn và bộ dữ liệu
phức tạp.

U



Theo Devedzic [2], khám phá tri thức là quá trình tự động phát hiện các mẫu,

TẾ

H

quy tắc và nội dung thông thường chưa được biết trước có khối lượng lớn dữ liệu.
Theo Oded Maimon và Lior Rokach [3], khám phá tri thức là một phân tích

N
H

tự động, thăm dò và mô hình hóa kho dữ liệu lớn. Khám phá tri thức là quá trình

KI

xác định hợp lý, mới lạ, hữu ích và dễ hiểu từ các bộ dữ liệu lớn và phức tạp.



C

Tóm lại, khám phá tri thức trong cơ sở dữ liệu là một quá trình của việc xác

H

định giá trị, cái mới lạ, tri thức tiềm ẩn và tri thức trong một khối lượng dữ liệu

Đ

ẠI

khổng lồ để đáp ứng được nhu cầu thông tin của xã hội.

G

1.1.1.2. Quy trình khám phá tri thức

TR

Ư



N

Quy trình khám phá tri thức được mô tả chi tiết trong hình 1.1


Hình 1. 1: Quy trình khám phá tri thức.
(Nguồn: From Data Mining to Knowledge Discovery in Databases)

SVTH: Võ Đức Nguyên

Trang 3


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

Trong đó, các bước trong quy trình khám phá tri thức thể hiện rõ từng tính
chất riêng, có vai trò và nhiệm vụ khác nhau. Bao gồm:
Bước 1: Chọn lọc dữ liệu (Selection)
Ở giai đoạn này, chúng ta sẽ tập hợp các dữ liệu được khai phá từ một cơ sở
dữ liệu, từ kho dữ liệu, các nguồn dữ liệu web vào một cơ sở dữ liệu chúng ta để
tiến hành xử lý. Công đoạn này gặp khá nhiều khó khăn và trắc trở vì dữ liệu nằm ở
khắp nơi và nhiều dạng phức tạp cũng như được thu thập từ những cơ sở dữ liệu
khổng lồ nên cần chọn lọc một cách thận trọng và chính xác.
Bước 2: Tiền xử lý dữ liệu (Processing)

U



Sau khi đã chọn lọc dữ liệu phù hợp thì chúng ta sẽ tiến hành tiền xử lý dữ

H


liệu. Phần lớn dữ liệu thường sẽ không được đồng nhất cũng như mắc một số lỗi như

TẾ

dữ liệu không đầy đủ, chặt chẽ và không lôgic, bị trùng lặp. Cho nên cần phải tiền xử

N
H

lý trước khi khai phá dữ liệu. Ở giai đoạn này sẽ dùng các kỹ thuật làm sạch, tích hợp,

KI

biến đổi và thu giảm dữ liệu để kết nối các dữ liệu với nhau một cách chặt chẽ và


C

logic, tạo điều kiện cho việc khai phá dữ liệu một cách thuận lợi và chính xác nhất.

H

Bước 3: Chuyển đổi dữ liệu (Transformation)

ẠI

Đây là giai đoạn chuyển đổi dữ liệu, giai đoạn này giúp cho dữ liệu được

G


Đ

chuyển đổi về dạng thích hợp để tiến hành khai phá dữ liệu. Thông thường dữ liệu

N

sẽ chuyển về dạng vector để khai phá dữ liệu.

Ư



Bước 4: Khai phá dữ liệu (Data Mining)

TR

Sau khi dữ liệu đã được chuyển về dạng vector sẽ tiến hành khai phá dữ liệu.
Đây là giai đoạn quan trọng nhất của quy trình, các thuật toán chuyên ngành sẽ
được sử dụng để tiến hành khai phá dữ liệu, mục đích để tìm ra dữ liệu chính xác
nhất theo mục tiêu đề ra. Một số kỹ thuật được ứng dụng đó là: phân lớp, phân cụm,
luật kết hợp.
Bước 5: Đánh giá kết quả (Evaluation of Result)
Bước cuối cùng của quy trình này đó là đánh giá kết quả, các mẫu dữ liệu
sau khi đã khai phá không phải mẫu nào cũng chính xác, cũng đều hữu ích vì vậy
phải cần áp dụng các tiêu chuẩn đánh giá dữ liệu vào để lấy ra những mẫu dữ liệu
tri thức cần thiết và chính xác nhất.

SVTH: Võ Đức Nguyên

Trang 4



GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

Nếu khám phá tri thức là toàn bộ quá trình chiết xuất tri thức từ các cơ sở dữ
liệu thì khai phá dữ liệu là giai đoạn quan trọng nhất của quá trình đó. Khâu khai
phá dữ liệu này sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu từ các tập
dữ liệu.
1.1.2. Khai phá dữ liệu
Theo Frawlay [4], phát hiện tri thức trong cơ sở dữ liệu (đôi khi còn được gọi
là khai phá dữ liệu) là một quá trình không tâm thường nhận ra những mẫu có giá
trị, mới, hữu ích tiềm năng và hiểu được trong dữ liệu.
Theo tài liệu của Weldon năm 1996 [5], khai phá dữ liệu là quá trình trích ra

U



những thông tin dùng được, đúng và chưa biết trước từ cơ sở dữ liệu lớn, rồi dùng

H

thông tin này để ra quyết định.

TẾ

Theo Tom Mitchell [6], khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để


N
H

khám phá những quy tắc và cải thiện những quyết định trong tương lai.

KI

Theo TS. Fayyad [7], khai phá dữ liệu thường được xem là việc khám phá tri


C

thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước

H

đây chưa biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, quy tắt

Đ

ẠI

trong cơ sở dữ liệu.

G

Tóm lại, khai phá dữ liệu là quá trình trích lọc các thông tin, các mẫu có giá

N


trị ẩn trong lượng lớn dữ liệu có khối lượng khổng lồ để đáp ứng được nhu cầu ra

Ư



quyết định trong tương lai.

TR

1.1.3. Các phương pháp chính trong khai phá dữ liệu
1.1.3.1. Phân lớp (Classification)
Phân lớp là hình thức phân tích dữ liệu phổ biến được dùng để tạo lập các
mô hình mô tả các phân lớp dữ liệu quan trọng [8]. Phân tích như vậy giúp chúng ta
hiểu sâu hơn về dữ liệu ở một tầm mức lớn hơn, bao quát hơn. Những mô hình phân
lớp (classification models/classifiers) còn được sử dụng để dự đoán các nhãn phân
lớp cho dữ liệu vào tương ứng. Hướng tiếp cận này thường sử dụng một số kỹ thuật
của học máy (machine learning) như cây quyết định, mạng nơron nhân tạo… Người
ta gọi là phân lớp có giám sát.

SVTH: Võ Đức Nguyên

Trang 5


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

Quá trình phân lớp dữ liệu thường gồm hai giai đoạn chính: (i) xây dựng mô

hình; và (ii) sử dụng mô hình để phân lớp dữ liệu.
Trong bài toán phân lớp, chúng ta có thể sử dụng các phương pháp như: cây
quyết định (Decision Tree), k-lân cận (k-Nearest Neighbor), mạng nơron (Neural
networks), mạng Bayesian (Bayesian networks), tập mờ và tập thô (Rough and
Fuzzy Sets).
1.1.3.2. Phân cụm (Clustering)
Phân cụm [9] (clustering) là quá trình gộp dữ liệu vào các nhóm hay các lớp
mà những dữ liệu được xếp cùng nhóm có độ tương tự nhau cao trong khi chúng sẽ

U



rất khác biệt so với những dữ liệu được xếp vào nhóm (hay lớp) khác. Những khác

H

biệt (dissimilarities) được đánh giá dựa trên các giá trị thuộc tính được dùng để mô

TẾ

tả các đối tượng. Thông thường, các phép tính khoảng cách được sử dụng để thực

N
H

hiện mục đích này. Không giống như phân lớp dữ liệu, phân nhóm dữ liệu không

KI


cần đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi


C

phân nhóm dữ liệu là một các học bằng quan sát, trong khi phân lớp dữ liệu là học

H

bằng ví dụ.

ẠI

Phân cụm (cluster analysis) được ứng dụng rộng rãi trong nhiều lĩnh vực

G

Đ

như: nghiên cứu thị trường, nhận dạng mẫu, phân tích dữ liệu và xử lý ảnh. Ví dụ:



N

trong kinh doanh, phân cụm có thể giúp chúng ta khám phá các nhóm khách hàng

Ư

khác nhau dựa trên hành vi mua hàng của họ.


TR

1.1.3.3. Khai phá luật kết hợp (Association Rule)
Luật kết hợp [9] là dạng biểu diễn tri thức dưới dạng tương đối đơn giản.
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá
trị dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật
kết hợp tìm được.
Tuy luật kết hợp là một dạng khá đơn giản nhưng lại mang rất nhiều ý nghĩa.
Thông tin mà dạng luật này đem lại rất có lợi trong việc hỗ trợ ra quyết định.
1.1.4. Ứng dụng của khai phá dữ liệu
Hiện nay, kỹ thuật khai phá dữ liệu không còn lạ lẫm với bất cứ ngành nghề
nào trên thế giới. Nó đã được áp dụng rất nhiều vào để tìm kiếm ra những thông tin

SVTH: Võ Đức Nguyên

Trang 6


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

hữu ích cung cấp cho việc ra quyết định cũng như nhu cầu cần thiết của con người.
Sau đây là một số ứng dụng mà khai phá dữ liệu được triển khai nhiều nhất và đã
gặt hái được nhiều kết quả:
Dự đoán các mô hình về tài chính: khai phá dữ liệu được sử dụng để tạo ra
những mô hình dự đoán rủi ro tài chính cho các khoảng đầu tư cũng như các khoản
vay và thanh toán của khách hàng. Ngoài ra, còn có thể ứng dụng để phát hiện và
phân tích các tội phạm về tài chính.

Hỗ trợ về mảng thương mại điện tử: khai phá triệu để tâm lý khách hàng
về sản phẩm trên mọi phương diện không chỉ đơn thuần là giá. Nhận diện những

U



đặc trưng của khách hàng để đề xuất những phương pháp chăm sóc khách hàng phù

H

hợp, giúp uy tín của doanh nghiệp tăng lên và chiếm được sự chú ý của khách hàng.

TẾ

Phân tích dữ liệu y – sinh học: khai phá dữ liệu được ứng dụng để xây

N
H

dựng các mô hình để phòng chống cũng như đề xuất các phương án chữa bệnh các

KI

căn bệnh ung thư trên thế giới hiện nay. Ngoài ra, khai phá dữ liệu còn được sử


C

dụng rộng rãi để tạo ra các mô hình để tìm ra các bất thường trong cấu trúc Gen,


H

Protein và xây dựng các công cụ trực quan để phân tích dữ liệu di truyền.

ẠI

Bên cạnh đó, khai phá dữ liệu còn ứng dụng phổ biến trong nhiều lĩnh vực

G

Đ

như điều trị y học, dự đoán điện tải, dự báo thời tiết, v.v.

N

1.2. Tổng quan về khai phá văn bản

Ư



1.2.1. Khái niệm khai phá văn bản

TR

Theo tài liệu của R Feldman [1], khai phá văn bản là tập hợp các quy trình
bắt buộc để biến tài liệu văn bản hoặc các tài nguyên phi cấu trúc thành những
thông tin có cấu trúc có giá trị.

Theo G Chakraborty [13], khai phá văn bản hay phân tích văn bản là những
thuật ngữ bao quát mô tả một loạt các công nghệ để phân tích và xử lý các dữ liệu
văn bản bán tự cấu trúc và không có cấu trúc.
Theo P Zweigenbaum [14], khai phá văn bản là quá trình phân tích các bộ
sưu tập các tài liệu văn bản để nắm bắt các khái niệm, chủ để quan trọng và khám
phá các mối quan hệ ẩn và các xu hướng mà không cần phải biết đến những từ
chính xác hoặc thuật ngữ mà các tác giả đã sử dụng để thể hiện những khái niệm đó.

SVTH: Võ Đức Nguyên

Trang 7


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

Theo định nghĩa của các nhà nghiên cứu YH Tseng [8], khai phá văn bản là
việc xử lý các qua tài liệu văn bản hoặc các kho dữ liệu để có được những thông tin
có cấu trúc, có giá trị. Điều này đòi hỏi các công cụ phân tích phức tạp xử lý văn
bản để thu thập các từ khóa cụ thể hoặc các điểm dữ liệu quan trọng từ những định
dạng thô hoặc không có cấu trúc.
Tóm lại, cũng như khai phá dữ liệu, khai phá văn bản là quá trình xử lý và
trích xuất thông tin nằm trong văn bản để tìm ra những mẫu, thông tin hữu ích từ
các dữ liệu là các văn bản được thu thập từ các khối dữ liệu để đưa ra các quyết
định một cách chính xác nhất để phục vụ cho nhu cầu của con người.

U




1.2.2. Quy trình khai phá văn bản

TR

Ư



N

G

Đ

ẠI

H


C

KI

N
H

TẾ

H


Quy trình khai phá văn bản được thể hiện khái quát qua Hình 2.

Hình 1. 2: Quy trình khai phá văn bản

Cũng như khai phá dữ liệu, quy trình khai phá văn bản cũng bao gồm các
bước như sau:
Bước 1: Thu thập dữ liệu từ nguồn khác nhau để làm cơ sở dữ liệu thực hiện
bài toán phân lớp.
Bước 2: Tiền xử dữ liệu bao gồm các bước: giảm các từ thừa, tính trọng số tf-idf
Bước 3: Xây dựng 2 tập dữ liệu huấn luyện (train set) và kiểm thử (test set)
để huấn luyện mô hình.
Bước 4: Chuyển định dạng sang vector (ví dụ: arff)

SVTH: Võ Đức Nguyên

Trang 8


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

Bước 5: Tiến hành huấn luyện mô hình bằng các phương pháp kết hợp như
boosting, bagging, voting, stacking.
Bước 6: Đánh giá và kiểm thử các mô hình đã thực hiện trên.
1.2.3. Một số bài toán trong khai phá văn bản
1.2.3.1. Tìm kiếm văn bản
Tìm kiếm văn bản là quá trình tìm kiếm văn bản theo yêu cầu của người
dùng. Các yêu cầu được thể hiện dưới dạng các câu hỏi, dạng câu hỏi đơn giản nhất

là các từ khóa. Có thể hình dùng hệ tìm kiếm văn bản sắp xếp tập văn bản trong
miền tìm kiếm thành hai lớp: một lớp được hiển thị bao gồm các văn bản thỏa mãn

U



với câu hỏi người dùng và một lớp không được hiển thị bao gồm các văn bản không

H

thỏa mãn với yêu cầu.

TẾ

1.2.3.2. Phân lớp văn bản

N
H

Người ta có thể phân lớp các văn bản một cách thủ công, tức là đọc nội dung

KI

từng văn bản Phân lớp văn bản được xem như là quá trình gán các văn bản vào một


C

hay nhiều lớp văn bản đã được xác định từ trước. một và gán nó vào một lớp nào


H

đó. Hệ thống quản lý tập gồm rất nhiều văn bản cho nên cách này sẽ tốn rất nhiều

ẠI

thời gian, công sức và do đó là không khả thi. Do vậy mà người ta đã nghỉ ra cách

G

Đ

phân lớp tự động. Để phân lớp tự động người ta thường sử dụng các phương pháp



N

học máy trong tri tuệ nhân tạo như Cây Quyết Định, Bayes, KNN, Bagging,

Ư

Boosting, Stacking, Voting.

TR

1.2.3.3. Phân cụm

Đây là bài toán tự động lập ra các nhóm văn bản sao cho trong cùng một

nhóm thì các văn bản sẽ tương tự nhau về chủ đề, về cấu trúc, còn các văn bản khác
nhóm thì ít tương tự nhau. Số nhóm có thể do người cài đặt tùy chọn hoặc thống tự
tính toán số nhóm phù hợp nhất.
1.3. Phát biểu bài toán phân lớp tin tức
Gọi D là tập văn (corpus) gồm các bài báo, 𝐃 = {𝒅𝒊 | 𝒊 = 𝟏, 𝒏} với trong

đó di là một bài báo, 𝒏 ∈ ℕ.

SVTH: Võ Đức Nguyên

Trang 9


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

Gọi C là tập các danh mục bài báo tin tức, 𝐂 = {𝒄𝒋 | 𝒋 = 𝟏, 𝒎} với trong đó

cj là một danh mục bài báo, 𝒎 ∈ ℕ.

Biết với mỗi bài báo di luôn thuộc về một danh mục cụ thể cj.
Bài toán phân lớp tin tức đặt mục tiêu xây dựng mô hình phân lớp (hay một

hàm f), dùng để phân lớp một bài báo bất kỳ vào một danh mục tương ứng. Một
cách tổng quát, mô hình phân lớp được biểu diễn như sau:
𝒇: 𝑫 → 𝑪




1.4. Các công trình liên quan

(1)

𝒅𝒊 ↦ 𝒄 𝒋

H

U

Sau đây là một số công trình liên quan đến khai phá văn bản trên thế giới từ

TẾ

trước đến nay:

N
H

Lucini F.R. và Fogliatto F.S. [15] đã đề xuất phương pháp khai phá văn bản

KI

để xây dựng bộ phân lớp dự đoán trường hợp nhập viện sử dụng các hồ sơ bệnh án


C

sớm của bệnh viện với nội dung: sự quá tải của của bệnh viện cấp cứu là một vấn
đề nghiêm trọng đối với các bệnh viện. Thông tin ban đầu về nhu cầu giường ngủ


ẠI

H

ngắn từ bệnh nhân đang được chăm sóc tại phòng mạch có thể làm giảm tình trạng

Đ

quá tải, và tối ưu hóa việc sử dụng các nguồn lực bệnh viện. Trong nghiên cứu này,

N

G

sử dụng các phương pháp văn bản để xử lý dữ liệu từ các hồ sơ bệnh án sớm của



bệnh viện sử dụng khuôn khổ SOAP và dự đoán các trường hợp nhập viện và thải

TR

Ư

bỏ trong tương lai. Tám phương pháp khai phá văn bản được sử dụng trong nghiên
cứu này là: Decision Tree, Random Forest, Extremely Randomized Tree,
AdaBoost, Logistic Regression, Multinomial Naïve Bayes, Support Vector Machine
(Kernel linear) và Nu-Support Vector Machine (Kernel linear). Và Nu-Support
Vector Machine là phương pháp khai phá văn bản với hiệu suất tổng thể tốt nhất.

Điểm trung bình F1 trong dự đoán nhập viện là 77,70%, với độ lệch chuẩn (SD) là
0,66%. Kết luận là nghiên cứu này có thể được sử dụng để quản lý các hoạt động
hằng ngày từ bệnh viện cấp cứu như hoạch định năng lực và phân bổ năng lực. Khai
phá văn bản có thể cung cấp thông tin có giá trị và tạo điều kiện thuận lợi cho việc
ra quyết định của các đội quản lý bên trong.

SVTH: Võ Đức Nguyên

Trang 10


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

Zhu F., Patumcharoenpol P. và cộng sự [16] đã giới thiệu về khai phá văn
bản và các ứng dụng của nó trong việc nghiên cứu ung thư với nội dung cụ thể như
sau: ung thư là một căn bệnh ác tính gây ra hàng triệu ca tử vong trên toàn thế giới.
Lịch sử nghiên cứu về nó khoảng hơn 100 năm trước. Đã có rất nhiều ấn phẩm về
nghiên cứu ưng thư. Sự phát triển nhanh chóng của văn bản y học về ung thư đã dẫn
đến sự xuất hiện của một số lượng lớn các kỹ thuật khai phá văn bản nhằm khai phá
những kiến thức mới từ văn bản khoa học. Khai phá văn bản y sinh học về nghiên
cứu ung thư là tính toán tự động và thông lượng cao trong tự nhiên. Tuy nhiên, nó
dễ gặp lỗi do sự phức tạp của việc xử lý ngôn ngữ tự nhiên. Trong tổng quan bài

U



này, sẽ giới thiệu các khái niệm về khai phá văn bản và kiểm tra một số thuật toán,


H

công cụ và tập dữ liệu thường xuyên, cũng như đánh giá các thuật toán được sử

TẾ

dụng như thế nào. Sau đó thảo luận về các ứng dụng khai phá văn bản tiên tiến hiện

N
H

tại trong nghiên cứu ung thư và cung cấp một số tài nguyên cho việc khai phá văn

KI

bản. Cuối cùng là mô tả quy trình làm việc chung của khai phá văn bản và từng giai


C

đoạn của quy trình làm việc. Qua bài này có thể giúp cung cấp thông tin tổng quan

H

hữu ích về các công việc trong lĩnh vực này cũng như hỗ trợ việc nghiên cứu căn

ẠI

bênh ung thư hiện nay.


G

Đ

Te Liew W., Adhitya A., Srinivasan R. [17] đã giới thiệu về xu hướng phát

N

triển tính bền vững trong các ngành công nghiệp dựa trên khai phá văn bản với nội

Ư



dung: tính bền vững được công nhận rộng rãi là một trong những thách thức quan

TR

trọng nhất mà thế giới ngày nay phải đối mặt. Các công ty xuất bản báo cáo về sự
bền vững trình bày những nỗ lực và thành tựu đạt được các mục tiêu và mục đích
bền vững. Trong bài báo này, khai phá văn bản được sử dụng để xác định các xu
hướng và thực tiễn bền vững trong các ngành công nghiệp quy trình. Bốn lĩnh vực
chính của ngành được nghiên cứu: dầu/hoá dầu, hóa chất số lượng lớn/đặc sản,
dược phẩm, và các sản phẩm tiêu dùng. Nghiên cứu của cho thấy rằng tính bền
vững hàng đầu của bốn ngành rất giống nhau: sức khoẻ và an toàn, nhân quyền,
giảm lượng khí nhà kính, tiết kiệm năng lượng/hiệu suất năng lượng và đầu tư của
cộng đồng. Các vấn đề về tính bền vững theo ngành cụ thể cũng đã được xác định,
ví dụ như dự án phòng chống tràn dầu trong ngành dầu khí và tiếp cận dược phẩm


SVTH: Võ Đức Nguyên

Trang 11


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

trong ngành dược. Môi trường được xác định là khía cạnh bền vững chủ yếu trong
các ngành công nghiệp chế biến. Phương pháp khai phá văn bản, kết quả và kết quả
được trình bày chi tiết trong bài báo.
He W. và các cộng sự [18] đã sử dụng khai phá dữ liệu và khai phá văn bản
để xem xét sự tương tác của học sinh trong môi trường video trực tuyến với nội
dung như sau: Nghiên cứu này phân tích các câu hỏi trực tuyến và tin nhắn trò
chuyện tự động được ghi lại bằng một hệ thống video trực tuyến bằng cách sử dụng
các kỹ thuật khai phá dữ liệu và khai phá văn bản. Áp dụng các kỹ thuật khai phá dữ
liệu và khai phá văn bản để phân tích hai bộ dữ liệu khác nhau và sau đó thực hiện

U



phân tích tương quan sâu đối với hai khóa học với các câu hỏi trực tuyến và tin

H

nhắn trò chuyện tương ứng. Nghiên cứu tìm thấy sự khác biệt cũng như những điểm

TẾ


tương đồng về mô hình và chủ đề tham gia giữa các câu hỏi trực tuyến (tương tác

N
H

giữa sinh viên với giáo viên) và các tin nhắn trò chuyện trực tuyến (tương tác sinh

KI

viên và học sinh). Kết quả cũng xác định sự khác biệt về kỷ luật trong sự tham gia


C

trực tuyến của học sinh. Một mối tương quan được tìm thấy giữa số câu hỏi trực

H

tuyến sinh viên hỏi và điểm cuối cùng của học sinh. Dữ liệu cho thấy việc kết hợp

Đ

ẠI

sử dụng các kỹ thuật khai phá dữ liệu và khai phá văn bản cho một số lượng lớn dữ

G

liệu học tập trực tuyến có thể mang lại những hiểu biết sâu sắc và cho thấy các mẫu


N

có giá trị trong hành vi học tập của học sinh. Hạn chế với dữ liệu và khai phá văn

Ư



bản cũng đã được thể hiện và thảo luận trong bài báo.

TR

Rajpathak D.G và các cộng sự [19] đã sử dụng khai phá văn bản để xây dựng
mô hình phát hiện lỗi trong của các chiếc ô tô từ dữ liệu chuẩn đoán với nội dung:
trong lĩnh vực ô tô, khối lượng áp đảo của dữ liệu văn bản được ghi lại dưới dạng
các nguyên văn sửa chữa được thu thập trong quá trình chẩn đoán lỗi . Ở đây, mục
đích của việc khám phá kiến thức bằng cách sử dụng nhiệm vụ khai phá văn bản là
khám phá những kiến thức sửa chữa tốt nhất từ hàng triệu thuật ngữ sửa chữa cho
phép chính xác trong quá trình chẩn đoán lỗi. Tuy nhiên, sự phức tạp của vấn đề
khai phá văn bản phần lớn là do thực tế là một số lượng đáng kể kiến thức có liên
quan được chôn vùi và không có cấu trúc nguyên văn. Trong bài báo này, đề xuất
một hệ thống khai phá văn bản dựa trên bản thể học mới, sử dụng ontology chẩn

SVTH: Võ Đức Nguyên

Trang 12


GVHD: Nguyễn Đình Hoa Cương


Khóa luận tốt nghiệp

đoán để chú thích các thuật ngữ chính được ghi lại trong nguyên văn bản sửa chữa.
Các thuật ngữ chú thích được trích ra trong các bộ khác nhau, được sử dụng để xác
định các trường hợp bất thường. Các bộ trích xuất được sử dụng bởi thuật toán phân
cụm đồng thời gom cụm dữ liệu nguyên bản để khắc phục các triệu chứng thường
gặp liên quan đến các phần bị lỗi có thể được phát hiện. Hiệu suất của hệ thống đã
được xác nhận bằng cách sử dụng dữ liệu thế giới thực và nó đã được thực hiện
thành công trong kiến trúc phân tán dựa trên web trong ngành công nghiệp thực.
Oberreuter G. và VeláSquez J.D. [20] đã đề xuất giải pháp kiểm tra đạo văn
bằng cách phát hiện các sai lệch trong cách viết sử dụng khai phá văn bản với các

U



nội dung như sau: việc phát hiện đạo văn là mối quan tâm đặc biệt đối với các cơ sở

H

giáo dục. Mặc dù đã có các phương pháp truyền thống để tự động phát hiện sự ăn

TẾ

cắp đo lường tính tương đồng trên cơ sở tài liệu, nhưng điều này không phải lúc nào

N
H


cũng có thể vì tài liệu nguồn không phải lúc nào cũng có sẵn. Trong việc khai phá

KI

văn bản, khám phá việc sử dụng các từ như một tính năng ngôn ngữ để phân tích


C

một tài liệu bằng cách mô hình hóa phong cách hiện có trong nó. Đây có thể được

H

xem là một vấn đề phân loại sử dụng thông tin tương tự, trong đó các đoạn văn có

ẠI

độ lệch đáng kể trong phong cách được coi là ngoại lệ. Phương pháp này được gọi

G

Đ

là cách tiếp cận xác định đạo văn nội tại không cần phải so sánh với các nguồn có

N

thể, và mô hình của chúng ta chỉ dựa vào việc sử dụng các từ, vì vậy nó không phải

Ư




là một ngôn ngữ cụ thể. Bài này chứng minh rằng tính năng này cho thấy lời hứa

TR

trong lĩnh vực này, đạt được kết quả hợp lý so với các mô hình điểm chuẩn.
Mostafa M.M. và các cộng sự [21] đã giới thiệu sự tương tác tình cảm của
người tiêu dùng đối với các thương hiệu thông qua khai phá văn bản với nội dung:
các blog và mạng xã hội gần đây đã trở thành nguồn tài nguyên có giá trị cho các
quan điểm khai phá trong các lĩnh vực đa dạng như quản lý quan hệ khách hàng,
theo dõi ý kiến công chúng và lọc văn bản. Trong thực tế, kiến thức thu được từ các
mạng xã hội như Twitter và Facebook đã được hiển thị rất có giá trị cho các công ty
nghiên cứu thị trường, các tổ chức ý kiến công chúng và các thực thể khai phá văn
bản khác. Tuy nhiên, văn bản Web đã được phân loại là tiếng ồn vì chúng đại diện
cho các vấn đề đáng kể cả ở cấp độ từ vựng và cú pháp. Trong nghiên cứu này, đã

SVTH: Võ Đức Nguyên

Trang 13


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

sử dụng một mẫu ngẫu nhiên của 3516 tweet để đánh giá tình cảm của người tiêu
dùng đối với những thương hiệu nổi tiếng như Nokia, T-Mobile, IBM, KLM và
DHL. Và đã sử dụng một từ điển chuyên gia đã được xác định trước bao gồm

khoảng 6800 tính từ hạt với định hướng đã biết để tiến hành phân tích. Kết quả cho
thấy tình hình tiêu dùng tích cực nói chung đối với một số thương hiệu nổi tiếng.
Bằng cách sử dụng cả phương pháp định tính và định lượng để phân tích các tweet
của các thương hiệu, nghiên cứu này cho biết thêm chiều sâu và chiều sâu đối với
các cuộc tranh luận về thái độ đối với thương hiệu quốc tế.
Harrag F. và các cộng sự [22] đã đề xuất việc khai phá tri thức tại Sahîh Al-

U



Bukhari sử dụng khai phá văn bản với nội dung như sau: các lĩnh vực thu thập

H

thông tin và khai phá thông tin là chủ đề nghiên cứu tích cực trong nhiều năm trong

TẾ

cộng đồng Trí tuệ nhân tạo và Khai phá văn bản. Với sự xuất hiện của các kho văn

N
H

bản lớn trong những năm gần đây, nên cần phải tích hợp các mô-đun để khai phá

KI

thông tin trong các hệ thống thu hồi thông tin hiện có. Việc xử lý các kho văn bản



C

lớn dẫn các nhu cầu nằm ở ranh giới của việc khai phá thông tin và các khu vực thu

H

thập thông tin. Nghiên cứu trong bài báo này, tập trung vào việc khai phá thông tin

ẠI

bề mặt, tức là thông tin không yêu cầu xử lý ngôn ngữ phức tạp được phân loại.

G

Đ

Mục đích là để phát hiện và trích các đoạn văn hoặc các chuỗi, các từ có chứa thông

N

tin có liên quan từ các văn bản tường thuật tiên tri. Đề xuất hệ thống dựa trên bộ

Ư



chuyển đổi trạng thái hữu hạn để giải quyết vấn đề đọc hiểu văn bản một cách liên

TR


tục. Các kết quả đánh giá thử nghiệm cho thấy phương pháp tiếp cận là khả thi. Hệ
thống đạt được độ chính xác và tỷ lệ thu hồi đáng khích lệ, độ chính xác tổng thể và
thu hồi lần lượt là 71% và 39%.
Suarez-Tangil G., Tapiador J.E., Peris-Lopez P. [23] đề xuất giải pháp sử
dụng khai phá văn bản để phân tích và phân loại cấu trúc mã trong các nhóm phần
mềm độc hại trên Android với nội dung như sau: sự phát triển nhanh chóng của điện
thoại thông minh trong vài năm qua đã đi kèm với sự tăng trưởng ấn tượng về số
lượng và sự gian xảo của các ứng dụng độc hại nhắm mục tiêu đến người dùng điện
thoại thông minh. Tính sẵn có của các phương pháp phát triển theo định hướng tái
sử dụng và các công cụ sản xuất phần mềm độc hại tự động tạo ra rất nhiều mẫu vật

SVTH: Võ Đức Nguyên

Trang 14


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

mới dễ dàng. Kết quả là các nhà phân tích thị trường và các nhà phân tích phần
mềm độc hại đang ngày càng bị choáng ngợp bởi số lượng các mẫu mới được phát
hiện phải được phân tích. Tình huống này đã kích thích nghiên cứu các công cụ
thông minh để tự động hóa các phần của quá trình phân tích phần mềm độc hại.
Trong bài báo này, giới thiệu Dendroid, một hệ thống dựa trên việc khai phá văn
bản và các kỹ thuật truy xuất thông tin cho nhiệm vụ này. Cách tiếp cận trong bài
báo này được thúc đẩy bởi một phân tích thống kê về các cấu trúc mã được tìm thấy
trong một bộ dữ liệu của các gia đình phần mềm độc hại trong Hệ điều hành
Android, cho thấy một số song song với các vấn đề cổ điển trong các lĩnh vực đó.


U



Sau đó áp dụng mô hình Vector Space Tiêu chuẩn và định dạng lại quá trình lập mô

H

hình trong các ứng dụng khai phá văn bản. Điều này cho phép đo lường sự tương

TẾ

đồng giữa các mẫu phần mềm độc hại, sau đó được sử dụng để phân loại chúng một

N
H

cách tự động vào các nhóm. Và cũng điều tra việc áp dụng phân cụm theo cấp bậc

KI

đối với các vector đặc điểm thu được cho mỗi nhóm phần mềm độc hại. Các bản vẽ


C

thu thập được tương tự như cái gọi là cây phát sinh loài sinh vật, cho phép chúng ta

H


phỏng đoán về các mối quan hệ tiến hóa giữa các nhóm. Kết quả thử nghiệm cho

ẠI

thấy phương pháp này là chính xác đáng kể và có hiệu quả với các cơ sở dữ liệu lớn

G

Đ

về các trường hợp phần mềm độc hại.

N

Öztürk N. và Ayvaz S. và các cộng sự [24] đã giới thiệu mô hình phân tích

Ư



tình cảm trên Twitter đối với cuộc khủng hoảng người tị nạn ở Syria sử dụng khai

TR

phá văn bản với cụ thể như sau: việc sử dụng phương tiện truyền thông xã hội đã trở
thành một phần không thể tách rời của thói quen hàng ngày trong xã hội hiện đại.
Các cổng thông tin xã hội cung cấp nền tảng công cộng mạnh mẽ nơi mọi người có
thể tự do chia sẻ quan điểm và cảm xúc của mình về các chủ đề khác nhau với đám
đông lớn. Trong nghiên cứu hiện nay,đã điều tra các ý kiến và tình cảm của công

chúng đối với cuộc khủng hoảng người tị nạn ở Syria đã ảnh hưởng đến hàng triệu
người và đã trở thành chủ đề phân cực được thảo luận rộng rãi trong các phương
tiện truyền thông xã hội trên toàn thế giới. Để phân tích tình cảm của công chúng về
chủ đề trên Twitter, đã thu thập được tổng cộng 2381,297 tweets có liên quan bằng
hai thứ tiếng là tiếng Thổ Nhĩ Kỳ và tiếng Anh. Thổ Nhĩ Kỳ đã được coi là quan

SVTH: Võ Đức Nguyên

Trang 15


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

trọng vì Thổ Nhĩ Kỳ đã hoan nghênh số người tị nạn người Syria lớn nhất và tweet
Thổ Nhĩ Kỳ mang thông tin phản ánh sự nhận thức của công chúng về nước tị nạn
trước tiên. Nghiên cứu này đã thực hiện phân tích tình cảm so sánh các tweets đã tải
về. Các kết quả chỉ ra rằng những cảm xúc trong các bài tweet tiếng Thổ Nhĩ Kỳ
khác biệt đáng kể so với những cảm xúc trong các bài tweet tiếng Anh. Qua nghiên
cứu này, nhận thấy rằng những bài báo của Thổ Nhĩ Kỳ có những cảm xúc tích cực
hơn đối với người Syri và người tị nạn hơn là những cảm xúc không trung lập và
tiêu cực, tuy nhiên, tình cảm của các tweet gần như đều được phân phối giữa ba loại
chính. Mặt khác, số lượng lớn nhất các tweets tiếng Anh có chứa những cảm xúc

U



trung lập, tiếp theo là những cảm xúc tiêu cực. So với tỷ lệ các cảm xúc tích cực


H

trong các bài tweet của Thổ Nhĩ Kỳ, 35% trong số các tweet của Thổ Nhĩ Kỳ, tỷ lệ

TẾ

tweets tiếng Anh có ít cảm xúc tích cực đối với người Syri và người tị nạn, chỉ có

N
H

12% trong tổng số tweets tiếng Anh.

KI

Amrit C., Paauw T., Aly R. và cộng sự [25] đã giới thiệu mô hình xác định


C

tình trạng lạm dụng trẻ em qua việc sử dụng khai phá văn bản và cụ thể như sau:

H

trong bài báo này, mô tả cách họ sử dụng khai phá văn bản và phân tích để xác định

ẠI

và dự đoán trường hợp lạm dụng trẻ em trong một cơ sở y tế công cộng. Các tổ


G

Đ

chức như vậy ở Hà Lan cố gắng xác định và ngăn chặn các loại lạm dụng khác

N

nhau. Một phần quan trọng của dữ liệu y tế mà các tổ chức có về trẻ em là không có

Ư



cấu trúc, được tìm thấy dưới dạng các ghi chú văn bản miễn phí. Họ đã khám phá

TR

liệu những dữ liệu tham khảo có chứa các mẫu có ý nghĩa để xác định lạm dụng hay
không. Sau đó, đào tạo các mô hình học máy trên các vụ lạm dụng do hơn 500
chuyên gia về trẻ em xác định từ một đô thị ở Hà Lan. Mô hình kết quả đạt được
điểm cao trong phân loại các trường hợp lạm dụng có thể xảy ra. Họ đã đánh giá
theo phương pháp luận và so sánh hiệu suất của các nhà phân loại. Sau đó, mô tả
việc thực hiện API hỗ trợ quyết định tại một đô thị ở Hà Lan.
Sunikka A. và Bragge J. [26] đã áp dụng khai phá văn bản để cá nhân hóa và
nghiên cứu tùy biến – Ai, cái gì và ở đâu? Với nội dung như sau: cá nhân hoá và tuỳ
biến có nhiều định nghĩa đôi khi được sử dụng thay thế cho nhau trong văn học.
Nghiên cứu này kết hợp phương pháp tiếp cận khai phá văn bản để nghiên cứu cá


SVTH: Võ Đức Nguyên

Trang 16


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

nhân và nghiên cứu tuỳ biến với một bài tổng quan tài liệu truyền thống để phân
biệt các đặc điểm chính của hai luồng nghiên cứu này. Nghiên cứu định hình với
các từ tìm kiếm cá nhân hoá và tuỳ biến được thực hiện bằng cách sử dụng cơ sở dữ
liệu văn học Web of Science. Các yếu tố tiêu biểu cho nghiên cứu cá nhân hóa và
tùy biến được xác định. Nghiên cứu cá nhân đã tập trung mạnh mẽ vào công nghệ
và internet; ngoài ra nó còn nhấn mạnh đến nhu cầu và sở thích của khách hàng
cũng như việc thu thập thông tin cho các mô hình người sử dụng và các hệ thống tư
vấn. Tùy chỉnh là một dòng nghiên cứu cũ hơn, và cơ quan chính của nghiên cứu đã
tập trung vào các sản phẩm hữu hình nhưng gần đây đã bắt đầu nghiên cứu trong

U



lĩnh vực dịch vụ. Dựa vào những hiểu biết sâu sắc từ quá trình nghiên cứu và

H

nghiên cứu tài liệu, nghiên cứu này đề xuất một phân loại mới các khái niệm liên

TẾ


quan đến cá nhân.

N
H

Li N. và Wu D.D. [27] và các cộng sự đã giới thiệu phương pháp nghiên cứu

KI

phát hiện và dự báo hotspot tại các diễn đàn trực tuyến với nội dung chính như sau:


C

phân tích tình cảm văn bản, còn được gọi là tính toán phân cực cảm xúc, đã trở

H

thành một ranh giới hưng thịnh trong cộng đồng khai phá văn bản. Bài báo này

ẠI

nghiên cứu phát hiện và dự báo hotspot tại các diễn đàn trực tuyến sử dụng phương

G

Đ

pháp phân tích tình cảm và các phương pháp khai phá văn bản. Trước tiên, họ tạo ra


N

một thuật toán để tự động phân tích độ phân cực cảm xúc của một văn bản và để có

Ư



được giá trị cho mỗi đoạn văn bản. Thứ hai, thuật toán này được kết hợp với máy

TR

phân cụm K-means và máy vector hỗ trợ (SVM) để phát triển cách tiếp cận văn bản
không được giám sát. Họ sử dụng cách tiếp cận khai phá văn bản được đề xuất để
nhóm các diễn đàn vào các cụm khác nhau, với trung tâm của mỗi đại diện cho một
diễn đàn điểm nóng trong khoảng thời gian hiện tại. Các bộ dữ liệu được sử dụng
trong nghiên cứu thực nghiệm của họ được thu thập và định dạng từ các diễn đàn
thể thao của Sina, trong đó có khoảng 31 diễn đàn chủ đề khác nhau và 220.053 bài
viết. Kết quả thí nghiệm chứng minh rằng dự báo SVM đạt được kết quả cao nhất
với cụm K-means. 10 diễn đàn hotspot hàng đầu được liệt kê bởi dự báo của SVM
giống với 80% kết quả phân nhóm có nghĩa là K. Cả SVM và K-means đều đạt kết
quả tương tự cho 4 diễn đàn hotspot hàng đầu của năm.

SVTH: Võ Đức Nguyên

Trang 17


GVHD: Nguyễn Đình Hoa Cương


Khóa luận tốt nghiệp

Hsu J.-L., Chou H.-W., và Chang H.-H. [28] đã đề xuất phương pháp đánh
giá quá trình tự động bằng việc sử dụng khai phá dữ liệu, cụ thể như sau: đánh giá
quá trình và đánh giá tổng thể là hai phương pháp đánh giá được chấp nhận rộng
rãi. Mặc dù đánh giá tổng thể là một đánh giá chính thức được sử dụng khi kết
thúc một bài học hoặc khóa học, đánh giá quá trình là một quá trình liên tục giám
sát tiến trình xây dựng kiến thức của người học. Mặc dù các bằng chứng thực
nghiệm đã thừa nhận rằng đánh giá chính thức thật sự tốt hơn đánh giá tổng kết,
tuy nhiên các hệ thống đánh giá điện tử hiện nay tuy hiếm khi cung cấp các giải
pháp hợp lý để tiến hành đánh giá quá trình. Các nút cổ chai lớn trong việc đưa

U



đánh giá quá trình vào thực tiễn nằm ở tính sử dụng nhiều lao động và tốn nhiều

H

thời gian nên hầu như không thể đánh giá thành tích một cách khả thi đặc biệt là

TẾ

khi thường có nhiều người học trong môi trường học tập điện tử. Về vấn đề này,

N
H


nghiên cứu này đã phát triển EduMiner để giảm gánh nặng cho giảng viên và

KI

người học bằng cách tận dụng hàng loạt các kỹ thuật khai phá văn bản. Một


C

nghiên cứu thực nghiệm đã được tổ chức để kiểm tra hiệu quả và để khám phá các

H

kết quả của các tính năng mà EduMiner hỗ trợ. Trong nghiên cứu này, 56 người

ẠI

tham gia khóa học "Quản lý nguồn nhân lực" được phân chia ngẫu nhiên thành các

G

Đ

nhóm thực nghiệm hoặc nhóm đối chứng. Kết quả của nghiên cứu này chỉ ra rằng

N

các thuật toán được giới thiệu trong nghiên cứu này là một phương pháp tiếp cận

Ư




khả thi để tiến hành đánh giá quá trình trong môi trường học tập điện tử. Ngoài ra,

TR

người học trong các nhóm thực nghiệm có động lực cao để diễn đạt các nội dung
có trình độ nhận thức cao hơn. Vì vậy, một phản hồi kịp thời của các đại diện hình
ảnh là có lợi để tạo điều kiện cho người học trực tuyến để thể hiện ý tưởng sâu
hơn trong các bài thuyết giảng.
Poelmans J., Van Hulle M.M., Viaene S. và cộng sự. [29] đã giới thiệu mô
hình nghiên cứu về tình trạng bạo lực gia đình bằng cách sử dụng khai phá văn bản
với các bản đồ sắp xếp tự lập và quy mô đa chiều: trong bài báo này,họ so sánh tính
khả dụng của ESOM và MDS như các công cụ thăm dò văn bản trong các cuộc điều
tra của cảnh sát. Họ kết hợp chúng với các công cụ phân loại truyền thống như
SVM và Naïve Bayes. Họ thực hiện một trường hợp khai phá dữ liệu thực tế bằng

SVTH: Võ Đức Nguyên

Trang 18


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

cách sử dụng một tập dữ liệu bao gồm các báo cáo của cảnh sát mô tả một loạt các
sự cố bạo lực xảy ra trong năm 2007 tại khu vực cảnh sát Amsterdam-Amstelland
(Hà Lan). Sau đó so sánh các khả năng của ESOM và MDS để làm phong phú thêm

các tính năng của họ, khám phá các tình huống khó hiểu, ghi nhãn trường hợp sai và
nâng cao đáng kể độ chính xác phân loại. Các kết quả nghiên cứu của họ hiện đang
hoạt động tại khu vực cảnh sát Amsterdam-Amstelland để nâng cấp định nghĩa bạo
lực gia đình được sử dụng, cải thiện việc đào tạo cảnh sát và xây dựng một mô hình
phân loại trường hợp chính xác cao và dễ hiểu.
Yoon J. và các công sự [30] đã đề xuất phương pháp các rủi ro lớn trong việc

U



đầu tư kinh doanh bằng sử dụng khai phá văn bản với nội dung như sau: trong một

H

môi trường kinh doanh không chắc chắn, trí thông minh cạnh tranh đòi hỏi tầm nhìn

TẾ

ngoại vi để xem xét và xác định các tín hiệu yếu có thể ảnh hưởng đến môi trường

N
H

kinh doanh trong tương lai. Các tín hiệu yếu được định nghĩa là các chỉ số không

KI

chính xác và sớm của các sự kiện hoặc xu hướng sắp tới đang được coi là chìa khóa



C

để xây dựng các mục kinh doanh tiềm năng mới. Tuy nhiên, các phương pháp hiện

H

tại để phát hiện các tín hiệu yếu dựa vào kiến thức và chuyên môn của các chuyên

ẠI

gia, những dịch vụ của họ không phổ biến rộng rãi và có xu hướng tốn kém. Họ

G

Đ

thậm chí có thể cung cấp kết quả phân tích khác nhau. Do đó, bài báo này trình bày

N

một phương pháp định lượng xác định các chủ đề tín hiệu yếu bằng cách khai phá

Ư



văn bản dựa trên từ khóa. Phương pháp được đề xuất được minh họa bằng các bài

TR


báo trên web liên quan đến pin mặt trời. Là một công cụ hỗ trợ cho phương pháp
tiếp cận dựa trên chuyên gia, phương pháp này có thể được kết hợp vào các quy
trình lập kế hoạch kinh doanh dài hạn để hỗ trợ các chuyên gia xác định các mục
kinh doanh tiềm năng.
Lee C.-H. và Wang S.-H. [31] đã áp dụng khai phá văn bản cho việc khám
phá tri thức địa lí với cụ thể nội dung như sau: do sự gia tăng số lượng các loại
thông tin vị trí không đồng nhất nhau trên internet, nên rất khó để tổ chức tổng quan
đầy đủ về thông tin không gian địa lý cho các nhiệm vụ mua lại tri thức liên quan
đến các vị trí địa lý cụ thể. Các kiểu văn bản và ảnh của tập dữ liệu địa lý chứa
nhiều dữ liệu vị trí, chẳng hạn như thông tin du lịch dựa trên vị trí, do đó xác định

SVTH: Võ Đức Nguyên

Trang 19


GVHD: Nguyễn Đình Hoa Cương

Khóa luận tốt nghiệp

không gian chiều cao của các thuộc tính có mối tương quan cao. Trong nghiên cứu
này, họ đã sử dụng các loại hình thông tin về vị trí và văn bản bằng một cách tiếp
cận mới của sự kết hợp thông tin để khai phá các chú thích hình ảnh hiệu quả và các
phương pháp khai phá văn bản theo vị trí để tăng cường nhận dạng vị trí địa lý và
nhận thức không gian. Trong bài báo này, mô tả các phương pháp chiết xuất tính
năn để chú thích hình ảnh và sử dụng cách tiếp cận khai phá văn bản để phân tích
hình ảnh và văn bản cùng một lúc để thực hiện các nhiệm vụ phân loại hình ảnh
không gian địa lý. Sau đó, hình ảnh và tài liệu văn bản được dự đoán là một không
gian đặc trưng thống nhất, để tạo ra một không gian ngữ nghĩa được xây dựng đồng


U



nhất để kết hợp thông tin. Ngoài ra, sử dụng các phương pháp khai phá văn bản để

H

phân loại các tài liệu thành các loại khác nhau dựa trên các đặc điểm địa lý của

TẾ

chúng, với mục đích khám phá mối quan hệ giữa các tài liệu và các vùng địa lý. Các

N
H

kết quả thực nghiệm cho thấy rằng phương pháp được đề xuất có thể nâng cao hiệu

KI

quả các nhiệm vụ khám phá kiến thức dựa trên vị trí.


C

Nishanth K.J., Ravi V., Ankaiah N. và cộng sự [32] đã áp dụng khai phá văn

H


bản để dự đoán mức độ nghiêm trọng của việc cảnh báo lừa đảo cụ thể như sau:

ẠI

trong bài báo này, sử dụng một cách tiếp cận máy tính mềm mới hai giai đoạn để

G

Đ

tính toán dữ liệu để đánh giá mức độ nghiêm trọng của các cuộc tấn công lừa đảo.

N

Phương pháp tính toán liên quan đến thuật toán K-means và Perceptron nhiều lớp

Ư



làm việc theo cùng. Ứng dụng lai được áp dụng để thay thế các giá trị còn thiếu của

TR

dữ liệu tài chính được sử dụng để dự đoán mức độ nghiêm trọng của các cuộc tấn
công lừa đảo trong các công ty tài chính. Sau khi đưa ra các giá trị còn thiếu, chúng
ta sẽ khai phá dữ liệu tài chính liên quan đến các doanh nghiệp cùng với các dạng
dữ liệu có cấu trúc sử dụng perceptron đa tầng, mạng lưới thần kinh xác suất và cây
quyết định. Có ý nghĩa đặc biệt là độ chính xác phân loại tổng thể là 81,80%,

82,58% và 82,19% thu được bằng cách sử dụng perceptron đa tầng, mạng lưới thần
kinh xác suất và cây quyết định tương ứng. Nó được quan sát thấy rằng các kết quả
hiện nay tốt hơn những nghiên cứu trước. Độ chính xác phân loại chung cho ba mức
độ nguy cơ tấn công lừa đảo bằng cách sử dụng perceptron đa tầng, mạng lưới thần
kinh xác suất và cây quyết định cũng cao hơn.

SVTH: Võ Đức Nguyên

Trang 20


×