Khai phá dữ liệu văn bản và ứng dụng lọc thư rác tiếng việt (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (730.82 KB, 27 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

NGUYỄN HẢI LONG

KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ ỨNG DỤNG LỌC
THƯ RÁC TIẾNG VIỆT

Chun ngành: Hệ thống thơng tin
Mã số: 60.48.01.04

TĨM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI – 2014

Luận văn được hồn thành tại:
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG

Người hướng dẫn khoa học: TS. Nguyễn Đức Dũng

Phản biện 1:.................................................................
Phản biện 2:.................................................................

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận
văn thạc sĩ tại Học viện Cơng nghệ Bưu chính Viễn
thơng
Vào lúc: ...... giờ ...... ngày ...... tháng ...... năm ......

Có thể tìm hiểu luận văn tại:
-

Thư viện của Học viện Cơng nghệ Bưu chính
Viễn Thơng

1

MỞ ĐẦU
Khai phá dữ liệu bao gồm rất nhiều phương pháp
trong đó có Khai Phá Dữ Liệu văn bản, đây là một cách
tiếp cận với dữ liệu văn bản. Các thơng tin đó có thể là thư
điện tử, bài báo, các tài liệu kinh doanh, các thông tin kinh
tế, các bài nghiên cứu khoa học. Dù áp dụng Cơ sở dữ liệu
vào trong hoạt động của tổ chức là rất phù hợp và đem lại
nhiều lợi ích khi lưu trữ và xử lý, nhưng ta khơng thể qn
được rằng cịn nhiều dạng thông tin khác nhau được lưu
trữ dưới dạng văn bản.
Internet đang đóng một vai trị hết sức quan trọng
trong hoạt động của con người trong đó, mọi hoạt động
thông tin liên lạc hiện nay là sử dụng thư điện tử, nó giúp
mọi người có thể trao đổi thơng tin với nhau một cách
nhanh nhất, an tồn nhất. Có một vấn đề làm cho người sử
dụng thư điện tử cảm thấy khơng hài long và khó chịu khi
có rất nhiều thư rác được gửi vào hịm thư của mình.Do
đó, người dùng muốn hệ thống thư điện tử sẽ tự động loại
bỏ những thư rác này đi.Chính vì những lý do như trên tôi
đã chọn“Khai phá dữ liệu văn bản và ứng dụng lọc thư

2

rác tiếng Việt” làm hướng nghiên cứu chính cho luận
văn. Luận văn gồm các nội dung chính sau:
Chương 1: Giới thiệu khai phá dữ liệu văn bản.
Nội dung chương này nhằm giới thiệu một cách cơ bản về
khai khá dữ liệu, khai phá dữ liệu văn bản, và các ứng
dụng của khai phá văn bản trong các lĩnh vực xã hội.
Chương 2: Thư rác và các phương pháp phân
loại thư rác. Chương này sẽ giới thiệu về thư rác là gì?
Các loại thư rác và tác hại của nó, đồng thời giới thiệu về
một số phương pháp lọc thư rác hiện nay đang được các
nhà cung cấp thư điện tử áp dụng như Google, Yahoo...
Chương 3: Phân loại thư rác theo phương pháp
chọn lọc theo nội dung. Chương này sẽ tập trung vào
nghiên cứu phương pháp lọc thư rác theo nội dung sử
dụng kết hợp phương pháp phân loaik Naïve Bayes kết
hợp với Wordnet các khó khăn, vấn đề cần giải quyết khi
áp dụng vào Tiếng Việt.
Chương 4: Phân loại thư rác theo nội dung, cài
đặt, thử nghiệm và đánh giá. Trong chương này em xin
trình bày về các tiến trình mà luận văn thực hiện để xây
dựng bộ lọc thư rác theo nội.

3

CHƯƠNG 1: GIỚI THIỆU KHAI PHÁ DỮ
LIỆU VĂN BẢN
Nội dung chương này nhằm giới thiệu một cách cơ
bản về khai khá dữ liệu, khai phá dữ liệu văn bản, và các

ứng dụng của khai phá văn bản trong các lĩnh vực xã hội,
từ đó làm cơ sở cho hướng tiếp cận của luận văn.
1.1. Cách tiếp cận và mục tiêu của luận văn
1.2. Khái niệm khai phá dữ liệu.
1.3. Khái niệm khái phá dữ liệu văn bản.
1.4. Mục tiêu của khai phá dữ liệu văn bản.
1.5. Quá trình khai phá dữ liệu văn bản.

Hình 1. 1 Quá trình khai phá dữ liệu văn bản

4

Qúa trình khai phá dữ liệu văn bản gồm có 5 giai đoan:


Tiền xử lý dữ liệu



Biến đổi dữ liệu



Trích chọn dữ liệu



Khai phá dữ liệu



Đánh giá kết quả tri thức

1.6. Các kỹ thuật khai phá dữ liệu văn bản.
1.6.1. Kỹ thuật phân loại văn bản.
1.6.2. Tìm kiếm văn bản
1.6.3. Phát hiện ra xu hướng văn bản
1.6.4. Phân nhóm văn bản
1.6.5. Trích chọn văn bản
1.6.6. Q trình tóm tắt văn bản
1.6.7. Tính chính xác( accuracy)
1.6.8. Tính đa chiều (high dimensonality)
1.6.9. Tính khả cỡ (scability)
1.7. Ứng dụng và thách thức của khai phá dữ liệu

5

CHƯƠNG 2: THƯ RÁC VÀ CÁC PHƯƠNG
PHÁP PHÂN LOẠI THƯ RÁC
Chương này sẽ giới thiệu về thư rác là gì? Các loại
thư rác và tác hại của nó, đồng thời giới thiệu về một số
phương pháp lọc thư rác hiện nay đang được các nhà
cung cấp thư điện tử áp dụng như Google, Yahoo...
2.1. Thư rác là gì?
Có nhiều ý kiến xung quanh việc định nghĩa về thư
rác, có ý kiến cho rằng thư rác là những “thư điện tử
thương mại khơng được u cầu từ phía người nhận”
những thư này bao gồm các thư điện tử quảng cáo về các

sản phẩm và thư điện tử lừa gạt, cũng có ý kiến coi thư rác
là những thư quảng cáo không được yêu cầu. Sau đây luận
văn nêu một định nghĩa phổ biến nhất về thư rác: Thư rác
(spam mail) là những bức thư điện tử không yêu cầu,
không mong muốn và được gửi hàng loạt tới nhiều người
nhận.
2.2. Các loại thư rác và tác hại
2.2.1. Các loại thư rác
2.2.2. Các tác hại của thư rác gây ra
2.3. Các phương pháp lọc thư rác hiện nay

6

2.3.1. Lọc thư rác thông qua địa chỉ IP
2.3.2. Lọc dựa trên chuỗi hỏi đáp (Challenge/Response
filters)
2.3.3. Lọc thư rác sử dụng kỹ thuật heuristic
2.3.4. Lọc thư rác thông qua bỏ phiếu danh sách
trắng, đen
2.3.5. Lọc thư rác sử dụng phương pháp xác suất
thống kê và học máy
Tỉ lệ chặn thư rác của bộ lọc sử dụng phương pháp
này rất cao. Chương trình SpamProbe có thể đạt tỉ lệ lọc
thư rác tới 99.9%. Các phương pháp học máy và xác suất
thống kê cho phép phân loại cả những thư rác chưa từng
có trong tập dữ liệu được học. Một ưu điểm khác nữa của
phương pháp này là tỉ lệ chặn thư hợp pháp rất thấp, thấp
hơn rất nhiều so với phương pháp heuristic.
Nhược điểm của phương pháp học máy là phải tập

hợp được một tập hợp một lượng dữ liệu lớn phong phú,
đa dạng về cách thức thể hiện thì sẽ có một kết quả lọc
chính xác.
2.3.5.1. Biểu diễn văn bản
2.3.5.2. Cây quyết định
2.3.5.3. Phương pháp Neural Network(NNet)
2.3.5.4. Centroid - based vector

7

2.3.5.5. Support vector Machine (SVM)
2.3.5.6. K–Nearest Neighbor (kNN)
2.3.5.7. Linear Least Square Fit (LLSF)
2.3.6. Yêu cầu xác thực
2.3.7. Yêu cầu trả tiền
2.3.8. Phương pháp lọc dựa trên mạng xã hội
2.4. Kết luận chương

8

CHƯƠNG 3: PHÂN LOẠI THƯ RÁC THEO
PHƯƠNG PHÁP CHỌN LỌC THEO NỘI
DUNG
Trong chương 1 và chương 2 đã trình bày khái
quát về cơ sở lý thuyết cho bài toán lọc thư rác, trong
chương này, luận văn sẽ tập trung vào nghiên cứu phương
pháp lọc thư rác theo nội dung sử dụng kết hợp phương
pháp phân loaik Naïve Bayes kết hợp với Wordnet các khó

khăn, vấn đề cần giải quyết khi áp dụng vào Tiếng Việt.
3.1. Mơ tả bài tốn
Bài tốn phân loại thư rác có thể được hiểu như
sau: Cho một tập hợp thư rác D, hỏi làm sao để xây dựng
một bộ lọc thư rác và bộ lọc đó sẽ phân loại mỗi thư d 
D vào một trong hai lớp: thư rác (spam mail) và thư hợp lệ
(non-spam mail) dựa vào nội dung của thư.
3.2. Lọc thư sử dụng phân loại Bayes đơn giản kết hợp
với Wordnet
3.2.1. Giới thiệu chung
3.2.2. Phân loại Bayes đơn giản

9

3.2.3. Phân loại Bayes đơn giản với mơ hình Bernoulli
đa trị
3.2.4. Dùng wordnet để mở rộng tập dữ liệu huấn
luyện
Việc sử dụng Bayes sẽ có độ chính xác cao khi
chúng ta có được tập dữ liệu huấn luyện phong phú và có
độ bao phủ cao.
 Ý tưởng:
Giả sử ta có một tập dữ liệu huấn luyện D ban đầu
với một thư rác như sau.
STT
1

Nội Dung
Ưu đãi 10% khi mua điện thoại iPhone

Gọi T = {“ưu đãi”, “điện thoại”, “iphone”}là tập

các từ còn lại của thư thứ nhất sau khi đã loại bỏ stopword
và tách từ, sau đó ta sử dụng wordnet để mở rộng tập từ
này, ta có bảng dưới đây là kết quả của việc sử dụng
wordnet của tập từ T.

10

Từ gốc

Từ mở rộng

Ưu đãi

Khuyến mại
Giảm giá

Điện thoại

Miếng dán màn hình

iPhone

iPad

Khi đó ta được tập từ mở rộng tương ứng với mỗi
từ ta tiến hành thay lần lượt các từ đó vào trong nội dung
của thư ban đầu, lúc này ta được tập D1 là tập dữ liệu huấn

luyện mới khi sử dụng wordnet bao gồm các thư có nội
dung như sau.
Bảng 3. 1 Tập dữ liệu mới sinh ra trong khi sử dụng
wordnet

STT

Nội Dung

1

Khuyễn mại 10% khi mua điện thoại iPhone

2

Giảm giá 10% khi mua điện thoại iPhone

3

Ưu đãi 10% khi mua miếng dán màn hình iPhone

4

Ưu đãi 10% khi mua điện thoại iPad

5

Ưu đãi 10% khi mua miếng dán màn hình iPad

11

6

Khuyễn mại 10% khi mua miếng dán màn hình
iPhone

7

Khuyễn mại 10% khi mua điện thoại iPad

8

Khuyễn mại 10% khi mua miếng dán màn hình
iPad

9

Giảm giá 10% khi mua miếng dán màn hình
iPhone

10

Giảm giá 10% khi mua điện thoại iPad

11

Giảm giá 10% khi mua miếng dán màn hình iPad

Ta có D2 = D + D1 là tập dữ liệu huấn luyện sau khi sử

dụng wordnet sẽ bao gồm 12 thư như bảng dưới đây.
Bảng 3. 2 Tập dữ liệu huấn luyện sau khi sử dụng wordnet

STT

Nội Dung

1

Khuyễn mại 10% khi mua điện thoại iPhone

2

Giảm giá 10% khi mua điện thoại iPhone

12

3

Ưu đãi 10% khi mua miếng dán màn hình iPhone

4

Ưu đãi 10% khi mua điện thoại iPad

5

Ưu đãi 10% khi mua miếng dán màn hình iPad

6

Khuyễn mại 10% khi mua miếng dán màn hình
iPhone

7

Khuyễn mại 10% khi mua điện thoại iPad

8

Khuyễn mại 10% khi mua miếng dán màn hình
iPad

9

Giảm giá 10% khi mua miếng dán màn hình
iPhone

10

Giảm giá 10% khi mua điện thoại iPad

11

Giảm giá 10% khi mua miếng dán màn hình iPad

12

Ưu đãi 10% khi mua điện thoại iPhone

13

Gọi S1 là số lượng từ gốc của một thư và S2 là số
lượng từ mở rộng của từ gốc, S3 là số lượng thư được mở
rộng từ một thư ban đầu, ta có S3 = S1 x S2.
Vậy với tập dữ liệu huấn luyện ban đầu M =
{“Thư1”, “Thư2”, “Thư3”…. “Thưn”} gồm n thư, sau khi
sử dụng wordnet ta sẽ thu được tập dữ liệu huấn luyện
mới là M’ có số lượng thư là n’ = ∑

(

) (3.15)

 Cách thực hiện:
Sau khi có được tập dữ liệu huấn luyện bao gồm thư
spam và không spam chúng ta sẽ tiến hành tách từ và loại
bỏ stopword để tìm được các từ gốc của từng thư, tiếp
theo sủ dụng wordnet để sinh ra các email mới làm dữ liệu
huấn luyện.
Việc ứng dụng với thư tiếng anh chung ta có thể sử dụng
sử dụng thư viện wordnet được download tại địa chỉ
để mở rộng tập dữ liệu ban đầu.
Do việc mạng từ wordnet trong tiếng việt chưa
hoàn chỉnh và sẵn sàng sử dụng cho lên, em buộc phải tìm
các từ đồng nghĩa hoặc có mối liên hệ trong cùng lĩnh vực
bằng tay, do đó độ chính xác của việc tìm các từ đồng

14

nghĩa, hoặc có mối liên hệ ảnh hưởng rất lớn đến độ chính
xác của bộ lọc, nếu chúng ta làm càng chính xác thì kết
quả thu được càng cao.
3.3. Lọc thư rác trong Tiếng Việt
3.3.1. Các khó khăn và vấn đề cần giải quyết
3.3.2. Biểu diễn véctơ đặc trưng
3.3.3. Loại bỏ từ có tần xuất thấp
3.3.4. Lựa chọn đặc trưng
3.4. Kết luận chương

15

CHƯƠNG 4: XÂY DỰNG BỘ LỌC THƯ RÁC
THEO NỘI DUNG, CÀI ĐẶT, THỬ NGHIỆM
VÀ ĐÁNH GIÁ
Trong chương này em xin trình bày về các tiến trình
mà luận văn thực hiện để xây dựng bộ lọc thư rác theo
nội, dưới đây là sơ đồ thực hiện xây dựng bộ lọc thư rác
theo nội dung.

16

Hình 4. 1 Sơ đồ thực hiện xây dựng bộ lọc thư rác

4.1. Thu thập dữ liệu

17

4.2. Tiền xử lý dữ liệu
4.2.1. Tách từ
4.2.2. Xử lý dữ liệu
4.2.2.1. Loại bỏ ký tự đặc biệt
4.2.2.2. Loại bỏ stop word
4.2.3. Giảm số chiều cho văn bản
4.3. Sinh dữ liệu huấn luyện bằng wordnet
Đây là bước rất quan trọng, nó ảnh hưởng đến độ
chính xác của bộ lọc. Sau khi lấy 2/3 số lượng email mà ta
thu thập được bao gồm 2 loại thư đó là thư rác và thư
thông thường, ta tiến hành các bước sau để sinh dữ liệu
bằng wordnet.
 Bước 1: Lấy tất cả các từ có số lần xuất hiện lơn hơn
10 lần trên tổng số thư rác ta được tập từ Wspam.
 Bước 2: Lấy tất cả các từ có số lần xuất hiện lơn hơn
10 lần trên tổng số thư thông thường ta được tập từ
Wnon-spam.
 Bước 3: Loại bỏ các từ xuất hiện trên cả Wspam và
Wnon-spam, ta được hai tập từ mới là Wspam’ và Wnonspam’.

18

 Bước 4: Sử dụng wordnet để mở rộng các tập từ
Wspam’ và Wnon-spam’ ta được hai tập từ mới là WNspam
và WNnon-spam.

 Bước 5: Duyệt qua từng thư bao gồm thư rác và thư
thông thường, ứng với thư rác ta sẽ kiểm tra, nếu như
trong thư đó có xuất hiện từ gốc nào bằng với từ gốc
của tập WNspam hoặc WNnon-spam tương ứng với thư đó
là thư rác hay thư thông thường, ta sẽ tiến hành thay
thế các từ tương ứng với từ gốc bằng từ mở rộng và
sinh ra các thư mới của thư đó.
Kết thúc bước 5 tức là sau khi duyệt tất cả các thư trong
tập dữ liệu huấn luyện ban đầu ta sẽ được tập dữ liệu mới,
chúng ta sẽ sử dụng tập dữ liệu mới này làm dữ liệu huấn
luyện
4.4. Trích xuất các từ khóa đặc trưng
4.5. Biểu điễn véctơ đặc trưng
4.6. Huấn luyện bộ lọc
4.7. Kiểm thử và đánh giá kết quả
Môi trường thử nghiệm:
 Hệ điều hành: Window 7 Ultimate 32 bit
 Bộ vi xử lý: Intel(R) Core(TM)2 E7600

19

 RAM: 3GB
 Ngơn ngữ: JAVA
Phương pháp đánh giá:

Trong đó:
 TS (Total Right): là số thư được phân loại là y
và việc phân loại này là đúng.
 TW (Total Wrong): là số thư được phân loại

là y nhưng việc phân loại này là sai.
 TWL(Total Wrong Label): là số thư thuộc
loại y nhưng bị gán nhãn vào loại khác.
Khi tiến hành thử nghiệm bộ lọc email, luận văn sử
dụng tập dữ liệu huấn luyện gồm 140 thư bao gồm 70 bình
thường và 70 thư rác, tập dữ liệu kiểm thử gồm 60 thư.

20

Đây là một bộ dữ liệu gốc và em sẽ dùng để thử nghiệm
với phương pháp Naïve Bayes.
Sau khi sinh dữ liệu từ tập dữ liệu huấn luyện trên ta
thu được tổng cộng 583 thư bao gồm thư rác và thư bình
thường, trong đó có 405 thư bình thường và 178 thư rác,
ta sẽ sử dụng tập dữ liệu huấn luyện này để kiểm thử với
phương pháp Naïve Bayes kết hơp với Wordnet. Sơ đồ
dưới đây là biểu thị cho sự tăng dữ liệu huấn luyện bằng
wordnet.
700
600
500
400
Ban đầu

300

Wordnet

200

100
0
Thư rác

Thư bình Tổng số thư
thường

Hình 4. 2 Sơ đồ biểu hiện sự tăng của dữ liệu sinh bằng
wordnet

21

Theo như trên ta có thể thấy mộ lượng lơn dữ liệu
huấn luyện mới được sinh ra từ dữ liệu huấn luyện ban
đầu.
Với bộ dữ liệu như trên em tiến hành thử nghiệm với
hai phương pháp khác nhau là phương pháp Naïve Bayes
và Naïve Bayes kết hợp với việc sử dụng wordnet. Kết
quả thử nghiệm thu được như trong bảng 4.1 dưới đây.
Bảng 4. 1 Kết quả kiểm thử nghiệm

Mô hình

Loại thư Precision
Rác

Naive Bayes

Thơng

thường

Recall

F-score

0.786

0.733

75.86

0.75

0.8

77.41

Trung bình
Rác

76.64

0.95

0.6333

76

0.725

0.9666

82.86

Trung bình

79.43

Naive Bayes
(DL Wordnet)

Thơng
thường

22

80
79.5
79
78.5
78
77.5
77
76.5
76
75.5
75
Nạve Bayes

Nạve Bayes
(DL Wordnet)

Hình 4. 3 Sơ đồ thể hiện độ chính xác

Theo kết quả thử nghiệm trên cho thấy:
 Phương pháp Nạve Bayes thu được độ chính xác
là: Thư rác 75.86% thư thường 77.41% độ chính
xác trung bình 76.64%
 Phương pháp Nạve Bayes + Wordnet thu được độ
chính xác là: Thư rác 76% thư thường 82.86% độ
chính xác trung bình 79.43%
Từ kết quả trên ta thấy phương pháp Nạve Bayes +
Wordnet có độ chính xác cao hơn phương pháp Naïve
Bayes là 2.79%.
4.8. Kết luận chương

23

KẾT LUẬN
Luận văn tiến hành khảo sát và phân tích các kỹ
thuật thường dùng cho lọc thư rác như NNet, KNN, VSM,
LLSF và Nạve Bayes. Trên cơ sở đó luận văn đã lựa chọn
Naïve Bayes kết hợp với Wordnet để tiến hành xây dựng
bộ lọc thư, với tập dữ liệu đâu vào là các thư thông thường
và thư rác thu thập từ 15 địa chỉ hòm thư khác nhau.
Luận văn đã đạt được những kết quả như sau:
 Tìm hiểu và khảo sát các kỹ thuật khai phá văn bản

nói chung và các kỹ thuật lọc thư rác nói riêng.
Đưa ra một số ưu điểm nhược điểm của các kỹ
thuật đó và so sánh chúng với nhau, luận văn nhận
thấy Nạve Bayes là kỹ thuật có nhiều ưu điểm và
có được nhiều quan tâm, nên luận văn đã tập trung
nghiên cứu và phát triển bộ lọc thư rác bằng
phương pháp này, đồng thời kết hợp với phương
pháp mở rộng các tập đặc trưng bằng wordnet để
có được kết quả tốt hơn.

Khai phá dữ liệu văn bản và ứng dụng lọc thư rác tiếng việt (tt)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về