Tải bản đầy đủ (.pdf) (79 trang)

XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHÔNG LÀNH MẠNH LUẬN VĂN ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.45 MB, 79 trang )

 

MỤC LỤC
Trang
LỜI CAM ĐOAN ..................
..................................
...................................
...................................
...................................
.................................
.............. i
LỜI CẢM
CẢM ƠN ..................
..................................
...................................
...................................
...................................
....................................
..................... ii
MỤC LỤ
LỤC...........................
C............................................
...................................
...................................
..................................
.................................
................ iii
DANH MỤ
MỤC HÌNH VẼ
VẼ.................
..................................


...................................
...................................
....................................
......................
... iv
DANH MỤ
MỤC BẢ
BẢNG BIỂ
BIỂU ..................................
....................................................
...................................
...................................v
..................v
MỞ ĐẦU.............................
...................................
...................................
..................................
...................................1
..................1
ĐẦU..............................................
1. Tóm lược đề tài
tài.................
..................................
....................................
...................................
...................................
...........................1
........1
2. Mục
Mục tiêu đề tài ...................................

......................................................
...................................
...................................
...........................1
........1
3. Nộ
Nội dung thự
thực hiệ
hiện .................
..................................
...................................
...................................
....................................
.....................1
..1
4. Phạ
Phạm vi ứng dụ
dụng
ng................
.................................
...................................
...................................
....................................
........................2
.....2
THIỆU TỔ
TỔNG QUAN .................................
....................................................
..............................3
...........3

CHƯƠNG 1: GIỚI
GIỚI THIỆ
1.1. Bộ
Bộ lọc web ...................................
......................................................
...................................
...................................
..............................3
...........3
1.1.1. Khái niệ
niệm .................................
...................................................
...................................
....................................
........................3
.....3
nội dung không lành mạ
mạnh.....................................4
1.1.2. Đặc điểm
điểm web có nộ
1.1.3. Nguyên nhân cầ
cần xây dự
dựng bộ
bộ lọc web .................................
..............................................7
.............7
nội dung không lành mạ
mạnh .........
..............
.........

.........
.........7
....7
1.2. Các phương pháp lọc
lọc web có nộ
1.2.1. Bộ
Bộ lọc web dựa
dựa vào địa
chỉ mạng ..................................
....................................................
.....................7
...7
địa chỉ
1.2.2. Bộ
Bộ lọc web dự
dựa vào URL (Universal Resource Locator)...................9
1.2.3. Bộ
Bộ lọc web dự
dựa vào
v ào DNS ...................................
......................................................
...............................12
............12
1.2.4. Bộ
Bộ lọc web dự
dựa vào từ
từ khóa (key word)...........................................13
1.3. Nhữ
Những phầ
phần mề

mềm lọ
lọc web hiệ
hiện nay ..................................
....................................................
.........................14
.......14
THUYẾT........................................................................16
CHƯƠNG 2: CƠ SỞ LÝ THUYẾ
2.1. Tổ
Tổng quan khai phá dữ
d ữ li
liệệu ...................................
......................................................
...................................
..................16
..16


 

2.1.1. Khai phá Text .................................
...................................................
...................................
.................................16
................16
2.1.1.1. Khái niệ
niệm ....................................
......................................................
...................................
...........................16

..........16
2.1.1.2 Mộ
Một số
số lo
loạại khai phá Text ..................
...................................
....................................
......................16
...16
2.1.1.3. Quy trình khai phá Text ..................................
.....................................................
.........................17
......17
2.1.2. Khai phá web
web.................
..................................
...................................
...................................
.................................18
................18
2.1.2.1. Khái niệ
niệm ....................................
......................................................
...................................
...........................18
..........18
2.1.2.2. Phân loạ
loại khai phá web ...................................
......................................................
.........................18

......18
diễn trang web..................................
web............................................19
..........19
2.1.2.3. Phương pháp biểu
biểu diễ
2.1.3 Xử
Xử lý văn
tự động........................................................................21
văn bbảản tự
động........................................................................21
2.1.3.1. Rút trích đặc trưng văn bản......................................................21
bả n......................................................21
2.1.3.2. Biể
Biểu diễn
diễn văn bản
bằng vector đặc trưng ................................22
bản bằng
2.2. Lọ
Lọc nộ
nội dung trang web bằ
bằng thuậ
thuật toán Naïve Bayes...............................25
Bayes...............................25
2.2.1. Giớ 
Giớ i thiệ
thiệu ..................................
....................................................
...................................
....................................

......................25
...25
2.2.2. Họ
Học Bayes (Bayes Learning).................................
Learning)....................................................
............................25
.........25
2.2.3. Công thứ
thức Bayes ..................................
....................................................
...................................
...........................28
..........28
tiến hành lọ
lọc nộ
nội dung bằ
bằng mạ
mạng Bayes .........................30
.........................30
2.2.4. Các bướ c tiế
tiếng Việ
Việt.....................
t......................................
....................................
...................31
31
2.3. Phương pháp tách từ trong tiế
2.3.1. Tình hình nghiên cứ
cứu ...................
...................................

...................................
....................................
..................31
.31
2.3.2. Mộ
Một ssốố phương
....................................
............................32
.........32
phương pháp
pháp tách
tách từ.................
từ..................................
2.3.2.1. Tách câu dự
dựa trên Maximum Entropy ...................................
.....................................32
..32
tối đa (Maximum Matching) ....................34
2.3.2.2. Phương pháp khớ p tối
Finite – State
State Transducer)....35
2.3.2.3. Phương pháp WFST (Weighted
(Weighted Finite – 
2.3.2.4. Bài toán tách từ
từ và công cụ
cụ vnTokenizer ................................37
................................37
sự xác suấ
suất ttồồn tạ
tại củ

của từ
từ không
2.3.2.5. Phương pháp tách từ dựa trên sự
phụụ thu
ph
thuộộc vào ngữ
ngữ ngh ĩa
..................................
...................................
....................................
..................38
.38
 ĩa..................


 

tiếếng Việ
Việt.....................................40
2.3.3. So sánh các phương pháp tách từ ti
2.4. Phân tích nộ
nội dung website.................
website .................................
...................................
...................................
.....................42
.....42
2.4.1. Phân loạ
loại nộ
nội dung website................................

website.................................................
................................42
...............42
ngữ ti
tiếếng Việ
Việt ...................................
...................................................43
................43
2.4.2. Đặc trưng của
của ngôn ngữ
nội dung website..................
website ...................................
..............................44
.............44
2.4.3. Phương pháp xử lý nộ
2.4.4. Phân tích câu ..................................
....................................................
...................................
.................................45
................45
NG DỤ
DỤNG
NG..................
...................................
...................................
...................................
.................................47
................47
CHƯƠ
CH

ƯƠNG
NG 3: Ứ NG
3.1. Xây dự
dựng bộ
bộ lọc nộ
nội dung web tiế
tiếng Việ
Việt không lành mạ
mạnh.....................47
3.1.1. Ý tưởng
tưởng đề xu
xuấất.................................................................................47
ng tiế
tiếp cậ
cận ..................................
....................................................
...................................
..............................47
.............47
3.1.2. Hướ ng
3.1.3. Tiế
Tiến trình thu thậ
thập nộ
nội dung.................
dung ..................................
....................................
............................48
.........48
3.1.4. Quy trình thự
thực hiệ

hiện.................
n.................................
...................................
....................................
........................49
.......49
3.1.4.1. Tiế
Tiến trình 1 ..................................
....................................................
...................................
...........................50
..........50
3.1.4.2. Tiế
Tiến trình 2 ..................................
....................................................
...................................
...........................53
..........53
3.1.
3.1.4.
4.3.
3. Tiế
Tiến trình 3 ..................................
....................................................
...................................
...........................55
..........55
3.2. Kiế
Kiến trúc hệ
hệ th

thống
 ình...........................................
...................................
......................56
...56
ống chương tr  ình...........................
3.2.1 Trình duyệ
duyệt web vớ 
vớ i các chức
chức năng cơ bản thông thườ ng.................56
ng.................56
3.2.2. Các chức
chức năng cơ bản
của hệ
hệ th
thốống..................................................56
bản củ
3.3. Chức
Chức năng của chương tr  ình........................
 ình.........................................
...................................
..............................57
............57
3.3.1.
3.3
.1.Gia
Giaoo di
diệện chính của
của chương tr  ình ...................................
.....................................................

...................57
.57
chức năng của chương tr  ình
 ình................
.................................
...................................
...................58
.58
3.3.2. Sơ đồ chức
3.3.2.1. Chức
Chức năng đăng nhập
hệ thố
thống................................................58
nhập hệ
3.3.2.2. Chức
Chức năng chương tr  ình.................
 ình..................................
....................................
.........................59
......59
3.4. Chức
Chức năng học
từ ti
tiếếng Việ
Việt ..................................
.....................................................
....................................
..................60
.60
học từ

3.5.
3.5. Chức năng xử lý..........................
lý..........................................
...................................
...................................
.............................61
.............61


 

3.5.1. Lấ
Lấy nộ
nội dung website cầ
cần phân tích.................
tích ..................................
.................................61
................61
3.5.2. Quả
Quản lý bộ
bộ từ điển tiế
tiếng Việ
Việt............................................................61
vớ i nộ
nội dung website tiế
tiếng Việ
Việt............................62
3.5.3. Phân tích câu đối
đối vớ 
3.5.4. Phân tích nộ

nội dung website tiế
tiếng Việ
Việt.................
t..................................
..............................63
.............63
3.6. Chức
Chức năng huấn
luyện từ
từ cho việ
việc lọ
lọc nộ
nội dung ...................................
........................................63
.....63
huấn luyệ
3.6.1. Huấ
Huấn luyệ
luyện từ
từ ti
tiếếng Anh .................................
....................................................
..................................64
...............64
3.6.2. Huấ
Huấn luyệ
luyện từ
từ ti
tiếếng Việ
Việt .................................

....................................................
..................................64
...............64
3.7. Phân loạ
loại nộ
nội dung website.................
website .................................
...................................
....................................
.....................65
....65
3.7.1. Nộ
Nội dung tiế
tiếng Anh ...................................
......................................................
....................................
.....................65
....65
3.7.2. Nộ
Nội dung tiế
tiếng Việ
Việt...........................................................................65
3.8. Quả
Quản lý các thông số
số hệ th
thốống...............
ng................................
...................................
..................................
..................66

..66
3.9. Quả
Quản lý các danh sách ...................................
.....................................................
...................................
...........................67
..........67
3.9.1. Black List .................................
...................................................
...................................
....................................
......................67
...67
3.9.2. White List .................................
...................................................
...................................
....................................
......................68
...68
3.10. Kế
Kết quả
quả th
thựực nghiệm
nghiệm và đánh giá kết quả
quả đạt
.................................68
đạt đđượ 
ượ c .................................68
KẾT LUẬN
LUẬN VÀ HƯỚNG

TRIỂN...............................................................70
HƯỚNG PHÁT TRIỂ
TÀI LIỆ
LIỆU THAM KHẢ
KHẢO


 

DANH MỤC HÌNH VẼ
Hình 1.1 – 
1.1 – Màn
Màn hình trình duyệ
duyệt cấ
cấm truy cậ
cập ................
.................................
...................................3
..................3
Hình 1.2 – 
1.2 – Báo
Báo cáo tìm kiế
kiếm từ
từ khóa
Việt Nam..................................6
khóa “sex”
“sex” tại
tại Việ
Hình 1.3 – 
1.3 – Báo

Báo cáo tìm kiế
kiếm từ
từ khóa
giớ 
...................................6
.6
khóa “sex”
“sex” trên
trên thế gi
ớ i ..................................
Hình 2.1 –
2.1 – Sơ đồ l ĩnh
.................................
...................................
.........................18
.......18
 ĩnh vực
vực khai phá web ................
Hình 2.2 – 
2.2 – Quy
Quy trình tách từ
từ ...................
....................................
...................................
...................................
........................37
.......37
Hình 3.1 – 
3.1 – Ti
Tiếến trình thu thậ

thập nộ
nội dung..................
dung ...................................
....................................
.........................49
......49
Hình 3.2 – 
3.2 – Mô
Mô hình tổ
tổng quát lọ
lọc nộ
nội dung không lành mạ
mạnh .........
..............
.........
.........
.......50
..50
Hình 3.3 – 
3.3 – Mô
Mô hình tách câu trong tiế
tiếng Việ
Việt...................................................51
Hình 3.4 – 
3.4 – Mô
Mô hình tách từ
từ đơn
ng Việ
Việt .................................
...................................................

......................52
....52
đơn tiế
tiếng
Hình 3.5 – 
3.5 – Mô
Mô hình tách từ
từ ghép tiế
tiếng Việ
Việt......................................................53
Hình 3.6 – 
3.6 – Mô
Mô hình tính xác suấ
suất cho từ
từ ghép ..................................
..................................................54
................54
Hình 3.7 – 
3.7 – Mô
Mô hình cậ
cập nhậ
nhật bộ
bộ từ điển............................................................55
Hình 3.8 – 
3.8 – Giao
Giao diệ
diện chính của
của chương tr  ình ...................................
...................................................57
................57

Hình 3.9 – 
3.9 – Giao
Giao diệ
diện thông báo không cho truy cậ
c ập nộ
nội dung website ............58
Hình 3.10 – 
3.10 – Ch
Chức
hệ th
thống
quản lý ..........
..............
........5
....588
ức năng đăng nhập
nhập hệ
ống chương tr  ình quả
Hình 3.11 – 
3.11 – Ch
Chức
từ đơn
tiếng Việ
Việt.................................61
ức năng học
học từ
đơn và
và từ
từ ghép tiế
Hình 3.12 – 

3.12 – L
Lấy nộ
nội dung website cầ
cần phân tích .................................
..............................................61
.............61
Hình 3.13 – 
3.13 – B
Bộ từ điển tiế
tiếng Việ
Việt ...................................
......................................................
..................................62
...............62
Hình 3.14 – 
3.14 – Phân
Phân tích câu trong tiế
tiếng Việ
Việt .................................
...................................................
......................62
....62
Hình 3.15 – 
3.15 – Phân
Phân tích nộ
nội dung website tiế
tiếng Việ
Việt...........................................63



 

Hình 3.16 – 
3.16 – Hu
Huấấn luyệ
luyện từ
từ ti
tiếếng Anh ...................................
......................................................
............................64
.........64
Hình 3.17 – 
3.17 – Hu
Huấấn luyệ
luyện từ
từ ti
tiếếng Việ
Việt ...................................
......................................................
............................64
.........64
Hình 3.18 – 
3.18 – Phân
Phân lớ 
lớ p nộ
nội dung website tiế
tiếng Anh................................
Anh............................................65
............65
Hình 3.19 – 

3.19 – Phân
Phân lớ 
lớ p nộ
nội dung website tiế
tiếng Việ
Việt............................................66
Hình 3.20 – 
3.20 – Qu
Quảản lý thông số
số hệ th
thốống.............................
ng.............................................
................................67
................67
Hình 3.21 – 
3.21 – Danh
Danh sách Black List...................................................
List...................................................................
..................67
..67
Hình 3.22 – 
3.22 – Danh
Danh sách White List ..................
..................................
...................................
..................................68
...............68


 


DANH MỤC BẢNG BIỂU
Bảng 1.1 – 
1.1 – K
Kết quả
quả đánh
NetProject. .................................
...................................
.....................9
...9
đánh giá
giá của
của NetProject.................
Bảng 1.2 – 
1.2 – M
Một số
số sản phẩ
phẩm lọc
lọc web theo phương thức
.........................11
thức URL .........................11
Bảng 2.1 – 
2.1 – SSự khác biệt
biệt cơ bản
giữa tiế
tiếng Anh và tiế
tiếng Việ
Việt ..........................42
..........................42
bản giữ

Bảng 3.1 – 
3.1 – B
Bảng mô tả
tả chức
chức năng của chương tr  ình ...................................
........................................59
.....59
Bảng 3.2 – 
3.2 – K
Kết quả
quả xây dự
dựng bộ
bộ từ điển tiế
tiếng Việ
Việt..........................................68
Bảng 3.3 – 
3.3 – K
Kết quả
quả phân loạ
loại web...................................................
web...................................................................
..................69
..69


 

1

MỞ ĐẦU

1. Tóm lược đề tài
Trong thờ 
thờ i kỳ hiệ
hiện nay, Internet ngày càng phát tri
triểển mạnh mẽ và trở 
trở  nên
thông dụng
dụng đối
tuổi
biệệt là thanh thiế
thiếu niên, họ
học sinh, sinh viên.
đối vớ i mọi lứa tu
ổi đặc
đặc bi
Lợ i ích thiế
thiết thự
thực nhấ
nhất mà Internet mang lại
lại đó là cung cấp
nguồn tài nguyên thông
cấp nguồ
tin vô tận
tận cho ngườ i sử
sử dụng, nó góp phầ
phần không nhỏ
nhỏ vào việ
việc nâng cao kiế
kiến thứ
thức

cho lứ
lứa tuổ
tu ổi thanh thiế
thiếu niên. Tuy nhiên, mặ
mặt mạ
mạnh củ
c ủa Internet cũng
cũng chính là
y ếu
là yế
m củ
của nó, ngoài nhữ
những kiế
kiến thứ
th ức hữ
h ữu ích thì ngườ 
ngườ i dùng cũng
cũng dễ dàng tìm thấ
thấy
điểm
điể
nhữững nộ
nh
nội dung không lành mạ
mạnh trên Internet.
Chính vì vậ
vậy, mục
mục đích chính của đề tài là nghiên cứu
cứu các phương pháp và đề
xuấất kỹ

xu
k ỹ thu
thuậật ngăn chặn
tự động
nội dung bằ
bằng tiế
tiếng Việ
Việt không
chặn tự
động các trang web có nộ
lành mạ
mạnh
2. Mục tiêu đề tài
Tìm hiểu
hiểu đặc trưng cũng như sự phát triể
triển củ
của website có nộ
nội dung không lành
mạnh, kế
kết hợ p phân tích các hệ
hệ th
thốống lọ
l ọc web hiện có. Từ
Từ đó đề xu
xuấất mô hình có
thể
thể tự động
hiện nhữ
những trang web có nộ
nội dung không lành mạ

mạnh sử dụng ngôn
động phát hiệ
ngữữ ti
ng
tiếếng Việ
Việt bằ
b ằng các kỹ
kỹ thu
thuậật rút trích thông tin từ
từ website cũn
cũngg như
d ụng
như ứng dụ
khai phá dữ
dữ li
liệu
biệt sử
s ử dụng thuậ
thuật toán Naive Bayes nhằm
nhằm xác định
ệu văn bản, đặc
đặc biệ
định
ng xác suấ
suất website không lành mạn
mạnhh để có hướ 
ng xử
xử lý phù hợ 
hợ pp..
ngưỡ ng

hướ ng
Bênh cạnh
cạnh đó, hiện
thựực hóa mô hình thành mộ
một trình duyệ
duyệt web có khả
khả năng
hiện th
tự động
những web
websit
sitee tiế
tiếng Việ
Việt có nộ
nội dung không lành mạ
mạnh.
động ngăn
ngăn chặ
chặnn nhữ

3. Nội dung thực hiện
 N ội dung chính cần thự c hiện trong đề tài gồm các phần sau:

− Nghiên cứ
cứu tổng quan các hệ
hệ th
thốống lọc web “đen” thông dụng
hiện nay, xác
dụng hiệ
nh những

những điểm
những
hiện có,
đị
định
điểm bất cập từ nh
ững chương tr  ình ứng dụng lọc web hiệ
những
nh
mạnh, điểm
yếu củ
của những
những phương pháp xây dự
dựng bộ
bộ lọc web.
ững điểm
điểm mạnh,
điểm yế


 

2

cứu những
những điểm
mạnh củ
của các kỹ
kỹ thu
thuậật phân loại

loại văn bản
nhằm áp dụ
dụng
− Nghiên cứ
điểm mạ
bản nhằ
nó tố
tốt nhất
nhất vào đề tài nghiên cứ
cứu.
tiếng Việ
Việt, từ
từ đó lựa chọn
chọn phương pháp
− Tìm hiểu các phương pháp tách từ trong tiế
tối ưu nhất để giả
giải quyế
quyết bài toán lọ
lọc nộ
nội dung
cứu các thuận
thuận toán, đặc
biệt là thuậ
thuật toán Naïve Bayes.
đặc biệ
− Nghiên cứ
xuất
hợ p và xây dự
dựng mô hình.
− Đề xu

ất phương pháp lọc
lọc web phù hợ 
bộ lọc web hiệ
hiện thự
thực hóa vấn
vấn đề nghiên cứ
cứu.
− Cài đặt
đặt bộ

4. Phạm vi ứng dụng
Đề tài “ Xây d ựự ng
n  g bộ lọc phát hiện các website có nội dung không lành mạnh”
dụng bằ
bằng mộ
một trình duyệ
duyệt giúp phụ
phụ huynh kiểm
kiểm soát đượ c quá trình truy
đượ c ứng dụ
cập vào các website ccủủa con em mình, hạ
hạn chế
chế truy cậ
cập vào các website có nộ
nội
dung không lành mạ
mạnh.


 


3

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN

1.1. Bộ lọc web
1.1.1. Khái niệm
Bộ lọc web là phầ
phần mềm có chức
chức năng lọc
hiển th
thịị trên mộ
một trình
lọc nội dung hiể
duyệt hay khóa mộ
duyệ
một vài vị
vị trí của
của website mà ngườ i dùng cố
cố gắng truy cậ
cập vào. Bộ
Bộ
lọc kiể
kiểm tra nội
nội dung hay địa
ch ỉ của trang web dự
dựa vào tậ
tập luật
lu ật và đượ c thay thế
thế

địa chỉ
nội dung
dung không
không mong
mong muố
muốn bằ
bằng mộ
một trang web thay thế,
thế, thườ ng
ng trang này có nộ
nội
dung có dòng “Access Dinied”.
Quảản trị
Qu
trị hệ th
thốống nắ
n ắm quyề
quyền kiể
ki ểm soát và loạ
loại nội
nội dung đi qua bộ lọc. Các bộ
bộ
lọc web thường đượ c sử
s ử dụng trong các trườ ng
ng học,
h ọc, thư viện,
dịch vụ
v ụ Internet
viện, các dị
công cộ

cộng và tại gia đ ình nhằ
nhằm giữ
giữ an toàn
ng thanh thiế
thiếu niên tránh
toàn cho
cho đố
đốii tượ 
tượ ng
những nội dung không lành mạ
mạnh vì lứ
lứa tu
tuổi
thức việ
việc mình
đượ c nhữ
ổi này chưa có ý thứ
làm.

Hình 1.1 – 
1.1 – Màn
Màn hình trình duyệ
duyệt cấ
cấm truy cậ
c ập


 

4


1.1.2. Đặc điểm web có nội dung không lành mạnh
Hiệện nay, nhiều
Hi
nhiều ngườ i quan tâm nhiều
nhiều đến
đến vấn đề web “đen”
“đen” hay web
web “xấu”.
“xấu”.
Mọi ngườ i tùy theo nhậ
nhận thức
th ức và quan điểm
của mình có thể
thể có cá
điểm củ
cácc đánh
đánh giá khác
khác
ng một
một trang web đượ c coi là xấ
x ấu khi có mộ
một trong hai
nhau. Tuy nhiên, thông thườ ng
kiện sau:
điềuu kiệ
điề
dâm, đồi
trụy.
+ Nội dung khiêu dâm,

đồi trụ
phản động
trị.
+ Nội dung phản
động chính trị

Nội dung khiêu dâm, đồi trụy
bỏng đượ c mọi ngườ i
Các trang web này đđãã đan
đangg và sẽ luôn
luôn là
là đề tài nóng bỏng
quan tâm. Các trang web này sử
s ử dụng công cụ
cụ khiêu dâm, gợ 
gợ i dục như h ình ảnh
sex, truyện
truyện sex, … để thu hút
Internet truy
truy cậ
cập vào.
hút ngườ i dùng Internet
tại Việt
Việt Nam nói riêng, các website này làm băng hoại
Ở Châu Á nói chung và tạ
hoại
xã hội, khiế
khiến cho các thành phầ
ph ần thanh thiế
thiếu niên và mộ

một số ngườ
ng thành
ngườii trư
trưở 
ở ng
sao lãng hhọọc tập, làm việ
việc, nảy sinh tư tưở ng
ng bệnh hoạn,
hoạn, gia tăng các tệ nạn đi
lại vớ 
vớ i truyề
truyền thống
thống văn hóa tốt đẹp
của ngườ i Việ
Việt Nam.
ngượ c lạ
đẹp của
Tuy nhiên ta ccũng
nhận rằng ở  một số qu
quốốc gia có nền
nền văn hóa
ũng phải
phải nhìn nhậ
Mỹ hay Châu Âu, vẫ
vẫn cho phép mộ
một ssốố website
c ấp
thoá
thoáng
ng như

như ở 
ở M
website khiêu
khiêu dâm đượ c cấ
phép hoạt
hoạt động
chỉ ch
ng thành truy cậ
cập vào. Các trang web
động và chỉ
choo ph
phép
ép ngư
ngườ 
ờ i trưở ng
này hoạt
hoạt động
tổ chứ
chức rõ ràng và dướ 
dướ i sự ki
kiểểm soát củ
của chính quyền
quyền nướ c sở 
động có tổ
tại. Như vậy, các trang web này chưa hẳn đã “xấu” nếu
cạnh pháp lý.
nếu xét theo khía cạ
Vậy căn
biệt đâu là một
trang web “xấu”, đâu là

căn cứ vào đâu để chúng ta phân biệt
một trang
một trang web “không xấu” ? Điều đó phụ thu
thuộộc vào truyề
truyền th
thống
ống văn hóa của
của
Việt Nam, căn cứ vào luậ
luật pháp hiệ
hiện tại của nướ c Việt
Việt Nam chưa có thừa
ngườ i Việt
thừa
nhậận ngành công nghiệ
nh
nghiệp sex, tấ
tất cả
cả các trang web sử
sử dụng công cụ
cụ khiê
khiêuu dâ
dâm
m đều
đều
bị xe
xem
m là trang web “xấu”.



 

5

Nội dung phản động chính trị
Do cá nhân hoặ
hoặc tổ chứ
chức ph
phản
ng phả
phản
ản động
động vớ i mục đích tuyên truyền tư tưở ng
ng, chống
chống phá nhà nướ c Vi
Việệt Nam, kêu gọ
gọi mọi người “tự do chính trị”,
trị”, “đa
động,
độ
nhiều, chủ
chủ yếu đặt
nguyên đa đảng”, … Các trang web này có rất
rất nhiề
đặt tại nướ c ngoài,
sử dụng tiế
tiếng Việ
Việt là ngôn ngữ
ngữ chí
truyền. Hệ qu

quảả sự tồn tại của các
hính
nh để tuyên truyề
trang web này là sự
sự chia rẽ
rẽ nội bộ,
bộ, kích động
phần tử
tử vốn đã
tư tưở ng
ng phả
phản
động các phầ
đã có tư
ng. Cầ
Cần có cái nhìn nghiêm túc đố
vớ i nhữ
những trang
trang web
web này,
này, không
không th
thểể vì lý do
động.
độ
đốii vớ 
luận” mà có thể lợ i dụng
dụng điều này để th
thựực hiện
hiện ý đồ phá hoạ

hoại.
“tự do ngôn luận”
hiện đứng
thứ 3 ở 
khu vực
vực Đông Nam Á vớ i
Tính đến năm 2010, Việ
Việtt Nam hiện
đứng thứ
ở khu
chiếm
vớ i
24.269.083 ngườ i sử dụng Internet chi
ếm 2.9% ngườ i dùng Internet châu Á, vớ 
tốc độ
ng trung bình 12.034,5% trong 10 năm
n ăm qua Vi
Việệt Nam vẫn
vẫn đang là
độ tăng
tăng trưở 
trưở ng
một trong nhữ
những thị
thị trườ ng
ng công nghệ
nghệ vi
viễn
châu Á cũng
cũng

ễn thông đầy
đầy triển vọng ở 
ở châu
c, thu hút sự
sự quan tâm của
của các nhà đầu tư nướ c ngoài.
như khu vự
vực,
(internetworldstats.com)
Theo Google Trends (Hot Trends) là công
ông cụ
cụ theo dõi xu hướ 
hướ ng
ng tìm kiế
kiếm củ
c ủa
từ khóa theo vùng miề
miền, thành phố
phố, ngôn ngữ
ngữ thì Việ
Việt Nam nằ
nằm trong top 3 nhữ
những
hiểu về sex trự
trực tuyế
tuyến nh
nhấất toàn cầu
cầu trong năm 2011. Xét về vùng
nướ c thích tìm hiể
miền ở Vi

miề
thống kê “Hà Nội”
Nội” là nơi
 ìm kiế
kiếm từ khóa “sex” nhi
nhiềều
ở Việệt Nam, theo thố
nơi có t ìm
nhấất, tiế
nh
tiếp theo là Vũng
Vũng Tàu
bảng thố
thống kê phầ
phần lớ n nhữ
những
Tàu và Quãng Ngãi. Theo bả
kiếm từ
từ khóa
ng tậ
tập trung ở 
các thành phố
phố du lịlịch.
nơi có mật độ tìm kiế
khóa sex ccao
ao thườ 
thườ ng
ở các



 

6

Hình 1.2 – 
1.2 – Báo
Báo cáo tìm kiế
kiếm từ
từ khóa
Việt Nam
Nam [1
[12]
2]
khóa “sex”
“sex” tại
tại Việ

Hình 1.3 – 
1.3 – Báo
Báo cáo tìm kiế
kiếm từ
từ khóa
giớ 
khóa “sex”
“sex” tr
trên
ên thế
thế gi
ớ i [12]



 

7

1.1.3. Nguyên nhân cần xây dựng bộ lọc web
Từ nh
nhữững nguyên nhân nêu trên, tạ
tại Việ
Việt Nam việ
việc xây dự
dựng bộ
bộ lọc web “đen”
nhằằm phụ
nh
phục vụ
vụ cho vấn
vấn đề an toàn trong việ
việc truy cậ
cập mạ
mạng Internet là mộ
một yêu cầ
c ầu
cấp thiết và luôn làm đau đầu
quản lý.
đầu các nhà quả
Hiện nay trên thị
Hiệ
thị trườ ng
ng có rấ

rất nhiề
nhiều phầ
phần mềm lọc
l ọc web “đen” nhưng hầu
h ết
hầu hế
nhữững phầ
nh
phần mềm
mềm này đều
một nhược điểm
chậm đườ ng
ng truyề
truyền do
đều có chung một
điểm là làm chậm
sử dụng các phép kiể
kiểm tra và so sánh liên tụ
tục, một nhược điểm
điểm khác là không có
nh ật hành vi sử
sử dụng web của
của ngườ i dùng. Phần
Phần dướ i sẽ trình
cơ chế tự động
động cập nhậ
bày mộ
một ssốố phương
nội dung không lành mạ
mạnh.

phương pháp
pháp lọc
lọc website có nộ
1.2. Các phương pháp lọc web có nội dung không lành mạnh

1.2.1. Bộ lọc web dựa vào địa chỉ mạng


Bức tườ ng
ng lử a (Firewall)
Firewall là mộ
một kỹ
kỹ thu
thuật
hợ p vào hệ
hệ th
thốống mạng
mạng để chố
chống sự
sự truy cậ
c ập
ật đượ c tích hợ 

trái phép, nhằ
nhằm bả
b ảo vệ
v ệ các nguồ
nguồn thông tin nộ
nội bộ
b ộ và hạ

h ạn chế
ch ế sự xâm nhậ
nhập không
mong muố
muốn vào hệ
hệ th
thống.
giữa mạng bên trong
ống. Thông thường Firewall được đặt
đặt giữ
(Intranet) ccủủa một công ty, tổ
tổ chức,
chức, … vai trò chính là bảo
bảo mật thông tin, ngăn
chặ
chặn sự truy cậ
cập không mong muố
muốn từ bên ngoài và cấ
cấm truy cậ
cập từ bên trong
(Intranet) tớ 
tớ i mộ
một ssốố đị
chỉ nh
nhất
địaa chỉ
ất định
định trên Internet.
hệ th
thống

sử dụng bộ
bộ lọc packet. Mộ
Một trong
m: Đa số các các hệ
Ưu điể m:
ống firewall đều
đều sử
những
nh
c ủa phương pháp này là chi phí thấp
cơ chế lọc packet đã
ững ưu điểm
điểm của
thấp vì cơ
đã đượ c
bao gồ
gồm trong mỗ
mỗi phầ
phần mề
mềm router.
việc định
một vi
việệc phứ
phức tạp, đòi
 H ạn chế : việc
định ngh ĩa các chế độ lọc packet là mộ
đòi hỏi
quản tr
trịị mạng cần có hiể
hiểu biế

biết chi tiế
tiết về các dị
dịch vụ Internet, các dạ
dạng
ngườ i quả
 packet header, …


 

8


Danh sách đen (Back List) và danh sách trắ
tr ắng (White List)

Danh sách trắng
trắng và danh sách đen là 2 phương pháp phổ bi
biến
nhiều nhà
ến đượ c nhiề
cung cấ
cấp phầ
ph ần mề
mềm sử
sử dụng, vì nó đơn giản,
d ễ qu
quảản lý và cho một kế
kết quả
quả có thể

thể
giản, dễ
chấ
chấp nhậ
nhận.
Danh sách trắng
trắng là danh sách các website đượ c phép truy cập,
cập, danh sách đen là
danh sách nhữ
những trang cấm,
cấm, các danh sách này thường đượ c tạo bằng cách thủ
thủ
công bằ
bằng cách khảo
khảo sát trang
trang web này
này là cấ
cấm hay
trang web
web để đưa ra quyết
quyết định
định trang
cập.
đượ c phép truy cậ
Hàng này, số
số lượ ng
ng các website mớ 
mớ i xuấ
xuất hiệ
hiện rấ

rất nhiều
nhiều gây khó khăn cho việc
việc
cập nhật
nhật danh sách Backlist, Whitelist và đượ c do làm thủ
thủ công nên mấ
mất nhiề
nhiều thờ 
thờ i
gian cho việ
việc bổ
bổ sung các danh sách này.


Lọc web qua địa chỉ IP
kỹ thu
thuật
trựực ti
tiếp
ng mạng bằng các địa
chỉ IP của
Đây là kỹ
ật ngăn chặn
chặn tr
ếp trên đườ ng
địa chỉ

một website. Kỹ
Kỹ thu
thuậật này có thể

thể là thiế
thiết thự
thực trong bố
bối cảnh
cảnh các website thườ ng
ng bị
bị
truy ccập
chỉ IP hay nó có thể
thể truy cậ
cập thông qua IP thay cho tên
ập thông qua địa
địa chỉ
ng hợp, không đượ c khuyế
khuyến dùng do 3 sự
sự kém cỏ
cỏi sau:
DSN.. Đa
DSN
Đa số trườ ng
cập đến
cũng sẽ ngăn chặn
những
− Ngăn chặn
chặn truy cập
đến một IP cũng
chặn lưu thông
thông mạng
mạng đến
đến nhữ

site có host ảo trên cùng IP ngay cả
cả khi nó có nội
nội dung liên quan đến
vấn đề cấm
đến vấn
hay không.
cập đến
cũng sẽ ngăn
chặn lưu thông mạng đến
− Ngăn chặn
chặn truy cập
đến một IP cũ
ngăn chặn
đến mỗi
thành viên củ
của cổ
c ổng thông tin nằm
nằm trên
một thành phầ
phần
trên IP đó.
đó. Nó sẽ
sẽ ngăn chặ
chặnn mộ
của website không phả
phải là mộ
một phầ
phần hay mộ
một ttậập các trang con.
ng xuyên củ

của các website bị
bị lọc ngay khi chủ
chủ nhân
− Đó là sự
sự thay
thay đổi th
thườ 
ườ ng
website phát hi
hiệện ra bị
bị lọc. Hành động
dựa trên DNS để cho phép ngườ i
động này dựa
dùng vẫ
vẫn còn truy cập
cập đến
trang
ng web.
web. Bảng th
thống
kết
đến tra
ống kê phía dướ i sẽ so sánh kế
quả lọc củ
quả
của mộ
một số
số ph
phầần mề
mềm theo dự

dự án khả
khảo sát website củ
của dự
dự án NetProject.


 

9

Bảng 1.1 – 
1.1 – K
Kết quả đánh giá của NetProject.
NetProject.

Phần mềm lọc

Tỉ lệ khóa
khóa đúng
đúng Efectiveness Rate

BizGuard

55 %

10 %

Cyber Patrol

52 %


2%

CYBER sitter
Cyber Snoop

46 %
65 %

3%
23 %

Norton InternetSecurity

45 %

6%

SurfMonkey

65 %

11 %

X-Stop

65 %

4%


1.2.2. Bộ lọc web dựa vào URL (Universal
(Universal Resource
Resource Locator)
Locator)
Dự a vào từ khóa (keyword) của URL
Vớ i cách tiế
tiếp cậ
cận này có mộ
một danh sách chứ
chứa các từ
từ khóa
khóa (keyword
(keyword)) đượ c hình



nhậận ra những
những địa
chị web bị
bị ch
chặặn. URL keyword là chuỗ
chuỗi con nằ
nằm trong
thành để nh
địa chị
một địa
chỉ web, những
những địa
chỉ web có chứ
chứa chuỗ

chuỗi này thườ ng
ng là nhữ
những trang web
địa chỉ
địa chỉ
xấu.
Theo khả
khảo sát
sát [5
[5]] [8],
[8], đa phần
nhữững trang web xấ
xấu dùng từ
từ ng
ngữữ khiêu dâm,
phần nh
gợ i dục làm tên miề
miền cho website củ
của mình vớ 
vớ i mục đích thu hút sự chú ý củ
củ a
Vớ i những
những trang web như vậy,
việc chặ
chặn trự
trực tiế
tiếp ngay
ngay từ đị
ngườ i dùng Internet. Vớ 
vậy, việ

địaa
chỉ
chỉ URL mà không cần
cần quan tâm đến
một điều đúng v ì
đến nội dung trang web là một
không có mộ
một trang web nào có nộ
nội dung là tố
tốt nếu
nếu địa
chỉ là xấ
xấu.
địa chỉ
Ví dụ
dụ
Các trang web này đều
đều là web sex:
www.sexviet.com
www.sex700.com
www.sexygirls.com


 

10

chứa các từ
từ khóa là “sex”
do đều

đều chứ
Hoặc
Ho
ặc các trang web sex sau đây
www.freeporns.com
www.asiaporns.com
www.childporn.com
chứa các từ
từ khóa là “porn”
đề
đềuu chứ
Ưu điể m
d ựa chủ
chủ yếu vào từ
từ khóa.
− Mức độ chính xác khá cao do dự
 Nhược điể m
Chắắc chắ
chắn bỏ
bỏ qua các trang web không sử
sử dụng URL keyword phổ
phổ bi
biếến.
− Ch
− Một số ít nhữ
những trang web không xấ
xấu có chứ
chứa một URL keyword nào đó và bị
xem là xấ
xấu.

Kỹ thuật lọc web dự a vào URL


thuậật lọc bằng
b ằng cách quan sát lưu thông web (HTTP) bằng
Đây là kỹ thu
bằng cách theo
dõi URL và các host field bên trong các yêu ccầu
nhận
ầu HTTP để nh
ận ra đích đến
đến của
yêu cầu.
cầu. Host field đuợ c dùng riêng biệ
biệt bở 
b ở i các máy chủ
chủ we
nhậận ra
webb hhost
ostin
ingg để
để nh
trả về.
tài nguyên nào đượ c trả
Lọc web
web qua
qua URL
URL [9
[9]] thường đượ c xếp vào loạ
loại chủ

chủ đề rộng lớ n về “Co
Cont
nten
entt
thuậật llọc
kiểu lọ
lọc “pass-by” và “passManagement”. Các kỹ thu
ọc qua URL ra đờ i ttừừ 2 kiể
through”.
Lọc theo “pass-by”: xử lý trên đườ ng
ng mạ
mạng mà không cầ
cần phả
phải trự
trực tiế
tiếp trong
ng nố
nối giữa
giữa ngườ i dùng và internet. Yêu cầu
cầu ban đầu đượ c chuyển
chuyển đến
chủ
đườ ng
đến máy chủ
cuốối. Nếu yêu cầ
cầu bị cho là không thích hợ 
h ợ p thì bộ
bộ lọc sẽ ngăn ch
web đầ
đầuu cu

chặn
nhữững trang gố
nh
gốc từ
từ bất cứ
cứ yêu cầ
cầu truy cậ
cập nào. Kỹ
Kỹ thu
thuậật này cho phép thiế
thiết bị
bị lọc
không bao gồ
gồm bộ
b ộ định
ng yêu cầ
cầu. Nế
N ếu thiế
thiết bị lọc bị
b ị hỏng, lưu thông mạng
định hướ 
hướ ng
mạng
vẫn ti
 tiếếp tụ
tục hoạt
hoạt động
một cách bình thườ 
thườ ng.
ng.

động mộ


 

11

Lọc theo “pass-through”: gồm việ
việc sử
s ử dụng mộ
một thiế
thiết bị
b ị trên
ng củ
của tấ
tất cả
cả
trên đườ 
đườ ng
yêu cầ
cầu của ngườ i dùng. Vì thế
thế lưu thôn
thôngg mạn
mạngg đi qua
qua bộ lọc “pass-through” là
thiếết bị lọc th
thi
thựực sự. Thườ ng
ng bộ lọc này nằ
nằm trong các kiể

kiểu firewall, router,
application switch, proxy server, cache server.

Tùy chọn bộ lọc URL
biệệt của các sả
sản ph
phẩm
Điểm đặc
đặc bi
ẩm theo phương pháp này cho phép ngườ i dùng



chỉ
chỉ định
bằng cách thêm hay bớ 
bớ t các URL khỏi
khỏi “danh sách các site xấu”
định các URL bằ
(Bad Site List) mặ
mặc dù các website nguyên thủ
th ủy trong danh sách không thể
thể bị lo
loạại
bỏ. Dưới đây là danh sách các sả
sản phẩ
phẩm lọc web phổ
phổ biế
biến.
Bản

ảngg 11.2
.2 – M
– Một số sản phẩm lọc web theo phương thức URL

Sản Phẩm

Hãng (Công ty)

Smartfilter
Web Filter

Secure Computing
SurfControl

Web Security

Symantec

bt-WebFilter

Burst Technology

CyBlock We
Web Fi
Filter

Wavecrest Computing

Ưu điểm khi sử dụng bộ lọc qua URL


− Nhữ ng
ng Website ảo không bị ảnh hưở ng:
ng: Kỹ thu
thuậật này không ảnh hưởng đến
đến các
máy chủ
chủ web ảo khi chúng cùng dùng một
một IP như những
hạn chế
chế. Mộ
M ột
những website hạ
website bị
bị ch
chặặn và website không bị
bị chặ
chặn có thể
thể chia sẻ
sẻ cùng một
một địa
chỉ IP.
địa chỉ
phần lớ 
l ớ n tình huố
huống, sự
sự thay
− Không ảnh hưởng đố i vớ i vi ệc thay đổ i IP: Trong phầ
của website bị
bị hạn chế
chế sẽ không ảnh hưởng đến phương pháp này. V ì

đổi IP củ
đổi
V ì
phụ thu
thuộc
chỉỉ IP. Chủ
Chủ sở 
những trang
 phương pháp lọc
lọc này không phụ
ộc vào địa
địa ch
ở hhữu nhữ
web có th
thểể đòi bất cứ IP nào họ
họ mu
muốn,
bộ lọc
ốn, nhưng người dùng đứng
đứng sau bộ
không thể
thể truy cập
cập đượ c.
c.


 

12


Hạn chế khi sử dụng bộ lọc thông qua URL

− Thườ ng
ng không thể ngăn
ng phi tiêu chuẩ n:
n:
ngăn chặ
chặn các cổ ng
Những
việc với cổng tiêu
chuẩn rất tốt.
+ Nh
ững Web server làm
làm việc
tiêu chuẩn
cổng phi tiêu
chuẩn th ì khó khăn
khăn cho việc ngăn cấm v ì
+ Website trên các cổng
tiêu chuẩn
v ì
chúng yêu cầu
cầu một cấp độ cao hơn trong bộ lọc.

+ Một giải pháp lọc qua URL có thể là
là kỹ thuật có khả năng cần thiết cho
những
nh
ên các cổng
cổng phi tiêu

chuẩn
ững kết nối HTTP tr ên
tiêu chuẩn
HTTP yêu cầu sử dụng
− Không làm việc với các lưu thông bị mã hóa: vì HTTP
SSL/TLS bbịị mã hóa. Phương
Phương pháp lọc
thể đọc
lọc theo URL không thể
đọc các hostfield.
Cho nên, bộ
bộ lọc không có hiệ
hiệu quả
quả phát hiệ
hiện mộ
một tài nguyên nào trên một
một địa
chỉ
địa chỉ
IP mà yêu cầ
cầu thự
thực sự
sự định
ng vào.
định hướ 
hướ ng
Tóm lạ
lại, các server cầ
cần có bộ
bộ lọc để thự

thực hiệ
hi ện loạ
loại bỏ
b ỏ một ssốố trang web không
tốt, nhưng nó có thể làm cho hệ
hệ th
thốống chậ
chậm lạ
lại.

1.2.3. Bộ lọc web dựa vào DNS
Nhữững website bị
Nh
bị lọc sẽ
s ẽ hoàn toàn không thể
thể truy cập
cập được đến
t ất cả
c ả các cấ
cấu
đến tấ
hình ssửử dụng bộ lọc nameserver cho bộ
bộ phân giả
giải tên do tấ
tất cả các bộ
bộ lọc
nameserver sẽ
sẽ tr
trảả về thông tin bấ
bất hợ 

h ợ p lệ
l ệ khi yêu cầ
cầu phân giả
giải mộ
m ột hostname củ
củ a
website bbịị lọc. Như vậy
thể truy cập
cập đến
liệu trên củ
của máy chủ
chủ chứ
chứa
vậy không thể
đến tài liệ
Website. Tuy nhiên, các website không bị
bị lọc sẽ
s ẽ cho phép truy cậ
cập miễ
mi ễn là chúng
nó có mộ
một hostname khác từ
từ các website bị
bị lọc. Vì tên của
của chúng không đượ c hỗ
trợ 
trợ thông
thông tin bấ
bất hợ 
hợ p lệ

lệ bở i bộ
bộ lọc nameserver nên dữ
d ữ li
liệu
trảả về cho bấ
bất cứ
cứ
ệu đúng sẽ tr
cầu phân giả
giải tên và website hiể
hiển nhiên là có thể
thể truy cậ
cập vào
ngườ i dùng nào yêu cầ
đượ cc..
Ưu điểm
bất kỳ
kỳ nghi thứ
thức nào
− Sử dụng đa nghi thức
thức (multi-protocol): http, ftp, gropher và bấ
khác dự
dựa trên hệ
hệ th
thốống tên.


 

13


bị ảnh hưở ng
ng bở i việc
việc thay đổi IP: Khi thay đổi
của một website
− Không bị
đổ i IP củ
không ảnh hưởng đến phương pháp lọc này, đây là phương pháp lọc
lọ c hoàn toàn
lập với địa
chỉ IP.
độc lậ
độc
địa chỉ
Nhược điểm
hiệu quả
quả đối
vớ i các URL có chứa
ch ứa địa
chỉ IP:
đối vớ 
địa chỉ
− Không hiệ
Phần
), tuy
+ Ph
ần lớn những địa chỉ của một website ở dạng DNS (www.lhu.edu.vn
( www.lhu.edu.vn),
nhiên cũng
cũng có những địa chỉ được chỉ định bằng một địa chỉ IP thay

tha y vì là
dạng DNS (http://118.69.126.40
).
(http://118.69.126.40).
phải
+ Trong trường hợp này nó được truy cập đến bằng địa chỉ IP mà
m à không phải
dùng địa crh
crhỉỉ DNS của nó.

− Toàn bộ
bộ web server bị
bị ch
chặặn hoàn toàn:
ên một
chọn lựa các trang còn
còn lại tr ên
+ Kỹ thuật không cho phép việc khóa có chọn
thể
webserver. Vì thế,
thế, nếu một trang bị cấm là
là www.exp.com/bad.htm thì có thể
tất cả các truy cập không thể truy xuất đến www.exp.com dù nó không trong
danh sách bị
bị khóa.

− Ảnh hưởng đến
đến các subdomain
+ Xét về
về kỹ thuật, một tên

miền đơn như example.com trong URL
tên miền
cập đến web server. Cùng
một
được dùng
dùng truy cập
C ùng một
th
thời
ên của các
ời điểm, domain name có thể phục vụ như một domain cấp tr ên
cổng khác như host1.example.com. Trong trường hợp này,
những địa chỉ
này, những
DNS dạng
dạng www.example.com có thể
thể bị phân giải sai. Ngoài
cũng làm
Ngoài ra, nó cũng
làm
cho bộ
bộ phân giải tên
miền bị sai đối với các miền
miền con. Và
tên miền
Và nó còn ảnh hưởng
ên mạng
mạng như e-mail.
đến các dịch vụ chạy tr ên
e-mail.


1.2.4. Bộ lọc web dựa vào từ khóa (key word)
vào URL
URL key
keywo
word
rd [1
[10]
0],, cũng có một
Tương
Tươ
ng tự
tự như cách
cách tiế
tiếpp cận dựa vào
một danh
sách các từ
từ khóa để nh
nhậận ra nhữ
những trang web bị
bị chặ
chặn. Mộ
Một trang web cấ
cấm sẽ
sẽ chứ
chứa


 


14

nhiềều từ
nhi
t ừ khóa không hợ 
hợ p lệ,
l ệ, đây là cơ
nhậận ra trang web bị
b ị cấm. Điều
cơ sở để nh
Điều quan
trọng
trọng đối
ngữ cảnh, điều
đối với phương pháp này là ngữ ngh ĩa của
của từ khóa theo ngữ
điều này
làm cho hệ
hệ th
thốống có nhữ
những nhầ
nhầm lẫn
l ẫn khi đưa ra một
quyết định
v ề một trang web
một quyết
định về
thể hiệ
hiện hay không.
có đượ c thể

Một website chuyên đề bệnh ung thư có thể bị khóa vớ 
vớ i lý do bài viế
viết về “bệnh
thấy đượ c rằ
r ằng nế
n ếu trong bài viết
viết có đề cập quá nhiều
nhiều đến
t ừ khóa
ung thư vú”,
vú”, ta thấy
đến từ
nằm trong danh sách ttừừ khóa chặ
chặn là “vú” thì vô tình hệ
h ệ th
thốống sẽ nh
nhầầm lẫn và
khóa trang này.
Vấn đề ti
tiếp
một ssốố trang chứ
chứa
ếp theo đó là các từ cố ý hay
hay vô ý đánh
đánh vầ
vần sai, ở 
ở m
nội dung xấ
xấu thì ngôn từ
từ đượ c dùng trong trang web củ

c ủa nó bị
bị th
thay
ay đổi để đánh
đánh lừa
lừa
hệ th
thốống lọc, tuy nhiên khi ngườ i sử dụng đọc
thể hi
hiểu
đọc thì có thể
ểu ngay đó chỉ là sai
chính tả
tả thôi còn đố
vớ i hệ
hệ th
thốống lọc
lọc điều
ng lớn
lớn đến
hệ th
thốống.
đốii vớ 
điều đó
đó làm ảnh hư
hưở 
ở ng
đến hệ
1.3. Những phần mềm lọc web hiện nay
SurfControl  –  Enterprise Threat Protecion: đây là phầ

phầnn mềm của hãng

SurfControl, ph
phầần mềm này thiế
thiết kế theo cách tiế
tiếp cận lọc web và ngăn chặn
chặn từ
proxy qua URL và từ
từ khóa, có khoảng
khoảng 20 cách ngăn chặn
chặn
 Internet Filter  –  Web Filters: do hãng iPrism Internet Filters & Web Filters

phát tri
triểển, là phầ
phần mềm th
thựực hi
hiện
Phần mềm này đượ c
ện giám sát và ngăn chặn.
chặn. Phầ
quảảng cáo là dùng kỹ
qu
kỹ thu
thuậật lọc web động
kiểm soát nộ
nội dung trang web ngay từ
từ ở 
động kiể
ngõ vào. Tuy nhiên, theo hướ 

h ướ ng
ng dẫn của nhà sả
sản xuấ
xuất thì phầ
phần mềm này cũng
cũng có
bóng dáng củ
của kỹ
kỹ thu
thuật
chặn từ
từ khóa.
ật dùng phương pháp lọc
lọc chặ
giả Vũ Lương Bằng
 DWK4.1: Depraved Web Killer (DWK) do tác giả
Bằng dự thi
chung kế
kết cuộ
cu ộc thi Trí Tuệ
Tuệ Vi
Việt
th ời điểm
bản
ệt Nam năm 2004, tính đến
đến thời
điểm này phiên bả
mớ i nhấ
nhất là v4.1 (2011) có nhiề
nhiều chức

chức năng như:
như:
nội dung xấ
xấu (từ
(từ khóa, URL).
 – Ngăn chặn
chặn các trang web có nộ
nhật ký các chương
chương tr  ình đã đượ c chạ
chạy trên máy.
 –  Ghi nhậ
nhật ký các trang web đã
truy
uy cập.
 –  Ghi nhật
đ ã đượ c tr


 

15

nhật ký các trang web xấ
xấu mà phầ
phần mềm
mềm đã
ngăn chặn.
 –  Ghi nhậ
đã ngăn
chặn.

nhật ký đến địa
chỉ mail
thiết llậập
 –  Gửi nhật
địa chỉ
mail do
do ngườ 
ngườ i dùng thiế
phần mềm bức tườ ng
ng lửa chạy
chạy thườ ng
ng trú trên máy tính củ
c ủa
FamilyWall: là phầ
Chức năng chủ yếu của
c ủa FamilyWall là ngăn chặn
việc truy cậ
cập các
ngườ i ssửử dụng. Chức
chặn việ
Website có nộ
nội dung xấ
xấu trên mạ
mạng Inter
Internet
net,, bao gồ
gồm các lớ 
lớ p kiể
kiểm soát chính sau:
các từ

từ khóa có nộ
nội dung xấ
xấu, nộ
n ội dung các trang Web, danh sách các Website xấ
x ấu
hiện, …
đã đượ c phát hiện,
T ổ 
ổng
n  g thể chung, các phần mề m trên thự c hiện t ốố t  các chứ c năng chặn t ừ 
ừ khóa,
chặn URL, … nhưng hầu hế t các phần mềm này không có cơ chế t ựự  học, cơ chế t ựự  
học giúp cho nguồn d ữữ  liệu ngày càng phong phú hơn.


 

16

CHƯƠNG
CHƯƠ
NG 2: CƠ SỞ LÝ THUYẾT
THUYẾT

2.1. Tổng quan khai phá dữ liệu
2.1.1.
2.1
.1. Khai
Khai phá Text
Text

2.1.1.
2.1
.1.1.
1. Khái ni
niệm
Theo Hà Quang
Theo
Quang Thụ
Thụy [2] , Khai
Khai phá
phá Tex
Textt là quá
quá trì
trình
nh tr
tríc
íchh ch
chọn ra các tri thứ
th ức
mớ i,i, có giá trị
trị và tác động được
được đang
đang tiềm
tiềm ẩn trong các văn bản để sử dụng các tri
thứ
thức này vào việ
việc tổ
tổ chứ
chức thông tin tốt
tốt hơn nhằm

hỗ tr
trợợ con
nhằm hỗ
con nngư
gườ 
ờ ii..
Về bản ch
chấất, khai phá Text là sự
s ự kết hợ p giữ
giữa khai phá dữ
dữ li
liệệu và xử
xử lý ngôn
ngữữ tự nhiên (NLP: Natural Language Processing).
ng

2.
2.1.
1.1.
1.22 Một số loại khai phá Text
Phân tích k ếế t  h ợ  p d ựự a  trên t ừừ   khóa: Một tài liệ
liệu có thể
thể xe
chuỗi ký
xem
m như một
một chuỗ
tự và có thể
thể xác định bằ
b ằng tậ

t ập các từ
từ khóa. Việ
Việc phân tích các tài liệ
liệu dự
d ựa trên từ
từ
một kế
kết luậ
luận về
về tài liệu
liệu đó.
khóa để tìm ra mộ
Giống
trợ 
lý, hỗ
hỗ tr
trợợ đắc
Phân tích tài liệu t ự động: Gi
ống như một ngườ i tr
ợ lý,
đắc lực trong
vi
việệc phân loạ
loại tài liệ
liệu bằ
bằng cách “đọc” tất cả
cả các nguồ
nguồn tài liệu
liệu đến
xếp nó theo

đến và xế
từng loạ
loại mộ
một cách tự
tự động.
động.
việc xem xét tài liệ
liệu
 Đo độ tương đồng giữ a các tài liệu: Đo độ
độ tươn
tươngg đồng
đồng là việ
văn học
thuộc về một tác giả
giả nào đó.
đó xem nó có thuộ
thuộcc về một dòng văn
học nào hay thuộ
Hoặặc cũng
Ho
cũng có
loại văn bản
thuộc về
về l ĩnh
có thể dùng
dùng để xếp loại
bản thuộ
 ĩnh vực
vực nào.
kiệện, dự báo

ng.  Như đã nói bên trên, văn
văn
Phân tích trình t ựự  : Đoán sự ki
báo xxuu hướ 
hướ ng. Như
bản là mộ
một chuỗ
chuỗi các ký tự
tự diễn
diễn đạt
một ý. Nhiề
Nhiều tài liệ
liệu gởi
g ởi đến,
nhiều cấp
c ấp độ
đạt mộ
đến, có nhiề
di
diễn
v ề một vấn đề.
vấn đề này hệ
hệ th
thốống có thể
thể đư
ễn đạt
đạt về
đề. Từ các vấn
đưaa ra
ra dự

dự đoá
đoán về
về các
di
diễễn biế
biến củ
của hiện
hiện tượ ng
ng hay những
những điều
sẽ xảy ra tiế
tiếp theo.
điều sẽ
Hiện
ng không bình thườ 
thườ ng
ng là
 Xác định các hiện tượ ng
ng không bình thườ ng:
ng: Hi
ện tượ ng
một văn bản đến
sự khác biệt
biệt hay “cá tính” quá khác so vớ i cùng loại
loại nó đến
đến có sự
đến
một kế
kết luậ
luận về

về sự bất thườ ng
ng củ
của văn bản.
trước đó để cho mộ
bản.


 

17

2.1.1.3. Quy trình
2.1.1.3.
trình khai phá
phá Text
Quá trì
trình
nh khai
khai phá
phá text
text tr
trải
ải qua các bướ c sau
cần đượ c
− Thu thậ p d ữ 
ữ  liệu văn bản thuộc miề n ứ ng
ng d ụng. Ở bước
bước này
này có 2 điề
điều cần

Thứ nh
nhấất, thu thậ
thập dữ
dữ li
liệu
thuộc miề
miền ứng dụ
dụng mà không phả
phải là
lưu ý. Thứ
ệu văn bản
bản thuộ
tập tất cả cá
thể có của th
thếế gi
giớ 
thựực. Ví dụ, bài toán khai phá dữ
dữ
cácc văn
văn bả
bảnn có thể
ớ i th
li
liệu
của Rich Caruana cùng cộ
cộng sự
s ự, miề
miền ứng dụng
d ụng quy định
rằng, tậ

tập
ệu văn bản
bản củ
định rằ
dữ li
liệệu chỉ
ch ỉ là tậ
t ập tấ
tất cả
c ả các công trình khoa họ
học; còn trong bài toán khai phá dữ
dữ
li
liệu
thuộc l ĩnh
kh ỏe thì chỉ
chỉ cần quan tâm thu
ệu văn bản
bản thuộ
 ĩnh vực
vự c y tế và chă
chăm
m só
sócc sức
sức khỏ
thập
thập các văn bản
t ế và chă
khỏe. Thứ
Thứ hai, yêu cầ

cầu của bướ c thu
bản về y tế
chăm
m ssóc
óc sức
sức khỏ
thậ
thập dữ li
liệệu là tậ
tập dữ li
liệệu thuộ
thuộc miề
miền ứng dụng. Cụ
Cụ th
thểể, tập dữ li
liệệu trang web
mà máy tính tìm kiế
kiếm củ
của Google thu thập
thập được cho là đại
diện cho toàn bộ
bộ tập
đại diệ
mọi trang web trên Internet. Mô hình sinh trang web, tính ngẫ
ng ẫu nhiên củ
của việ
việc
thu thậ
thập dữ
dữ li

liệệu là yế
yếu tố
tố cần đượ c quan tâm trong thuậ
thuật toán thu thậ
thập trang web.
Tập trang web mà Google thu thập
thập đượ c dù rất
rất đồ sộ, song không phả
phải là toàn
bộ mọi trang web có thể
thể.
dạng phù hợ 
hợ p với bài toán khai phá văn
− Biể u di ễ n d ữ 
ữ  liệu văn bản: sang khuôn dạ
bản. Biể
Biểu diễ
di ễn dữ
d ữ li
liệu
hợ p với
v ới bài toán khai phá văn bản,
ệu văn bản
bản càng phù hợ 
bản, thì
ch
chất
ng củ
của kế
kết quả

quả khai phá
ất lượ ng
phá văn bản càng đượ 
đượ c nâng cao.
hầu hết
− Lự a chọn t ậ p d ữữ   liệu đầu vào cho thuật toán khai phá d ữữ   liệu: trong hầ

ng hợ 
hợ p,
p, tậ
tập dữ
dữ li
liệệu thuộ
thuộc miề
miền ứng dụng
dụng đã
thập đượ c là rấ
rất llớ 
n. Vì vậ
vậy,
trườ ng
đã thu thập
ớ n.

nhiều trườ ng
nhiều
ng hợp
hợp là vượ t qua khả
khả nă
về không gian và thời

thời gian, đối
vớ i
năng
ng xử lý về
đối vớ 
các thuậ
thuật toán khai phá dữ
dữ li
liệệu. Do vậ
vậy, cầ
cần chọ
chọn ra từ
từ tập dữ
dữ li
liệệu thu thập
thập đượ c
01 tập con để th
thựực hi
hiệện bài toán khai phá dữ
d ữ li
liệệu. Các yế
yếu tố đảm
b ảo tính đại
đảm bảo
đại
di
diệện của tập dữ li
liệệu thu thập
thập đượ c cũng đượ c áp dụ
dụng trong các giả

giải pháp lự
lựa
ch
chọọn tậ
tập dữ
dữ li
liệu
thuật toán khai phá dữ
dữ li
liệệu.
ệu đầu
đầu vào cho thuậ

− Thự c hiện thuật toán
toán kkha
haii phá
phá d ữữ   liệu đố i vớ i t ậ p d ữữ   liệu đ ã 
ã  đượ c lự a chọn để 
lớp văn bản,
thức)
tìm ra các mẫ u,
u, các tri thứ c: đối
đối vớ i bài toán phân lớp
bản, mẫu (tri thứ


 

18


hợ p thành bộ
bộ phân lớ 
lớ p kết qu
quảả và bộ phân lớ 
lớ p này sẽ
sẽ được  sử dụng
đượ c tích hợ 
vào việ
việc phân lớp
lớp đối
với các văn bản
mớ i.i.
đối với
bản mớ 
th ức nhận
nh ận đượ c từ
t ừ quá trình khai
− Thự c hi ện vi ệc khai thác sử  d ụng mẫ u: các tri thứ
thực tiễ
tiễn hoạt
hoạt động.
 phá văn bản
bản vào thự
động.

2.1.2. Khai phá web
2.1.2.1. Khái niệm
Theo
Th
eo Hà Qua

Quang
ng T
Thhụy [2],
[2], Khai
Khai phá web là việ
việc trích chọ
chọn ra các thành phầ
phần
ti ềm năng
được quan tâm hay được đánh giá là
là có ích cùng các cùng các thông tin tiềm
từ các tài nguyên hoặ
hoặc các hoạt
hoạt động
tớ i World Wide Web.
động liên quan tớ 
Một cách trự
trực quan có thể
thể quan niệ
niệm khai phá web là sự
s ự kết hợ 
hợ p giữ
giữa khai phá
vớ i Công nghệ
nghệ Web, hay cụ
cụ th
thểể hơn
văn bản
bản vớ 
hơn là:

là:
Khai phá
phá Web
Web = Khai
Khai phá d ữữ  liệu + X ử 
ử lý ngôn ngữ t ựự  nhiên + World Wide Web
Hiệện tạ
Hi
tại, phầ
phần nội
nội dung điển
nhất trong trang web là văn bản,
vậy, khai
điển hình nhất
bả n, vì vậ

một thành phần
phần cơ bản
vớ i sự
 phá văn bả
bảnn web là mộ
bản của khai phá web. Tuy nhiên, vớ 
tiế
tiến bộ không ngừ
ngừng của công nghệ
nghệ In
Inte
tern
rnet
et,, nhu

nhu cầ
cầu về khai phá dữ
dữ li
liệu
ệu đối
đối vớ i
các dữ
dữ li
liệu
vẽ, tiế
tiếng nói, ca nhạc,
nhạc, phim, … đã
ệu đa phương tiện khác như h ình vẽ
đã không
ngừừng phát triể
ng
triển cả
cả về chi
chiềều rộ
rộng lẫ
lẫn chiề
chiều sâu.

2.1.2.2. Phân loại khai phá web
nội dung web, khai
Khai phá Web đượ c phân thành 03 l ĩnh
 ĩnh vực
vực chính: khai phá nộ
phá cấ
cấu trúc web và khai phá sử

sử dụng web.
Khai phá web

Khai phá nội
dung trang web

Khai phá nội dung
trang web

Khai phá cấ u trúc web

T ối
ối ưu hóa kế tt  
quả tr ả về 

Khai phá sử d ụng
web
Khai phá các
mẫ u truy cậ p

Hình 2.1 –
2.1 – Sơ đồ l ĩnh
khai phá
phá web [2]
 ĩnh vực
vực khai

Khai phá các xu
hướ ng
ng cá nhân



×