Tải bản đầy đủ (.pdf) (79 trang)

nghiên cứu các phương pháp và đề xuất kỹ thuật ngăn chặn tự động các trang web có nội dung bằng tiếng việt không lành mạnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.17 MB, 79 trang )

MỤC LỤC
Trang
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC HÌNH VẼ iv
DANH MỤC BẢNG BIỂU v
MỞ ĐẦU 1
1. Tóm lược đề tài 1
2. Mục tiêu đề tài 1
3. Nội dung thực hiện 1
4. Phạm vi ứng dụng 2
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 3
1.1. Bộ lọc web 3
1.1.1. Khái niệm 3
1.1.2. Đặc điểm web có nội dung không lành mạnh 4
1.1.3. Nguyên nhân cần xây dựng bộ lọc web 7
1.2. Các phương pháp lọc web có nội dung không lành mạnh 7
1.2.1. Bộ lọc web dựa vào địa chỉ mạng 7
1.2.2. Bộ lọc web dựa vào URL (Universal Resource Locator) 9
1.2.3. Bộ lọc web dựa vào DNS 12
1.2.4. Bộ lọc web dựa vào từ khóa (key word) 13
1.3. Những phần mềm lọc web hiện nay 14
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 16
2.1. Tổng quan khai phá dữ liệu 16
2.1.1. Khai phá Text 16
2.1.1.1. Khái niệm 16
2.1.1.2 Một số loại khai phá Text 16
2.1.1.3. Quy trình khai phá Text 17
2.1.2. Khai phá web 18
2.1.2.1. Khái niệm 18


2.1.2.2. Phân loại khai phá web 18
2.1.2.3. Phương pháp biểu diễn trang web 19
2.1.3 Xử lý văn bản tự động 21
2.1.3.1. Rút trích đặc trưng văn bản 21
2.1.3.2. Biểu diễn văn bản bằng vector đặc trưng 22
2.2. Lọc nội dung trang web bằng thuật toán Naïve Bayes 25
2.2.1. Giới thiệu 25
2.2.2. Học Bayes (Bayes Learning) 25
2.2.3. Công thức Bayes 28
2.2.4. Các bước tiến hành lọc nội dung bằng mạng Bayes 30
2.3. Phương pháp tách từ trong tiếng Việt 31
2.3.1. Tình hình nghiên cứu 31
2.3.2. Một số phương pháp tách từ 32
2.3.2.1. Tách câu dựa trên Maximum Entropy 32
2.3.2.2. Phương pháp khớp tối đa (Maximum Matching) 34
2.3.2.3. Phương pháp WFST (Weighted Finite – State Transducer) 35
2.3.2.4. Bài toán tách từ và công cụ vnTokenizer 37
2.3.2.5. Phương pháp tách từ dựa trên sự xác suất tồn tại của từ không
phụ thuộc vào ngữ nghĩa 38
2.3.3. So sánh các phương pháp tách từ tiếng Việt 40
2.4. Phân tích nội dung website 42
2.4.1. Phân loại nội dung website 42
2.4.2. Đặc trưng của ngôn ngữ tiếng Việt 43
2.4.3. Phương pháp xử lý nội dung website 44
2.4.4. Phân tích câu 45
CHƯƠNG 3: ỨNG DỤNG 47
3.1. Xây dựng bộ lọc nội dung web tiếng Việt không lành mạnh 47
3.1.1. Ý tưởng đề xuất 47
3.1.2. Hướng tiếp cận 47
3.1.3. Tiến trình thu thập nội dung 48

3.1.4. Quy trình thực hiện 49
3.1.4.1. Tiến trình 1 50
3.1.4.2. Tiến trình 2 53
3.1.4.3. Tiến trình 3 55
3.2. Kiến trúc hệ thống chương trình 56
3.2.1 Trình duyệt web với các chức năng cơ bản thông thường 56
3.2.2. Các chức năng cơ bản của hệ thống 56
3.3. Chức năng của chương trình 57
3.3.1.Giao diện chính của chương trình 57
3.3.2. Sơ đồ chức năng của chương trình 58
3.3.2.1. Chức năng đăng nhập hệ thống 58
3.3.2.2. Chức năng chương trình 59
3.4. Chức năng học từ tiếng Việt 60
3.5. Chức năng xử lý 61
3.5.1. Lấy nội dung website cần phân tích 61
3.5.2. Quản lý bộ từ điển tiếng Việt 61
3.5.3. Phân tích câu đối với nội dung website tiếng Việt 62
3.5.4. Phân tích nội dung website tiếng Việt 63
3.6. Chức năng huấn luyện từ cho việc lọc nội dung 63
3.6.1. Huấn luyện từ tiếng Anh 64
3.6.2. Huấn luyện từ tiếng Việt 64
3.7. Phân loại nội dung website 65
3.7.1. Nội dung tiếng Anh 65
3.7.2. Nội dung tiếng Việt 65
3.8. Quản lý các thông số hệ thống 66
3.9. Quản lý các danh sách 67
3.9.1. Black List 67
3.9.2. White List 68
3.10. Kết quả thực nghiệm và đánh giá kết quả đạt được 68
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 70

TÀI LIỆU THAM KHẢO
DANH MỤC HÌNH VẼ
Hình 1.1 – Màn hình trình duyệt cấm truy cập 3
Hình 1.2 – Báo cáo tìm kiếm từ khóa “sex” tại Việt Nam 6
Hình 1.3 – Báo cáo tìm kiếm từ khóa “sex” trên thế giới 6
Hình 2.1 – Sơ đồ lĩnh vực khai phá web 18
Hình 2.2 – Quy trình tách từ 37
Hình 3.1 – Tiến trình thu thập nội dung 49
Hình 3.2 – Mô hình tổng quát lọc nội dung không lành mạnh 50
Hình 3.3 – Mô hình tách câu trong tiếng Việt 51
Hình 3.4 – Mô hình tách từ đơn tiếng Việt 52
Hình 3.5 – Mô hình tách từ ghép tiếng Việt 53
Hình 3.6 – Mô hình tính xác suất cho từ ghép 54
Hình 3.7 – Mô hình cập nhật bộ từ điển 55
Hình 3.8 – Giao diện chính của chương trình 57
Hình 3.9 – Giao diện thông báo không cho truy cập nội dung website 58
Hình 3.10 – Chức năng đăng nhập hệ thống chương trình quản lý 58
Hình 3.11 – Chức năng học từ đơn và từ ghép tiếng Việt 61
Hình 3.12 – Lấy nội dung website cần phân tích 61
Hình 3.13 – Bộ từ điển tiếng Việt 62
Hình 3.14 – Phân tích câu trong tiếng Việt 62
Hình 3.15 – Phân tích nội dung website tiếng Việt 63
Hình 3.16 – Huấn luyện từ tiếng Anh 64
Hình 3.17 – Huấn luyện từ tiếng Việt 64
Hình 3.18 – Phân lớp nội dung website tiếng Anh 65
Hình 3.19 – Phân lớp nội dung website tiếng Việt 66
Hình 3.20 – Quản lý thông số hệ thống 67
Hình 3.21 – Danh sách Black List 67
Hình 3.22 – Danh sách White List 68
DANH MỤC BẢNG BIỂU

Bảng 1.1 – Kết quả đánh giá của NetProject 9
Bảng 1.2 – Một số sản phẩm lọc web theo phương thức URL 11
Bảng 2.1 – Sự khác biệt cơ bản giữa tiếng Anh và tiếng Việt 42
Bảng 3.1 – Bảng mô tả chức năng của chương trình 59
Bảng 3.2 – Kết quả xây dựng bộ từ điển tiếng Việt 68
Bảng 3.3 – Kết quả phân loại web 69
1
MỞ ĐẦU
1. Tóm lược đề tài
Trong thời kỳ hiện nay, Internet ngày càng phát triển mạnh mẽ và trở nên
thông dụng đối với mọi lứa tuổi đặc biệt là thanh thiếu niên, học sinh, sinh viên.
Lợi ích thiết thực nhất mà Internet mang lại đó là cung cấp nguồn tài nguyên thông
tin vô tận cho người sử dụng, nó góp phần không nhỏ vào việc nâng cao kiến thức
cho lứa tuổi thanh thiếu niên. Tuy nhiên, mặt mạnh của Internet cũng chính là yếu
điểm của nó, ngoài những kiến thức hữu ích thì người dùng cũng dễ dàng tìm thấy
những nội dung không lành mạnh trên Internet.
Chính vì vậy, mục đích chính của đề tài là nghiên cứu các phương pháp và đề
xuất kỹ thuật ngăn chặn tự động các trang web có nội dung bằng tiếng Việt không
lành mạnh
2. Mục tiêu đề tài
Tìm hiểu đặc trưng cũng như sự phát triển của website có nội dung không lành
mạnh, kết hợp phân tích các hệ thống lọc web hiện có. Từ đó đề xuất mô hình có
thể tự động phát hiện những trang web có nội dung không lành mạnh sử dụng ngôn
ngữ tiếng Việt bằng các kỹ thuật rút trích thông tin từ website cũng như ứng dụng
khai phá dữ liệu văn bản, đặc biệt sử dụng thuật toán Naive Bayes nhằm xác định
ngưỡng xác suất website không lành mạnh để có hướng xử lý phù hợp.
Bênh cạnh đó, hiện thực hóa mô hình thành một trình duyệt web có khả năng
tự động ngăn chặn những website tiếng Việt có nội dung không lành mạnh.
3. Nội dung thực hiện
Nội dung chính cần thực hiện trong đề tài gồm các phần sau:

− Nghiên cứu tổng quan các hệ thống lọc web “đen” thông dụng hiện nay, xác
định những điểm bất cập từ những chương trình ứng dụng lọc web hiện có,
những điểm mạnh, điểm yếu của những phương pháp xây dựng bộ lọc web.
2
− Nghiên cứu những điểm mạnh của các kỹ thuật phân loại văn bản nhằm áp dụng
nó tốt nhất vào đề tài nghiên cứu.
− Tìm hiểu các phương pháp tách từ trong tiếng Việt, từ đó lựa chọn phương pháp
tối ưu nhất để giải quyết bài toán lọc nội dung
− Nghiên cứu các thuận toán, đặc biệt là thuật toán Naïve Bayes.
− Đề xuất phương pháp lọc web phù hợp và xây dựng mô hình.
− Cài đặt bộ lọc web hiện thực hóa vấn đề nghiên cứu.
4. Phạm vi ứng dụng
Đề tài “Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh”
được ứng dụng bằng một trình duyệt giúp phụ huynh kiểm soát được quá trình truy
cập vào các website của con em mình, hạn chế truy cập vào các website có nội
dung không lành mạnh.
3
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN
1.1. Bộ lọc web
1.1.1. Khái niệm
Bộ lọc web là phần mềm có chức năng lọc nội dung hiển thị trên một trình
duyệt hay khóa một vài vị trí của website mà người dùng cố gắng truy cập vào. Bộ
lọc kiểm tra nội dung hay địa chỉ của trang web dựa vào tập luật và được thay thế
nội dung không mong muốn bằng một trang web thay thế, thường trang này có nội
dung có dòng “Access Dinied”.
Quản trị hệ thống nắm quyền kiểm soát và loại nội dung đi qua bộ lọc. Các bộ
lọc web thường được sử dụng trong các trường học, thư viện, các dịch vụ Internet
công cộng và tại gia đình nhằm giữ an toàn cho đối tượng thanh thiếu niên tránh
được những nội dung không lành mạnh vì lứa tuổi này chưa có ý thức việc mình
làm.

Hình 1.1 – Màn hình trình duyệt cấm truy cập
4
1.1.2. Đặc điểm web có nội dung không lành mạnh
Hiện nay, nhiều người quan tâm nhiều đến vấn đề web “đen” hay web “xấu”.
Mọi người tùy theo nhận thức và quan điểm của mình có thể có các đánh giá khác
nhau. Tuy nhiên, thông thường một trang web được coi là xấu khi có một trong hai
điều kiện sau:
+ Nội dung khiêu dâm, đồi trụy.
+ Nội dung phản động chính trị.
Nội dung khiêu dâm, đồi trụy
Các trang web này đã đang và sẽ luôn là đề tài nóng bỏng được mọi người
quan tâm. Các trang web này sử dụng công cụ khiêu dâm, gợi dục như hình ảnh
sex, truyện sex, … để thu hút người dùng Internet truy cập vào.
Ở Châu Á nói chung và tại Việt Nam nói riêng, các website này làm băng hoại
xã hội, khiến cho các thành phần thanh thiếu niên và một số người trưởng thành
sao lãng học tập, làm việc, nảy sinh tư tưởng bệnh hoạn, gia tăng các tệ nạn đi
ngược lại với truyền thống văn hóa tốt đẹp của người Việt Nam.
Tuy nhiên ta cũng phải nhìn nhận rằng ở một số quốc gia có nền văn hóa
thoáng như ở Mỹ hay Châu Âu, vẫn cho phép một số website khiêu dâm được cấp
phép hoạt động và chỉ cho phép người trưởng thành truy cập vào. Các trang web
này hoạt động có tổ chức rõ ràng và dưới sự kiểm soát của chính quyền nước sở
tại. Như vậy, các trang web này chưa hẳn đã “xấu” nếu xét theo khía cạnh pháp lý.
Vậy căn cứ vào đâu để chúng ta phân biệt đâu là một trang web “xấu”, đâu là
một trang web “không xấu” ? Điều đó phụ thuộc vào truyền thống văn hóa của
người Việt Nam, căn cứ vào luật pháp hiện tại của nước Việt Nam chưa có thừa
nhận ngành công nghiệp sex, tất cả các trang web sử dụng công cụ khiêu dâm đều
bị xem là trang web “xấu”.
5
Nội dung phản động chính trị
Do cá nhân hoặc tổ chức phản động với mục đích tuyên truyền tư tưởng phản

động, chống phá nhà nước Việt Nam, kêu gọi mọi người “tự do chính trị”, “đa
nguyên đa đảng”, … Các trang web này có rất nhiều, chủ yếu đặt tại nước ngoài,
sử dụng tiếng Việt là ngôn ngữ chính để tuyên truyền. Hệ quả sự tồn tại của các
trang web này là sự chia rẽ nội bộ, kích động các phần tử vốn đã có tư tưởng phản
động. Cần có cái nhìn nghiêm túc đối với những trang web này, không thể vì lý do
“tự do ngôn luận” mà có thể lợi dụng điều này để thực hiện ý đồ phá hoại.
Tính đến năm 2010, Việt Nam hiện đứng thứ 3 ở khu vực Đông Nam Á với
24.269.083 người sử dụng Internet chiếm 2.9% người dùng Internet châu Á, với
tốc độ tăng trưởng trung bình 12.034,5% trong 10 năm qua Việt Nam vẫn đang là
một trong những thị trường công nghệ viễn thông đầy triển vọng ở châu Á cũng
như khu vực, thu hút sự quan tâm của các nhà đầu tư nước ngoài.
(internetworldstats.com)
Theo Google Trends (Hot Trends) là công cụ theo dõi xu hướng tìm kiếm của
từ khóa theo vùng miền, thành phố, ngôn ngữ thì Việt Nam nằm trong top 3 những
nước thích tìm hiểu về sex trực tuyến nhất toàn cầu trong năm 2011. Xét về vùng
miền ở Việt Nam, theo thống kê “Hà Nội” là nơi có tìm kiếm từ khóa “sex” nhiều
nhất, tiếp theo là Vũng Tàu và Quãng Ngãi. Theo bảng thống kê phần lớn những
nơi có mật độ tìm kiếm từ khóa sex cao thường tập trung ở các thành phố du lịch.
6
Hình 1.2 – Báo cáo tìm kiếm từ khóa “sex” tại Việt Nam [12]
Hình 1.3 – Báo cáo tìm kiếm từ khóa “sex” trên thế giới [12]
7
1.1.3. Nguyên nhân cần xây dựng bộ lọc web
Từ những nguyên nhân nêu trên, tại Việt Nam việc xây dựng bộ lọc web “đen”
nhằm phục vụ cho vấn đề an toàn trong việc truy cập mạng Internet là một yêu cầu
cấp thiết và luôn làm đau đầu các nhà quản lý.
Hiện nay trên thị trường có rất nhiều phần mềm lọc web “đen” nhưng hầu hết
những phần mềm này đều có chung một nhược điểm là làm chậm đường truyền do
sử dụng các phép kiểm tra và so sánh liên tục, một nhược điểm khác là không có
cơ chế tự động cập nhật hành vi sử dụng web của người dùng. Phần dưới sẽ trình

bày một số phương pháp lọc website có nội dung không lành mạnh.
1.2. Các phương pháp lọc web có nội dung không lành mạnh
1.2.1. Bộ lọc web dựa vào địa chỉ mạng
 Bức tường lửa (Firewall)
Firewall là một kỹ thuật được tích hợp vào hệ thống mạng để chống sự truy cập
trái phép, nhằm bảo vệ các nguồn thông tin nội bộ và hạn chế sự xâm nhập không
mong muốn vào hệ thống. Thông thường Firewall được đặt giữa mạng bên trong
(Intranet) của một công ty, tổ chức, … vai trò chính là bảo mật thông tin, ngăn
chặn sự truy cập không mong muốn từ bên ngoài và cấm truy cập từ bên trong
(Intranet) tới một số địa chỉ nhất định trên Internet.
Ưu điểm: Đa số các các hệ thống firewall đều sử dụng bộ lọc packet. Một trong
những ưu điểm của phương pháp này là chi phí thấp vì cơ chế lọc packet đã được
bao gồm trong mỗi phần mềm router.
Hạn chế: việc định nghĩa các chế độ lọc packet là một việc phức tạp, đòi hỏi
người quản trị mạng cần có hiểu biết chi tiết về các dịch vụ Internet, các dạng
packet header, …
8
 Danh sách đen (Back List) và danh sách trắng (White List)
Danh sách trắng và danh sách đen là 2 phương pháp phổ biến được nhiều nhà
cung cấp phần mềm sử dụng, vì nó đơn giản, dễ quản lý và cho một kết quả có thể
chấp nhận.
Danh sách trắng là danh sách các website được phép truy cập, danh sách đen là
danh sách những trang cấm, các danh sách này thường được tạo bằng cách thủ
công bằng cách khảo sát trang web để đưa ra quyết định trang web này là cấm hay
được phép truy cập.
Hàng này, số lượng các website mới xuất hiện rất nhiều gây khó khăn cho việc
cập nhật danh sách Backlist, Whitelist và được do làm thủ công nên mất nhiều thời
gian cho việc bổ sung các danh sách này.
 Lọc web qua địa chỉ IP
Đây là kỹ thuật ngăn chặn trực tiếp trên đường mạng bằng các địa chỉ IP của

một website. Kỹ thuật này có thể là thiết thực trong bối cảnh các website thường bị
truy cập thông qua địa chỉ IP hay nó có thể truy cập thông qua IP thay cho tên
DSN. Đa số trường hợp, không được khuyến dùng do 3 sự kém cỏi sau:
− Ngăn chặn truy cập đến một IP cũng sẽ ngăn chặn lưu thông mạng đến những
site có host ảo trên cùng IP ngay cả khi nó có nội dung liên quan đến vấn đề cấm
hay không.
− Ngăn chặn truy cập đến một IP cũng sẽ ngăn chặn lưu thông mạng đến mỗi
thành viên của cổng thông tin nằm trên IP đó. Nó sẽ ngăn chặn một thành phần
của website không phải là một phần hay một tập các trang con.
− Đó là sự thay đổi thường xuyên của các website bị lọc ngay khi chủ nhân
website phát hiện ra bị lọc. Hành động này dựa trên DNS để cho phép người
dùng vẫn còn truy cập đến trang web. Bảng thống kê phía dưới sẽ so sánh kết
quả lọc của một số phần mềm theo dự án khảo sát website của dự án NetProject.
9
Bảng 1.1 – Kết quả đánh giá của NetProject.
Phần mềm lọc
Tỉ lệ khóa đúng
Efectiveness Rate
BizGuard 55 % 10 %
Cyber Patrol
52 %
2 %
CYBER sitter 46 % 3 %
Cyber Snoop 65 % 23 %
Norton InternetSecurity 45 % 6 %
SurfMonkey 65 % 11 %
X-Stop 65 % 4 %
1.2.2. Bộ lọc web dựa vào URL (Universal Resource Locator)
 Dựa vào từ khóa (keyword) của URL
Với cách tiếp cận này có một danh sách chứa các từ khóa (keyword) được hình

thành để nhận ra những địa chị web bị chặn. URL keyword là chuỗi con nằm trong
một địa chỉ web, những địa chỉ web có chứa chuỗi này thường là những trang web
xấu.
Theo khảo sát [5] [8], đa phần những trang web xấu dùng từ ngữ khiêu dâm,
gợi dục làm tên miền cho website của mình với mục đích thu hút sự chú ý của
người dùng Internet. Với những trang web như vậy, việc chặn trực tiếp ngay từ địa
chỉ URL mà không cần quan tâm đến nội dung trang web là một điều đúng vì
không có một trang web nào có nội dung là tốt nếu địa chỉ là xấu.
Ví dụ
Các trang web này đều là web sex:
www.sexviet.com
www.sex700.com
www.sexygirls.com
10
do đều chứa các từ khóa là “sex”
Hoặc các trang web sex sau đây
www.freeporns.com
www.asiaporns.com
www.childporn.com
đều chứa các từ khóa là “porn”
Ưu điểm
− Mức độ chính xác khá cao do dựa chủ yếu vào từ khóa.
Nhược điểm
− Chắc chắn bỏ qua các trang web không sử dụng URL keyword phổ biến.
− Một số ít những trang web không xấu có chứa một URL keyword nào đó và bị
xem là xấu.
 Kỹ thuật lọc web dựa vào URL
Đây là kỹ thuật lọc bằng cách quan sát lưu thông web (HTTP) bằng cách theo
dõi URL và các host field bên trong các yêu cầu HTTP để nhận ra đích đến của
yêu cầu. Host field đuợc dùng riêng biệt bởi các máy chủ web hosting để nhận ra

tài nguyên nào được trả về.
Lọc web qua URL [9] thường được xếp vào loại chủ đề rộng lớn về “Content
Management”. Các kỹ thuật lọc qua URL ra đời từ 2 kiểu lọc “pass-by” và “pass-
through”.
Lọc theo “pass-by”: xử lý trên đường mạng mà không cần phải trực tiếp trong
đường nối giữa người dùng và internet. Yêu cầu ban đầu được chuyển đến máy chủ
web đầu cuối. Nếu yêu cầu bị cho là không thích hợp thì bộ lọc sẽ ngăn chặn
những trang gốc từ bất cứ yêu cầu truy cập nào. Kỹ thuật này cho phép thiết bị lọc
không bao gồm bộ định hướng yêu cầu. Nếu thiết bị lọc bị hỏng, lưu thông mạng
vẫn tiếp tục hoạt động một cách bình thường.
11
Lọc theo “pass-through”: gồm việc sử dụng một thiết bị trên đường của tất cả
yêu cầu của người dùng. Vì thế lưu thông mạng đi qua bộ lọc “pass-through” là
thiết bị lọc thực sự. Thường bộ lọc này nằm trong các kiểu firewall, router,
application switch, proxy server, cache server.
 Tùy chọn bộ lọc URL
Điểm đặc biệt của các sản phẩm theo phương pháp này cho phép người dùng
chỉ định các URL bằng cách thêm hay bớt các URL khỏi “danh sách các site xấu”
(Bad Site List) mặc dù các website nguyên thủy trong danh sách không thể bị loại
bỏ. Dưới đây là danh sách các sản phẩm lọc web phổ biến.
Bảng 1.2 – Một số sản phẩm lọc web theo phương thức URL
Sản Phẩm Hãng (Công ty)
Smartfilter
Secure Computing
Web Filter SurfControl
Web Security
Symantec
bt-WebFilter Burst Technology
CyBlock Web Filter Wavecrest Computing
Ưu điểm khi sử dụng bộ lọc qua URL

− Những Website ảo không bị ảnh hưởng: Kỹ thuật này không ảnh hưởng đến các
máy chủ web ảo khi chúng cùng dùng một IP như những website hạn chế. Một
website bị chặn và website không bị chặn có thể chia sẻ cùng một địa chỉ IP.
− Không ảnh hưởng đối với việc thay đổi IP: Trong phần lớn tình huống, sự thay
đổi IP của website bị hạn chế sẽ không ảnh hưởng đến phương pháp này. Vì
phương pháp lọc này không phụ thuộc vào địa chỉ IP. Chủ sở hữu những trang
web có thể đòi bất cứ IP nào họ muốn, nhưng người dùng đứng sau bộ lọc
không thể truy cập được.
12
Hạn chế khi sử dụng bộ lọc thông qua URL
− Thường không thể ngăn chặn các cổng phi tiêu chuẩn:
+ Những Web server làm việc với cổng tiêu chuẩn rất tốt.
+ Website trên các cổng phi tiêu chuẩn thì khó khăn cho việc ngăn cấm vì
chúng yêu cầu một cấp độ cao hơn trong bộ lọc.
+ Một giải pháp lọc qua URL có thể là kỹ thuật có khả năng cần thiết cho
những kết nối HTTP trên các cổng phi tiêu chuẩn
− Không làm việc với các lưu thông bị mã hóa: vì HTTP yêu cầu sử dụng
SSL/TLS bị mã hóa. Phương pháp lọc theo URL không thể đọc các hostfield.
Cho nên, bộ lọc không có hiệu quả phát hiện một tài nguyên nào trên một địa chỉ
IP mà yêu cầu thực sự định hướng vào.
Tóm lại, các server cần có bộ lọc để thực hiện loại bỏ một số trang web không
tốt, nhưng nó có thể làm cho hệ thống chậm lại.
1.2.3. Bộ lọc web dựa vào DNS
Những website bị lọc sẽ hoàn toàn không thể truy cập được đến tất cả các cấu
hình sử dụng bộ lọc nameserver cho bộ phân giải tên do tất cả các bộ lọc
nameserver sẽ trả về thông tin bất hợp lệ khi yêu cầu phân giải một hostname của
website bị lọc. Như vậy không thể truy cập đến tài liệu trên của máy chủ chứa
Website. Tuy nhiên, các website không bị lọc sẽ cho phép truy cập miễn là chúng
nó có một hostname khác từ các website bị lọc. Vì tên của chúng không được hỗ
trợ thông tin bất hợp lệ bởi bộ lọc nameserver nên dữ liệu đúng sẽ trả về cho bất cứ

người dùng nào yêu cầu phân giải tên và website hiển nhiên là có thể truy cập vào
được.
Ưu điểm
− Sử dụng đa nghi thức (multi-protocol): http, ftp, gropher và bất kỳ nghi thức nào
khác dựa trên hệ thống tên.
13
− Không bị ảnh hưởng bởi việc thay đổi IP: Khi thay đổi IP của một website
không ảnh hưởng đến phương pháp lọc này, đây là phương pháp lọc hoàn toàn
độc lập với địa chỉ IP.
Nhược điểm
− Không hiệu quả đối với các URL có chứa địa chỉ IP:
+ Phần lớn những địa chỉ của một website ở dạng DNS (www.lhu.edu.vn), tuy
nhiên cũng có những địa chỉ được chỉ định bằng một địa chỉ IP thay vì là
dạng DNS (http://118.69.126.40).
+ Trong trường hợp này nó được truy cập đến bằng địa chỉ IP mà không phải
dùng địa crhỉ DNS của nó.
− Toàn bộ web server bị chặn hoàn toàn:
+ Kỹ thuật không cho phép việc khóa có chọn lựa các trang còn lại trên một
webserver. Vì thế, nếu một trang bị cấm là www.exp.com/bad.htm thì có thể
tất cả các truy cập không thể truy xuất đến www.exp.com dù nó không trong
danh sách bị khóa.
− Ảnh hưởng đến các subdomain
+ Xét về kỹ thuật, một tên miền đơn như example.com trong URL
được dùng truy cập đến web server. Cùng một
thời điểm, domain name có thể phục vụ như một domain cấp trên của các
cổng khác như host1.example.com. Trong trường hợp này, những địa chỉ
DNS dạng www.example.com có thể bị phân giải sai. Ngoài ra, nó cũng làm
cho bộ phân giải tên miền bị sai đối với các miền con. Và nó còn ảnh hưởng
đến các dịch vụ chạy trên mạng như e-mail.
1.2.4. Bộ lọc web dựa vào từ khóa (key word)

Tương tự như cách tiếp cận dựa vào URL keyword [10], cũng có một danh
sách các từ khóa để nhận ra những trang web bị chặn. Một trang web cấm sẽ chứa
14
nhiều từ khóa không hợp lệ, đây là cơ sở để nhận ra trang web bị cấm. Điều quan
trọng đối với phương pháp này là ngữ nghĩa của từ khóa theo ngữ cảnh, điều này
làm cho hệ thống có những nhầm lẫn khi đưa ra một quyết định về một trang web
có được thể hiện hay không.
Một website chuyên đề bệnh ung thư có thể bị khóa với lý do bài viết về “bệnh
ung thư vú”, ta thấy được rằng nếu trong bài viết có đề cập quá nhiều đến từ khóa
nằm trong danh sách từ khóa chặn là “vú” thì vô tình hệ thống sẽ nhầm lẫn và
khóa trang này.
Vấn đề tiếp theo đó là các từ cố ý hay vô ý đánh vần sai, ở một số trang chứa
nội dung xấu thì ngôn từ được dùng trong trang web của nó bị thay đổi để đánh lừa
hệ thống lọc, tuy nhiên khi người sử dụng đọc thì có thể hiểu ngay đó chỉ là sai
chính tả thôi còn đối với hệ thống lọc điều đó làm ảnh hưởng lớn đến hệ thống.
1.3. Những phần mềm lọc web hiện nay
SurfControl – Enterprise Threat Protecion: đây là phần mềm của hãng
SurfControl, phần mềm này thiết kế theo cách tiếp cận lọc web và ngăn chặn từ
proxy qua URL và từ khóa, có khoảng 20 cách ngăn chặn
Internet Filter – Web Filters: do hãng iPrism Internet Filters & Web Filters
phát triển, là phần mềm thực hiện giám sát và ngăn chặn. Phần mềm này được
quảng cáo là dùng kỹ thuật lọc web động kiểm soát nội dung trang web ngay từ ở
ngõ vào. Tuy nhiên, theo hướng dẫn của nhà sản xuất thì phần mềm này cũng có
bóng dáng của kỹ thuật dùng phương pháp lọc chặn từ khóa.
DWK4.1: Depraved Web Killer (DWK) do tác giả Vũ Lương Bằng dự thi
chung kết cuộc thi Trí Tuệ Việt Nam năm 2004, tính đến thời điểm này phiên bản
mới nhất là v4.1 (2011) có nhiều chức năng như:
– Ngăn chặn các trang web có nội dung xấu (từ khóa, URL).
– Ghi nhật ký các chương trình đã được chạy trên máy.
– Ghi nhật ký các trang web đã được truy cập.

15
– Ghi nhật ký các trang web xấu mà phần mềm đã ngăn chặn.
– Gửi nhật ký đến địa chỉ mail do người dùng thiết lập
FamilyWall: là phần mềm bức tường lửa chạy thường trú trên máy tính của
người sử dụng. Chức năng chủ yếu của FamilyWall là ngăn chặn việc truy cập các
Website có nội dung xấu trên mạng Internet, bao gồm các lớp kiểm soát chính sau:
các từ khóa có nội dung xấu, nội dung các trang Web, danh sách các Website xấu
đã được phát hiện, …
Tổng thể chung, các phần mềm trên thực hiện tốt các chức năng chặn từ khóa,
chặn URL, … nhưng hầu hết các phần mềm này không có cơ chế tự học, cơ chế tự
học giúp cho nguồn dữ liệu ngày càng phong phú hơn.
16
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1. Tổng quan khai phá dữ liệu
2.1.1. Khai phá Text
2.1.1.1. Khái niệm
Theo Hà Quang Thụy [2] , Khai phá Text là quá trình trích chọn ra các tri thức
mới, có giá trị và tác động được đang tiềm ẩn trong các văn bản để sử dụng các tri
thức này vào việc tổ chức thông tin tốt hơn nhằm hỗ trợ con người.
Về bản chất, khai phá Text là sự kết hợp giữa khai phá dữ liệu và xử lý ngôn
ngữ tự nhiên (NLP: Natural Language Processing).
2.1.1.2 Một số loại khai phá Text
Phân tích kết hợp dựa trên từ khóa: Một tài liệu có thể xem như một chuỗi ký
tự và có thể xác định bằng tập các từ khóa. Việc phân tích các tài liệu dựa trên từ
khóa để tìm ra một kết luận về tài liệu đó.
Phân tích tài liệu tự động: Giống như một người trợ lý, hỗ trợ đắc lực trong
việc phân loại tài liệu bằng cách “đọc” tất cả các nguồn tài liệu đến và xếp nó theo
từng loại một cách tự động.
Đo độ tương đồng giữa các tài liệu: Đo độ tương đồng là việc xem xét tài liệu
đó xem nó có thuộc về một dòng văn học nào hay thuộc về một tác giả nào đó.

Hoặc cũng có thể dùng để xếp loại văn bản thuộc về lĩnh vực nào.
Phân tích trình tự: Đoán sự kiện, dự báo xu hướng. Như đã nói bên trên, văn
bản là một chuỗi các ký tự diễn đạt một ý. Nhiều tài liệu gởi đến, có nhiều cấp độ
diễn đạt về một vấn đề. Từ các vấn đề này hệ thống có thể đưa ra dự đoán về các
diễn biến của hiện tượng hay những điều sẽ xảy ra tiếp theo.
Xác định các hiện tượng không bình thường: Hiện tượng không bình thường là
một văn bản đến có sự khác biệt hay “cá tính” quá khác so với cùng loại nó đến
trước đó để cho một kết luận về sự bất thường của văn bản.
17
2.1.1.3. Quy trình khai phá Text
Quá trình khai phá text trải qua các bước sau
− Thu thập dữ liệu văn bản thuộc miền ứng dụng. Ở bước này có 2 điều cần được
lưu ý. Thứ nhất, thu thập dữ liệu văn bản thuộc miền ứng dụng mà không phải là
tập tất cả các văn bản có thể có của thế giới thực. Ví dụ, bài toán khai phá dữ
liệu văn bản của Rich Caruana cùng cộng sự, miền ứng dụng quy định rằng, tập
dữ liệu chỉ là tập tất cả các công trình khoa học; còn trong bài toán khai phá dữ
liệu văn bản thuộc lĩnh vực y tế và chăm sóc sức khỏe thì chỉ cần quan tâm thu
thập các văn bản về y tế và chăm sóc sức khỏe. Thứ hai, yêu cầu của bước thu
thập dữ liệu là tập dữ liệu thuộc miền ứng dụng. Cụ thể, tập dữ liệu trang web
mà máy tính tìm kiếm của Google thu thập được cho là đại diện cho toàn bộ tập
mọi trang web trên Internet. Mô hình sinh trang web, tính ngẫu nhiên của việc
thu thập dữ liệu là yếu tố cần được quan tâm trong thuật toán thu thập trang web.
Tập trang web mà Google thu thập được dù rất đồ sộ, song không phải là toàn
bộ mọi trang web có thể.
− Biểu diễn dữ liệu văn bản: sang khuôn dạng phù hợp với bài toán khai phá văn
bản. Biểu diễn dữ liệu văn bản càng phù hợp với bài toán khai phá văn bản, thì
chất lượng của kết quả khai phá văn bản càng được nâng cao.
− Lựa chọn tập dữ liệu đầu vào cho thuật toán khai phá dữ liệu: trong hầu hết
trường hợp, tập dữ liệu thuộc miền ứng dụng đã thu thập được là rất lớn. Vì vậy,
nhiều trường hợp là vượt qua khả năng xử lý về không gian và thời gian, đối với

các thuật toán khai phá dữ liệu. Do vậy, cần chọn ra từ tập dữ liệu thu thập được
01 tập con để thực hiện bài toán khai phá dữ liệu. Các yếu tố đảm bảo tính đại
diện của tập dữ liệu thu thập được cũng được áp dụng trong các giải pháp lựa
chọn tập dữ liệu đầu vào cho thuật toán khai phá dữ liệu.
− Thực hiện thuật toán khai phá dữ liệu đối với tập dữ liệu đã được lựa chọn để
tìm ra các mẫu, các tri thức: đối với bài toán phân lớp văn bản, mẫu (tri thức)
18
được tích hợp thành bộ phân lớp kết quả và bộ phân lớp này sẽ được sử dụng
vào việc phân lớp đối với các văn bản mới.
− Thực hiện việc khai thác sử dụng mẫu: các tri thức nhận được từ quá trình khai
phá văn bản vào thực tiễn hoạt động.
2.1.2. Khai phá web
2.1.2.1. Khái niệm
Theo Hà Quang Thụy [2], Khai phá web là việc trích chọn ra các thành phần
được quan tâm hay được đánh giá là có ích cùng các cùng các thông tin tiềm năng
từ các tài nguyên hoặc các hoạt động liên quan tới World Wide Web.
Một cách trực quan có thể quan niệm khai phá web là sự kết hợp giữa khai phá
văn bản với Công nghệ Web, hay cụ thể hơn là:
Khai phá Web = Khai phá dữ liệu + Xử lý ngôn ngữ tự nhiên + World Wide Web
Hiện tại, phần nội dung điển hình nhất trong trang web là văn bản, vì vậy, khai
phá văn bản web là một thành phần cơ bản của khai phá web. Tuy nhiên, với sự
tiến bộ không ngừng của công nghệ Internet, nhu cầu về khai phá dữ liệu đối với
các dữ liệu đa phương tiện khác như hình vẽ, tiếng nói, ca nhạc, phim, … đã không
ngừng phát triển cả về chiều rộng lẫn chiều sâu.
2.1.2.2. Phân loại khai phá web
Khai phá Web được phân thành 03 lĩnh vực chính: khai phá nội dung web, khai
phá cấu trúc web và khai phá sử dụng web.
Hình 2.1 – Sơ đồ lĩnh vực khai phá web [2]
Khai phá web
Khai phá nội

dung trang web
Khai phá cấu trúc web
Khai phá sử dụng
web
Khai phá nội dung
trang web
Khai phá các
mẫu truy cập
Tối ưu hóa kết
quả trả về
Khai phá các xu
hướng cá nhân

×