Nghiên cứu xây dựng hệ thống tổng hợp, phân loại thông tin tự động trên Web

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.07 MB, 82 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
————————————

NGUYỄN DANH HÙNG

NGHIÊN CỨU XÂY DỰNG HỆ THỐNG TỔNG HỢP,
PHÂN LOẠI THÔNG TIN TỰ ĐỘNG TRÊN WEB

Chuyên ngành: Khoa học máy tính
Mã số : 60.48.0101

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học: PGS.TS ĐOÀN VĂN BAN

Thái nguyên – Năm 2014
- i -

MỤC LỤC
MỤC LỤC i
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT iv
DANH MỤC CÁC BẢNG v
DANH MỤC CÁC HÌNH vi
MỞ ĐẦU 1
CHƢƠNG 1: KHAI PHÁ DỮ LIỆU 4
1.1. Khai phá dữ liệu 4
1.1.1. Giới thiệu khai phá dữ liệu 4
1.1.2. Quá trình khai phá dữ liệu 6
1.1.3. Các bài toán thông dụng trong khai phá dữ liệu 7
1.1.4. Ứng dụng của khai phá dữ liệu 7
1.2. Khai phá Web 8

1.2.1. Giới thiệu về khai phá Web 8
1.2.2. Khó khăn và thuận lợi 9
1.2.3. Quá trình khai phá Web 12
1.2.4. Các lĩnh vực của khai phá dữ liệu web 15
1.2.5. Các kiểu dữ liệu Web 16
1.3. Phân cụm tài liệu web 17
1.4. Phân lớp văn bản 19
1.4.1. Bài toán phân lớp văn bản 19
1.4.2. Dữ liệu văn bản 21
1.4.3. Biểu diễn văn bản 21
1.4.4. Một số vấn đề trong xử lý dữ liệu văn bản 23
1.5. Tổng kết chƣơng 1 29
CHƢƠNG 2: MÔ HÌNH HỆ THỐNG TỔNG HỢP, PHÂN LOẠI THÔNG TIN TỰ
ĐỘNG 30
2.1. Các phƣơng pháp tách từ tiếng Việt 30
2.1.1. Phƣơng pháp Maximum Matching: forward/backward 30
- ii -

2.1.2. Phƣơng pháp giải thuật học cải biến (Tranformation-based Learning) 31
2.1.3. Mô hình tách từ bằng WFST và mạng Neural 32
2.1.4. Phƣơng pháp quy hoạch động (Dynamic Programming) 34
2.1.5. Phƣơng pháp tách từ tiếng việt dựa trên thống kê từ Internet và thuật toán
di truyền IGATEC 35
2.2. Các phƣơng pháp phân loại văn bản 37
2.2.1. Phƣơng pháp phân lớp Bayes (Naïve Bayes) 37
2.2.2. Phƣơng pháp k-ngƣời láng giêng gần nhất (K-Nearest Neighbor) 39
2.2.3. Phƣơng pháp máy hỗ trợ vector (Support vector Machine) 40
2.2.4. Phƣơng pháp mạng nơron (Neural Network) 42
2.2.5. Phƣơng pháp Linear Least Square Fit 43
2.2.6. Phƣơng pháp Centroid-based vector 44

2.3. Phân tích và xác định yêu cầu 46
2.3.1. Đặt vấn đề 46
2.3.2. Xác định yêu cầu của hệ thống 46
2.4. Mô hình hệ thống 47
2.4.1 Kiến trúc chung 47
2.4.2. Thành phần Web Crawler 48
2.4.3. Thành phần Extractor 49
2.4.4. Xử lý tài liệu 50
2.4.5. Phân loại văn bản tiếng Việt 52
2.5. Tổng kết chƣơng 2 56
CHƢƠNG 3: XÂY DỰNG HỆ THỐNG TỔNG HỢP, PHÂN LOẠI THÔNG TIN
VIỆC LÀM TỰ ĐỘNG 57
3.1. Mô tả chức năng hệ thống 57
3.1.1. Chức năng thu thập và xử lý tin tức 57
3.1.2. Chức năng ngƣời dùng 57
3.1.3. Chức năng quản trị 57
3.2. Giải pháp và công nghệ sử dụng 58
- iii -

3.2.1. Công cụ rút trích dữ liệu HtmlAgiliti Pack 58
3.2.2. Ngôn ngữ truy vấn Xpath 60
3.3. Thiết kế cơ sở dữ liệu 64
3.4. Phát triển chƣơng trình 65
3.4.1. Xây dựng phân hệ Crawler 65
3.4.2. Xây dựng phân hệ Extractor 66
3.4.3. Xây dựng phân hệ xử lý dữ liệu 69
3.4.4. Xây dựng cổng thông tin tổng hợp 69
3.5. Kết quả thử nghiệm hệ thống 69
3.6. Tổng kết chƣơng 3 73
KẾT LUẬN 74

TÀI LIỆU THAM KHẢO 74

- iv -

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

KDD
Knowledge Discovery in Database
KPDL
Khai phá dữ liệu
IGATEC
Internet and Genetics Algorithm-based Text Categorization for
Documents in Vietnamese
kNN
K–Nearest Neighbor
LLSF
Linear Least Square Fit
NB
Naïve Bayes
NNet
Neural Network
LLSF
Linear Lest Square Fit
DF
Tần suất tài liệu (Document Frequency
TBL
Phƣơng pháp giải thuật học cải biến (Transformation – based Learning
IDF
Tần suất tài liệu ngƣợc (Inverse document frequency)

TF
Tần suất từ (Term frequency

- v -

DANH MỤC CÁC BẢNG

Bảng 1.1: Thống kê các từ tần số xuất hiện cao (thống kê của B. Croft, UMass) 24
Bảng 3.1. Một số cú pháp của XPath 62
Bảng 3.2. Bảng tin tức 64
Bảng 3.3. Bảng chuyên mục tin 65
Bảng 3.4. Kênh tin 65
Bảng 3.5. Cấu hình và yêu cầu của máy thử nghiệm 69

- vi -

DANH MỤC CÁC HÌNH

Hình 1.1. Các bƣớc trong khám phá tri thức 5
Hình 1.2. Quá trình khai phá dữ liệu 6
Hình 1.3. Quá trình khai phá văn bản Web 12
Hình 1.4. Nội dung khai phá dữ liệu Web . 16
Hình 1.5. Phân loại dữ liệu Web 17
Hình 1.6. Phân lớp văn bản 20
Hình 1.7. Biểu diễn văn bản 22
Hình 1.8. Lƣợc đồ thống kê tần số của từ theo Định luật Zipf 25
Hình 2.1. Sơ đồ hệ thống WFST 32
Hình 2.2. Hệ thống IGATEC 35

Hình 2.3. Siêu mặt phẳng h phân chia dữ liệu huấn huyện thành 2 lớp + và – với
khoảng cách biên lớn nhất. 41
Hình 2.4. Kiến trúc mô đun (Modular Architecture) 43
Hình 2.5. Mô hình kiến trúc hệ thống thu thập tin 48
Hình 3.1. Giải thuật hoạt động phân hệ Crawler 66
Hình 3.2. Ví dụ sơ đồ cây DOM 67
Hình 3.2. Giải thuật hoạt động của phân hệ Extractor 69
Hình 3.3. Giao diện trang chủ 70
Hình 3.4. Quản lý kênh tinh 71
Hình 3.5. Quản lý cập nhập tin 71
Hình 3.6. Quản lý chuyên mục tin 72
Hình 3.7. Quản lý tin tức 72
- 1 -

MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây cùng với sự phát triển nhanh chóng của khoa
học kỹ thuật là sự bùng nổ về tri thức. Kho dữ liệu, nguồn tri thức của nhân loại
cũng trở nên đồ sộ, vô tận làm cho vấn đề khai thác các nguồn tri thức đó ngày
càng trở nên nóng bỏng và đặt ra thách thức lớn cho nền công nghệ thông tin thế
giới.
Cùng với những tiến bộ vƣợt bậc của công nghệ thông tin là sự phát triển
mạnh mẽ của mạng thông tin toàn cầu, nguồn dữ liệu Web trở thành kho dữ liệu
khổng lồ. Nhu cầu khai thác và xử lý thông tin phục vụ cho công tác quản lý,
hoạt động sản xuất, kinh doanh, học tập… đã trở nên cấp thiết trong xã hội hiện
đại. Do đó số lƣợng văn bản xuất hiện trên mạng Internet cũng tăng theo một tốc
độ chóng mặt. Với lƣợng thông tin đồ sộ nhƣ vậy, một yêu cầu lớn đặt ra là làm
sao tổ chức, tìm kiếm và có đƣợc thông tin nhanh chóng, hiệu quả nhất.
Để giải quyết vấn đề này, có một hƣớng giải quyết là nghiên cứu và áp
dụng kỹ thuật khai phá dữ liệu trong môi trƣờng Web. Vì vậy tôi chọn đề tài

“nghiên cứu xây dựng hệ thống tổng hợp, phân loại thông tin tự động trên web”
nhằm tìm hiểu phƣơng pháp tổng hợp tin từ nhiều website và tự động phân loại
các tin đƣợc lấy về.
2. Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu:
Tìm hiểu về khai phá dữ liệu web, các thuật toán phân loại tài liệu và ứng
dụng trong truy xuất thông tin tự động. Trên cơ sở đó, xây dựng hệ thống tổng
hợp, phân loại thông tin tự động trên web.
Phạm vi nghiên cứu:
 Khai phá dữ liệu web.
 Các giải thuật phân cụm tài liệu.
- 2 -

 Các kỹ thuật và công nghệ hỗ trợ trích xuất thông tin tự động.
 Kết hợp các yếu tố trên để xây dựng hệ thống tổng hợp, phân loại
thông tin trực tuyến.
3. Hƣớng nghiên cứu của đề tài
Về lý thuyết: Nghiên cứu các giải pháp kỹ thuật trong việc thu thập thông
tin tự động trên internet, ứng dụng kỹ thuật khai phá dữ liệu cho việc phân tích
thông tin thu thập đƣợc theo các lĩnh vực khác nhau nhằm giúp ngƣời dung theo
dõi, tìm kiếm thông tin dễ dàng, thuận tiện.
Về thực tiễn: Ứng dụng hệ thống này trong việc xây dựng hệ thống tổng
hợp, phân loại thông tin việc làm tự động.
4. Những nội dung chính
Luận văn đƣợc trình bày trong 3 chƣơng, có phần mở đầu, phần kết luận,
phần mục lục, phần tài liệu tham khảo. Các nội dung cơ bản của luận văn đƣợc
trình nhƣ sau:
Chƣơng 1: Trình bày những nội dung tổng quan về khai phá dữ liệu, khai
phá web, phân loại văn bản.
Chƣơng 2: Trình bày một số phƣơng pháp tách, phân loại từ tiếng Việt và

mô hình hệ thống tổng hợp, phân loại tin tức.
Chƣơng 3: Trình bày giải pháp xây dựng thử nghiệm hệ thống tổng hợp,
phân loại thông tin việc làm tự động.
5. Phƣơng pháp nghiên cứu
Nghiên cứu lý thuyết:
- Tìm hiểu lý thuyết về khai phá dữ liệu và khai phá dữ liệu web.
- Tìm hiểu các thuật toán phâm cụm tài liệu.
- Tìm hiểu cơ chế hoạt động của các hệ thống tìm kiếm thu thập thông tin.
- 3 -

Nghiên cứu thực nghiệm:
- Dựa trên lý thuyết đã nghiên cứu, tiến hành xây dựng hệ thống thu thập và
phân loại thông tin từ các kênh tin đƣợc cấu hình trƣớc.
- Thử nghiệm trên máy đơn qua localhost có kết nối internet.
6. Ý nghĩa khoa học
Về mặt lý thuyết: Giới thiệu tổng quan, ứng dụng của khai phá dữ liệu web,
các thuật toán phân loại tài liệu và cơ chế của hệ thống thu thập tin.
Về mặt thực tiễn: Xây dựng hệ thống tổng hợp, phân loại thông tin tự động
trên web. Cho phép ngƣời dung cập nhật các thông tin mới nhất từ các website
khác, lƣu trữ, tìm kiếm thông tin theo các chuyên mục.
- 4 -

CHƢƠNG 1: KHAI PHÁ DỮ LIỆU
1.1. Khai phá dữ liệu
1.1.1. Giới thiệu khai phá dữ liệu
Khai phá dữ liệu (DM - Data Mining) là một khái niệm ra đời vào những năm
cuối của thập kỷ 1980. Cụm từ “khai phá dữ liệu” nó bao hàm một loạt các kỹ thuật
nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn.
Khám phá tri thức trong các cơ sở dữ liệu (Knowledge Discovery in Database -
KDD) là một qui trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính

năng: hợp thức, mới, khả ích, và có thể hiểu đƣợc.
Khái niệm KDD và Khai phá dữ liệu (KPDL) đƣợc các nhà khoa học xem là
tƣơng đƣơng nhau. Tuy nhƣng, nếu phân chia một cách rành mạch và chi tiết thì
KPDL là một bƣớc chính trong quá trình KDD.
* Một số định nghĩa về KPDL:
Định nghĩa của Giáo sƣ Tom Mitchell: “Khai phá dữ liệu là việc sử dụng dữ liệu
lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tƣơng lai.”
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phƣơng pháp đƣợc
dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các
mẫu chƣa biết bên trong dữ liệu”
Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định, trong
đó chúng ta tìm kiếm các mẫu thông tin chƣa biết và bất ngờ trong CSDL lớn”.
Với một cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad đã phát biểu:”Khai
phá dữ liệu thƣờng đƣợc xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một
quá trình trích xuất những thông tin ẩn, trƣớc đây chƣa biết và có khả năng hữu ích,
dƣới dạng các quy luật, ràng buộc, qui tắc trong cơ sở dữ liệu” [1].
Tuy nhiên trên thực tế, KPDL đƣợc xem là một bƣớc thiết yếu trong quá trình
khám phá tri thức trong CSDL bao gồm các thụât toán KPDL chuyên dùng, dƣới
một số quy định về hiệu quả tính toán chấp nhận đƣợc, để tìm ra các mẫu hoặc các mô
- 5 -

hình trong dữ liệu. Quá trình này đƣợc mô tả trong hình 1.1 và bao gồm một chuỗi lặp
đi lặp lại các bƣớc sau:

Hình 1.1. Các bƣớc trong khám phá tri thức [9]
• Làm sạch dữ liệu: Loại bỏ nhiễu và các dữ liệu không cần thiết.
• Tích hợp dữ liệu: Các nguồn dữ liệu khác nhau tích hợp lại.
• Lựa chọn dữ liệu: Các dữ liệu có liên quan đến quá trình phân tích đƣợc lựa
chọn từ cơ sở dữ liệu.
• Chuyển đổi dữ liệu: Các dữ liệu đƣợc chuyển đổi sang các dạng phù hợp cho

quá trình xử lý.
• Khai phá dữ liệu: Là một trong những bƣớc quan trọng nhất, trong đó sử dụng
những phƣơng pháp thông minh để lựa chọn ra những mẫu dữ liệu.
• Ƣớc lƣợng mẫu: Quá trình đánh giá kết quả thông qua một độ đo nào đó.
• Biểu diễn tri thức: Biểu diễn các kết quả một cách trực quan cho ngƣời dùng.

- 6 -

1.1.2. Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu có thể chia thành các giai đoạn nhƣ sau:

Hình 1.2. Quá trình khai phá dữ liệu [9]
Trích chọn dữ liệu: Đây là bƣớc trích chọn những tập dữ liệu cần đƣợc khai phá
từ các tập dữ liệu lớn ban đầu theo một số tiêu chí nhất định.
Tiền xử lý dữ liệu: Đây là bƣớc làm sạch dữ liệu (xử lý những dữ liệu không đầy
đủ, nhiễu, không nhất quán, ), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các
phƣơng pháp nén dữ liệu, sử dụng histograms, lấy mẫu, ), rời rạc hóa dữ liệu (rời rạc
hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng, ). Sau bƣớc này, dữ
liệu sẽ nhất quán, đầy đủ, đƣợc rút gọn và đƣợc rời rạc hóa.
Biến đổi dữ liệu: Đây là bƣớc chuẩn hóa và làm mịn dữ liệu để đƣa dữ liệu về
dạng thuận lợi nhất nhằm phục vụ quá trình khai phá ở bƣớc sau.
Khai phá dữ liệu: Đây là bƣớc áp dụng những kỹ thuật phân tích (nhƣ các kỹ
thuật của học máy) nhằm để khai thác dữ liệu, trích chọn đƣợc những mẫu thông tin,
những mối liên hệ đặc biệt trong dữ liệu. Đây đƣợc xem là bƣớc quan trọng và tốn
nhiều thời gian nhất của toàn quá trình KDD.
Đánh giá và biểu diễn tri thức: Những mẫu thông tin và mối liên hệ trong dữ liệu
đã đƣợc khám phá ở bƣớc trên đƣợc biến đổi và biểu diễn ở một dạng gần gũi với
ngƣời sử dụng nhƣ đồ thị, cây, bảng biểu, luật, Đồng thời bƣớc này cũng đánh giá
những tri thức khám phá đƣợc theo những tiêu chí nhất định.
- 7 -

1.1.3. Các bài toán thông dụng trong khai phá dữ liệu
Khai phá dữ liệu đƣợc chia nhỏ thành một số hƣớng chính nhƣ sau:
• Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp và tóm tắt khái
niệm. Ví dụ: tóm tắt văn bản.
• Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng khá đơn
giản. Ví dụ: “50% những ngƣời mua máy tính thì cũng mua máy in”. Luật kết hợp
đƣợc ứng dụng nhiều trong lĩnh vực kính doanh, y học, tin-sinh, tài chính & thị trƣờng
chứng khoán.
• Phân lớp và dự đoán (classification & prediction): xếp một đối tƣợng vào
một trong những lớp đã biết trƣớc. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết.
Hƣớng tiếp cận này thƣờng sử dụng một số kỹ thuật của machine learning nhƣ cây
quyết định (decision tree), mạng nơ ron nhân tạo (neural network), .v.v. Ngƣời ta còn
gọi phân lớp là học có giám sát (học có thầy).
• Phân cụm (clustering): xếp các đối tƣợng theo từng cụm (số lƣợng cũng nhƣ tên
của cụm chƣa đƣợc biết trƣớc. Ngƣời ta còn gọi phân cụm là học không giám sát (học
không thầy).
• Khai phá chuỗi (sequential/temporal patterns): tƣơng tự nhƣ khai phá luật kết
hợp nhƣng có thêm tính thứ tự và tính thời gian. Hƣớng tiếp cận này đƣợc ứng dụng
nhiều trong lĩnh vực tài chính và thị trƣờng chứng khoán vì nó có tính dự báo cao.
1.1.4. Ứng dụng của khai phá dữ liệu
KPDL đƣợc vận dụng để giải quyết các vấn đề thuộc nhiều lĩnh vực khác nhau.
Chẳng hạn nhƣ giải quyết các bài toán phức tạp trong các ngành đòi hỏi kỹ thuật cao
nhƣ : Tìm kiếm mỏ dầu, từ ảnh viễn thám, cảnh báo hỏng hóc trong các hệ thống sản
xuất; Đƣợc ứng dụng cho việc quy hoạch và phát triển các hệ thống quản lý và sản
xuất trong thực tế nhƣ: Dự đoán tái sử dụng điện, mức độ tiêu thụ sản phẩm, phân
nhóm khách hàng; Áp dụng cho các vấn đề xã hội nhƣ: Phát hiện tội phạm, tăng cƣờng
an ninh, trong y khoa chẩn đoán bệnh… Một số ứng dụng cụ thể nhƣ sau:
- KPDL đƣợc sử dụng để phân tích DL, hỗ trợ ra quyết định.
- 8 -

- Trong sinh học: nó dùng để tìm kiếm, so sánh các hệ gen và thông tin di
chuyền, tìm mối liên hệ giữa các hệ gen và chẩn đoán một số bệnh di truyền.
- Trong y học: KPDL giúp tìm ra mối liên hệ giữa các triệu chứng lâm sàng, chẩn
đoán bệnh.
- Tài chính và thị trƣờng chứng khoán: KPDL để phân tích tình hình tài chính,
phân tích đầu tƣ, phân tích cổ phiếu.
- Khai phá dữ liệu web.
- Trong thông tin kỹ thuật: KPDL dùng để phân tích các sai hỏng, điều khiển và
lập lịch trình.
- Trong thông tin thƣơng mại: dùng để phân tích dữ liệu ngƣời dùng, phân tích
dữ liệu marketing, phân tích đầu tƣ, phát hiện các gian lận.
1.2. Khai phá Web
1.2.1. Giới thiệu về khai phá Web
Sự phát triển nhanh chóng của mạng Internet và Intranet đã sinh ra một khối
lƣợng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). Cùng với sự thay đổi và
phát triển hàng ngày hàng giờ về nội dung cũng nhƣ số lƣợng của các trang Web trên
Internet thì vấn đề tìm kiếm thông tin đối với ngƣời sử dụng lại ngày càng khó khăn.
Có thể nói nhu cầu tìm kiếm thông tin trên môt cơ sở dữ liệu phi cấu trúc (bao gồm dữ
liệu văn bản) đã đƣợc phát triển chủ yếu cùng với sự phát triển của Internet. Thực vậy
với Internet, con ngƣời đã làm quen với các trang Web cùng với vô vàn các thông tin.
Trong những năm gần đây, Intrnet đã trở thành một trong những kênh về khoa học,
thông tin kinh tế, thƣơng mại và quảng cáo. Một trong những lý do cho sự phát triển
này là giá cả thấp cần tiêu tốn khi công khai một trang Web trên Internet. So sánh với
những dịch vụ khác nhƣ mua bản hay quảng cáo trên một tờ báo hay tạp chí, thì một
trang Web "đòi" chi phí rẻ hơn rất nhiều mà lại đƣợc cập nhật nhanh chóng hơn tới
hàng triệu ngƣời dùng khắp mọi nơi trên thế giới. Có thể nói không gian Web nhƣ là
cuốn từ điển Bách khoa toàn thƣ. Thông tin trên các trang Web đa dạng về mặt nội
dung cũng nhƣ hình thức. Có thể nói Internet nhƣ một xã hội ảo, nó bao gồm các
- 9 -

thông tin về mọi mặt của đời sống kinh tế, xã hội đƣợc trình bày dƣới dạng văn bản,
hình ảnh, âm thanh.
Tuy nhiên cùng với sự đa dạng và số lƣợng lớn thông tin nhƣ vậy đã nảy sinh vấn
đề quá tải thông tin. Ngƣời ta không thể tìm tự kiếm địa chỉ trang Web chứa thông tin
mà mình cần, do vậy đòi hỏi cần phải có một trình tiện ích quản lý nội dung của các
trang Web và cho phép tìm thấy các địa chỉ trang Web có nội dung giống với yêu cầu
của ngƣời tìm kiếm. Các tiện ích này quản lý dữ liệu trang Web nhƣ các đối tƣợng phi
cấu trúc. Hiện nay chúng ta đã làm quen với một số các tiện ích nhƣ vậy, đó là Yahoo,
Google, Alvista,
Mặt khác, giả sử chúng ta có các trang Web về các vấn đề Tin học, Thể thao,
Kinh tế - Xã hội và Xây dựng Căn cứ vào nội dung của các tài liệu mà khách hàng
xem hoặc download về, sau khi phân lớp các yêu cầu nhƣ thế của khách hàng, chúng
ta sẽ biết đƣợc khách hàng hay tập trung vào nội dung gì trên trang Web của chúng ta,
mà từ đó chúng ta sẽ bổ sung thêm nhiều các tài liệu về các nội dung mà khách hàng
quan tâm. Ngƣợc lại, về phía khách hàng, sau khi đƣợc phục vụ phù hợp yêu cầu,
khách hàng sẽ hƣớng sự quan tâm tới hệ thống của chúng ta hơn. Từ những nhu cầu
thực tế trên, phân lớp và tìm kiếm trang Web vẫn là bài toán thời sự và cần đƣợc phát
triển nghiên cứu.
Nhƣ vậy, chúng ta có thể hiểu rằng khai phá Web nhƣ là việc trích chọn ra các
thành phần đƣợc quan tâm hay đƣợc đánh giá là có ích cùng các thông tin tiềm năng từ
các tài nguyên hoặc các hoạt động liên quan tới World-Wide Web.
Một cách trực quan có thể quan niệm khai phá Web là sự kết hợp giữa Khai phá
dữ liệu, Xử lý ngôn ngữ tự nhiên và Công nghệ Web:
Khai phá web = Khai phá dữ liệu + Xử lý ngôn ngữ tự nhiên + World Wide Web.
1.2.2. Khó khăn và thuận lợi
1.2.2.1. Khó khăn
Hệ thống phục vụ World Wide Web nhƣ là một hệ thống trung tâm rất lớn phân
bố rộng cung cấp thông tin trên mọi lĩnh vực khoa học, xã hội, thƣơng mại, văn hóa,
- 10 -

Web là một nguồn tài nguyên giàu có cho Khai phá dữ liệu. Những quan sát sau đây
cho thấy Web đã đƣa ra sự thách thức lớn cho công nghệ Khai phá dữ liệu:
* Web dường như quá lớn để tổ chức thành một kho dữ liệu phục vụ Dataming:
Các CSDL truyền thống thì có kích thƣớc không lớn lắm và thƣờng đƣợc lƣu trữ
ở một nơi. Trong khi đó kích thƣớc Web rất lớn, tới hàng terabytes và thay đổi liên
tục, không những thế còn phân tán trên rất nhiều máy tính khắp nơi trên thế giới. Một
vài nghiên cứu về kích thƣớc của Web đã đƣa ra các số liệu nhƣ sau: hiện nay trên
Internet có khoảng hơn một tỷ các trang Web đƣợc cung cấp cho ngƣời sử dụng. Giả
sử kích thƣớc trung bình của mỗi trang là 5-10Kb thì tổng kích thƣớc của nó ít nhất là
khoảng 10 terabyte. Còn tỷ lệ tăng của các trang Web thì thật sự gây ấn tƣợng. Hai
năm gần đây số các trang Web tăng gấp đôi và còng tiếp tục tăng trong hai năm tới
Nhiều tổ chức và xã hội đặt hầu hết những thông tin công cộng của họ lên Web.
Nhƣ vậy việc xây dựng một kho dữ liệu (datawarehouse) để lƣu trữ, sao chép hay
tích hợp các dữ liệu trên Web là gần nhƣ không thể.
* Độ phức tạp của trang Web lớn hơn rất nhiều so với những tài liệu văn bản
truyền thống khác:
Các dữ liệu trong các CSDL truyền thống thì thƣờng là loại dữ liệu đồng nhất
(về ngôn ngữ, định dạng,…), còn dữ liệu Web thì hoàn toàn không đồng nhất. Ví dụ
về ngôn ngữ dữ liệu Web bao gồm rất nhiều loại ngôn ngữ khác nhau (Cả ngôn ngữ
diễn tả nội dung lẫn ngôn ngữ lập trình), nhiều loại định dạng khác nhau (Text,
HTML, PDF, hình ảnh âm thanh,…), nhiều loại từ vựng khác nhau (Địa chỉ Email,
các liên kết (links), các mã nén (zipcode), số điện thoại).
Nói cách khác, trang Web thiếu một cấu trúc thống nhất. Chúng đƣợc coi nhƣ
một thƣ viện kỹ thuật số rộng lớn, tuy nhiên con số khổng lồ các tài liệu trong thƣ
viện thì không đƣợc sắp xếp tuân theo một tiêu chuẩn đặc biệt nào, không theo
phạm trù, tiêu đề, tác giả, số trang hay nội dung, Điều này là một thử thách rất lớn
cho việc tìm kiếm thông tin cần thiết trong một thƣ viện nhƣ thế.

- 11 -

* Web là một nguồn tài nguyên thông tin có độ thay đổi cao:
Web không chỉ có thay đổi về độ lớn mà thông tin trong chính các trang Web
cũng đƣợc cập nhật liên tục. Theo kết quả nghiên cứu, hơn 500.000 trang Web
trong hơn 4 tháng thì 23% các trang thay đổi hàng ngày, và khoảng hơn 10 ngày thì
50% các trang trong tên miền đó biến mất, nghĩa là địa chỉ URL của nó không còn
tồn tại nữa Tin tức, thị trƣờng chứng khoán, các công ty quản cáo và trung tâm
phục vụ Web thƣờng xuyên cập nhật trang Web của họ. Thêm vào đó sự kết nối
thông tin và sự truy cập bản ghi cũng đƣợc cập nhật.
* Web phục vụ một cộng đồng người dùng rộng lớn và đa dạng:
Internet hiện nay nối với khoảng 50 trạm làm việc, và cộng đồng ngƣời dùng
vẫn đang nhanh chóng lan rộng. Mỗi ngƣời dùng có một kiến thức, mối quan tâm, sở
thích khác nhau. Nhƣng hầu hết ngƣời dùng không có kiến thức tốt về cấu trúc mạng
thông tin, hoặc không có ý thức cho những tìm kiếm, rất dễ bị "lạc" khi đang
"mò mẫm"trong "bóng tối" của mạng hoặc sẽ chán khi tìm kiếm mà chỉ nhận những
mảng thông tin không mấy hữu ích.
* Chỉ một phần rất nhỏ của thông tin trên Web là thực sự hữu ích:
Theo thống kê, 99% của thông tin Web là vô ích với 99% ngƣời dùng Web.
Trong khi những phần Web không đƣợc quan tâm lại xuất hiện trong kết quả nhận
đƣợc khi tìm kiếm. Vì vậy vấn đề đặt ra là ta cần phải khai phá Web nhƣ thế nào để
nhận đƣợc trang web chất lƣợng cao nhất theo tiêu chuẩn của ngƣời dùng.
Nhƣ vậy chúng ta có thể thấy các điểm khác nhau giữa việc tìm kiếm trong
một CSDL truyền thống với việc tìm kiếm trên Internet. Những thách thức trên đã
đẩy mạnh việc nghiên cứu khai phá và sử dụng tài nguyên trên Internet.

1.2.2.2. Thuận lợi
Bên cạnh những thử thách trên, còn một số lợi thế của trang Web cung cấp
cho công việc khai phá Web.
1. Web bao gồm không chỉ có các trang mà còn có cả các hyperlink trỏ từ

trang này tới trang khác. Khi một tác giả tạo một hyperlink từ trang của ông ta tới một
trang A có nghĩa là A là trang có hữu ích với vấn đề đang bàn luận. Nếu trang A càng
- 12 -

nhiều hyperlink từ trang khác trỏ đến chứng tỏ trang A quan trọng. Vì vậy số
lƣợng lớn các thông tin liên kết trang sẽ cung cấp một lƣợng thông tin giàu có về
mối liên quan, chất lƣợng, và cấu trúc của nội dung trang Web, và vì thế là một
nguồn tài nguyên lớn cho khai phá Web.
2. Một máy chủ Web thƣờng đăng ký một bản ghi đầu vào (Weblog entry) cho
mọi lần truy cập trang Web. Nó bao gồm địa chỉ URL, địa chỉ IP, timestamp. Dữ liệu
Weblog cung cấp lƣợng thông tin giàu có về những trang Web động. Với những
thông tin về địa chỉ URL, địa chỉ IP,… một cách hiển thị đa chiều có thể đƣợc cấu
trúc nên dựa trên CSDL Weblog. Thực hiện phân tích OLAP đa chiều có thể đƣa
ra N ngƣời dùng cao nhất, N trang Web truy cập nhiều nhất, và khoảng thời gian
nhiều ngƣời truy cập nhất, xu hƣớng truy cập Web.
1.2.3. Quá trình khai phá Web
Khai phá Web là việc sử dụng các kỹ thuật KPDL để tự động hóa quá trình khám
phá và trích rút những thông tin hữu ích từ các tài liệu, các dịch vụ và cấu trúc Web.
Hay nói cách khác khai phá Web là việc thăm dò những thông tin quan trọng và những
mẫu tiềm năng từ nội dung Web, từ thông tin truy cập Web, từ liên kết trang và từ
nguồn tài nguyên thƣơng mại điện tử bằng việc sử dụng các kỹ thuật KPDL, nó có thể
giúp con ngƣời rút ra những tri thức, cải tiến việc thiết kế các Web site và phát triển
thƣơng mại điện tử tốt hơn [10].

Hình 1.3. Quá trình khai phá văn bản Web

- 13 -

Quá trình khai phá văn bản Web thƣờng trải qua một số bƣớc nhƣ sau:
- Lựa chọn dữ liệu: Về cơ bản, văn bản cục bộ đƣợc định dạng tích hợp thành

các tài liệu theo mong muốn để khai phá và phân phối trong nhiều dịch vụ Web bằng
việc sử dụng kỹ thuật truy xuất thông tin.
- Tiền xử lý dữ liệu: Để có một kết quả khai phá tốt ta cần có dữ liệu rõ ràng,
chính xác và xoá bỏ dữ liệu hỗn độn và dƣ thừa. Sau bƣớc tiền xử lý, tập dữ liệu đạt
đƣợc thƣờng có các đặc điểm sau:
 Dữ liệu thống nhất.
 Làm sạch dữ liệu không liên quan, nhiễu và dữ liệu rỗng. Dữ liệu không bị
mất mát và không bị lặp.
 Giảm bớt số chiều và làm tăng hiệu quả việc phát hiện tri thức bằng việc
chuyển đổi, quy nạp, cƣỡng bức dữ liệu,
 Làm sạch các thuộc tính không liên quan để giảm bớt số chiều của dữ liệu.
- Biểu diễn văn bản: Khai phá văn bản Web là khai phá các tập tài liệu HTML.
Do đó ta sẽ phải biến đổi và biểu diễn dữ liệu thích hợp cho quá trình xử lý. Mô hình
TF-IDF thƣờng đƣợc sử dụng để vector hoá dữ liệu. Tuy nhiên việc biểu diễn sử dụng
mô hình TF-IDF sẽ dẫn đến số chiều vector khá lớn.
- Trích rút đặc trƣng: Trích rút các đặc trƣng là một phƣơng pháp đƣợc sử
dụng để giải quyết số chiều vector đặc trƣng lớn thu đƣợc từ khâu khai phá văn bản.
Saukhi tập hợp, lựa chọn và trích ra tập văn bản hình thành nên các đặc trƣng cơ bản,
nó sẽ là cơ sở để Khai phá dữ liệu. Từ đó ta có thể thực hiện trích, phân loại, phân
cụm, phân tích và dự đoán.
Việc rút ra các đặc trƣng dựa trên hàm trọng số:
+ Mỗi từ đặc trƣng sẽ nhận đƣợc một giá trị trọng số tin cậy bằng việc tính toán
hàm trọng số tin cậy. Tần số xuất hiện cao của các từ đặc trƣng là khả năng chắc chắn
nó sẽ phản ánh đến chủ đề của văn bản, thì ta sẽ gán cho nó một giá trị tin cậy lớn hơn.
Hơn nữa, nếu nó là tiêu đề, từ khoá hoặc cụm từ thì chắc chắn nó có giá trị tin cậy lớn
hơn.
- 14 -

+ Việc rút ra các đặc trƣng dựa trên việc phân tích thành phần chính trong phân
tích thông kê. Ý tƣởng chính của phƣơng pháp này là sử dụng thay thế từ đặc trƣng

bao hàm của một số ít các từ đặc trƣng chính trong mô tả để thực hiện giảm bớt số
chiều.
- Khai phá văn bản: Sau khi tập hợp, lựa chọn và trích ra tập văn bản hình thành
nên các đặc trƣng cơ bản, nó sẽ là cơ sở để Khai phá dữ liệu. Từ đó ta có thể thực hiện
trích, phân loại, phân cụm, phân tích và dự đoán.
+ Trích rút văn bản: Việc trích rút văn bản để đƣa ra ý nghĩa chính có thể mô tả
tóm tắt tài liệu văn bản trong quá trình tổng hợp. Sau đó, ngƣời dùng có thể hiểu ý
nghĩa chính của văn bản nhƣng không cần thiết phải duyệt toàn bộ văn bản. Đây là
phƣơng pháp đặc biệt đƣợc sử dụng trong searching engine, thƣờng cần để đƣa ra văn
bản trích dẫn. Nhiều searching engines luôn đƣa ra những câu dự đoán trong quá trình
tìm kiếm và trả về kết quả, cách tốt nhất để thu đƣợc ý nghĩa chính của một văn bản
hoặc tập văn bản chủ yếu bằng việc sử dụng nhiều thuật toán khác nhau.
+ Phân lớp văn bản: Nhiều tài liệu đƣợc phân lớp tự động một cách nhanh chóng
và hiệu quả cao. Ngƣời ta thƣờng sử dụng phƣơng pháp phân lớp Navie Bayesian và
"K - láng giềng gần nhất" để khai phá thông tin văn bản. Trong phân lớp văn bản, đầu
tiên là phân loại tài liệu. Thứ hai, xác định đặc trƣng thông qua số lƣợng các đặc trƣng
của tập tài liệu huấn luyện. Cuối cùng, tính toán kiểm tra phân lớp tài liệu và độ tƣơng
tự của tài liệu phân lớp bằng thuật toán nào đó. Khi đó các tài liệu có độ tƣơng tự cao
với nhau thì nằm trong cùng một phân lớp. Độ tƣơng tự sẽ đƣợc đo bằng hàm đánh giá
xác định trƣớc. Nếu ít tài liệu tƣơng tự nhau thì đƣa nó về 0. Nếu nó không giống với
sự lựa chọn của phân lớp xác định trƣớc thì xem nhƣ không phù hợp.
+ Phân cụm văn bản: Chủ đề phân loại không cần xác định trƣớc nhƣng ta phải
phân loại các tài liệu vào nhiều cụm. Trong cùng một cụm thì độ tƣơng tự thấp hơn.
Phƣơng pháp sắp xếp liên kết và phƣơng pháp phân cấp thƣờng đƣợc sử dụng trong
văn bản phân cụm.
+ Phân tích và dự đoán xu hướng: Thông qua việc phân tích các tài liệu Web, ta
có thể nhận đƣợc quan hệ phân phối của các dữ liệu đặc biệt trong từng giai đoạn của
nó và có thể dự đoán đƣợc tƣơng lai phát triển.
- 15 -

- Đánh giá chất lƣợng mẫu: Khai phá dữ liệu Web có thể đƣợc xem nhƣ quá
trình của machine learning. Kết quả của machine learning là các mẫu tri thức. Phần
quan trọng của machine learning là đánh giá kết quả các mẫu. Ta thƣờng phân lớp các
tập tài liệu vào tập huấn luyện và tập kiểm tra. Cuối cùng, chất lƣợng trung bình đƣợc
dùng để đánh giá chất lƣợng mô hình.
1.2.4. Các lĩnh vực của khai phá dữ liệu web
* Khai phá nội dung Web
Khai phá nội dung web là các quá trình xử lý để lấy ra các tri thức từ nội dung
các trang văn bản hoặc mô tả của chúng. Có hai chiến lƣợc khai phá nội dung web:
một là khai phá trực tiếp nội dung của trang web, và một là nâng cao khả năng tìm
kiếm nội dung của các công cụ khác nhƣ máy tìm kiếm.
Web Page summarization: liên quan tới việc truy xuất các thông tin từ các văn
bản có cấu trúc, văn bản siêu liên kết, hay các văn bản bán cấu trúc. Lĩnh vực này liên
quan chủ yếu tới việc khai phá bản thân nội dung các văn bản.
Search engine result summarization: Tìm kiếm trong kết quả. Trong các máy tìm
kiếm, sau khi đã tìm ra những trang Web thoả mãn yêu cầu ngƣời dùng, còn một công
việc không kém phần quan trọng, đó là phải sắp xếp, chọn lọc kết quả theo mức độ
hợp lệ với yêu cầu ngƣời dùng. Quá trình này thƣờng sử dụng các thông tin nhƣ tiêu
đề trang, URL, content-type, các liên kết trong trang web để tiến hành phân lớp và
đƣa ra tập con các kết quả tốt nhất cho ngƣời dùng.
* Khai phá cấu trúc web
Nhờ vào các kết nối giữa các văn bản siêu liên kết, World-Wide Web có thể chứa
đựng nhiều thông tin hơn là chỉ các thông tin ở bên trong văn bản. Ví dụ, các liên kết
trỏ tới một trang web chỉ ra mức độ quan trọng của trang web đó, trong khi các liên kết
đi ra từ một trang web thể hiện các trang có liên quan tới chủ đề đề cập trong trang
hiện tại. Và nội dung của khai phá cấu trúc Web là các quá trình xử lý nhằm rút ra các
tri thức từ cách tổ chức và liên kết giữa các tham chiếu của các trang web.

- 16 -

* Khai phá sử dụng Web
Khai phá sử dụng web (web usage/log mining) là việc xử lý để lấy ra các thông
tin hữu ích trong các thông tin truy cập Web.
General Access Pattern tracking: phân tích các hồ sơ web để biết đƣợc các mẫu
và các xu hƣớng truy cập.
Cusomized Usage tracking: phân tích các xu hƣớng cá nhân. Mục đích là để
chuyên biệt hóa các web site cho các lớp đối tƣợng ngƣời dùng.
Có thể mô tả nội dung của khai phá dữ liệu web theo sơ đồ dƣới đây:

Hình 1.4. Nội dung khai phá dữ liệu Web [1].
1.2.5. Các kiểu dữ liệu Web
Các đối tƣợng của khai phá Web bao gồm Server logs, Web pages, Web
hyperlink structures, dữ liệu thị trƣờng trực tuyến và các thông tin khác.
- Web logs: Khi ngƣời dùng duyệt Web, dịch vụ sẽ phân ra 3 loại dữ liệu đăng
nhập: sever logs, error logs, và cookie logs. Thông qua việc phân tích các tài liệu đăng
nhập này ta có thể khám phá ra những thông tin truy cập.
- Web pages: Hầu hết các phƣơng pháp KPDL Web đƣợc sử dụng trong Web
pages là theo chuẩn HTML.
- Web hyperlink structure: Các trang Web đƣợc liên kết với nhau bằng các siêu
liên kết, điều này rất quan trọng để khai phá thông tin. Do các siêu liên kết Web là
nguồn tài nguyên rất xác thực.
Cấu trúc Web
Khai phá Web
Sử dụng Web
Nội dung Web
Nội dung
trang web
Kết quả tìm

kiếm
Mô hình truy
cập cơ bản
Tùy chọn sử
dụng
- 17 -

- Dữ liệu thị trƣờng trực tuyến: Nhƣ lƣu trữ thông tin thƣơng mại điện tử trong
các site thƣơng mại điện tử.
- Các thông tin khác: Chủ yếu bao gồm các đăng ký ngƣời dùng, nó có thể giúp
cho việc khai phá tốt hơn.
Ta có thể khái quát bằng sơ đồ sau:

Hình 1.5. Phân loại dữ liệu Web
1.3. Phân cụm tài liệu web
Nắm bắt những đặc tính của ngƣời dung Web là việc rất quan trọng đối với ngƣời
thiết kế Website. Thông qua việc khai phá lịch sử các mẫu truy xuất của ngƣời dùng
Web, không chỉ thông tin về Web đƣợc sử dụng nhƣ thế nào mà còn nhiều đặc tính
khác nhƣ các hành vi của ngƣời dùng có thể đƣợc xác định. Sự điều hƣớng đƣờng dẫn
ngƣời dùng Web mang lại giá trị thông tin về mức độ quan tâm của ngƣời dùng đến
các Website đó.
Khai phá Web theo sử dụng Web là khai phá truy cập Web để khám phá các mẫu
ngƣời dùng truy cập vào Website.

Văn bản
HTML
XML
Nội dung động
Đa phƣơng tiện

Liên kết tĩnh
Liên kết động
Dữ liệu Web
Dữ liệu nội dung
Dữ liệu cấu trúc
Dữ liệu sử dụng
Dữ liệu ngƣời
dùng định nghĩa
- 18 -

- Các kỹ thuật đƣợc sử dụng trong khai phá sử dụng Web:
+ Luật kết hợp: Để tìm ra những Web thƣờng đƣợc truy cập cùng nhau của ngƣời
dùng, những lựa chọn cùng nhau của khách hàng trong thƣơng mại điện tử.
+ Kỹ thuật phân cụm: Phân cụm ngƣời dùng dựa trên các mẫu duyệt để tìm ra sự
liên quan giữa ngƣời dùng Web và các hành vi của họ.
- Khai phá cấu trúc Web: WWW là hệ thống thông tin toàn cầu, bao gồm tất cả
các Website. Mỗi một trang có thể đƣợc liên kết đến nhiều trang. Các siêu liên kết thay
đổi chứa đựng ngữ nghĩa chủ đề của trang. Một siêu liên kết trỏ tới một trang Web
khác có thể đƣợc xem nhƣ là một chứng thực của trang Web đó. Do đó, nó rất có ích
trong việc sử dụng những thông tin ngữ nghĩa để lấy đƣợc thông tin quan trọng thông
qua hân tích liên kết giữa các trang Web.
Mục tiêu của khai phá cấu trúc Web là để phát hiện thông tin cấu trúc về Web.
Nếu nhƣ khai phá nội dung Web chủ yếu tập trung vào cấu trúc bên trong tài liệu thì
khai phá cấu trúc Web cố gắng để phát hiện cấu trúc liên kết của các siêu liên kết ở
mức trong của tài liệu. Dựa trên mô hình hình học của các siêu liên kết, khai phá cấu
trúc Web sẽ phân loại các trang Web, tạo ra thông tin nhƣ độ tƣơng tự và mối quan hệ
giữa các Website khác nhau. Nếu trang Web đƣợc liên kết trực tiếp với trang Web
khác thì ta sẽ muốn phát hiện ra mối quan hệ giữa các trang Web này.
- Quá trình tìm kiếm và phân cụm tài liệu: Về cơ bản, quá trình phân cụm kết quả
tìm kiếm sẽ diễn ra theo các bƣớc:

+ Tìm kiếm trang Web từ các Website thoả mãn nội dung truy vấn.
+ Trích rút thông tin mô tả từ các trang và lƣu trữ nó cùng với các URL tƣơng ứng.
+ Sử dụng kỹ thuật phân cụm dữ liệu để phân cụm tự động các trang Web thành
các cụm, sao cho các trang trong cụm "tƣơng tự" về nội dung với nhau hơn các trang
ngoài cụm.
- Tìm kiếm dữ liệu trên Web: Nhiệm vụ chủ yếu của giai đoạn này là dựa vào tập
từ khoá tìm kiếm để tìm kiếm và trả về tập gồm toàn văn tài liệu, tiêu đề, mô tả tóm
tắt, URL tƣơng ứng với các trang đó.

Nghiên cứu xây dựng hệ thống tổng hợp, phân loại thông tin tự động trên Web

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về