Tải bản đầy đủ (.pdf) (82 trang)

Nghiên cứu xây dựng hệ thống tổng hợp phân loại thông tin tự động trên web

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.82 MB, 82 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
..

————————————

NGUYỄN DANH HÙNG

NGHIÊN CỨU XÂY DỰNG HỆ THỐNG TỔNG HỢP,
PHÂN LOẠI THÔNG TIN TỰ ĐỘNG TRÊN WEB

Chuyên ngành: Khoa học máy tính
Mã số : 60.48.0101

LUẬN VĂN THẠC SĨ CƠNG NGHỆ THƠNG TIN

Người hướng dẫn khoa học: PGS.TS ĐỒN VĂN BAN

Thái nguyên – Năm 2014


-i-

MỤC LỤC
MỤC LỤC ........................................................................................................................i
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .................................................iv
DANH MỤC CÁC BẢNG .............................................................................................. v
DANH MỤC CÁC HÌNH ..............................................................................................vi
MỞ ĐẦU .........................................................................................................................1
CHƢƠNG 1: KHAI PHÁ DỮ LIỆU..............................................................................4
1.1. Khai phá dữ liệu ...................................................................................................4


1.1.1. Giới thiệu khai phá dữ liệu ............................................................................4
1.1.2. Quá trình khai phá dữ liệu .............................................................................6
1.1.3. Các bài tốn thơng dụng trong khai phá dữ liệu............................................7
1.1.4. Ứng dụng của khai phá dữ liệu......................................................................7
1.2. Khai phá Web .......................................................................................................8
1.2.1. Giới thiệu về khai phá Web ...........................................................................8
1.2.2. Khó khăn và thuận lợi ...................................................................................9
1.2.3. Quá trình khai phá Web ...............................................................................12
1.2.4. Các lĩnh vực của khai phá dữ liệu web.......................................................15
1.2.5. Các kiểu dữ liệu Web ..................................................................................16
1.3. Phân cụm tài liệu web.........................................................................................17
1.4. Phân lớp văn bản ................................................................................................ 19
1.4.1. Bài toán phân lớp văn bản ...........................................................................19
1.4.2. Dữ liệu văn bản............................................................................................ 21
1.4.3. Biểu diễn văn bản ........................................................................................21
1.4.4. Một số vấn đề trong xử lý dữ liệu văn bản ..................................................23
1.5. Tổng kết chƣơng 1 ............................................................................................. 29
CHƢƠNG 2: MƠ HÌNH HỆ THỐNG TỔNG HỢP, PHÂN LOẠI THƠNG TIN TỰ
ĐỘNG ............................................................................................................................ 30
2.1. Các phƣơng pháp tách từ tiếng Việt ...................................................................30
2.1.1. Phƣơng pháp Maximum Matching: forward/backward ............................. 30


- ii -

2.1.2. Phƣơng pháp giải thuật học cải biến (Tranformation-based Learning) ......31
2.1.3. Mơ hình tách từ bằng WFST và mạng Neural ............................................32
2.1.4. Phƣơng pháp quy hoạch động (Dynamic Programming) ............................ 34
2.1.5. Phƣơng pháp tách từ tiếng việt dựa trên thống kê từ Internet và thuật toán
di truyền IGATEC .................................................................................................35

2.2. Các phƣơng pháp phân loại văn bản ..................................................................37
2.2.1. Phƣơng pháp phân lớp Bayes (Naïve Bayes) ..............................................37
2.2.2. Phƣơng pháp k-ngƣời láng giêng gần nhất (K-Nearest Neighbor) .............39
2.2.3. Phƣơng pháp máy hỗ trợ vector (Support vector Machine) ........................40
2.2.4. Phƣơng pháp mạng nơron (Neural Network) ..............................................42
2.2.5. Phƣơng pháp Linear Least Square Fit .........................................................43
2.2.6. Phƣơng pháp Centroid-based vector ...........................................................44
2.3. Phân tích và xác định yêu cầu ............................................................................46
2.3.1. Đặt vấn đề ....................................................................................................46
2.3.2. Xác định yêu cầu của hệ thống ....................................................................46
2.4. Mơ hình hệ thống................................................................................................ 47
2.4.1 Kiến trúc chung ............................................................................................ 47
2.4.2. Thành phần Web Crawler ............................................................................48
2.4.3. Thành phần Extractor ..................................................................................49
2.4.4. Xử lý tài liệu ................................................................................................ 50
2.4.5. Phân loại văn bản tiếng Việt........................................................................52
2.5. Tổng kết chƣơng 2 .............................................................................................. 56
CHƢƠNG 3: XÂY DỰNG HỆ THỐNG TỔNG HỢP, PHÂN LOẠI THƠNG TIN
VIỆC LÀM TỰ ĐỘNG .................................................................................................57
3.1. Mơ tả chức năng hệ thống ..................................................................................57
3.1.1. Chức năng thu thập và xử lý tin tức ............................................................ 57
3.1.2. Chức năng ngƣời dùng ................................................................................57
3.1.3. Chức năng quản trị ......................................................................................57
3.2. Giải pháp và công nghệ sử dụng ........................................................................58


- iii -

3.2.1. Cơng cụ rút trích dữ liệu HtmlAgiliti Pack .................................................58
3.2.2. Ngôn ngữ truy vấn Xpath ............................................................................60

3.3. Thiết kế cơ sở dữ liệu .........................................................................................64
3.4. Phát triển chƣơng trình .......................................................................................65
3.4.1. Xây dựng phân hệ Crawler ..........................................................................65
3.4.2. Xây dựng phân hệ Extractor ........................................................................66
3.4.3. Xây dựng phân hệ xử lý dữ liệu ..................................................................69
3.4.4. Xây dựng cổng thông tin tổng hợp .............................................................. 69
3.5. Kết quả thử nghiệm hệ thống .............................................................................69
3.6. Tổng kết chƣơng 3 .............................................................................................. 73
KẾT LUẬN ...................................................................................................................74
TÀI LIỆU THAM KHẢO ............................................................................................. 74


- iv -

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
KDD
KPDL
IGATEC

Knowledge Discovery in Database
Khai phá dữ liệu
Internet and Genetics Algorithm-based Text Categorization for

kNN

Documents in Vietnamese
K–Nearest Neighbor

LLSF
NB

NNet

Linear Least Square Fit
Naïve Bayes
Neural Network

LLSF
DF
TBL
IDF
TF

Linear Lest Square Fit
Tần suất tài liệu (Document Frequency
Phƣơng pháp giải thuật học cải biến (Transformation – based Learning
Tần suất tài liệu ngƣợc (Inverse document frequency)
Tần suất từ (Term frequency


-v-

DANH MỤC CÁC BẢNG
Bảng 1.1: Thống kê các từ tần số xuất hiện cao (thống kê của B. Croft, UMass) ........24
Bảng 3.1. Một số cú pháp của XPath ............................................................................62
Bảng 3.2. Bảng tin tức ...................................................................................................64
Bảng 3.3. Bảng chuyên mục tin.....................................................................................65
Bảng 3.4. Kênh tin .........................................................................................................65
Bảng 3.5. Cấu hình và yêu cầu của máy thử nghiệm ....................................................69



- vi -

DANH MỤC CÁC HÌNH
Hình 1.1. Các bƣớc trong khám phá tri thức ..................................................................5
Hình 1.2. Quá trình khai phá dữ liệu ..............................................................................6
Hình 1.3. Quá trình khai phá văn bản Web ...................................................................12
Hình 1.4. Nội dung khai phá dữ liệu Web . ...................................................................16
Hình 1.5. Phân loại dữ liệu Web ...................................................................................17
Hình 1.6. Phân lớp văn bản ...........................................................................................20
Hình 1.7. Biểu diễn văn bản ..........................................................................................22
Hình 1.8. Lƣợc đồ thống kê tần số của từ theo Định luật Zipf......................................25
Hình 2.1. Sơ đồ hệ thống WFST ...................................................................................32
Hình 2.2. Hệ thống IGATEC .........................................................................................35
Hình 2.3. Siêu mặt phẳng h phân chia dữ liệu huấn huyện thành 2 lớp + và – với
khoảng cách biên lớn nhất. ............................................................................................ 41
Hình 2.4. Kiến trúc mơ đun (Modular Architecture) ...................................................43
Hình 2.5. Mơ hình kiến trúc hệ thống thu thập tin ........................................................48
Hình 3.1. Giải thuật hoạt động phân hệ Crawler ...........................................................66
Hình 3.2. Ví dụ sơ đồ cây DOM....................................................................................67
Hình 3.2. Giải thuật hoạt động của phân hệ Extractor ..................................................69
Hình 3.3. Giao diện trang chủ .......................................................................................70
Hình 3.4. Quản lý kênh tinh ..........................................................................................71
Hình 3.5. Quản lý cập nhập tin ......................................................................................71
Hình 3.6. Quản lý chuyên mục tin .................................................................................72
Hình 3.7. Quản lý tin tức ............................................................................................... 72


-1-

MỞ ĐẦU

1. Lý do chọn đề tài
Trong những năm gần đây cùng với sự phát triển nhanh chóng của khoa
học kỹ thuật là sự bùng nổ về tri thức. Kho dữ liệu, nguồn tri thức của nhân loại
cũng trở nên đồ sộ, vô tận làm cho vấn đề khai thác các nguồn tri thức đó ngày
càng trở nên nóng bỏng và đặt ra thách thức lớn cho nền công nghệ thông tin thế
giới.
Cùng với những tiến bộ vƣợt bậc của công nghệ thông tin là sự phát triển
mạnh mẽ của mạng thơng tin tồn cầu, nguồn dữ liệu Web trở thành kho dữ liệu
khổng lồ. Nhu cầu khai thác và xử lý thông tin phục vụ cho công tác quản lý,
hoạt động sản xuất, kinh doanh, học tập… đã trở nên cấp thiết trong xã hội hiện
đại. Do đó số lƣợng văn bản xuất hiện trên mạng Internet cũng tăng theo một tốc
độ chóng mặt. Với lƣợng thơng tin đồ sộ nhƣ vậy, một yêu cầu lớn đặt ra là làm
sao tổ chức, tìm kiếm và có đƣợc thơng tin nhanh chóng, hiệu quả nhất.
Để giải quyết vấn đề này, có một hƣớng giải quyết là nghiên cứu và áp
dụng kỹ thuật khai phá dữ liệu trong môi trƣờng Web. Vì vậy tơi chọn đề tài
“nghiên cứu xây dựng hệ thống tổng hợp, phân loại thông tin tự động trên web”
nhằm tìm hiểu phƣơng pháp tổng hợp tin từ nhiều website và tự động phân loại
các tin đƣợc lấy về.
2. Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu:
Tìm hiểu về khai phá dữ liệu web, các thuật toán phân loại tài liệu và ứng
dụng trong truy xuất thông tin tự động. Trên cơ sở đó, xây dựng hệ thống tổng
hợp, phân loại thông tin tự động trên web.
Phạm vi nghiên cứu:
 Khai phá dữ liệu web.
 Các giải thuật phân cụm tài liệu.


-2-


 Các kỹ thuật và cơng nghệ hỗ trợ trích xuất thông tin tự động.
 Kết hợp các yếu tố trên để xây dựng hệ thống tổng hợp, phân loại
thông tin trực tuyến.
3. Hƣớng nghiên cứu của đề tài
Về lý thuyết: Nghiên cứu các giải pháp kỹ thuật trong việc thu thập thông
tin tự động trên internet, ứng dụng kỹ thuật khai phá dữ liệu cho việc phân tích
thơng tin thu thập đƣợc theo các lĩnh vực khác nhau nhằm giúp ngƣời dung theo
dõi, tìm kiếm thơng tin dễ dàng, thuận tiện.
Về thực tiễn: Ứng dụng hệ thống này trong việc xây dựng hệ thống tổng
hợp, phân loại thông tin việc làm tự động.
4. Những nội dung chính
Luận văn đƣợc trình bày trong 3 chƣơng, có phần mở đầu, phần kết luận,
phần mục lục, phần tài liệu tham khảo. Các nội dung cơ bản của luận văn đƣợc
trình nhƣ sau:
Chƣơng 1: Trình bày những nội dung tổng quan về khai phá dữ liệu, khai
phá web, phân loại văn bản.
Chƣơng 2: Trình bày một số phƣơng pháp tách, phân loại từ tiếng Việt và
mơ hình hệ thống tổng hợp, phân loại tin tức.
Chƣơng 3: Trình bày giải pháp xây dựng thử nghiệm hệ thống tổng hợp,
phân loại thông tin việc làm tự động.
5. Phƣơng pháp nghiên cứu
Nghiên cứu lý thuyết:
- Tìm hiểu lý thuyết về khai phá dữ liệu và khai phá dữ liệu web.
- Tìm hiểu các thuật tốn phâm cụm tài liệu.
- Tìm hiểu cơ chế hoạt động của các hệ thống tìm kiếm thu thập thơng tin.


-3-

Nghiên cứu thực nghiệm:

- Dựa trên lý thuyết đã nghiên cứu, tiến hành xây dựng hệ thống thu thập và
phân loại thơng tin từ các kênh tin đƣợc cấu hình trƣớc.
- Thử nghiệm trên máy đơn qua localhost có kết nối internet.
6. Ý nghĩa khoa học
Về mặt lý thuyết: Giới thiệu tổng quan, ứng dụng của khai phá dữ liệu web,
các thuật toán phân loại tài liệu và cơ chế của hệ thống thu thập tin.
Về mặt thực tiễn: Xây dựng hệ thống tổng hợp, phân loại thông tin tự động
trên web. Cho phép ngƣời dung cập nhật các thông tin mới nhất từ các website
khác, lƣu trữ, tìm kiếm thông tin theo các chuyên mục.


-4-

CHƢƠNG 1: KHAI PHÁ DỮ LIỆU
1.1. Khai phá dữ liệu
1.1.1. Giới thiệu khai phá dữ liệu
Khai phá dữ liệu (DM - Data Mining) là một khái niệm ra đời vào những năm
cuối của thập kỷ 1980. Cụm từ “khai phá dữ liệu” nó bao hàm một loạt các kỹ thuật
nhằm phát hiện ra các thơng tin có giá trị tiềm ẩn trong các tập dữ liệu lớn.
Khám phá tri thức trong các cơ sở dữ liệu (Knowledge Discovery in Database KDD) là một qui trình nhận biết các mẫu hoặc các mơ hình trong dữ liệu với các tính
năng: hợp thức, mới, khả ích, và có thể hiểu đƣợc.
Khái niệm KDD và Khai phá dữ liệu (KPDL) đƣợc các nhà khoa học xem là
tƣơng đƣơng nhau. Tuy nhƣng, nếu phân chia một cách rành mạch và chi tiết thì
KPDL là một bƣớc chính trong q trình KDD.
* Một số định nghĩa về KPDL:
Định nghĩa của Giáo sƣ Tom Mitchell: “Khai phá dữ liệu là việc sử dụng dữ liệu
lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tƣơng lai.”
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phƣơng pháp đƣợc
dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các
mẫu chƣa biết bên trong dữ liệu”

Định nghĩa của Parsaye: “Khai phá dữ liệu là q trình trợ giúp quyết định, trong
đó chúng ta tìm kiếm các mẫu thơng tin chƣa biết và bất ngờ trong CSDL lớn”.
Với một cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad đã phát biểu:”Khai
phá dữ liệu thƣờng đƣợc xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một
q trình trích xuất những thơng tin ẩn, trƣớc đây chƣa biết và có khả năng hữu ích,
dƣới dạng các quy luật, ràng buộc, qui tắc trong cơ sở dữ liệu” [1].
Tuy nhiên trên thực tế, KPDL đƣợc xem là một bƣớc thiết yếu trong quá trình
khám phá tri thức trong CSDL bao gồm các thụât toán KPDL chuyên dùng, dƣới
một số quy định về hiệu quả tính tốn chấp nhận đƣợc, để tìm ra các mẫu hoặc các mô


-5-

hình trong dữ liệu. Q trình này đƣợc mơ tả trong hình 1.1 và bao gồm một chuỗi lặp
đi lặp lại các bƣớc sau:

Hình 1.1. Các bƣớc trong khám phá tri thức [9]
• Làm sạch dữ liệu: Loại bỏ nhiễu và các dữ liệu khơng cần thiết.
• Tích hợp dữ liệu: Các nguồn dữ liệu khác nhau tích hợp lại.
• Lựa chọn dữ liệu: Các dữ liệu có liên quan đến q trình phân tích đƣợc lựa
chọn từ cơ sở dữ liệu.
• Chuyển đổi dữ liệu: Các dữ liệu đƣợc chuyển đổi sang các dạng phù hợp cho
quá trình xử lý.
• Khai phá dữ liệu: Là một trong những bƣớc quan trọng nhất, trong đó sử dụng
những phƣơng pháp thơng minh để lựa chọn ra những mẫu dữ liệu.
• Ƣớc lƣợng mẫu: Q trình đánh giá kết quả thơng qua một độ đo nào đó.
• Biểu diễn tri thức: Biểu diễn các kết quả một cách trực quan cho ngƣời dùng.


-6-


1.1.2. Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu có thể chia thành các giai đoạn nhƣ sau:

Hình 1.2. Q trình khai phá dữ liệu [9]
Trích chọn dữ liệu: Đây là bƣớc trích chọn những tập dữ liệu cần đƣợc khai phá
từ các tập dữ liệu lớn ban đầu theo một số tiêu chí nhất định.
Tiền xử lý dữ liệu: Đây là bƣớc làm sạch dữ liệu (xử lý những dữ liệu không đầy
đủ, nhiễu, không nhất quán,...), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các
phƣơng pháp nén dữ liệu, sử dụng histograms, lấy mẫu,...), rời rạc hóa dữ liệu (rời rạc
hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng,...). Sau bƣớc này, dữ
liệu sẽ nhất quán, đầy đủ, đƣợc rút gọn và đƣợc rời rạc hóa.
Biến đổi dữ liệu: Đây là bƣớc chuẩn hóa và làm mịn dữ liệu để đƣa dữ liệu về
dạng thuận lợi nhất nhằm phục vụ quá trình khai phá ở bƣớc sau.
Khai phá dữ liệu: Đây là bƣớc áp dụng những kỹ thuật phân tích (nhƣ các kỹ
thuật của học máy) nhằm để khai thác dữ liệu, trích chọn đƣợc những mẫu thơng tin,
những mối liên hệ đặc biệt trong dữ liệu. Đây đƣợc xem là bƣớc quan trọng và tốn
nhiều thời gian nhất của tồn q trình KDD.
Đánh giá và biểu diễn tri thức: Những mẫu thông tin và mối liên hệ trong dữ liệu
đã đƣợc khám phá ở bƣớc trên đƣợc biến đổi và biểu diễn ở một dạng gần gũi với
ngƣời sử dụng nhƣ đồ thị, cây, bảng biểu, luật,... Đồng thời bƣớc này cũng đánh giá
những tri thức khám phá đƣợc theo những tiêu chí nhất định.


-7-

1.1.3. Các bài tốn thơng dụng trong khai phá dữ liệu
Khai phá dữ liệu đƣợc chia nhỏ thành một số hƣớng chính nhƣ sau:
• Mơ tả khái niệm (concept description): thiên về mơ tả, tổng hợp và tóm tắt khái
niệm. Ví dụ: tóm tắt văn bản.

• Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng khá đơn
giản. Ví dụ: “50% những ngƣời mua máy tính thì cũng mua máy in”. Luật kết hợp
đƣợc ứng dụng nhiều trong lĩnh vực kính doanh, y học, tin-sinh, tài chính & thị trƣờng
chứng khốn.
• Phân lớp và dự đốn (classification & prediction): xếp một đối tƣợng vào
một trong những lớp đã biết trƣớc. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết.
Hƣớng tiếp cận này thƣờng sử dụng một số kỹ thuật của machine learning nhƣ cây
quyết định (decision tree), mạng nơ ron nhân tạo (neural network), .v.v. Ngƣời ta cịn
gọi phân lớp là học có giám sát (học có thầy).
• Phân cụm (clustering): xếp các đối tƣợng theo từng cụm (số lƣợng cũng nhƣ tên
của cụm chƣa đƣợc biết trƣớc. Ngƣời ta còn gọi phân cụm là học khơng giám sát (học
khơng thầy).
• Khai phá chuỗi (sequential/temporal patterns): tƣơng tự nhƣ khai phá luật kết
hợp nhƣng có thêm tính thứ tự và tính thời gian. Hƣớng tiếp cận này đƣợc ứng dụng
nhiều trong lĩnh vực tài chính và thị trƣờng chứng khốn vì nó có tính dự báo cao.
1.1.4. Ứng dụng của khai phá dữ liệu
KPDL đƣợc vận dụng để giải quyết các vấn đề thuộc nhiều lĩnh vực khác nhau.
Chẳng hạn nhƣ giải quyết các bài tốn phức tạp trong các ngành địi hỏi kỹ thuật cao
nhƣ : Tìm kiếm mỏ dầu, từ ảnh viễn thám, cảnh báo hỏng hóc trong các hệ thống sản
xuất; Đƣợc ứng dụng cho việc quy hoạch và phát triển các hệ thống quản lý và sản
xuất trong thực tế nhƣ: Dự đoán tái sử dụng điện, mức độ tiêu thụ sản phẩm, phân
nhóm khách hàng; Áp dụng cho các vấn đề xã hội nhƣ: Phát hiện tội phạm, tăng cƣờng
an ninh, trong y khoa chẩn đoán bệnh… Một số ứng dụng cụ thể nhƣ sau:
- KPDL đƣợc sử dụng để phân tích DL, hỗ trợ ra quyết định.


-8-

- Trong sinh học: nó dùng để tìm kiếm, so sánh các hệ gen và thơng tin di
chuyền, tìm mối liên hệ giữa các hệ gen và chẩn đoán một số bệnh di truyền.

- Trong y học: KPDL giúp tìm ra mối liên hệ giữa các triệu chứng lâm sàng, chẩn
đốn bệnh.
- Tài chính và thị trƣờng chứng khốn: KPDL để phân tích tình hình tài chính,
phân tích đầu tƣ, phân tích cổ phiếu.
- Khai phá dữ liệu web.
- Trong thơng tin kỹ thuật: KPDL dùng để phân tích các sai hỏng, điều khiển và
lập lịch trình.
- Trong thơng tin thƣơng mại: dùng để phân tích dữ liệu ngƣời dùng, phân tích
dữ liệu marketing, phân tích đầu tƣ, phát hiện các gian lận.

1.2. Khai phá Web
1.2.1. Giới thiệu về khai phá Web
Sự phát triển nhanh chóng của mạng Internet và Intranet đã sinh ra một khối
lƣợng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). Cùng với sự thay đổi và
phát triển hàng ngày hàng giờ về nội dung cũng nhƣ số lƣợng của các trang Web trên
Internet thì vấn đề tìm kiếm thơng tin đối với ngƣời sử dụng lại ngày càng khó khăn.
Có thể nói nhu cầu tìm kiếm thơng tin trên mơt cơ sở dữ liệu phi cấu trúc (bao gồm dữ
liệu văn bản) đã đƣợc phát triển chủ yếu cùng với sự phát triển của Internet. Thực vậy
với Internet, con ngƣời đã làm quen với các trang Web cùng với vô vàn các thông tin.
Trong những năm gần đây, Intrnet đã trở thành một trong những kênh về khoa học,
thông tin kinh tế, thƣơng mại và quảng cáo. Một trong những lý do cho sự phát triển
này là giá cả thấp cần tiêu tốn khi công khai một trang Web trên Internet. So sánh với
những dịch vụ khác nhƣ mua bản hay quảng cáo trên một tờ báo hay tạp chí, thì một
trang Web "địi" chi phí rẻ hơn rất nhiều mà lại đƣợc cập nhật nhanh chóng hơn tới
hàng triệu ngƣời dùng khắp mọi nơi trên thế giới. Có thể nói khơng gian Web nhƣ là
cuốn từ điển Bách khoa toàn thƣ. Thông tin trên các trang Web đa dạng về mặt nội
dung cũng nhƣ hình thức. Có thể nói Internet nhƣ một xã hội ảo, nó bao gồm các


-9-


thông tin về mọi mặt của đời sống kinh tế, xã hội đƣợc trình bày dƣới dạng văn bản,
hình ảnh, âm thanh.
Tuy nhiên cùng với sự đa dạng và số lƣợng lớn thông tin nhƣ vậy đã nảy sinh vấn
đề q tải thơng tin. Ngƣời ta khơng thể tìm tự kiếm địa chỉ trang Web chứa thơng tin
mà mình cần, do vậy địi hỏi cần phải có một trình tiện ích quản lý nội dung của các
trang Web và cho phép tìm thấy các địa chỉ trang Web có nội dung giống với yêu cầu
của ngƣời tìm kiếm. Các tiện ích này quản lý dữ liệu trang Web nhƣ các đối tƣợng phi
cấu trúc. Hiện nay chúng ta đã làm quen với một số các tiện ích nhƣ vậy, đó là Yahoo,
Google, Alvista, ...
Mặt khác, giả sử chúng ta có các trang Web về các vấn đề Tin học, Thể thao,
Kinh tế - Xã hội và Xây dựng... Căn cứ vào nội dung của các tài liệu mà khách hàng
xem hoặc download về, sau khi phân lớp các yêu cầu nhƣ thế của khách hàng, chúng
ta sẽ biết đƣợc khách hàng hay tập trung vào nội dung gì trên trang Web của chúng ta,
mà từ đó chúng ta sẽ bổ sung thêm nhiều các tài liệu về các nội dung mà khách hàng
quan tâm. Ngƣợc lại, về phía khách hàng, sau khi đƣợc phục vụ phù hợp yêu cầu,
khách hàng sẽ hƣớng sự quan tâm tới hệ thống của chúng ta hơn. Từ những nhu cầu
thực tế trên, phân lớp và tìm kiếm trang Web vẫn là bài tốn thời sự và cần đƣợc phát
triển nghiên cứu.
Nhƣ vậy, chúng ta có thể hiểu rằng khai phá Web nhƣ là việc trích chọn ra các
thành phần đƣợc quan tâm hay đƣợc đánh giá là có ích cùng các thơng tin tiềm năng từ
các tài nguyên hoặc các hoạt động liên quan tới World-Wide Web.
Một cách trực quan có thể quan niệm khai phá Web là sự kết hợp giữa Khai phá
dữ liệu, Xử lý ngôn ngữ tự nhiên và Công nghệ Web:
Khai phá web = Khai phá dữ liệu + Xử lý ngơn ngữ tự nhiên + World Wide Web.
1.2.2. Khó khăn và thuận lợi
1.2.2.1. Khó khăn
Hệ thống phục vụ World Wide Web nhƣ là một hệ thống trung tâm rất lớn phân
bố rộng cung cấp thông tin trên mọi lĩnh vực khoa học, xã hội, thƣơng mại, văn hóa,...



- 10 -

Web là một nguồn tài nguyên giàu có cho Khai phá dữ liệu. Những quan sát sau đây
cho thấy Web đã đƣa ra sự thách thức lớn cho công nghệ Khai phá dữ liệu:
* Web dường như quá lớn để tổ chức thành một kho dữ liệu phục vụ Dataming:
Các CSDL truyền thống thì có kích thƣớc khơng lớn lắm và thƣờng đƣợc lƣu trữ
ở một nơi. Trong khi đó kích thƣớc Web rất lớn, tới hàng terabytes và thay đổi liên
tục, khơng những thế cịn phân tán trên rất nhiều máy tính khắp nơi trên thế giới. Một
vài nghiên cứu về kích thƣớc của Web đã đƣa ra các số liệu nhƣ sau: hiện nay trên
Internet có khoảng hơn một tỷ các trang Web đƣợc cung cấp cho ngƣời sử dụng. Giả
sử kích thƣớc trung bình của mỗi trang là 5-10Kb thì tổng kích thƣớc của nó ít nhất là
khoảng 10 terabyte. Còn tỷ lệ tăng của các trang Web thì thật sự gây ấn tƣợng. Hai
năm gần đây số các trang Web tăng gấp đôi và còng tiếp tục tăng trong hai năm tới
Nhiều tổ chức và xã hội đặt hầu hết những thông tin công cộng của họ lên Web.
Nhƣ vậy việc xây dựng một kho dữ liệu (datawarehouse) để lƣu trữ, sao chép hay
tích hợp các dữ liệu trên Web là gần nhƣ không thể.
* Độ phức tạp của trang Web lớn hơn rất nhiều so với những tài liệu văn bản
truyền thống khác:
Các dữ liệu trong các CSDL truyền thống thì thƣờng là loại dữ liệu đồng nhất
(về ngơn ngữ, định dạng,…), cịn dữ liệu Web thì hồn tồn khơng đồng nhất. Ví dụ
về ngôn ngữ dữ liệu Web bao gồm rất nhiều loại ngôn ngữ khác nhau (Cả ngôn ngữ
diễn tả nội dung lẫn ngơn ngữ lập trình), nhiều loại định dạng khác nhau (Text,
HTML, PDF, hình ảnh âm thanh,…), nhiều loại từ vựng khác nhau (Địa chỉ Email,
các liên kết (links), các mã nén (zipcode), số điện thoại).
Nói cách khác, trang Web thiếu một cấu trúc thống nhất. Chúng đƣợc coi nhƣ
một thƣ viện kỹ thuật số rộng lớn, tuy nhiên con số khổng lồ các tài liệu trong thƣ
viện thì không đƣợc sắp xếp tuân theo một tiêu chuẩn đặc biệt nào, không theo
phạm trù, tiêu đề, tác giả, số trang hay nội dung,... Điều này là một thử thách rất lớn
cho việc tìm kiếm thơng tin cần thiết trong một thƣ viện nhƣ thế.



- 11 -

* Web là một nguồn tài nguyên thông tin có độ thay đổi cao:
Web khơng chỉ có thay đổi về độ lớn mà thơng tin trong chính các trang Web
cũng đƣợc cập nhật liên tục. Theo kết quả nghiên cứu, hơn 500.000 trang Web
trong hơn 4 tháng thì 23% các trang thay đổi hàng ngày, và khoảng hơn 10 ngày thì
50% các trang trong tên miền đó biến mất, nghĩa là địa chỉ URL của nó khơng cịn
tồn tại nữa Tin tức, thị trƣờng chứng khốn, các cơng ty quản cáo và trung tâm
phục vụ Web thƣờng xuyên cập nhật trang Web của họ. Thêm vào đó sự kết nối
thông tin và sự truy cập bản ghi cũng đƣợc cập nhật.
* Web phục vụ một cộng đồng người dùng rộng lớn và đa dạng:
Internet hiện nay nối với khoảng 50 trạm làm việc, và cộng đồng ngƣời dùng
vẫn đang nhanh chóng lan rộng. Mỗi ngƣời dùng có một kiến thức, mối quan tâm, sở
thích khác nhau. Nhƣng hầu hết ngƣời dùng khơng có kiến thức tốt về cấu trúc mạng
thơng tin, hoặc khơng có ý thức cho những tìm kiếm, rất dễ bị "lạc" khi đang
"mị mẫm"trong "bóng tối" của mạng hoặc sẽ chán khi tìm kiếm mà chỉ nhận những
mảng thơng tin khơng mấy hữu ích.
* Chỉ một phần rất nhỏ của thông tin trên Web là thực sự hữu ích:
Theo thống kê, 99% của thơng tin Web là vơ ích với 99% ngƣời dùng Web.
Trong khi những phần Web không đƣợc quan tâm lại xuất hiện trong kết quả nhận
đƣợc khi tìm kiếm. Vì vậy vấn đề đặt ra là ta cần phải khai phá Web nhƣ thế nào để
nhận đƣợc trang web chất lƣợng cao nhất theo tiêu chuẩn của ngƣời dùng.
Nhƣ vậy chúng ta có thể thấy các điểm khác nhau giữa việc tìm kiếm trong
một CSDL truyền thống với việc tìm kiếm trên Internet. Những thách thức trên đã
đẩy mạnh việc nghiên cứu khai phá và sử dụng tài nguyên trên Internet.
1.2.2.2. Thuận lợi
Bên cạnh những thử thách trên, còn một số lợi thế của trang Web cung cấp
cho công việc khai phá Web.

1. Web bao gồm khơng chỉ có các trang mà cịn có cả các hyperlink trỏ từ
trang này tới trang khác. Khi một tác giả tạo một hyperlink từ trang của ơng ta tới một
trang A có nghĩa là A là trang có hữu ích với vấn đề đang bàn luận. Nếu trang A càng


- 12 -

nhiều h yperlink từ trang khác trỏ đến chứng tỏ trang A quan trọng. Vì vậy số
lƣợng lớn các thông tin liên kết trang sẽ cung cấp một lƣợng thơng tin giàu có về
mối liên quan, chất lƣợng, và cấu trúc của nội dung trang Web, và vì thế là một
nguồn tài nguyên lớn cho khai phá Web.
2. Một máy chủ Web thƣờng đăng ký một bản ghi đầu vào (Weblog entry) cho
mọi lần truy cập trang Web. Nó bao gồm địa chỉ URL, địa chỉ IP, timestamp. Dữ liệu
Weblog cung cấp lƣợng thơng tin giàu có về những trang Web động. Với những
thông tin về địa chỉ URL, địa chỉ IP,… một cách hiển thị đa chiều có thể đƣợc cấu
trúc nên dựa trên CSDL Weblog. Thực hiện phân tích OLAP đa chiều có thể đƣa
ra N ngƣời dùng cao nhất, N trang Web truy cập nhiều nhất, và khoảng thời gian
nhiều ngƣời truy cập nhất, xu hƣớng truy cập Web.
1.2.3. Quá trình khai phá Web
Khai phá Web là việc sử dụng các kỹ thuật KPDL để tự động hóa q trình khám
phá và trích rút những thơng tin hữu ích từ các tài liệu, các dịch vụ và cấu trúc Web.
Hay nói cách khác khai phá Web là việc thăm dị những thơng tin quan trọng và những
mẫu tiềm năng từ nội dung Web, từ thông tin truy cập Web, từ liên kết trang và từ
nguồn tài nguyên thƣơng mại điện tử bằng việc sử dụng các kỹ thuật KPDL, nó có thể
giúp con ngƣời rút ra những tri thức, cải tiến việc thiết kế các Web site và phát triển
thƣơng mại điện tử tốt hơn [10].

Hình 1.3. Quá trình khai phá văn bản Web



- 13 -

Quá trình khai phá văn bản Web thƣờng trải qua một số bƣớc nhƣ sau:
- Lựa chọn dữ liệu: Về cơ bản, văn bản cục bộ đƣợc định dạng tích hợp thành
các tài liệu theo mong muốn để khai phá và phân phối trong nhiều dịch vụ Web bằng
việc sử dụng kỹ thuật truy xuất thông tin.
- Tiền xử lý dữ liệu: Để có một kết quả khai phá tốt ta cần có dữ liệu rõ ràng,
chính xác và xoá bỏ dữ liệu hỗn độn và dƣ thừa. Sau bƣớc tiền xử lý, tập dữ liệu đạt
đƣợc thƣờng có các đặc điểm sau:
 Dữ liệu thống nhất.
 Làm sạch dữ liệu không liên quan, nhiễu và dữ liệu rỗng. Dữ liệu không bị
mất mát và không bị lặp.
 Giảm bớt số chiều và làm tăng hiệu quả việc phát hiện tri thức bằng việc
chuyển đổi, quy nạp, cƣỡng bức dữ liệu, ...
 Làm sạch các thuộc tính khơng liên quan để giảm bớt số chiều của dữ liệu.
- Biểu diễn văn bản: Khai phá văn bản Web là khai phá các tập tài liệu HTML.
Do đó ta sẽ phải biến đổi và biểu diễn dữ liệu thích hợp cho q trình xử lý. Mơ hình
TF-IDF thƣờng đƣợc sử dụng để vector hoá dữ liệu. Tuy nhiên việc biểu diễn sử dụng
mơ hình TF-IDF sẽ dẫn đến số chiều vector khá lớn.
- Trích rút đặc trƣng: Trích rút các đặc trƣng là một phƣơng pháp đƣợc sử
dụng để giải quyết số chiều vector đặc trƣng lớn thu đƣợc từ khâu khai phá văn bản.
Saukhi tập hợp, lựa chọn và trích ra tập văn bản hình thành nên các đặc trƣng cơ bản,
nó sẽ là cơ sở để Khai phá dữ liệu. Từ đó ta có thể thực hiện trích, phân loại, phân
cụm, phân tích và dự đốn.
Việc rút ra các đặc trƣng dựa trên hàm trọng số:
+ Mỗi từ đặc trƣng sẽ nhận đƣợc một giá trị trọng số tin cậy bằng việc tính tốn
hàm trọng số tin cậy. Tần số xuất hiện cao của các từ đặc trƣng là khả năng chắc chắn
nó sẽ phản ánh đến chủ đề của văn bản, thì ta sẽ gán cho nó một giá trị tin cậy lớn hơn.
Hơn nữa, nếu nó là tiêu đề, từ khố hoặc cụm từ thì chắc chắn nó có giá trị tin cậy lớn
hơn.



- 14 -

+ Việc rút ra các đặc trƣng dựa trên việc phân tích thành phần chính trong phân
tích thơng kê. Ý tƣởng chính của phƣơng pháp này là sử dụng thay thế từ đặc trƣng
bao hàm của một số ít các từ đặc trƣng chính trong mô tả để thực hiện giảm bớt số
chiều.
- Khai phá văn bản: Sau khi tập hợp, lựa chọn và trích ra tập văn bản hình thành
nên các đặc trƣng cơ bản, nó sẽ là cơ sở để Khai phá dữ liệu. Từ đó ta có thể thực hiện
trích, phân loại, phân cụm, phân tích và dự đốn.
+ Trích rút văn bản: Việc trích rút văn bản để đƣa ra ý nghĩa chính có thể mơ tả
tóm tắt tài liệu văn bản trong q trình tổng hợp. Sau đó, ngƣời dùng có thể hiểu ý
nghĩa chính của văn bản nhƣng khơng cần thiết phải duyệt toàn bộ văn bản. Đây là
phƣơng pháp đặc biệt đƣợc sử dụng trong searching engine, thƣờng cần để đƣa ra văn
bản trích dẫn. Nhiều searching engines ln đƣa ra những câu dự đốn trong q trình
tìm kiếm và trả về kết quả, cách tốt nhất để thu đƣợc ý nghĩa chính của một văn bản
hoặc tập văn bản chủ yếu bằng việc sử dụng nhiều thuật toán khác nhau.
+ Phân lớp văn bản: Nhiều tài liệu đƣợc phân lớp tự động một cách nhanh chóng
và hiệu quả cao. Ngƣời ta thƣờng sử dụng phƣơng pháp phân lớp Navie Bayesian và
"K - láng giềng gần nhất" để khai phá thông tin văn bản. Trong phân lớp văn bản, đầu
tiên là phân loại tài liệu. Thứ hai, xác định đặc trƣng thông qua số lƣợng các đặc trƣng
của tập tài liệu huấn luyện. Cuối cùng, tính tốn kiểm tra phân lớp tài liệu và độ tƣơng
tự của tài liệu phân lớp bằng thuật tốn nào đó. Khi đó các tài liệu có độ tƣơng tự cao
với nhau thì nằm trong cùng một phân lớp. Độ tƣơng tự sẽ đƣợc đo bằng hàm đánh giá
xác định trƣớc. Nếu ít tài liệu tƣơng tự nhau thì đƣa nó về 0. Nếu nó khơng giống với
sự lựa chọn của phân lớp xác định trƣớc thì xem nhƣ khơng phù hợp.
+ Phân cụm văn bản: Chủ đề phân loại không cần xác định trƣớc nhƣng ta phải
phân loại các tài liệu vào nhiều cụm. Trong cùng một cụm thì độ tƣơng tự thấp hơn.
Phƣơng pháp sắp xếp liên kết và phƣơng pháp phân cấp thƣờng đƣợc sử dụng trong

văn bản phân cụm.
+ Phân tích và dự đốn xu hướng: Thơng qua việc phân tích các tài liệu Web, ta
có thể nhận đƣợc quan hệ phân phối của các dữ liệu đặc biệt trong từng giai đoạn của
nó và có thể dự đốn đƣợc tƣơng lai phát triển.


- 15 -

- Đánh giá chất lƣợng mẫu: Khai phá dữ liệu Web có thể đƣợc xem nhƣ q
trình của machine learning. Kết quả của machine learning là các mẫu tri thức. Phần
quan trọng của machine learning là đánh giá kết quả các mẫu. Ta thƣờng phân lớp các
tập tài liệu vào tập huấn luyện và tập kiểm tra. Cuối cùng, chất lƣợng trung bình đƣợc
dùng để đánh giá chất lƣợng mơ hình.
1.2.4. Các lĩnh vực của khai phá dữ liệu web
* Khai phá nội dung Web
Khai phá nội dung web là các quá trình xử lý để lấy ra các tri thức từ nội dung
các trang văn bản hoặc mơ tả của chúng. Có hai chiến lƣợc khai phá nội dung web:
một là khai phá trực tiếp nội dung của trang web, và một là nâng cao khả năng tìm
kiếm nội dung của các cơng cụ khác nhƣ máy tìm kiếm.
Web Page summarization: liên quan tới việc truy xuất các thơng tin từ các văn
bản có cấu trúc, văn bản siêu liên kết, hay các văn bản bán cấu trúc. Lĩnh vực này liên
quan chủ yếu tới việc khai phá bản thân nội dung các văn bản.
Search engine result summarization: Tìm kiếm trong kết quả. Trong các máy tìm
kiếm, sau khi đã tìm ra những trang Web thoả mãn u cầu ngƣời dùng, cịn một cơng
việc khơng kém phần quan trọng, đó là phải sắp xếp, chọn lọc kết quả theo mức độ
hợp lệ với yêu cầu ngƣời dùng. Q trình này thƣờng sử dụng các thơng tin nhƣ tiêu
đề trang, URL, content-type, các liên kết trong trang web... để tiến hành phân lớp và
đƣa ra tập con các kết quả tốt nhất cho ngƣời dùng.
* Khai phá cấu trúc web
Nhờ vào các kết nối giữa các văn bản siêu liên kết, World-Wide Web có thể chứa

đựng nhiều thơng tin hơn là chỉ các thông tin ở bên trong văn bản. Ví dụ, các liên kết
trỏ tới một trang web chỉ ra mức độ quan trọng của trang web đó, trong khi các liên kết
đi ra từ một trang web thể hiện các trang có liên quan tới chủ đề đề cập trong trang
hiện tại. Và nội dung của khai phá cấu trúc Web là các quá trình xử lý nhằm rút ra các
tri thức từ cách tổ chức và liên kết giữa các tham chiếu của các trang web.


- 16 -

* Khai phá sử dụng Web
Khai phá sử dụng web (web usage/log mining) là việc xử lý để lấy ra các thơng
tin hữu ích trong các thơng tin truy cập Web.
General Access Pattern tracking: phân tích các hồ sơ web để biết đƣợc các mẫu
và các xu hƣớng truy cập.
Cusomized Usage tracking: phân tích các xu hƣớng cá nhân. Mục đích là để
chun biệt hóa các web site cho các lớp đối tƣợng ngƣời dùng.
Có thể mơ tả nội dung của khai phá dữ liệu web theo sơ đồ dƣới đây:

Khai phá Web

Nội dung Web

Cấu trúc Web

Sử dụng Web

Nội dung

Kết quả tìm


Mơ hình truy

Tùy chọn sử

trang web

kiếm

cập cơ bản

dụng

Hình 1.4. Nội dung khai phá dữ liệu Web [1].
1.2.5. Các kiểu dữ liệu Web
Các đối tƣợng của khai phá Web bao gồm Server logs, Web pages, Web
hyperlink structures, dữ liệu thị trƣờng trực tuyến và các thông tin khác.
- Web logs: Khi ngƣời dùng duyệt Web, dịch vụ sẽ phân ra 3 loại dữ liệu đăng
nhập: sever logs, error logs, và cookie logs. Thơng qua việc phân tích các tài liệu đăng
nhập này ta có thể khám phá ra những thông tin truy cập.
- Web pages: Hầu hết các phƣơng pháp KPDL Web đƣợc sử dụng trong Web
pages là theo chuẩn HTML.
- Web hyperlink structure: Các trang Web đƣợc liên kết với nhau bằng các siêu
liên kết, điều này rất quan trọng để khai phá thông tin. Do các siêu liên kết Web là
nguồn tài nguyên rất xác thực.


- 17 -

- Dữ liệu thị trƣờng trực tuyến: Nhƣ lƣu trữ thông tin thƣơng mại điện tử trong
các site thƣơng mại điện tử.

- Các thông tin khác: Chủ yếu bao gồm các đăng ký ngƣời dùng, nó có thể giúp
cho việc khai phá tốt hơn.
Ta có thể khái quát bằng sơ đồ sau:
Văn bản
Dữ liệu nội dung

HTML
XML

Dữ liệu cấu trúc

Nội dung động

Dữ liệu sử dụng

Đa phƣơng tiện

Dữ liệu ngƣời
dùng định nghĩa

Liên kết tĩnh

Dữ liệu Web

Liên kết động
Hình 1.5. Phân loại dữ liệu Web

1.3. Phân cụm tài liệu web
Nắm bắt những đặc tính của ngƣời dung Web là việc rất quan trọng đối với ngƣời
thiết kế Website. Thông qua việc khai phá lịch sử các mẫu truy xuất của ngƣời dùng

Web, không chỉ thông tin về Web đƣợc sử dụng nhƣ thế nào mà cịn nhiều đặc tính
khác nhƣ các hành vi của ngƣời dùng có thể đƣợc xác định. Sự điều hƣớng đƣờng dẫn
ngƣời dùng Web mang lại giá trị thông tin về mức độ quan tâm của ngƣời dùng đến
các Website đó.
Khai phá Web theo sử dụng Web là khai phá truy cập Web để khám phá các mẫu
ngƣời dùng truy cập vào Website.


- 18 -

- Các kỹ thuật đƣợc sử dụng trong khai phá sử dụng Web:
+ Luật kết hợp: Để tìm ra những Web thƣờng đƣợc truy cập cùng nhau của ngƣời
dùng, những lựa chọn cùng nhau của khách hàng trong thƣơng mại điện tử.
+ Kỹ thuật phân cụm: Phân cụm ngƣời dùng dựa trên các mẫu duyệt để tìm ra sự
liên quan giữa ngƣời dùng Web và các hành vi của họ.
- Khai phá cấu trúc Web: WWW là hệ thống thơng tin tồn cầu, bao gồm tất cả
các Website. Mỗi một trang có thể đƣợc liên kết đến nhiều trang. Các siêu liên kết thay
đổi chứa đựng ngữ nghĩa chủ đề của trang. Một siêu liên kết trỏ tới một trang Web
khác có thể đƣợc xem nhƣ là một chứng thực của trang Web đó. Do đó, nó rất có ích
trong việc sử dụng những thơng tin ngữ nghĩa để lấy đƣợc thơng tin quan trọng thơng
qua hân tích liên kết giữa các trang Web.
Mục tiêu của khai phá cấu trúc Web là để phát hiện thông tin cấu trúc về Web.
Nếu nhƣ khai phá nội dung Web chủ yếu tập trung vào cấu trúc bên trong tài liệu thì
khai phá cấu trúc Web cố gắng để phát hiện cấu trúc liên kết của các siêu liên kết ở
mức trong của tài liệu. Dựa trên mơ hình hình học của các siêu liên kết, khai phá cấu
trúc Web sẽ phân loại các trang Web, tạo ra thông tin nhƣ độ tƣơng tự và mối quan hệ
giữa các Website khác nhau. Nếu trang Web đƣợc liên kết trực tiếp với trang Web
khác thì ta sẽ muốn phát hiện ra mối quan hệ giữa các trang Web này.
- Quá trình tìm kiếm và phân cụm tài liệu: Về cơ bản, quá trình phân cụm kết quả
tìm kiếm sẽ diễn ra theo các bƣớc:

+ Tìm kiếm trang Web từ các Website thoả mãn nội dung truy vấn.
+ Trích rút thơng tin mơ tả từ các trang và lƣu trữ nó cùng với các URL tƣơng ứng.
+ Sử dụng kỹ thuật phân cụm dữ liệu để phân cụm tự động các trang Web thành
các cụm, sao cho các trang trong cụm "tƣơng tự" về nội dung với nhau hơn các trang
ngồi cụm.
- Tìm kiếm dữ liệu trên Web: Nhiệm vụ chủ yếu của giai đoạn này là dựa vào tập
từ khố tìm kiếm để tìm kiếm và trả về tập gồm tồn văn tài liệu, tiêu đề, mơ tả tóm
tắt, URL... tƣơng ứng với các trang đó.


×