Tải bản đầy đủ (.pdf) (91 trang)

Phương pháp thu thập, đánh giá và phân cụm thông tin tiếng Việt trên Internet

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.2 MB, 91 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đặng Quang Huy
PHƯƠNG PHÁP THU THẬP, ĐÁNH GIÁ VÀ PHÂN CỤM
THÔNG TIN TIẾNG VIỆT TRÊN INTERNET
LUẬN VĂN THẠC SỸ
Hà Nội – 2007
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đặng Quang Huy
PHƯƠNG PHÁP THU THẬP, ĐÁNH GIÁ VÀ PHÂN CỤM
THÔNG TIN TIẾNG VIỆT TRÊN INTERNET
Ngành: Công nghệ thông tin.
Mã số: 1.01.10
LUẬN VĂN THẠC SỸ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS ĐOÀN SƠN
Hà Nội - 2007
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 3 -
MỤC LỤC
LỜI CẢM ƠN 8
DANH M
ỤC CHỮ VIẾT TẮT 9
DANH M
ỤC HÌNH VẼ, BẢNG BIỂU 10
M
Ở ĐẦU 12
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN PHÂN
C
ỤM TÀI LIỆU WEB 15


1.1 Khai phá d
ữ liệu 15
1.1.1 Khai phá d
ữ liệu là gì? 15
1.1.2 Các hướng tiếp cận và các kỹ thuật trong khai phá dữ liệu 16
1.1.3
Ứng dụng của khai phá dữ liệu 17
1.2 D
ữ liệu Fulltext và Hypertext 18
1.2.1 Fulltext 18
1.2.2 Hypertext 18
1.3 Khai phá d
ữ liệu Web 21
1.3.1 Nhu c
ầu 21
1.3.2 Đặc điểm 22
1.3.3 Các hướng tiếp cận 24
1.4 Bài toán phân c
ụm tài liệu Web 26
1.4.1 Gi
ới thiệu bài toán 26
1.4.2 T
ại sao đặt ra bài toán phân cụm tài liệu Web 27
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 4 -
1.4.3 Đặc điểm của bài toán phân cụm tài liệu Web 28
1.4.4 Các yêu c
ầu đối vơi bài toán phân cụm tài liệu Web 30
1.4.5 M
ột số đại lượng đo độ chính xác cho bài toán 31

1.5 Nh
ững khó khăn trong Phân cụm tiếng Việt 32
1.5.1 V
ấn đề tách từ tiếng Việt 32
1.5.2 V
ấn đề bảng mã tiếng Việt 33
1.5.3 Các khó khăn khác 33
1.6 K
ết luận chương 1 33
CHƯƠNG 2: CÁC PHƯƠNG PHÁP BIỂU DIỄN TÀI LIỆU 34
2.1 Mô hình không gian vector 34
2.1.1 M
ột số khái niệm 34
2.1.1.1 T
ừ khóa (keywords) 34
2.1.1.2 T
ừ dừng (stopwords) 35
2.1.1.3 C
ắt bỏ từ (word stemming) 36
2.1.2 Mô hình t
ần số 37
2.1.3 Mô hình Boolean 39
2.1.4 Tính ch
ất của vector 40
2.1.4.1 Tích trong 40
2.1.4.2 Độ lớn vector 41
2.2 Tách t
ừ trong tiếng Việt 41
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 5 -

2.2.1 Một số đặc điểm chính về từ tiếng Việt 41
2.2.1.1 Ti
ếng 41
2.2.1.2 T
ừ 42
2.2.2 Tách t
ừ tự động tiếng Việt 42
2.2.3 Các phương pháp tách từ tiếng Việt 42
2.2.3.1 fnTBL (Fast Transformation-based learning) 42
2.2.3.2 Longest matching 49
2.2.3.3 K
ết hợp giữa fnTBL và Longest matching 49
2.3.1 Đo độ tương tự 49
2.3.1.1 Độ tương tự trùng lặp 49
2.3.1.2 Độ tương tự Cosine 50
2.4 T
ổng kết chương 2 53
CHƯƠNG 3: CÁC THUẬT TOÁN PHÂN CỤM TÀI LIỆU 54
3.1 Gi
ới thiệu 54
3.2 Phân ho
ạch Top-down 55
3.2.1 Thu
ật toán K-means với gán “cứng” 55
3.2.2 Thu
ật toán K-means với gán “mềm” 57
3.2.3 Độ phức tạp tính toán 58
3.3 Phân c
ụm dựa trên tính mới của tài liệu 58
3.3.1 Mô t

ả 58
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 6 -
3.3.2 Độ đo tương tự 59
3.3.3 Thu
ật toán phân cụm dựa trên thuật toán K-Means mở rộng 60
3.3. 3.1 Chỉ mục phân cụm 60
3.3.3. 2 Giải thuật phân cụm K-Means mở rộng 61
3.3.4 Đánh giá 62
3.4 Phân ho
ạch Bottom-up 63
3.4.1 Thu
ật toán phân cụm tích tụ (AHC) 63
3.4.2 Độ phức tạp tính toán 66
3.5 K
ết hợp giữa bottom-up và top-down 67
3.5.1 Mô t
ả 67
3.5.2 Thu
ật toán buckshot 67
3.6 Nh
ận xét 70
3.7 T
ổng kết chương 3 72
CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VỚI PHÂN CỤM TIẾNG VIỆT 73
4.1 Mô
i trường thực nghiệm 73
4.2 D
ữ liệu 73
4.3 K

ết quả thực nghiệm 75
4.3.1 So sánh các thu
ật toán phân cụm 76
4.3.2 Phân c
ụm sử dụng tách từ tiếng Việt 80
4.4 K
ết luận chương 4 82
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 7 -
CHƯƠNG 5: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN 84
5.1 T
ổng kết 84
5.2 Hướng phát triển 85
TÀI LI
ỆU THAM KHÁO 86
Thank you for evaluating AnyBizSoft PDF Splitter.
A watermark is added at the end of each output PDF file.
To remove the watermark, you need to purchase the software from
/>Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 9 -
DANH MỤC CHỮ VIẾT TẮT
AHC: Phân cụm tích tụ theo thứ bậc (Agglomerative Hierarchical
Clustering)
CSDL: Cơ sở dữ liệu
DF: Tần suất xuất hiện tài liệu (Document Frequency)
DC-tree: Cây phân cụm tài liệu (Document Clustering Tree)
fnTBL: H
ọc dựa trên sự biến đổi (Fast Transformation-based learning)
FCM: Fuzzy C-means
FCMdd: Fuzzy C-Medoids

HTML: Ngôn ng
ữ siêu liên kết (HyperText Markup Language)
IR: Mô hình tìm kiếm thông tin (Information Retrieval)
IDF: Tần suất nghịch đảo tài liệu (inverse document frequency)
KDD: Khai phá tri thức (Knowledge Discovery in Databases)
STC: Phân cụm cây hậu tố (Suffix tree clustering)
TF: Tần suất xuất hiện (term frequency)
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 10 -
DANH MỤC HÌNH VẼ, BẢNG BIỂU
Danh mục hình vẽ
Hình 1: Các bước trong KDD 16
Hình 2:
Quá trình phân cụm kết quả của một truy vấn. 29
Hình 3:
Các bước tạo ra tập luật 47
Hình 4:
Xây dựng tập tài liệu xác định từ 48
Hình 6:
Hai vector
j
d và Q càng gần nhau khi góc teta càng nhỏ 50
Hình 6:
Một cây lược đồ biểu diễn hình ảnh tiến trình trộn tạo nên cấp bậc.
Người dùng có thể cắt qua cây lược đồ tại một mức phù hợp của độ tương
t
ự để đạt được số cụm mong muốn 64
Danh mục bảng biểu
Bảng 1: Ví dụ phân cụm kết quả của truy vấn “Hồ Chí Minh”. Chỉ có 5 cụm đầu
tiên được biểu diễn.

29
B
ảng 2: Một phân hoạch ma trận tương tự 68
B
ảng 3: Thời gian tính toán với p=7 ngày và tính bằng giây 77
B
ảng 4: Độ chính xác trung bình của 2 cài đặt K-Means với độ đo Cosine và K-
Means m
ở rộng 78
B
ảng 5: K-Means mở rộng với p=7 ngày 79
B
ảng 6: K-Means mở rộng với p=60 ngày 79
B
ảng 7: Thời gian chạy của 2 thuật toán K-Means mở rộng không và có sử dụng
tách từ tiếng Việt (tính bằng giây và p=7) 81
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 11 -
Bảng 8: Độ chính xác trung bình, precision/recall của 2 thuật toán K-Means mở
rộng không sử dụng tách từ tiếng Việt và có sử dụng tách từ tiếng Việt 82
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 12 -
MỞ ĐẦU
Đặt vấn đề
World Wide Web (WWW) là một kho chứa lớn nhất và được biết đến
rộng rãi nhất của các siêu văn bản. Các tài liệu siêu văn bản chứa đựng văn bản
và thường nhúng các li
ên kết đến các tài liệu khác phân bố trên Web. Ngày nay,
Web bao g
ồm hàng tỷ tài liệu của hàng triệu tác giả được tạo ra , và được phân

tán qua hàng triệu máy tính được kết nối qua đường dây điện thoại, cáp quang,
sóng radio…. Web đang ngày càng được sử dụng phổ biến trong nhiều lĩnh vực
như báo chí, phát thanh, truyền h
ình, hệ thống bưu điện, trường học, các tổ chức
thương mại, chính phủ…. Chính v
ì vậy lĩnh vực Web Mining hay tìm kiếm tự
động các thông tin ph
ù hợp và có giá trị trên Web là một chủ đề quan trọng trong
Data Mining.
Các h
ệ thống tìm kiếm thông tin hay nói ngắn gọn là các máy tìm kiếm
trên Web thông thường trả lại một danh sách các t
ài liệu được phân hạng mà
người dùng sẽ phải tốn công chọn lọc trong một danh sách rất dài để có được
những tài liệu phù hợp. Ngoài ra các thông tin đó thường rất phong phú, đa dạng
và liên quan đến nhiều đối tượng khác nhau. Điều này tạo nên một sự nhập
nhằng gây khó khăn cho người sử dụng trong việc lấy được thông tin cần thiết.
Có nhiều hướng tiếp cận khác nhau để giải quyết vấn đề này. Các hướng
này thường chú ý giảm sự nhập nhằng bằng các phương pháp lọc hay thêm các
tùy ch
ọn để cắt bớt thông tin. Trong khuôn khổ của luận văn chỉ tập trung vào
hướng biểu diễn các thông tin trả về bởi các máy tìm kiếm thành từng cụm để
cho người d
ùng có thể dễ dàng tìm được thông tin mà họ cần. Đã có nhiều thuật
toán phân cụm tài liệu dựa trên phân cụm ngoại tuyến toàn bộ tập tài liệu. Tuy
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 13 -
nhiên tập hợp tài liệu của các máy tìm kiếm là quá lớn và luôn thay đổi để có thể
phân cụm ngoại tuyến. Do đó việc phân cụm phải được ứng dụng trên các tập tài
li

ệu nhỏ hơn được trả về từ các truy vấn. Và thay vì trả về một danh sách rất dài
các thông tin gây nh
ập nhằng cho người sử dụng cần có một phương pháp tổ
chức lại các kết quả tìm kiếm một cách hợp lý.
Mục đích nghiên cứu
Đưa ra yêu cầu của bài toán phân cụm tài liệu Web. Nhấn mạnh đến kỹ
thuật phân cụm K-Means mở rộng, sử dụng tính mới của tài liệu, đây là một
thuật toán phân cụm tăng, thời gian tuyến tính đáp ứng được các yêu cầu của bài
toán phân c
ụm tài liệu Web. K-Means mở rộng không coi một tài liệu như tập
hợp các từ mà là một xâu sử dụng quan hệ thông tin giữa các từ.
Nội dung thực hiện
 Tìm hiểu các yêu cầu của bài toán phân cụm tài liệu Web.
 Trình bày một số phương pháp biểu diễn tài liệu.
 Trình bày một số phương pháp phân cụm tài liệu Web.
 Một số kết quả thực nghiệm bước đầu.
 Đề xuất hướng phát triển.
Giới hạn nghiên cứu
Do hạn chế về mặt thời gian nên việc nghiên cứu, tìm hiểu mới chỉ thu
được những kiến thức cơ bản về kỹ thuật v
à những thử nghiệm bước đầu nhưng
hứa hẹn sự phát triển và ứng dụng trong tương lai.
Luận văn được tổ chức thành 5 phần:
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 14 -
Chương 1: Trong chương này giới thiệu tổng quan về khai phá dữ liệu,
lĩnh vực khai phá dữ liệu Web, tổng quan về bài toán phân cụm tài liệu nói
chung, phân cụm tài liệu Web nói riêng, những yêu cầu đối với bài toán phân
c
ụm tài liệu Web. Các đại lượng dùng để đo độ chính xác cho bài toán.

Chương 2: Trình bày các phương pháp biểu diễn tài liệu. Những khó
khăn trong phân cụm Tiếng Việt v
à các phương pháp tách từ tiếng Việt, các cách
đo độ tương tự giữa các tài liệu.
Chương 3: Trình bày các thuật toán dùng để phân cụm tài liệu Web nói
chung. Trong chương này tr
ình bày theo hai hướng tiếp cận. Thuật toán AHC
(Agglomerative Hierarchical Clustering) tiêu biểu cho hướng phân cụm bottom-
up. Thu
ật toán K-means tiêu biểu cho hướng phân cụm top-down. Và sự kết hợp
giữa hai hướng đó – Buckshot.
Trình bày thu
ật toán K-Means mở rộng cho bài toán phân cụm tài liệu
Web dựa trên tính mới của tài liệu.
Chương 4: Kết quả thực nghiệm
Chương 5: Tổng kết và hướng phát triển trong tương lai.
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 15 -
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN
PHÂN C
ỤM TÀI LIỆU WEB
1.1 Khai phá dữ liệu
1.1.1 Khai phá dữ liệu là gì?
Khai phá dữ liệu - Data Mining “Khai phá dữ liệu được định nghĩa như
quá trình chắt lọc hay khám phá tri thức từ một lượng lớn dữ liệu” (Jiawei Han –
Data Mining: Concepts and Techiniques (2000) [5] ). M
ột ví dụ trực quan là việc
khai thác vàng từ đá và cát. Thuật ngữ Data Mining ám chỉ việc tìm một tập nhỏ
có giá trị từ một lượng lớn các dữ liệu thô. Khai phá dữ liệu khác với khai phá tri
thức – Knowledge Discovery in Databases (KDD). Khai phá dữ liệu chỉ là một

bước trong quá tr
ình KDD. KDD gồm một số bước sau:
 Làm sạch dữ liệu: Loại bỏ nhiễu và các dữ liệu không cần thiết
 Tích hợp dữ liệu: Các nguồn dữ liệu khác nhau tích hợp lại
 Lựa chọn dữ liệu: Các dữ liệu có liên quan đến quá trình phân tích
được lựa chọn từ cơ sở dữ liệu
 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù
h
ợp cho quá trình xử lý
 Khai phá dữ liệu: Là một trong những bước quan trọng nhất, trong đó
sử dụng những phương pháp thông minh để lựa chọn ra những mẫu dữ
liệu.
 Ước lượng mẫu: Quá trình đánh giá kết quả thông qua một độ đo nào
đó
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 16 -
 Biểu diễn tri thức: Biểu diễn các kết quả một cách trực quan cho người
dùng.
Hình 1: Các bước trong KDD
1.1.2 Các hướng tiếp cận và các kỹ thuật trong khai phá dữ liệu
Data Mining được chia nhỏ thành một số hướng chính như sau:
 Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp và
tóm t
ắt khái niệm. Ví dụ: tóm tắt văn bản.
 Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng
khá đơn giản. Ví dụ: “50% những người mua máy tính th
ì cũng mua
máy in”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kính doanh,
y học, tin-sinh, tài chính & thị trường chứng khoán, .v.v.
 Phân lớp và dự đoán (classification & prediction): xếp một đối tượng

vào một trong những lớp đã biết trước. Ví dụ: phân lớp vùng địa lý
theo dữ liệu thời tiết. Hướng tiếp cận này thường sử dụng một số kỹ
thuật của machine learning như cây quyết định (decision tree), mạng
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 17 -
nơ ron nhân tạo (neural network), .v.v. Người ta còn gọi phân lớp là
h
ọc có giám sát (học có thầy).
 Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng
cũng như tên của cụm chưa được biết trước. Người ta còn gọi phân
c
ụm là học không giám sát (học không thầy).
 Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá
luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp
cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường
chứng khoán vì nó có tính dự báo cao.
1.1.3 Ứng dụng của khai phá dữ liệu
Data Mining tuy là một hướng tiếp cận mới nhưng thu hút được rất nhiều
sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực
tiễn của nó. Chúng ta có thể liệt kê ra đây một số ứng dụng điển hình:
 Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision
support)
 Điều trị y học (medical treatment)
 Text mining & Web mining
 Tin-sinh (bio-informatics)
 Tài chính và thị trường chứng khoán (finance & stock market)
 Bảo hiểm (insurance)
 Nhận dạng (pattern recognition)
 .v.v.
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007

- 18 -
1.2 Dữ liệu Fulltext và Hypertext
1.2.1 Fulltext
Dữ liệu dạng FullText là một dạng dữ liệu phi cấu trúc với thông tin chỉ
gồm các tài liệu dạng Text. Mỗi tài liệu chứa thông tin về một vấn đề nào đó thể
hiện qua nội dung của tất cả các từ cấu thành tài liệu đó. Ý nghĩa của mỗi từ
trong tài liệu khkông cố định mà tuỳ thuộc vào từng ngữ cảnh khác nhau sẽ
mang ý nghĩa khác nhau. Các từ trong tài liệu được liên kết với nhau theo một
ngôn ngữ nào đó.
Trong các dữ liệu hiện nay thì văn bản là một trong những dữ liệu phổ
biến nhất, nó có mặt ở khắp mọi nơi và chúng ta thường xuyên bắt gặp do đó các
bài toán về xử lý văn bản đã được đặt ra khá lâu và hiện nay vẫn là một trong
những vấn đề trong khai phá dữ liệu Text, trong đó có những bài toán đáng chú ý
như tìm kiếm văn bản, phân loại văn bản, phân cụm văn bản hoặc dẫn đường văn
bản
Cơ sở dữ liệu Fulltext l
à một dạng cơ sở dữ liệu phi cấu trúc mà dữ liệu
bao gồm các tài liệu và thuộc tính của tài liệu. Cơ sở dữ liệu Full_Text thường
được tổ chức như môt tổ hợp của hai th
ành phần: Một cơ sở dữ liệu có cấu trúc
thông thường (chứa đặc điểm của các t
ài liệu) và các tài liệu
1.2.2 Hypertext
Theo từ điển của Đại học Oxford (Oxford English Dictionary Additions
Series) thì
Hypertext được định nghĩa như sau: Đó là loại Text không phải đọc
theo dạng liên tục đơn, nó có thể được đọc theo các thứ tự khác nhau, đặc biệt là
Text và
ảnh đồ họa (Graphic) là các dạng có mối liên kết với nhau theo cách mà
ng

ười đọc có thể không cần đọc một cách liên tục. Ví dụ khi đọc một cuốn sách
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 19 -
người đọc không phải đọc lần lượt từng trang từ đầu đến cuối mà có thể nhảy
cóc đến các đoạn sau để tham khảo về các vấn đề họ quan tâm.
Như vậy văn bản HyperText bao gồm dạng chữ
viết không liên tục,
chúng được phân nhánh và cho phép người đọc có thể chọn cách đọc theo ý
muốn của mình. Hiểu theo nghĩa thông thường thì HyperText là một tập các
trang chữ viết được kết nối với nhau bởi các liên kết và cho phép người đọc có
thể đọc theo các cách khác nhau. Như ta đã làm quen nhiều với các trang định
dạng HTML, trong các trang có những liên kết trỏ tới từng phần khác nhau của
trang đó hoặc trỏ tới trang khác, và người đọc sẽ đọc văn bản dựa v
ào những liên
k
ết đó.
Bên cạnh đó, HyperText cũng là một dạng văn bản Text đặc biệt nên
c
ũng có thể bao gồm các chữ viết liên tục (là dạng phổ biến nhất của chữ viết).
Do không bị hạn chế bởi tính liên tục trong HyperText, chúng ta có thể tạo ra các
dạng trình bày mới, do đó tài liệu sẽ phản ánh tốt hơn nội dung muốn diễn đạt.
Hơn nữa người đọc có thể chọn cho m
ình một cách đọc phù hợp chẳng hạn như
đi sâu vào một vấn đề m
à họ quan tâm. Sáng kiến tạo ra một tập các văn bản
cùng với các con trỏ trỏ tới các văn bản khác để liên kết một tập các văn bản có
m
ối quan hệ voiứ nhau với nhau là một cách thực sự hay và rất hữu ích để tổ
chức thông tin. Với người viết, cách này cho phép họ có thể thoải mái loại bỏ
những băn khoăn về thứ tự trình bày, mà có thể tổ chức vấn đề thành những phần

nhỏ, rồi sử dụng kết nối để chỉ ra mối liên hệ giữa các phần nhỏ đó với nhau.
Với người đọc, cách này cho phép họ có thể đi tắt trên mạng thông tin và
quy
ết định phần thông tin nào có liên quan đến vấn đề mà họ quan tâm để tiêp
t
ục tìm hiểu. So sánh với cách đọc tuyến tính, tức là đọc lần lượt thì HyperText
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 20 -
đã cung cấp cho chúng ta một giao diện để có thể tiếp xúc với nội dung thông tin
hiệu quả hơn rất nhiều. Theo khía cạnh của các thuật toán học máy thì
HyperText đã cung cấp cho chúng ta cơ hội nhìn ra ngoài phạm vi một tài liệu để
đánh giá nó, nghĩa l
à có tính cả đến các tài liệu có liên kết với nó. Tất nhiên
không ph
ải tất cả các tài liệu có liên kết đến nó đều có ích cho việc đánh giá, đặc
biệt là khi các siêu liên kết có thể chỉ đến rất nhiều loại các tài liệu khác nhau.
Có hai khái niệm về HyperText cần quan tâm:
 Hypertext Document (Tài liệu siêu văn bản): Là một tài liệu văn bản
đơn trong hệ thống siêu văn bản. Nếu tưởng tượng hệ thống siêu văn
bản là một đồ thị, thì các tài liệu tương ứng với các nút.
 Hypertext Link (Liên kết siêu văn bản): Là một tham chiếu để nối một
tài liệu HyperText này với một tài liệu HyperText khác. Các siêu liên
k
ết đóng vai trò như những đường nối trong đồ thị nói trên.
HyperText là lo
ại dữ liệu phổ biến hiện nay, và cũng là loại dữ liệu có
nhu cầu tìm kiếm rất lớn. Nó là dữ liệu phổ biến trên mạng thông tin Internet cơ
sở dữ liệu HyperText với văn bản dạng “nửa cấu trúc” do xuất hiện thêm các
“th
ẻ “: Thẻ cấu trúc (tiêu đề, mở đầu, nội dung), thẻ nhấn trình bày chữ (đậm,

nghiêng,…). Nhờ các thẻ này mà chúng ta có thêm một tiêu chuẩn (so với tài
li
ệu fulltext) để có thể tìm kiếm và phân loại chúng. Dựa vào các thẻ đã quy định
trước chúng ta có thể phân thành các độ ưu tiên khác nhau cho các từ khóa nếu
chúng xuất hiện ở những vị trí khác nhau. Ví dụ khi tìm kiếm các tài liệu có nội
dung liên quan đến “people “ th
ì chúng ta đưa từ khóa tìm kiếm là “people”, và
các tài li
ệu có từ khóa “people” đứng ở tiêu đề thì sẽ gần với yêu cầu tìm kiếm
hơn.
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 21 -
1.3 Khai phá dữ liệu Web
1.3.1 Nhu cầu
Sự phát triển nhanh chóng của mạng Internet và Intranet đã sinh ra một
khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). Cùng với sự
thay đổi v
à phát triển hàng ngaỳ hàng giờ về nội dung cũng như số lượng của các
trang Web trên Internet thì vấn đề tìm kiếm thôn g tin đối với người sử dụng lại
ngày càng khó khăn. Có thể nói nhu cầu t
ìm kiếm thông tin trên môt cơ sở dữ
liệu phi cấu trúc đã được phát triển chủ yếu cùng với sự phát triển của Internet.
Thực vậy với Internet con người đã làm quen với các trang Web cùng với vô vàn
các thông tin. Trong nh
ững năm gần đây Intrnet đã trở thành một trong những
kênh về khoa học, thông tin kinh tế, thương mại và quảng cáo. Một trong những
lý do cho sự phát triển này là sự thấp về giá cả tiêu tốn khi công khai một trang
Web trên Internet. So sánh với những dịch vụ khác như mua bản hay quảng cáo
trên một tờ báo hay tạp chí, thì một trang Web "đòi" rẻ hơn rất nhiều và cập nhật
nhanh chóng hơn tới h

àng triệu người dùng khắp mọi nơi trên thế giới. Có thể
nói trang Web như là c
uốn từ điển Bách khoa toàn thư. Thông tin trên các trang
Web đa dạng về mặt nội dung cũng như h
ình thức. Có thể nói Internet như một
xã hội ảo, nó bao gồm các thông tin về mọi mặt của đời sống kinh tế, xã hội
được tr
ình bày dưới dạng văn bản, hình ảnh, âm thanh,
Tuy nhiên cùng v
ới sự đa dạng và số lượng lớn thông tin như vậy đã nảy
sinh vấn đề quá tải thông tin. Người ta không thể tìm tự kiếm địa chỉ trang Web
chứa thông tin mà mình cần, do vậy đòi hỏi cần phải có một trình tiện ích quản
lý nội dung của các trang Web và cho phép tìm thấy các địa chỉ trang Web có nội
dung giống với yêu cầu của người tìm kiếm. Các tiện ích này quản lý dữ liệu như
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 22 -
các đối tượng phi cấu trúc. Hiện nay chúng ta đã làm quen với một số các tiện
ích như vậy đó l
à: Yahoo, Google, Altavista,
M
ặt khác, giả sử chúng ta có các trang Web về các vấn đề Tin học, Thể
thao, Kinh tể-Xã hội và xây dựng Căn cứ vào nội dung của các tài liệu mà
khách hàng xem ho
ặc download về, sau khi phân lớp chúng ta sẽ biết khách hàng
hay t
ập trung vào nội dung gì trên trang Web của chúng ta, từ đó chúng ta sẽ bổ
sung thêm nhiều các tài liệu về các nội dung mà khách hàng quan tâm và ngược
lại. Còn về phía khách hàng sau khi phân tích chúng ta cũng biết được khách
hàng hay tập trung về vấn đề gì, để từ đó có thể đưa ra những hỗ trợ thêm cho
khách hàng đó. Từ những nhu cầu thực tế trên, phân lớp và tìm kiếm trang Web

vẫn là bài toán hay và cần phát triển nghiên cứu hiện nay.
1.3.2 Đặc điểm
1. Web dường như quá lớn để tổ chức thành một kho dữ liệu phục vụ
Data mining
Các cơ sở dữ liệu truyền thống thì có kích thước không lớn lắm và
thường được lưu trữ ở một nơi, trong khi đó kích thước Web rất lớn, tới hàng
terabytes và thay đổi liên tục, không những thế còn phân tán trên rất nhiều máy
tính khắp nơi trên thế giới. Một vài nghiên cứu về kích thước của Web đã đưa ra
các số liệu như sau: Hiện nay trên Internet có khoảng hơn một tỷ các trang Web
được cung cấp cho người sử dụng., giả sử kích thước trung b
ình của mỗi trang là
5-10Kb thì t
ổng kích thước của nó ít nhất là khoảng 10 terabyte. Còn tỷ lệ tăng
của các trang Web thì thật sự gây ấn tượng. Hai năm gần đây số các trang Web
tăng gấp đôi v
à còn tiếp tục tăng trong hai năm tới. Nhiều tổ chức và xã hội đặt
hầu hết những thông tin công cộng của họ lên Web. Như vậy việc xây dựng một
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 23 -
kho dữ liệu để lưu trữ, sao chép hay tích hợp các dữ liệu trên Web là gần như
không thể
2. Độ phức tạp của trang Web lớn hơn rất nhiều so với những tài liệu
văn bản truyền thống khác
.
Các d
ữ liệu trong các cơ sở dữ liệu truyền thống thì thường là loại dữ liệu
đồng nhất (về ngôn ngữ, định dạng,…), c
òn dữ liệu Web thì hoàn toàn không
đồng nhất. Ví dụ về ngôn ngữ dữ liệu Web bao gồm rất nhiều loại ngôn ngữ
khác nhau (Cả ngôn ngữ diễn tả nội dung lẫn ngôn ngữ lập trình), nhiều loại định

dạng khác nhau (Text, HTML, PDF, hình ảnh âm thanh,…), nhiều loại từ vựng
khác nhau (Địa chỉ Email, các li
ên kết (links), các mã nén (zipcode), số điện
thoại)
Nói cách khác, trang Web thiếu một cấu trúc thống nhất. Chúng được coi
như một thư viện kỹ thuật số rộng lớn, tuy nhi
ên con số khổng lồ các tài liệu
trong thư viện th
ì không được sắp xếp tuân theo một tiêu chuẩn đặc biệt nào,
không theo ph
ạm trù, tiêu đề, tác giả, số trang hay nội dung, Điều này là một
thử thách rất lớn cho việc tìm kiếm thông tin cần thiết trong một thư viện như
thế.
3. Web là một nguồn tài nguyên thông tin có độ thay đổi cao
Web không chỉ có thay đổi về độ lớn mà thông tin trong chính các trang
Web c
ũng được cập nhật liên tục. Theo kết quả nghiên cứu , hơn 500.000 trang
Web trong hơn
4 tháng thì 23% các trang thay đổi hàng ngày, và khoảng hơn 10
ngày thì 50% các trang trong tên miền đó biến mất, nghĩa là địa chỉ URL của nó
không còn tồn tại nữa. Tin tức, thị trường chứng khoán, các công ty quản cáo và
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 24 -
trung tâm phục vụ Web thường xuyên cập nhật trang Web của họ.s Thêm vào đó
sự kết nối thông tin và sự truy cập bản ghi cũng được cập nhật
4. Web phục vụ một cộng đồng người dùng rộng lớn và đa dạng
Internet hiện nay nối với khoảng 50 trạm làm việc, và cộng đồng người
dùng vẫn đang nhanh chóng lan rộng. Mỗi người dùng có một kiến thức, mối
quan tâm, sở thích khác nhau. Nhưng hầu hết người dùng không có kiến thức tốt
về cấu trúc mạng thông tin, hoặc không có ý thức cho những tìm kiếm, rất dễ bị

"lạc" khi đang "mò mẫm trong "bóng tối" của mạng hoặc sẽ chán khi tìm kiếm
mà chỉ nhận những mảng thông tin không mấy hữu ích
5. Chỉ một phần rất nhỏ của thông tin trên Web là thực sự hữu ích
Theo thống kê, 99% của thông tin Web là vô ích với 99% người dùng
Web. Trong khi nh
ững phần Web không được quan tâm lại bị búi vào kết quả
nhận được trong khi tìm kiếm. Vậy thì ta cần phải khai phá Web như thế nào để
nhận được trang web chất lượng cao nhất theo tiêu chuẩn của người dùng?
Như vậy chúng ta có thể thấy các điểm khác nhau giữa việc tìm kiếm
trong một cơ sở dữ liệu truyền thống với việc tìm kiếm trên Internet. Những đặc
điểm trên đ
ã đẩy mạnh việc nghiên cứu khai phá và sử dụng tài nguyên trên
Internet.
1.3.3 Các hướng tiếp cận
Như đã phân tích về đặc điểm và nội dung các văn bản HyperText ở trên,
t
ừ đó khai phá dữ liệu Web cũng sẽ tập trung vào các thành phần có trong trang
Web. Đó chính là:
1. Khai phá nội dung trang Web (Web Content mining)
Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007
- 25 -
Khai phá nội dung trang Web gồm hai phần:
a. Web Page Content
Ngh
ĩa là sẽ sử dụng chỉ các từ trong văn bản mà không tính đến các liên
k
ết giữa các văn bản. Đây chính là khai phá dữ liệu Text (Textmining)
b. Search Result
Tìm ki
ếm theo kết quả. Trong các máy tìm kiếm, sau khi đã tìm ra những

trang Web thoả mãn yêu cầu người dùng, còn một công việc không kém phần
quan trọng, đó là phải sắp xếp kết quả theo thứ tự dộ gần nhau với nội dung cần
tìm kiếm. Đây cũng chính là khai phá nội dung trang Web.
2. Web Structure Mining
Khai phá dựa trên các siêu liên kết giữa các văn bản có liên quan.
3. Web Usage Mining
a. General Access Partern Tracking:
Phân tích các Web log để khám phá ra các mẫu truy cập của người dùng
trong trang Web.
b. Customize Usage Tracking:
Phân tích các m
ẫu truy cập của người dùng tại mỗi thời điểm để biết xu
hướng truy cập trang Web của từng đối tượng người d
ùng tại mỗi thời điểm khác
nhau
Lu
ận văn tập trung chủ yếu vào hướng “khai phá phá nội dung trang
Web”.

×