Tải bản đầy đủ (.pdf) (73 trang)

Nghiên cứu một số kỹ thuật khai phá dữ liệu Web và ứng dụng vào website giới thiệu việc làm cho sinh viên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 73 trang )


i





































ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG





ĐÀO HUY HIỆU





NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ
LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI
THIỆU VIỆC LÀM CHO SINH VIÊN








LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
















Th¸i Nguyªn - 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

ii





































ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG






ĐÀO HUY HIỆU





NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ
LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI
THIỆU VIỆC LÀM CHO SINH VIÊN

Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01






LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH




Người hướng dẫn khoa học: TS. Phạm Việt Bình








Th¸i Nguyªn - 2012





Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

iii
LUẬN VĂN THẠC SỸ
Tên đề tài:
Nghiên cứu một số kỹ thuật khai phá dữ liệu web và ứng dụng vào
website giới thiệu việc làm cho sinh viên

Giáo viên hướng dẫn: TS. Phạm Việt Bình
Học viên thực hiện: Đào Huy Hiệu
Cơ sở đào tạo: Đại học CNTT&TT
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01




Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



i
MỤC LỤC
MỤC LỤC i
DANH MỤC HÌNH iii
MỞ ĐẦU 1
CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 4
1.1 Giới thiệu chung 4
1.2 Khai phá dữ liệu là gì ? 5
1.3 Quá trình khám phá tri thức trong CSDL 6
1.4 Các kỹ thuật áp dụng trong Data Mining 8
1.4.1 Các kỹ thuật tiếp cận trong Data Mining 8
1.4.2 Các dạng dữ liệu có thể khai phá 9
1.5 Ứng dụng của Data Mining 10
1.6 Phân cụm dữ liệu và ứng dụng 11
1.7 Khai phá dữ liệu web 12
CHƢƠNG 2: MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB 18
2.1. Khai phá nội dung Web 18
2.1.1. Khai phá kết quả tìm kiếm 19
2.1.2. Khai phá văn bản Web 20
2.2. Khai phá theo sử dụng Web 23
2.2.1. Ứng dụng của khai phá theo sử dụng Web 24
2.2.2. Các kỹ thuật đƣợc sử dụng trong khai phá dữ liệu Web 24
2.2.3. Những vấn đề trong khai phá theo sử dụng Web 25
2.2.4. Quá trình khai phá theo sử dụng Web 27
2.3. Khai phá cấu trúc Web 32
2.3.1. Tiêu chuẩn đánh giá độ tƣơng tự 33
2.3.2. Khai phá và quản lý cộng đồng Web 34
CHƢƠNG 3: CHƢƠNG TRÌNH THỬ NGHIỆM 47
3.1. Quy trình hoạt động của Hệ thống cung cấp dữ liệu việc làm 47

3.1.1 Lựa chọn các Url và lọc cấu trúc HTML 50
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


ii
3.1.2. Khai phá cấu trúc HTML 50
3.1.3. Thu thập dữ liệu về kho cơ sở dữ liệu 52
3.1.4. Hiển thị dữ liệu 53
3.2. Một số giao diện chính của hệ thống 54
3.2.1. Quản trị hệ thống 54
3.2.2. Hệ thống thu thập thông tin tự động trên Internet 60
KẾT LUẬN 62
TÀI LIỆU THAM KHẢO 65


































Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


iii
DANH MỤC HÌNH
Hình 1.1 7
Hình 1.2 8
Hình 1.3 17
Hình 2.1 18
Hình 2.2 26
Hình 2.3 31
Hình 2.4 31
Hình 2.5 33
Hình 2.6 34

Hình 2.7 34
Hình 2.8 34
Hình 2.9 35
Hình 2.10 36
Hình 2.11 37
Hình 2.12 38
Hình 2.13 39
Hình 2.14 40
Hình 2.15 40
Hình 3.1 47
Hình 3.2 49
Hình 3.3 50
Hình 3.4 52
Hình 3.5 53
Hình 3.6 54
Hình 3.7 55
Hình 3.8 56
Hình 3.9 56
Hình 3.10 57
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


iv
Hình 3.11 57
Hình 3.12 58
Hình 3.13 58
Hình 3.14 59
Hình 3.15 59
Hình 3.16 60
Hình 3.17 61





















Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


1
MỞ ĐẦU

Từ vài thập niên trở lại đây, với những tác động mạnh mẽ của các tiến
bộ trong công nghệ phần cứng và truyền thông, các hệ thống dữ liệu phục vụ
cho các lĩnh vực kinh tế - xã hội đã phát triển bùng nổ, lượng dữ liệu được tạo
ra ngày càng lớn. Sự phong phú về dữ liệu, thông tin cùng với khả năng kịp

thời khai thác chúng đã mang đến những năng suất và chất lượng mới cho
công tác quản lý, hoạt động kinh doanh, … Nhưng rồi các yêu cầu về thông
tin trong các lĩnh vực hoạt động đó, đặc biệt trong lĩnh vực ra quyết định,
ngày càng đòi hỏi cao hơn, người quyết định không những cần dữ liệu mà còn
cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc ra quyết định
của mình. Cho đến những năm 90 của thế kỷ trước, nhu cầu khám phá tri thức
mới thực sự bùng nổ, theo đó, hàng loạt các lĩnh vực nghiên cứu về tổ chức
các kho dữ liệu và kho thông tin, các hệ trợ giúp quyết định, các thuật toán
nhận dạng mẫu và phân lớp mẫu … và đặc biệt là khai phá dữ liệu ra đời.
Từ khi ra đời, khai phá dữ liệu đã trở thành một trong những hướng
nghiên cứu phổ biến trong lĩnh vực khoa học máy tính và công nghệ tri thức.
Nhiều kết quả nghiên cứu, ứng dụng của khai phá dữ liệu trong các lĩnh vực
khoa học, kinh tế, xã hội. Khai phá dữ liệu bao hàm nhiều hướng nghiên cứu
quan trọng, một trong số đó là kỹ thuật khai phá dữ liệu web. Khai phá dữ liệu
web là quá trình tìm kiếm và phát hiện ra các cụm hoặc các mẫu dữ liệu tự
nhiên trong cơ sở dữ liệu lớn. Các kỹ thuật chính được áp dụng trong khai phá
dữ liệu web phần lớn được kế thừa từ lĩnh vực thống kê, học máy, nhận dạng,
lượng hoá, Đến nay, đã có nhiều ứng dụng khai phá dữ liệu web cho việc
giải quyết các vấn đề trong các lĩnh vực như tài chính, thông tin địa lý, sinh
học, nhận dạng ảnh, … Trong thời gian gần đây, trong lĩnh vực Khai phá dữ
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


2
liệu, người ta tập trung chủ yếu vào nghiên cứu, phân tích các mô hình dữ liệu
phức tạp như dữ liệu văn bản, Web, hình ảnh, và đặc biệt là mô hình dữ
liệu hỗn hợp để áp dụng chúng trong Khai phá dữ liệu.
Ở Việt Nam, trong những năm trở lại đây, nhu cầu về tự động khám
phá tri thức từ các dữ liệu sẵn có nhằm tăng năng lực cạnh tranh của các
ngành kinh tế đang phát triển nhanh. Vì vậy, tôi chọn hướng nghiên cứu về

các kỹ thuật khai phá dữ liệu web làm đề tài nghiên cứu cho luận văn của
mình. Luận văn trình bày một khảo cứu hệ thống về các họ thuật toán Khai
phá dữ liệu, bao gồm các cách tiếp cận và đặc điểm ứng dụng. Trên cơ sở đó
tôi đi sâu vào tìm hiểu, phân tích, đánh giá họ các thuật toán khai phá dữ liệu.
Tiếp đến, tôi lựa chọn và đi sâu vào phân tích, thiết kế và xây dựng ứng dụng
cho bài toán xây dựng website giới thiệu việc làm cho sinh viên, đây là một
bài toán Khai phá dữ liệu áp dụng cho dữ liệu có thuộc tính hỗn hợp giữa kiểu
số và hạng mục và đưa ra mô hình xử lý song song cho bài toán xây dựng
website giới thiệu việc làm cho sinh viên này.
Ngoài phần mở đầu và kết luận, cấu trúc nội dung của luận văn bao
gồm có 3 chương:
Chương 1 Tập trung trình bày khái quát về lĩnh vực khai phá dữ liệu và
một số khái niệm liên quan, đồng thời chỉ ra các giai đoạn thực hiện trong quá
trình khám phá tri thức. Phần tiếp theo của chương là trình bày ngắn gọn, có
hệ thống về các kỹ thuật, các dạng dữ liệu thường được sử dụng trong khai
phá dữ liệu.
Chương 2 Hệ thống hóa các kỹ thuật khai phá dữ liệu web, khai phá
theo nội dung web, khai phá theo sử dụng web, khai phá theo cấu trúc web.
Qua đó, đi sâu phân tích chi tiết các kỹ thuật, giải pháp trong Khai phá dữ liệu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


3
web và ý nghĩa của Khai phá dữ liệu web, các kỹ thuật được sử dụng trong
quá trình khai phá dữ liệu web, quy trình khai phá dữ liệu web theo thuật toán
Crawler, Hits, Phần cuối của chương trình bày vắn tắt, tổng kết về các đặc
trưng của các phương pháp khai phá dữ liệu web đồng thời nêu các kỹ thuật
đánh giá kết quả khai phá dữ liệu web.
Chương 3 Giới thiệu chương trình giới thiệu việc làm, quy trình hoạt
động của hệ thống cung cấp dữ liệu việc làm, thu thập dữ liệu về kho cơ sở dữ

liệu và các hình ảnh chức năng của chương trình thu thập giới thiệu thông tin
việc làm.
Phần kết luận, phần này trình bày tóm tắt về các nội dung thực hiện
trong luận văn này, đồng thời đưa ra những vấn đề dự định sẽ nghiên cứu tiếp
theo cho tương lai.








Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


4
CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU
1.1 Giới thiệu chung
Những năm 60 của thế kỷ trước, người ta đã bắt đầu sử dụng các công
cụ tin học để tổ chức và khai thác các CSDL. Cùng với sự phát triển vượt bậc
của các công nghệ điện tử và truyền thông, khả năng thu thập và lưu trữ và xử
lý dữ liệu cho các hệ thống tin học không ngừng được nâng cao, theo đó,
lượng thông tin được lưu trữ trên các thiết bị như đĩa từ, băng từ, đĩa CD-
ROM, ….không ngừng tăng lên. Theo thống kê sơ bộ cho thấy, lượng thông
tin trên các hệ thống tin học cứ sau 20 tháng lại tăng gấp đôi. Cuối thập kỷ 80
của thế kỷ 20, sự phát triển rộng khắp của các CSDL ở mọi quy mô đã tạo ra
sự bùng nổ thông tin trên toàn cầu, vào thời gian này, người ta bắt đầu đề cập
đến khái niệm khủng hoảng phân tích dữ liệu tác nghiệp liệu để cung cấp
thông tin với yêu cầu chất lượng ngày càng cao cho người làm quyết định

trong các tổ chức tài chính, thương mại, khoa học,…
Đúng như John Naisbett đã cảnh báo “Chúng ta đang chìm ngập trong
dữ liệu mà vẫn đói tri thức”. Lượng dữ liệu khổng lồ này thực sự là một
nguồn “tài nguyên” có nhiều giá trị bởi thông tin là yếu tố then chốt trong mọi
hoạt động quản lý, kinh doanh, phát triển sản xuất và dịch vụ, … nó giúp
những người điều hành và quản lý có hiểu biết về môi trường và tiến trình
hoạt động của tổ chức mình trước khi ra quyết định để tác động đến quá trình
hoạt động nhằm đạt được các mục tiêu một cách hiệu quả và bền vững.
Khai phá dữ liệu là một lĩnh vực mới xuất hiện, nhằm tự động khai thác
những thông tin, những tri thức có tính tiềm ẩn, hữu ích từ những CSDL lớn
cho các đơn vị, tổ chức, doanh nghiệp, … từ đó làm thúc đẩy khả năng sản
xuất, kinh doanh, cạnh tranh cho các đơn vị, tổ chức này. Các kết quả khoa
học cùng những ứng dụng thành công trong khám phá tri thức, cho thấy khai
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


5
phá dữ liệu là một lĩnh vực phát triển bền vững, mang lại nhiều lợi ích và có
nhiều triển vọng, đồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ
liệu truyền thống. Hiện nay, khai phá dữ liệu đã ứng dụng ngày càng rộng rãi
trong các lĩnh vực như : Thương mại, tài chính, điều trị y học, viễn thông, tin
– sinh,…
1.2 Khai phá dữ liệu là gì ?
Khai phá dữ liệu là một hướng nghiên mới ra đời hơn một thập niên trở
lại đây, các kỹ thuật chính được áp dụng trong lĩnh vực này phần lớn được
thừa kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác
suất thống kê, và tính toán hiệu năng cao. Do sự phát triển nhanh của khai phá
dữ liệu về phạm vi áp dụng và các phương pháp tìm kiếm tri thức, nên đã có
nhiều quan điểm khác nhau về khai phá dữ liệu. Tuy nhiên, ở một mức trừu
tượng nhất định, chúng ta định nghĩa Khai phá dữ liệu như sau:

Định nghĩa : Khai phá dữ liệu là một quá trình tìm kiếm, phát hiện các tri
thức mới, tiềm ẩn, hữu dụng trong CSDL lớn. Là một quá trình trích xuất
thông tin có mối quan hệ hoặc có mối tương quan nhất định từ một kho dữ
liệu lớn (cực lớn) nhằm mục đích dự đoán các xu thế, các hành vi trong tương
lai, hoặc tìm kiếm những tập thông tin hữu ích mà bình thường không thể
nhận diện được.
Khám phá tri thức trong CSDL (Knowledge Discovery in Databases -
KDD) là mục tiêu chính của khai phá dữ liệu, do vậy hai khái niệm khai phá
dữ liệu và KDD được các nhà khoa học trên hai lĩnh vực xem là tương đương
với nhau. Thế nhưng, nếu phân chia một cách chi tiết thì khai phá dữ liệu là
một bước chính trong quá trình KDD.
Các thành phần cơ bản của Khai phá dữ liệu.
Công nghệ khai phá dữ liệu là kết quả của quá trình lâu dài nghiên cứu
và phát triển sản phẩm. Quá trình này bắt đầu từ khi những dữ liệu đầu tiên
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


6
lưu vào máy tính, tiếp đến là quá trình cải tiến, nâng câp cách thức truy xuất
dữ liệu và dần dần cho phép người dùng có thể duyệt dữ liệu theo thời gian
thực. Kết quả của quá trình này cho phép truy xuất các nguồn dữ liệu quá
khứ, tính toán và định vị lại việc truyền tải, cung cấp thông tin cho hiện tại,
tương lai hay đưa ra các dự đoán tình huống có thể sắp diễn ra.
Có ba kỹ thuật cơ bản nhưng rất tổng quát và đầy đủ trong công nghệ data
mining: Thu thập dữ liệu lớn. (Massive data collective).Nền tảng sức mạnh
tính toán. Đây chính là hạ tầng bao gồm cả phần cứng và phần mềm lõi.
(Powerful computing)
1.3 Quá trình khám phá tri thức trong CSDL
Khám phá tri thức trong CSDL, KDD, là lĩnh vực liên quan đến các ngành
như : thống kê, học máy, CSDL, thuật toán, trực quan hóa dữ liệu, tính toán

song song và hiệu năng cao,…
Quá trình KDD có thể phân thành các giai đoạn sau:
 Trích chọn dữ liệu: là bước trích chọn những tập dữ liệu cần
được khai phá từ các tập dữ liệu lớn (databases, data warehouses, data
repositories) ban đầu theo một số tiêu chí nhất định.
 Tiền xử lý dữ liệu: là bước làm sạch dữ liệu (xử lý với dữ liệu
không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, .v.v.), rút gọn dữ liệu
(sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụng
histograms, lấy mẫu, .v.v.), rời rạc hóa dữ liệu (rời rạc hóa dựa vào
histograms, dựa vào entropy, dựa vào phân khoảng, .v.v.). Sau bước này, dữ
liệu sẽ nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa.
 Biến đổi dữ liệu: đây là bước chuẩn hóa và làm mịn dữ liệu để
đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở
bước sau.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


7
 Khai phá dữ liệu: đây là bước áp dụng những kỹ thuật phân tích
(phần nhiều là các kỹ thuật của học máy) nhằm để khai thác dữ liệu, trích
chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ liệu.
Đây được xem là bước quan trọng và tốn nhiều thời gian nhất của toàn quá
trình KDD.
 Đánh giá và biểu diễn tri thức: những mẫu thông tin và mối liên
hệ trong dữ liệu đã được khám phá ở bước trên được chuyển dạng và biểu
diễn ở một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật,
.v.v. Đồng thời bước này cũng đánh giá những tri thức khám phá được theo
những tiêu chí nhất định.

Các giai đoạn trong KDD đƣợc thể hiện trực quan nhƣ hình dƣới đây :














Hình 1.1 Các bước thực hiện trong quá trình khám phá tri thức

Dữ
liệu
thô
Trích chọn
dữ liệu
Dữ
liệu
Tiền xử lý
dữ liệu

Dữ liệu
Tiền xử

Biến đổi dữ
liệu

Data Mining
Các mẫu
Đánh giá và
giải thích
Biểu diễn
tri
Tri thức
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


8
1.4 Các kỹ thuật áp dụng trong khai phá dữ liệu
1.4.1 Các kỹ thuật tiếp cận trong khai phá dữ liệu
Khám phá tri thức trong CSDL là một lĩnh vực liên ngành, bao gồm :
Tổ chức dữ liệu, học máy, trí tuệ nhân tạo và các khoa học khác, sự kết hợp
này có thể được diễn tả như trong hình 2 dưới đây :








Hình 1.2 Các lĩnh vực liên quan đến Khám phá tri thức trong CSDL
Nếu đứng trên quan điểm của học máy (Machine Learning), thì các
kỹ thuật trong khai phá dữ liệu, bao gồm :
 Học có giám sát (Supervised learning) : Là quá trình gán nhãn lớp cho
các phần tử trong CSDL dựa trên một tập các ví dụ huấn luyện và các thông
tin về nhãn lớp đã biết.

 Học không có giám sát (Unsupervised learning) : Là quá trình phân chia
một tập dữ liệu thành các lớp hay là cụm (clustering) dữ liệu tương tự nhau
mà chưa biết trước các thông tin về lớp hay tập các ví dụ huấn luyện.
 Học nửa giám sát (Semi - Supervised learning) : Là quá trình phân chia
một tập dữ liệu thành các lớp dựa trên một tập nhỏ các ví dụ huấn luyện và
một số các thông tin về một số nhãn lớp đã biết trước.
Nếu căn cứ vào lớp các bài toán cần giải quyết, thì khai phá dữ liệu
bao gồm các kỹ thuật áp dụng sau:
Các lĩnh vực khoa học khác
Tổ chức dữ liệu
Học máy và trí tuệ
nhân tạo
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


9
 Phân lớp và dự đoán (classification and prediction): xếp một đối
tượng vào một trong những lớp đã biết trước. Ví dụ: phân lớp các bệnh nhân
dữ liệu trong hồ sơ bệnh án. Hướng tiếp cận này thường sử dụng một số kỹ
thuật của học máy như cây quyết định (decision tree), mạng nơ ron nhân tạo
(neural network), .v.v. Phân lớp và dự đoán còn được gọi là học có giám sát.
 Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở
dạng khá đơn giản. Ví dụ: “60 % nữ giới vào siêu thị nếu phấn thì có tới 80%
trong số họ sẽ mua thêm son”. Luật kết hợp được ứng dụng nhiều trong lĩnh
vực kinh doanh, y học, tin-sinh, tài chính và thị trường chứng khoán, .v.v.
 Phân tích chuỗi theo thời gian (sequential/ temporal patterns):
tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời
gian. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị
trường chứng khoán vì nó có tính dự báo cao.
 Phân cụm (clustering/ segmentation): xếp các đối tượng theo

từng cụm dữ liệu tự nhiên. Phân cụm còn được gọi là học không có giám sát
(unsupervised learning).
 Mô tả khái niệm (concept description and summarization): thiên
về mô tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản.
1.4.2 Các dạng dữ liệu có thể khai phá
Do khai phá dữ liệu được ứng dụng rộng rãi nên nó có thể làm việc với
rất nhiều kiểu dữ liệu khác nhau . Sau đây là một số dạng dữ liệu điển hình:
CSDL quan hệ, CSDL đa chiều (multidimensional structures, data
warehouses), CSDL dạng giao dịch, CSDL quan hệ - hướng đối tượng, dữ
liệu không gian và thời gian, Dữ liệu chuỗi thời gian, CSDL đa phương tiện,
dữ liệu Text và Web,…
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


10
1.5 Ứng dụng của khai phá dữ liệu
Phạm vi ứng dụng của data mining rất rộng, bao phủ hầu hết các lĩnh
vực. Tuy vậy có thể tóm lược lại phạm vi ứng dụng của data ming trong các
bài toán yêu cầu có cần có các chức năng nghiệp vụ sau:
Tự động hóa việc dự doán các xu thế và hành vi sẽ diễn ra trong tương
lai: Khai phá dữ liệu tự động hóa quá trình tìm kiếm và trích xuất các tập
thông tin có mối quan hệ hoặc tương quan trong một tập dữ liệu cực lớn.
Những vấn đề trên câu hỏi đặt ra với các cách truyền thống đòi hỏi một quá
trình rất phức tạp và tốn kém cả về tài chính và thời gian để giải đáp thì giờ có
thể trả lời một cách nhanh chóng trong khi giá thành là thấp nhất. Một ví dụ
đơn giản trong quảng cáo online là quá trình targeting, khi một người dùng
click vào một banner quảng cáo bán giầy dành cho nữ giới, thì khả năng
người đó là nữ và họ đang quan tâm đến đôi giầy đó, khi hệ thống nhận diện
được điều này thì có thể target thêm các kiểu dáng giầy khác nhau, kích cỡ
khác nhau, giá thành khác nhau với mục tiêu là người dùng sẽ kết thúc quá

trình là mua một đôi giày, ngoài ra bởi vì hệ thống nhận diện người dùng là
phụ nữ nên nó có thể quảng cáo thêm các sản phẩm khác như mỹ phẩm, quần
áo v.v
Tự động hóa việc khám phá nhận diện ra những tập thông tin quá khứ
mà hệ thống không hoặc chưa biết. Công cụ khai phá dữ liệu trong quá trình
phân tích dữ liệu sẽ nhận diện ra nhưng tập thông tin dữ liệu không có hoặc bị
ẩn bởi những mối liên hệ mà được xác định trước. Ví dụ như trong việc bán
hàng, có những sản phẩm không có mối liên hệ gì với nhau, nhưng lại hay bán
được cùng nhau, từ đó đưa ra cơ chế recommendation. Hay cơ chế nhận diện
giao dịch gian lận trong thanh toán điện tử dựa vào việc phân tích các giao
dịch bất thường…
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


11
Ngày nay, các công nghệ data mining được ứng dụng rộng rãi trong
các công ty lấy khách hàng làm trung tâm như truyền thông, tài chính,
marketing, bán hàng, các nghành công nghiệp sản xuất v.v… Nó cho phép các
công ty xác định được các mối quan hệ giữa các yếu tố nội tại như giá thành,
mẫu mã, cách thức quảng cáo, thậm chí là kỹ năng của nhân viên công ty…
các yếu tố bên ngoài như đối thủ cạnh tranh, chính sách kinh tế hay nhu cầu
thị trường v.v Và nó còn hỗ trợ việc xác định được sự tác động của các chính
sách khuyến mại, giảm giá, độ hài lòng của khách hàng và lợi nhuận của
doanh nghiệp…
1.6 Phân cụm dữ liệu và ứng dụng
Phân cụm dữ liệu nhằm mục đích chính là khám phá cấu trúc của mẫu
dữ liệu để thành lập các nhóm dữ liệu từ tập dữ liệu lớn, theo đó, cho phép
người ta đi sâu vào phân tích và nghiên cứu cho từng cụm dữ liệu này nhằm
khám phá và tìm kiếm các thông tin tiềm ẩn, hữu ích phục vụ cho ra quyết
định. Một vài ví dụ về ý nghĩa thực tiễn của phân cụm dữ liệu như sau :

"Khám phá ra các vị trí địa lý thuận lợi cho việc xây dựng các kho hàng phục
vụ mua bàn hàng của một công ty thương mại" hoặc "Xác định các cụm ảnh
như ảnh của các loài động vật như loài thú, chim, … trong tập CSDL ảnh về
động vật nhằm phục vụ cho việc tìm kiếm ảnh" hoặc “xác định các nhóm
người bệnh nhằm cung cấp thông tin cho việc phân phối các thuốc điều trị
trong y tế ”, hoặc “nhóm các khách hàng trong CSDL ngân hàng có vốn các
đầu tư vào bất động sản cao”… Như vậy, PCDL là một phương pháp xử lý
thông tin quan trọng và phổ biến, nó nhằm khám phá mỗi liên hệ giữa các
mẫu dữ liệu bằng cách tổ chức chúng thành các cụm tương tự. Hiện nay, các
kỹ thuật phân cụm đã được ứng dụng rộng rãi trong các ứng dụng như : nhận
dạng mẫu, xử lý ảnh, nghiên cứu thị trường, trực quan hoá, ….Trong nội dung
tiếp theo, luận văn sẽ đề cập đến vấn đề PCDL, đây là một hướng nghiên cứu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


12
quan trọng trong lĩnh vực khai phá dữ liệu và là nội dung tìm hiểu, nghiên cứu
trọng tâm của luận văn.
1.7 Khai phá dữ liệu web
Khai phá dữ liệu web là việc sử dụng các phương pháp khai phá dữ liệu
để tự động hóa quá trình khám phá và trích rút những thông tin hữu ích từ các
tài liệu, các dịch vụ và cấu trúc web. Hay nói cách khác khai phá dữ liệu web
là việc trích chọn ra các thành phần được quan tâm hay được đánh giá là có
ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên
quan tới World Wide Web, nó có thể giúp con người rút ra những tri thức
mới, cải tiến việc thiết kế các website và phát triển thương mại điện tử tốt
hơn.
a. Nhu cầu
Sự phát triển nhanh chóng của mạng Internet và Intranet đã sinh ra một
khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). Cùng với

sự thay đổi và phát triển hàng ngày hàng giờ về nội dung cũng như số lượng
của các trang Web trên Internet thì vấn đề tìm kiếm thông tin đối với người sử
dụng lại ngày càng khó khăn. Có thể nói nhu cầu tìm kiếm thông tin trên môt
CSDL phi cấu trúc đã được phát triển chủ yếu cùng với sự phát triển của
Internet. Thực vậy với Internet con người đã làm quen với các trang Web
cùng với vô vàn các thông tin. Trong những năm gần đây Intrnet đã trở thành
một trong những kênh về khoa học, thông tin kinh tế, thương mại và quảng
cáo. Một trong những lý do cho sự phát triển này là sự thấp về giá cả tiêu tốn
khi công khai một trang Web trên Internet. So sánh với những dịch vụ khác
như mua bán hay quảng cáo trên một tờ báo hay tạp chí thì rẻ hơn rất nhiều
và cập nhật nhanh chóng hơn tới hàng triệu người dùng khắp mọi nơi trên thế
giới. Có thể nói trang Web như là cuốn từ điển Bách khoa toàn thư. Thông tin
trên các trang Web đa dạng về mặt nội dung cũng như hình thức. Có thể nói
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


13
Internet như một xã hội ảo, nó bao gồm các thông tin về mọi mặt của đời sống
kinh tế, xã hội được trình bày dưới dạng văn bản, hình ảnh, âm thanh,
Tuy nhiên cùng với sự đa dạng và số lượng lớn thông tin như vậy đã
nảy sinh vấn đề quá tải thông tin. Người ta không thể tìm tự kiếm địa chỉ
trang Web chứa thông tin mà mình cần, do vậy đòi hỏi cần phải có một trình
tiện ích quản lý nội dung của các trang Web và cho phép tìm thấy các địa chỉ
trang Web có nội dung giống với yêu cầu của người tìm kiếm. Các tiện ích
này quản lý dữ liệu như các đối tượng phi cấu trúc. Hiện nay chúng ta đã làm
quen với một số các tiện ích như vậy đó là: Yahoo, google, Alvista,
Mặt khác, giả sử chúng ta có các trang Web về các vấn đề Tin học, Thể
thao, kinh tế - xã hội và xây dựng, Căn cứ vào nội dung của các tài liệu mà
khách hàng xem hoặc download về, sau khi phân lớp chúng ta sẽ biết khách
hàng hay tập trung vào nội dung gì trên trang Web của chúng ta, từ đó chúng

ta sẽ bổ sung thêm nhiều các tài liệu về các nội dung mà khách hàng quan tâm
và ngược lại. Còn về phía khách hàng sau khi phân tích chúng ta cũng biết
được khách hàng hay tập trung về vấn đề gì, để từ đó có thể đưa ra những hỗ
trợ thêm cho khách hàng đó. Từ những nhu cầu thực tế trên, phân lớp và tìm
kiếm trang Web vẫn là bài toán hay và cần phát triển nghiên cứu hiện nay.
b. Khó khăn
Hệ thống phục vụ World Wide Web như là một hệ thống trung tâm rất
lớn phân bố rộng cung cấp thông tin trên mọi lĩnh vực khoa học, xã hội,
thương mại, văn hóa, Web là một nguồn tài nguyên giàu có cho Khai phá dữ
liệu. Những quan sát sau đây cho thấy Web đã đưa ra sự thách thức lớn cho
công nghệ Khai phá dữ liệu
1. Web dƣờng nhƣ quá lớn để tổ chức thành một kho dữ liệu phục
vụ Dataming
Các CSDL truyền thống thì có kích thước không lớn lắm và thường
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


14
được lưu trữ ở một nơi, Trong khi đó kích thước Web rất lớn, tới hàng
terabytes và thay đổi liên tục, không những thế còn phân tán trên rất nhiều
máy tính khắp nơi trên thế giới. Một vài nghiên cứu về kích thước của Web
đã đưa ra các số liệu như sau: Hiện nay trên Internet có khoảng hơn một tỷ
các trang Web được cung cấp cho người sử dụng. giả sử kích thước trung
bình của mỗi trang là 5-10Kb thì tổng kích thước của nó ít nhất là khoảng 10
terabyte. Còn tỷ lệt ăng của các trang Web thì thật sự gây ấn tượng. Hai năm
gần đây số các trang Web tăng gấp đôi và còng tiếp tục tăng trong hai năm
tới. Nhiều tổ chức và xã hội đặt hầu hết những thông tin công cộng của họ lên
Web. Như vậy việc xây dựng một kho dữ liệu (datawarehouse) để lưu trữ, sao
chép hay tích hợp các dữ liệu trên Web là gần như không thể.
2. Độ phức tạp của trang Web lớn hơn rất nhiều so với những tài

liệu văn bản truyền thống khác
Các dữ liệu trong các CSDL truyền thống thì thường là loại dữ liệu
đồng nhất (về ngôn ngữ, định dạng,…), còn dữ liệu Web thì hoàn toàn không
đồng nhất. Ví dụ về ngôn ngữ dữ liệu Web bao gồm rất nhiều loại ngôn ngữ
khác nhau (Cả ngôn ngữ diễn tả nội dung lẫn ngôn ngữ lập trình), nhiều loại
định dạng khác nhau (Text, HTML, PDF, hình ảnh âm thanh,…), nhiều loại
từ vựng khác nhau (Địa chỉ Email, các liên kết (links), các mã nén (zipcode),
số điện thoại).
Nói cách khác, trang Web thiếu một cấu trúc thống nhất. Chúng được
coi như một thư viện kỹ thuật số rộng lớn, tuy nhiên con số khổng lồ các tài
liệu trong thư viện thì không được sắp xếp tuân theo một tiêu chuẩn đặc biệt
nào, không theo phạm trù, tiêu đề, tác giả, số trang hay nội dung, Điều này
là một thử thách rất lớn cho việc tìm kiếm thông tin cần thiết trong một thư
viện như thế.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


15
3. Web là một nguồn tài nguyên thông tin có độ thay đổi cao
Web không chỉ có thay đổi về độ lớn mà thông tin trong chính các
trang Web cũng được cập nhật liên tục. Theo kết quả nghiên cứu, hơn
500.000 trang Web trong hơn 4 tháng thì 23% các trang thay đổi hàng ngày,
và khoảng hơn 10 ngày thì 50% các trang trong tên miền đó biến mất, nghĩa là
địa chỉ URL của nó không còn tồn tại nữa. Tin tức, thị trường chứng khoán,
các công ty quản cáo và trung tâm phục vụ Web thường xuyên cập nhật trang
Web của họ. Thêm vào đó sự kết nối thông tin và sự truy cập bản ghi cũng
được cập nhật.
4. Web phục vụ một cộng đồng ngƣời dùng rộng lớn và đa dạng
Internet hiện nay nối với khoảng 50 trạm làm việc, và cộng đồng người

dùng vẫn đang nhanh chóng lan rộng. Mỗi người dùng có một kiến thức, mối
quan tâm, sở thích khác nhau. Nhưng hầu hết người dùng không có kiến thức
tốt về cấu trúc mạng thông tin, hoặc không có ý thức cho những tìm kiếm, rất
dễ bị "lạc" khi đang "mò mẫm" trong "bóng tối" của mạng hoặc sẽ chán khi
tìm kiếm mà chỉ nhận những mảng thông tin không mấy hữu ích.
5. Chỉ một phần rất nhỏ của thông tin trên Web là thực sự hữu ích
Theo thống kê, 99% của thông tin Web là vô ích với 99% người dùng
Web. Trong khi những phần Web không được quan tâm lại bị búi vào kết quả
nhận được trong khi tìm kiếm. Vậy thì ta cần phải khai phá Web như thế nào
để nhận được trang web chất lượng cao nhất theo tiêu chuẩn của người dùng?
Như vậy chúng ta có thể thấy các điểm khác nhau giữa việc tìm kiếm trong
một CSDL truyền thống với vviệc tìm kiếm trên Internet. Những thách thức
trên đã đẩy mạnh việc nghiên cứu khai phá và sử dụng tài nguyên trên
Internet.
c. Thuận lợi
Bên cạnh những thử thách trên, còn một số lợi thế của trang Web cung
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


16
cấp cho công việc khai phá Web.
1. Web bao gồm không chỉ có các trang mà còn có cả các hyperlink trỏ
từ trang này tới trang khác. Khi một tác giả tạo một hyperlink từ trang của
ông ta tới một trang A có nghĩa là A là trang có hữu ích với vấn đề đang bàn
luận. Nếu trang A càng nhiều Hyperlink từ trang khác trỏ đến chứng tỏ trang
A quan trọng. Vì vậy số lượng lớn các thông tin liên kết trang sẽ cung cấp
một lượng thông tin giàu có về mối liên quan, chất lượng, và cấu trúc của nội
dung trang Web, và vì thế là một nguồn tài nguyên lớn cho khai phá Web.
2. Một máy chủ Web thường đăng ký một bản ghi đầu vào (Weblog
entry) cho mọi lần truy cập trang Web. Nó bao gồm địa chỉ URL, địa chỉ IP,

timestamp. Dữ liệu Weblog cung cấp lượng thông tin giàu có về những trang
Web động. Với những thông tin về địa chỉ URL, địa chỉ IP,… một cách hiển
thị đa chiều có thể được cấu trúc nên dựa trên CSDL Weblog. Thực hiện phân
tích OLAP đa chiều có thể đưa ra N người dùng cao nhất, N trang Web truy
cập nhiều nhất, và khoảng thời gian nhiều người truy cập nhất, xu hướng truy
cập Web.
d. Các nội dung trong khai phá dữ liệu web
Tương ứng với mỗi loại dữ liệu cần khai thác, người ta cũng chia ra các
kỹ thuật khai phá dữ liệu web thành:
Khai phá nội dung Web (Web content mining), khai phá cấu trúc Web
(Web structure mining) và khai phá sử dụng Web (Web usage mining) theo sơ
đồ phân loại sau:





Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


17











Trong đó khai phá nội dung web được chia thành khai phá theo kết quả
tìm kiếm và khai phá văn bản web.
Khai phá sử dụng web được chia thành khai phá các mẫu truy cập và
phân tích các xu hướng cá nhân.
Tồng kết chƣơng 1:
Trong chương này trình bày những kiến thức cơ bản về lĩnh vực khai
phá dữ liệu và một số khái niệm liên quan, đồng thời chỉ ra các giai đoạn thực
hiện trong quá trình khám phá tri thức. Phần tiếp theo của chương là trình bày
ngắn gọn, có hệ thống về các kỹ thuật, các dạng dữ liệu thường được sử dụng
trong khai phá dữ liệu.
Ngoài ra trong chương này còn đề cập đến một lĩnh vực cụ thể của khai
phá dữ liệu đó là khai phá dữ liệu web. Trong phạm vi chương 1 chỉ đề cập
đến khái niệm, các đặc trưng và phân loại khai phá dữ liệu web.

KHAI PHÁ WEB
Khai phá nội
dung Web
Khai phá cấu trúc
Web
Khai phá sử dụng
Web
Khai phá kết quả
tìm kiếm
Khai phá văn bản
Web
Khai phá các
mẫu truy cập
Phân tích các xu
hướng cá nhân

Hình 1.3 Các nội dung trong khai phá Web
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


18
CHƢƠNG 2: MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB

Người ta thường phân khai phá Web thành ba lĩnh vực chính: Khai phá
nội dung Web (Web content mining), khai phá cấu trúc Web (Web structure
mining) và khai phá sử dụng Web (Web usage mining) theo sơ đồ phân loại
sau:














2.1. Khai phá nội dung Web
Khai phá nội dung Web là tập trung vào việc khám phá một cách tự
động nguồn thông tin có giá trị trực tuyến. Không giống như khai phá sử dụng
Web và cấu trúc Web, khai phá nội dung Web tập trung vào nội dung các
trang Web, không chỉ đơn thuần là các văn bản đơn giản mà còn có thể là dữ

liệu đa phương tiện như âm thanh, hình ảnh, phần biến đổi dữ liệu và siêu liên
kết,…
KHAI PHÁ WEB
Khai phá nội
dung Web
Khai phá cấu trúc
Web
Khai phá sử dụng
Web
Khai phá kết quả
tìm kiếm
Khai phá văn bản
Web
Khai phá các mẫu
truy cập
Phân tích các xu
hướng cá nhân
Hình 2.1 Phân loại khai phá Web
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

×