Tải bản đầy đủ (.pdf) (27 trang)

Nghiên cứu một số kỹ thuật khai phá dữ liệu Web và ứng dụng vào website giới thiệu việc làm cho sinh viên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (297.4 KB, 27 trang )

i

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

ĐÀO HUY HIỆU

NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ
LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI
THIỆU VIỆC LÀM CHO SINH VIÊN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Th¸i Nguyªn - 2012

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




ii

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

ĐÀO HUY HIỆU

NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ
LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI
THIỆU VIỆC LÀM CHO SINH VIÊN
Chuyên ngành: Khoa học máy tính


Mã số: 60 48 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. Phạm Việt Bình

Th¸i Nguyªn - 2012

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




iii

LUẬN VĂN THẠC SỸ
Tên đề tài:
Nghiên cứu một số kỹ thuật khai phá dữ liệu web và ứng dụng vào
website giới thiệu việc làm cho sinh viên

Giáo viên hướng dẫn:

TS. Phạm Việt Bình

Học viên thực hiện:

Đào Huy Hiệu

Cơ sở đào tạo:


Đại học CNTT&TT

Chuyên ngành:

Khoa học máy tính

Mã số:

60 48 01

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




i

MỤC LỤC
MỤC LỤC ..................................................................................................................... i
DANH MỤC HÌNH .................................................................................................... iii
MỞ ĐẦU .......................................................................................................................1
CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU ...........................................4
1.1 Giới thiệu chung .....................................................................................................4
1.2 Khai phá dữ liệu là gì ? ..........................................................................................5
1.3 Quá trình khám phá tri thức trong CSDL ..........................................................6
1.4 Các kỹ thuật áp dụng trong Data Mining ............................................................8
1.4.1 Các kỹ thuật tiếp cận trong Data Mining ........................................................ 8
1.4.2 Các dạng dữ liệu có thể khai phá ...................................................................... 9
1.5 Ứng dụng của Data Mining .................................................................................10
1.6 Phân cụm dữ liệu và ứng dụng ...........................................................................11

1.7 Khai phá dữ liệu web ...........................................................................................12
CHƢƠNG 2: MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB.......................18
2.1. Khai phá nội dung Web ......................................................................................18
2.1.1. Khai phá kết quả tìm kiếm ............................................................................. 19
2.1.2. Khai phá văn bản Web ................................................................................... 20
2.2. Khai phá theo sử dụng Web ...............................................................................23
2.2.1. Ứng dụng của khai phá theo sử dụng Web ................................................... 24
2.2.2. Các kỹ thuật đƣợc sử dụng trong khai phá dữ liệu Web ............................ 24
2.2.3. Những vấn đề trong khai phá theo sử dụng Web ........................................ 25
2.2.4. Quá trình khai phá theo sử dụng Web .......................................................... 27
2.3. Khai phá cấu trúc Web .......................................................................................32
2.3.1. Tiêu chuẩn đánh giá độ tƣơng tự................................................................... 33
2.3.2. Khai phá và quản lý cộng đồng Web............................................................. 34
CHƢƠNG 3: CHƢƠNG TRÌNH THỬ NGHIỆM..................................................47
3.1. Quy trình hoạt động của Hệ thống cung cấp dữ liệu việc làm........................47
3.1.1 Lựa chọn các Url và lọc cấu trúc HTML ....................................................... 50

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




ii

3.1.2. Khai phá cấu trúc HTML............................................................................... 50
3.1.3. Thu thập dữ liệu về kho cơ sở dữ liệu ........................................................... 52
3.1.4. Hiển thị dữ liệu ................................................................................................ 53
3.2. Một số giao diện chính của hệ thống ................................................................54
3.2.1. Quản trị hệ thống ........................................................................................... 54
3.2.2. Hệ thống thu thập thông tin tự động trên Internet...................................... 60

KẾT LUẬN .................................................................................................................62
TÀI LIỆU THAM KHẢO .........................................................................................65

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




iii

DANH MỤC HÌNH
Hình 1.1 ................................................................................................................... 7
Hình 1.2 ................................................................................................................... 8
Hình 1.3 .................................................................................................................. 17
Hình 2.1 .................................................................................................................. 18
Hình 2.2 .................................................................................................................. 26
Hình 2.3 .................................................................................................................. 31
Hình 2.4 .................................................................................................................. 31
Hình 2.5 .................................................................................................................. 33
Hình 2.6 .................................................................................................................. 34
Hình 2.7 .................................................................................................................. 34
Hình 2.8 ................................................................................................................. 34
Hình 2.9 .................................................................................................................. 35
Hình 2.10 ................................................................................................................ 36
Hình 2.11 ................................................................................................................ 37
Hình 2.12 ................................................................................................................ 38
Hình 2.13 ................................................................................................................ 39
Hình 2.14 ................................................................................................................ 40
Hình 2.15 ................................................................................................................ 40
Hình 3.1 .................................................................................................................. 47

Hình 3.2 .................................................................................................................. 49
Hình 3.3 .................................................................................................................. 50
Hình 3.4 .................................................................................................................. 52
Hình 3.5 .................................................................................................................. 53
Hình 3.6 .................................................................................................................. 54
Hình 3.7 .................................................................................................................. 55
Hình 3.8 .................................................................................................................. 56
Hình 3.9 .................................................................................................................. 56
Hình 3.10 ................................................................................................................ 57

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




iv

Hình 3.11 ................................................................................................................ 57
Hình 3.12 ................................................................................................................ 58
Hình 3.13 ................................................................................................................ 58
Hình 3.14 ................................................................................................................ 59
Hình 3.15 ................................................................................................................ 59
Hình 3.16 ................................................................................................................ 60
Hình 3.17 ............................................................................................................... 61

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





1

MỞ ĐẦU
Từ vài thập niên trở lại đây, với những tác động mạnh mẽ của các tiến
bộ trong công nghệ phần cứng và truyền thông, các hệ thống dữ liệu phục vụ
cho các lĩnh vực kinh tế - xã hội đã phát triển bùng nổ, lượng dữ liệu được tạo
ra ngày càng lớn. Sự phong phú về dữ liệu, thông tin cùng với khả năng kịp
thời khai thác chúng đã mang đến những năng suất và chất lượng mới cho
công tác quản lý, hoạt động kinh doanh, … Nhưng rồi các yêu cầu về thông
tin trong các lĩnh vực hoạt động đó, đặc biệt trong lĩnh vực ra quyết định,
ngày càng đòi hỏi cao hơn, người quyết định không những cần dữ liệu mà còn
cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc ra quyết định
của mình. Cho đến những năm 90 của thế kỷ trước, nhu cầu khám phá tri thức
mới thực sự bùng nổ, theo đó, hàng loạt các lĩnh vực nghiên cứu về tổ chức
các kho dữ liệu và kho thông tin, các hệ trợ giúp quyết định, các thuật toán
nhận dạng mẫu và phân lớp mẫu … và đặc biệt là khai phá dữ liệu ra đời.
Từ khi ra đời, khai phá dữ liệu đã trở thành một trong những hướng
nghiên cứu phổ biến trong lĩnh vực khoa học máy tính và công nghệ tri thức.
Nhiều kết quả nghiên cứu, ứng dụng của khai phá dữ liệu trong các lĩnh vực
khoa học, kinh tế, xã hội. Khai phá dữ liệu bao hàm nhiều hướng nghiên cứu
quan trọng, một trong số đó là kỹ thuật khai phá dữ liệu web. Khai phá dữ liệu
web là quá trình tìm kiếm và phát hiện ra các cụm hoặc các mẫu dữ liệu tự
nhiên trong cơ sở dữ liệu lớn. Các kỹ thuật chính được áp dụng trong khai phá
dữ liệu web phần lớn được kế thừa từ lĩnh vực thống kê, học máy, nhận dạng,
lượng hoá, .. Đến nay, đã có nhiều ứng dụng khai phá dữ liệu web cho việc
giải quyết các vấn đề trong các lĩnh vực như tài chính, thông tin địa lý, sinh
học, nhận dạng ảnh, … Trong thời gian gần đây, trong lĩnh vực Khai phá dữ

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





2

liệu, người ta tập trung chủ yếu vào nghiên cứu, phân tích các mô hình dữ liệu
phức tạp như dữ liệu văn bản, Web, hình ảnh, ... và đặc biệt là mô hình dữ
liệu hỗn hợp để áp dụng chúng trong Khai phá dữ liệu.
Ở Việt Nam, trong những năm trở lại đây, nhu cầu về tự động khám
phá tri thức từ các dữ liệu sẵn có nhằm tăng năng lực cạnh tranh của các
ngành kinh tế đang phát triển nhanh. Vì vậy, tôi chọn hướng nghiên cứu về
các kỹ thuật khai phá dữ liệu web làm đề tài nghiên cứu cho luận văn của
mình. Luận văn trình bày một khảo cứu hệ thống về các họ thuật toán Khai
phá dữ liệu, bao gồm các cách tiếp cận và đặc điểm ứng dụng. Trên cơ sở đó
tôi đi sâu vào tìm hiểu, phân tích, đánh giá họ các thuật toán khai phá dữ liệu.
Tiếp đến, tôi lựa chọn và đi sâu vào phân tích, thiết kế và xây dựng ứng dụng
cho bài toán xây dựng website giới thiệu việc làm cho sinh viên, đây là một
bài toán Khai phá dữ liệu áp dụng cho dữ liệu có thuộc tính hỗn hợp giữa kiểu
số và hạng mục và đưa ra mô hình xử lý song song cho bài toán xây dựng
website giới thiệu việc làm cho sinh viên này.
Ngoài phần mở đầu và kết luận, cấu trúc nội dung của luận văn bao
gồm có 3 chương:
Chương 1 Tập trung trình bày khái quát về lĩnh vực khai phá dữ liệu và
một số khái niệm liên quan, đồng thời chỉ ra các giai đoạn thực hiện trong quá
trình khám phá tri thức. Phần tiếp theo của chương là trình bày ngắn gọn, có
hệ thống về các kỹ thuật, các dạng dữ liệu thường được sử dụng trong khai
phá dữ liệu.
Chương 2 Hệ thống hóa các kỹ thuật khai phá dữ liệu web, khai phá
theo nội dung web, khai phá theo sử dụng web, khai phá theo cấu trúc web.
Qua đó, đi sâu phân tích chi tiết các kỹ thuật, giải pháp trong Khai phá dữ liệu


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




3

web và ý nghĩa của Khai phá dữ liệu web, các kỹ thuật được sử dụng trong
quá trình khai phá dữ liệu web, quy trình khai phá dữ liệu web theo thuật toán
Crawler, Hits, ... Phần cuối của chương trình bày vắn tắt, tổng kết về các đặc
trưng của các phương pháp khai phá dữ liệu web đồng thời nêu các kỹ thuật
đánh giá kết quả khai phá dữ liệu web.
Chương 3 Giới thiệu chương trình giới thiệu việc làm, quy trình hoạt
động của hệ thống cung cấp dữ liệu việc làm, thu thập dữ liệu về kho cơ sở dữ
liệu và các hình ảnh chức năng của chương trình thu thập giới thiệu thông tin
việc làm.
Phần kết luận, phần này trình bày tóm tắt về các nội dung thực hiện
trong luận văn này, đồng thời đưa ra những vấn đề dự định sẽ nghiên cứu tiếp
theo cho tương lai.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




data error !!! can't not
read....



data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....



data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not

read....


data error !!! can't not
read....


data error !!! can't not
read....

data error !!! can't not
read....


data error !!! can't not
read....

data error !!! can't not
read....


data error !!! can't not
read....

data error !!! can't not
read....




×