Tải bản đầy đủ (.pdf) (10 trang)

DuLieuKhiaPha 54281 TN201500007 2

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (605.09 KB, 10 trang )



HÀ Q UANG THỤY (Chủ biên)
PHAN XU ÂN HIÉU - ĐO ÀN SƠN - NGUYÊN TRÍ THÀNH
NG U YÊN THU TRANG - NGUYỄN CẢM TÚ

Giáo trình

KHAI PHÁ DỮ LIỆU WEB


ĐẠI HỌC TRÁI ÍvC u YỄK
TRUNG TẮM HỌC LIỆU

NHÀ

x u At

Bả n

g iá o d ụ c v iệ t n a m


Công ty cổ phần sách Đại học - Dạy nghề - Nhà xuất bản Giáo dục Việt Nam
giữ quyền công bố tác phẩm.

375 - 2009/CXB/8 - 726/GD

M ã số : 7B 753Y 9 - DAI



MỤC LỤC
Trang
LỜI GIỚI T H IỆ U .................................................................................................................... 3
Chương 1 MỘT SÔ NỘI DUNG c ơ BẢN VÉ KHAIPHÁ DỮ L IỆ U ............................. 9
1.1. Khai phá dữ liệu và phát hiện tri thức trong cơ sờ dữ liệ u ...............9
1.2. Khai phá dử liệu và xử lý cơ sờ dữ liệu truyền th ố n g .................... 20
1.3. Một sô lĩnh vực ứng dụng khai phá dữ liệu điển h ìn h ......................22
1.4. Kiểu dữ liệu trong khai phá dữ liệ u ..................................................... 24
1.5. Các bài toán khai phá dữ liệu điển h in h ............................................ 26
1.6. Tính liên ngành của khai phá dử liệu..................................................30
1.7. Khuynh hướng phát triển của khai phá dử liệ u ...............................33
Câu hỏi và bài tậ p .......................................................................................... 38
Chương 2 TỔNG QUAN VÊ KHAI PHÁ W E B .............................................................. 39
2.1 Giới thiệu về khai phá T e x t...................................................................39
2.2. Giới thiệu về khai phá W eb...................................................................48
2 3 Khai phá sự dụng W e b ......................................................................... 56
2.4 Khai phá cấu trúc W eb.......................................................................... 66
Câu hỏi và bài tâ p .......................................................................................... 68
Chương 3.

MOT s ổ KIÊN THỨC TOÁN HỌC CHO KHAI PHÁ DỪ LIỆU W E B .... 69
3.1. Mơ hình đồ thị ..........................................................................................70
3.2. Học máy xác suất B a ye s...................................................................... 79
3.3. Thuật toán V iterbi................................................................................... 88
Câu hỏi và bài tậ p .......................................................................................... 93

Chương 4

MỘT SỒ VÁN ĐẺ VẾ x ử LÝ NGỔN NGỮ TIẾNG VIỆT CHO
KHAI PHÁ VÁN B Ả N .................................................................................... 94

4 1 Giới thiệu.................................................................................................. 94
4 2. Kho dữ liệu...............................................................................................96
4 3. Quan hệ ngữ nghĩa trong văn bản...................................................... 96
4 4 Xử lý ngôn ngữ tiếng V iệ t...................................................................104
4 5 Giới thiẹu mọt số nghiên cứu xừ lý tiéng V iệt.................................119
Câu hỏi và bài tậ p ........................................................................................ 120

Chương 5

CÁC PHƯƠ NG PHÁP BIẾU DIỄN VĂN B Ả N .........................................121
5.1. Phân tích văn b ả n .................................................................................121
5.2. Các mơ hình biểu diễn văn b ả n .........................................................125
5.3. Các phương pháp lựa chọn cáctừ trong biẻu diễn văn bản .... 129
5.4 Thu gọn đặc trưng biểu
d iên................................................. 132
5.5 Phương pháp biểu diễn
trang W e b ..................................... 139
Câu hỏi và bài tậ p .........................................................................................142

Chương 6. HỆ THƠNG TÌM K IÊ M ................................................................................. 143
6.1. T im kiếm trên W e b ................................................................................143
6 2 Máy tìm kiế m ................................................. ...................................... 146
6
3.
Cầu trúc và hoạt động của một máy tim k iế m ...................151
6
4 Crawling trang W e b ........................................................................ 153
6.5. Phân tích và đánh chỉ sơ...................................................................... 167



6.6. Tính hạng trang W e b ....................
6.7. Máy tim kiém thực th ề .........
Câu hỏi vã bài tậ p .....................
C hương 7.

173
..............
'8 3
.......................... 185

PHÁN CỤM VĂN B Ả N .............................................................................. 186
7.1. Giới th iệ u ......................
.................... 186

7.2. Thuật toán phân cụm k-means

.....................191

7.3. Thu ậ t toán phân cụm phân cấp từ dưới lê n ...................................... 197
7.4. Thu ậ t toán phân hoạch từ trên x u ố n g .........
201
7 5 G án nhãn cho các c ụ m ........
................. 202
7 6 Đ ánh giá thuật toán phân cụm "'.
...................... 204
7.7. M ô hlnh phân cụm kết quả tim kiém và gán nhãn
cụm tiếng V iệ t......................................................................................... 211
Câu hòi và b àĩ tậ p .....................
.............................. 219
C hư ơng 8.


PHÂN LỚ P VĂN B Ả N .................................................................................. 220
8.1. Giới th iệ u ................................
................................ 220
8.2. M ột số thuật toán phân lứp có giám s á t ............................................223
8.3. Học bán giám sát và một số thuật toán phân lớp bán giám sát .232
Càu hòi và bài tậ p ........................................................................................... 241

C hư ơng 9.

TR ÍC H CHỌ N TH Ơ N G TIN TRỂN W E B ................................................. 242
9.1. G iới th iệ u ...................................................................................................242
9.2. C ác phương pháp trích chọn thơng tin từ vãn bản W eb
phi cảu t r ú c .............................................................................................251
9.3. C ác phương pháp trích chọn thõng tin chủ đè trên W eb
267
Câu hỏi vá bài t ậ p .......................................................................................... 274

C hương 10. W E B N GỮ N G H ĨA ........................................................................................275
10.1. Giới thiệu W eb ngữ nghĩa..................................................................275
10.2. Kiến trúc của W eb ngữ n g h ĩa ...........................................................277
10.3. C ác ngôn ngữ nền tảng cho W eb ngữ n g h ĩa ...............................280
10.4. Tiệm cận tới W eb ngữ n g h ĩa ............................................................292
Câu hỏi và bài tậ p .......................................................................................... 299
TÀI LIỆU TH AM K H Ả O ..........................................................................................................300

4


....... .113

..... tti
...- - l ô

ã>

J8

LI GII THIU

rM\
đ
ã rV
ô ớt

ô y ir
..... 211

1

'V . J J

-J

"
ã

r.a-iaiiỏt .25
*
=


24

.!(

ớ,

.

Ti
J ô v r*

■-

r:r:

ỊỊ
ĩ

'rĩ-

Trong cuốn sách nổi tiếng "Data Mining - Concepts and Techniques'
hai tác già Jiawei Han và Micheline Kamber nhận định rằng, tình tran;
"giàu về dữ liệu mà nghèo về thơng tin" là một động lực phát triền lĩnh vựi
khai phá dữ liệu và phát hiện tri thức trong cơ sờ dữ liệu (CSDL). Hoạt độn:
nghiên cứu và triển khai xây dựng các hệ thống tự động nhận ra các mẫu c<
giá trị, mới. hữu ích tiềm năng và hiếu được trong khối dữ liệu đồ sộ, nhằn
bô sung tài nguyên tri thức cho con người là hết sức cần thiết và có ý nghĩ
tr o n g q u á t r ì n h h ìn h th à n h v à p h á t tr iế n k in h tế tri th ứ c .

Ngày nay, World Wide Web đã trở thành một kho tài nguyên dữ liệi

khống lồ về mọi lĩnh vực; kho tài nguyên dữ liệu này đang không ngùn;
tăng trường với tốc độ cao. K.ho tài nguyên dữ liệu Web tiềm ân nhiều mai
thông tin quý giá đối với hoạt động của cộng đồng nói chung và tirniỉ cá th
nói riêng. Các hệ thống khai phá dữ liệu Web đã trờ thành các công cụ làn
cho tài nguyên Web "kho trời chung vơ tận của riêng mình" (Cao Bá Qt
thực sự phát huy hiệu quà tới cộng đồng và tới mỗi cá thê trong cộng đông
Phù họp với sự phát triển cùa Web, hoạt động nghiên cứu và triền khai V
khai phá dữ liệu Web không ngừng được tăng trường, Hiệp hội các nh
khoa học về Phát hiện tri thức và Khai phá dữ liệu (The Association fo
Computing Machinery's Special Interest Group on Knowledge Discover
and Data Mining, viết tăt là SIGKDD) đã tập hợp được nhiêu nhà khoa học
trong đó có nhiều nhà khoa học máy tính nơi tiêng thê giới. Từ năm 1995 tc
nay, hoạt động điển hinh nhất của SIGKDD là tố chức Hội nghị Khoa họ
quốc tế thường niên ACM SIGKDD Conference on Knowledge Discover
and Data Mining. K_hai phá dữ liệu Web đã trớ thành một trong những nệ
dung nhận được nhiều quan tâm nhât tại ACM SIGKDD Conference o
Knowledge Discovery and Data Mining và các hội nghị khoa học quốc t
lớn khác.
Từ năm 2006, "Khai phủ dữ liệu Web" dã là một mơn học tron
Chương trình đào tạo ngành Công nghệ thône tin (CNTT) và ngành H
thống thông tin (HTTT) tại Khoa Công nghệ Thông tin, Trường Đại họ
Công nghệ (ĐHCN), Đại học Quốc gia Hà Nội (ĐHQGHN). Giáo trìn
Khai phá dữ liệu Web này được tập hợp và hồn thiện từ nội dune các bí
giáng trong thời gian vừa qua, nhăm cung cãp một tài liệu hoàn chinh phụ
vụ hoạt độna giáng dạy và học tập môn học này tại Khoa CNTT. Trườn


ĐHCN cả ờ bậc đại học và sau đại học. Các nội dung trong giáo trinh không
chỉ đáp ứng yêu cầu đảo tạọ về lĩnh vực khoa học và công nghệ liên quan,
mà cịn cung câp một sơ kiên thức và kỹ năng mờ rộng và chuvẻn sâu phục

vụ nhu câu nghiên cứu và phát triển lĩnh vực khai phá dữ liệu Web
khơng chi tại Trường ĐHCN mà cịn ở các cơ sở đào tạo và nghiên cứu khác
trong nước.
Giáo trình gồm 10 chương, nội dung sơ bộ như sau:
Chương 1 - Một số nội dung cơ bàn vể khai phá dữ liệu cun° cấp các
kiên thức cơ bản nhât vê lĩnh vực khai phá dữ liệu và phát hiện tri thức
trong các CSDL, nhăm giúp độc già nắm bắt được bàn chất cùa các khái
niệm cơ bản trong khai phá dữ liệu, phân biệt các khái niệm này với một sơ
khái niệm liên quan và một số bài tốn cơ bàn nhất và xu hướng phát triển
của khai phá dữ liệu, phát hiện tri thức trong các CSDL.
Chương 2 — Tổng quan về khai phá Web cung cấp các kiến thức cơ bản
nhất về khai phá Text và khai phá Web, nhằm giúp độc giá nắm bắt được
các nội dung cơ bàn của khai phá Text và khai phá Web. Chương này cũng
trình bày cơ bàn về khai phá cấu trúc Web và khai phá sử dụng Web.
Chương 3 - M ột số kiến thức toán học cho khai phá dữ liệu Web nhăm
mục tiêu cung cấp một số kiến thức nền tảng về toán học cho khai phá dữ
liệu Web. Lý thuyết đồ thị và lý thuyết xác suất thâm nhập sâu rộng vào
khai phá dữ liệu Web theo các góc độ mơ hình, giải pháp và kỹ thuật có
nguồn gốc từ bản chất tụ nhiên và xã hội cùa Web.
Chương 4. M ột số vấn đề về xử lý ngôn ngữ tiếng Việt cho khai phá văn
ban cung cấp một số kiến thức nền tảng vê xử lý ngơn ngữ tự nhiên nói
chung và xừ lý tiếng Việt nói riêng, cho phép nâng cao hiệu quà cùa các giài
pháp khai phá Web tiếng Việt.
Chương 5 - Các phươ ng p h á p biếu diễn văn bản trình bày bài tốn các
khn dạng biêu diễn dừ liệu cho các thuật toán khai phá dữ liệu.
Chm/ng 6 - Hệ thong tìm kiếm, Chương 7 - Phân cụm văn bàn, Chương 8—
Phán lớp Web, Chương 9 - Trích chọn thơng tin trên IVeb trình bày về bốn
bài tốn chủ yếu của khai phá dữ liệu Web. Các khái niệm liên quan, các mơ
hinh biêu diễn, các thuật tốn, các kv thuật và các phương pháp đánh giá
hiệu quá được giới thiệu và phân tích.

Chương 10 - Web ngữ nghĩa trình bày về Web ngữ nghĩa, thế hệ mới
của Web gôm khái niệm, kiên trúc, các ngôn ngữ và quá trình tiệm cận tới
Web ngữ nghĩa.
Trong quá trinh bicn soạn giáo trinh này. chúng tôi được khai thác
nguôn tài nguyên phong phú. bao gồm nhiều bài báo khoa học. các tiện ích
và san phẩm phần mềm thuộc lĩnh vực khai phá Web. Đây là một thuận lợi
6


lớn về nguồn chất liệu biên soạn giáo trình. N hóm tác giả xin bày tỏ lời cản
ơn chân thành tới TS. N guyễn Lê M inh, N ghiên cứu sinh N guyễn Việ
Cường hiện đang công tác tại V iện Khoa học và Công nghệ tiên tiên Nhậ
Bản và N ghiên cứu sinh Đặng Thanh Hài hiện đang công tác tại Đại họ<
A ntw erp - Bị về việc cộng tác triển khai các hoạt động nghiên cứu liêr
quan. N hóm tác giả đánh giá cao và chân thành cám ơn tập thể cán bộ, sin?
viên thuộc Phịng Thí nghiệm Công nghệ tri thức, Trường ĐHCN đã cộnị
tác nghiên cứu, triển khai các đề tải K C .01.02/06-10, NCCB 203904
Q C.07.13, Q C.07.06. G iáo trình này là m ột sản phẩm của Phịng Th
nghiệm Cơng nghệ tri thức, Bộ m ơn HTTT được hồn thành nhân dịp 1(
năm truyền thống của Trường ĐHCN (tháng 10/2009). Trong môi trường
cùa một trường đại học định hướng nghiên cứu, các tác giả đã và đang nhậr
đirợc sự tham gia đóng góp tích cực từ đội ngũ người học trong việc đàrr
bảo tính cập nhật về nội dung và tính hiệu quà về cấu trúc của giáo trình
M ột số nghiên cứu của nhóm tác giả được trình bày trong giáo trình này \ì
kết quả cộng tác nghiên cứu của chúng tơi với c ố Giáo sư Susurm
Horiguchi tại V iện K hoa học & Công nghệ tiên tiến N hật Bản và Đại học
Tohoku.
N hóm tác giả cũng gặp một số khó khăn khi biên soạn giáo trình. Khc
khăn thứ nhất là vấn đề lựa chọn thuật ngữ tiếng Việt. Đối với lĩnh vực kha
phá W eb, việc lựa chọn thuật ngữ tiếng V iệt là rất khó khăn, vì đây là lĩnl

vực nghiên cứu cịn rất mới khơng chỉ ở V iệt N am m à còn trên thế giới. V
vậy, ngay m ột số thuật ngữ tiếng Anh cũng có m ột vài phương án trình bà)
và hiểu ngữ nghĩa. Khó khăn thứ hai là về tính hồn thiện nội dung tronị
giáo trình đối với m ột lĩnh vực nghiên cứu mới với nội dung rất phong phú
Dù nhóm tác già đã cố gắng thu thập, nghiên cứu và tổng hợp, song giác
trình khó tránh khịi khiếm khuyết. Chúng tơi rất m ong nhận được các 3
kiến đóng góp từ các nhà khoa học, các giảng viên và người học để giát
trình ngày càng thêm hồn thiện.
M ọi ý kiến đóng góp xin gửi về: C ơng ty CP Sách Đ ại học - D ạy nghề
N XB Giáo dục Việt Nam, 25 Hàn Thuyên - Hà Nội.
H à Nội, tháng 9 năm 2009
CÁC TÁC GIẢ




×