Tải bản đầy đủ (.pdf) (14 trang)

Phương pháp thu thập, đánh giá và phân cụm thông tin tiếng Việt trên Internet

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (299.19 KB, 14 trang )

TR

I H C QU C GIA HÀ N I
NG
I H C CÔNG NGH

ng Quang Huy

PH

NG PHÁP THU TH P, ÁNH GIÁ VÀ PHÂN C M
THÔNG TIN TI NG VI T TRÊN INTERNET

LU N V N TH C S

Hà N i – 2007


TR

I H C QU C GIA HÀ N I
NG
I H C CÔNG NGH

ng Quang Huy

PH

NG PHÁP THU TH P, ÁNH GIÁ VÀ PHÂN C M
THÔNG TIN TI NG VI T TRÊN INTERNET


Ngành: Công ngh thông tin.
Mã s : 1.01.10

LU N V N TH C S

NG

Hà N i - 2007

IH

NG D N KHOA H C:
TS OÀN S N


ng Quang Huy-Lu n v n cao h c-Tr

ng

i h c Công ngh -2007

M CL C
L I C M N ........................................................................................................8
DANH M C CH

VI T T T .............................................................................9

DANH M C HÌNH V , B NG BI U...............................................................10
M
CH


U..............................................................................................................12
NG 1: T NG QUAN V KHAI PHÁ D

LI U VÀ BÀI TOÁN PHÂN

C M TÀI LI U WEB .........................................................................................15
1.1 Khai phá d li u..........................................................................................15
1.1.1 Khai phá d li u là gì? .........................................................................15
1.1.2 Các h
1.1.3

ng ti p c n và các k thu t trong khai phá d li u .................16

ng d ng c a khai phá d li u ............................................................17

1.2 D li u Fulltext và Hypertext.....................................................................18
1.2.1 Fulltext .................................................................................................18
1.2.2 Hypertext..............................................................................................18
1.3 Khai phá d li u Web .................................................................................21
1.3.1 Nhu c u ................................................................................................21
1.3.2

c đi m ..............................................................................................22

1.3.3 Các h

ng ti p c n...............................................................................24

1.4 Bài toán phân c m tài li u Web .................................................................26

1.4.1 Gi i thi u bài toán................................................................................26
1.4.2 T i sao đ t ra bài toán phân c m tài li u Web.....................................27

-3-


ng Quang Huy-Lu n v n cao h c-Tr

1.4.3

ng

i h c Công ngh -2007

c đi m c a bài toán phân c m tài li u Web.....................................28

1.4.4 Các yêu c u đ i v i bài toán phân c m tài li u Web...........................30
1.4.5 M t s đ i l

ng đo đ chính xác cho bài toán ...................................31

1.5 Nh ng khó kh n trong Phân c m ti ng Vi t ..............................................32
1.5.1 V n đ tách t ti ng Vi t.....................................................................32
1.5.2 V n đ b ng mã ti ng Vi t...................................................................33
1.5.3 Các khó kh n khác ...............................................................................33
1.6 K t lu n ch
CH

ng 1 ...................................................................................33


NG 2: CÁC PH

NG PHÁP BI U DI N TÀI LI U ...........................34

2.1 Mô hình không gian vector.........................................................................34
2.1.1 M t s khái ni m..................................................................................34
2.1.1.1 T khóa (keywords).......................................................................... 34
2.1.1.2 T d ng (stopwords)......................................................................... 35
2.1.1.3 C t b t (word stemming) ............................................................... 36
2.1.2 Mô hình t n s ......................................................................................37
2.1.3 Mô hình Boolean..................................................................................39
2.1.4 Tính ch t c a vector .............................................................................40
2.1.4.1 Tích trong..........................................................................................40
2.1.4.2

l n vector .................................................................................... 41

2.2 Tách t trong ti ng Vi t..............................................................................41

-4-


ng Quang Huy-Lu n v n cao h c-Tr

ng

i h c Công ngh -2007

2.2.1 M t s đ c đi m chính v t ti ng Vi t ...............................................41
2.2.1.1 Ti ng ................................................................................................. 41

2.2.1.2 T ...................................................................................................... 42
2.2.2 Tách t t đ ng ti ng Vi t ...................................................................42
2.2.3 Các ph

ng pháp tách t ti ng Vi t.....................................................42

2.2.3.1 fnTBL (Fast Transformation-based learning)................................... 42
2.2.3.2 Longest matching.............................................................................. 49
2.2.3.3 K t h p gi a fnTBL và Longest matching.......................................49
2.3.1 o đ t

ng t .....................................................................................49

2.3.1.1

t

ng t trùng l p........................................................................ 49

2.3.1.2

t

ng t Cosine........................................................................... 50

2.4 T ng k t ch
CH

ng 2 ..................................................................................53


NG 3: CÁC THU T TOÁN PHÂN C M TÀI LI U ............................54

3.1 Gi i thi u ....................................................................................................54
3.2 Phân ho ch Top-down ................................................................................55
3.2.1 Thu t toán K-means v i gán “c ng”....................................................55
3.2.2 Thu t toán K-means v i gán “m m” ...................................................57
3.2.3

ph c t p tính toán ...........................................................................58

3.3 Phân c m d a trên tính m i c a tài li u.....................................................58
3.3.1 Mô t .....................................................................................................58

-5-


ng Quang Huy-Lu n v n cao h c-Tr

3.3.2

đo t

ng

i h c Công ngh -2007

ng t .....................................................................................59

3.3.3 Thu t toán phân c m d a trên thu t toán K-Means m r ng ..............60
3.3. 3.1 Ch m c phân c m ........................................................................... 60

3.3.3. 2 Gi i thu t phân c m K-Means m r ng .......................................... 61
3.3.4 ánh giá ...............................................................................................62
3.4 Phân ho ch Bottom-up ...............................................................................63
3.4.1 Thu t toán phân c m tích t (AHC).....................................................63
3.4.2

ph c t p tính toán ...........................................................................66

3.5 K t h p gi a bottom-up và top-down ........................................................67
3.5.1 Mô t .....................................................................................................67
3.5.2 Thu t toán buckshot .............................................................................67
3.6 Nh n xét......................................................................................................70
3.7 T ng k t ch
CH

ng 3......................................................................................72

NG 4: K T QU TH C NGHI M V I PHÂN C M TI NG VI T ...73

4.1 Môi tr

ng th c nghi m.............................................................................73

4.2 D li u ........................................................................................................73
4.3 K t qu th c nghi m...................................................................................75
4.3.1 So sánh các thu t toán phân c m .........................................................76
4.3.2 Phân c m s d ng tách t ti ng Vi t ...................................................80
4.4 K t lu n ch

ng 4.......................................................................................82


-6-


ng Quang Huy-Lu n v n cao h c-Tr

CH

NG 5: T NG K T VÀ H

ng

i h c Công ngh -2007

NG PHÁT TRI N ....................................84

5.1 T ng k t ......................................................................................................84
5.2 H

ng phát tri n.........................................................................................85

TÀI LI U THAM KHÁO....................................................................................86

-7-


ng Quang Huy-Lu n v n cao h c-Tr

ng


i h c Công ngh -2007

U

M

tv nđ
World Wide Web (WWW) là m t kho ch a l n nh t và đ

c bi t đ n

r ng rãi nh t c a các siêu v n b n. Các tài li u siêu v n b n ch a đ ng v n b n
và th

ng nhúng các liên k t đ n các tài li u khác phân b trên Web. Ngày nay,

Web bao g m hàng t tài li u c a hàng tri u tác gi đ
tán qua hàng tri u máy tính đ

c k t n i qua đ

sóng radio…. Web đang ngày càng đ

c t o ra , và đ

ng dây đi n tho i, cáp quang,

c s d ng ph bi n trong nhi u l nh v c

nh báo chí, phát thanh, truy n hình, h th ng b u đi n, tr

th

c phân

ng h c, các t ch c

ng m i, chính ph …. Chính vì v y l nh v c Web Mining hay tìm ki m t

đ ng các thông tin phù h p và có giá tr trên Web là m t ch đ quan tr ng trong
Data Mining.
Các h th ng tìm ki m thông tin hay nói ng n g n là các máy tìm ki m
trên Web thông th
ng

ng tr l i m t danh sách các tài li u đ

c phân h ng mà

i dùng s ph i t n công ch n l c trong m t danh sách r t dài đ có đ

nh ng tài li u phù h p. Ngoài ra các thông tin đó th
và liên quan đ n nhi u đ i t
nh ng gây khó kh n cho ng
Có nhi u h
này th

ng khác nhau.

c


ng r t phong phú, đa d ng

i u này t o nên m t s nh p

i s d ng trong vi c l y đ

c thông tin c n thi t.

ng ti p c n khác nhau đ gi i quy t v n đ này. Các h

ng chú ý gi m s nh p nh ng b ng các ph

ng

ng pháp l c hay thêm các

tùy ch n đ c t b t thông tin. Trong khuôn kh c a lu n v n ch t p trung vào
h

ng bi u di n các thông tin tr v b i các máy tìm ki m thành t ng c m đ

cho ng

i dùng có th d dàng tìm đ

c thông tin mà h c n. ã có nhi u thu t

toán phân c m tài li u d a trên phân c m ngo i tuy n toàn b t p tài li u. Tuy

- 12 -



ng Quang Huy-Lu n v n cao h c-Tr

ng

i h c Công ngh -2007

nhiên t p h p tài li u c a các máy tìm ki m là quá l n và luôn thay đ i đ có th
phân c m ngo i tuy n. Do đó vi c phân c m ph i đ
li u nh h n đ

c ng d ng trên các t p tài

c tr v t các truy v n. Và thay vì tr v m t danh sách r t dài

các thông tin gây nh p nh ng cho ng

i s d ng c n có m t ph

ng pháp t

ch c l i các k t qu tìm ki m m t cách h p lý.
M c đích nghiên c u
a ra yêu c u c a bài toán phân c m tài li u Web. Nh n m nh đ n k
thu t phân c m K-Means m r ng, s d ng tính m i c a tài li u, đây là m t
thu t toán phân c m t ng, th i gian tuy n tính đáp ng đ

c các yêu c u c a bài


toán phân c m tài li u Web. K-Means m r ng không coi m t tài li u nh t p
h p các t mà là m t xâu s d ng quan h thông tin gi a các t .
N i dung th c hi n


Tìm hi u các yêu c u c a bài toán phân c m tài li u Web.



Trình bày m t s ph

ng pháp bi u di n tài li u.



Trình bày m t s ph

ng pháp phân c m tài li u Web.



M t s k t qu th c nghi m b



xu t h

c đ u.

ng phát tri n.


Gi i h n nghiên c u
Do h n ch v m t th i gian nên vi c nghiên c u, tìm hi u m i ch thu
đ

c nh ng ki n th c c b n v k thu t và nh ng th nghi m b

h a h n s phát tri n và ng d ng trong t
Lu n v n đ

ng lai.

c t ch c thành 5 ph n:

- 13 -

c đ u nh ng


ng Quang Huy-Lu n v n cao h c-Tr

Ch

ng 1: Trong ch

ng

i h c Công ngh -2007

ng này gi i thi u t ng quan v khai phá d li u,


l nh v c khai phá d li u Web, t ng quan v bài toán phân c m tài li u nói
chung, phân c m tài li u Web nói riêng, nh ng yêu c u đ i v i bài toán phân
c m tài li u Web. Các đ i l
Ch

ng dùng đ đo đ chính xác cho bài toán.

ng 2: Trình bày các ph

ng pháp bi u di n tài li u. Nh ng khó

kh n trong phân c m Ti ng Vi t và các ph
đo đ t

ng pháp tách t ti ng Vi t, các cách

ng t gi a các tài li u.
Ch

ng 3: Trình bày các thu t toán dùng đ phân c m tài li u Web nói

chung. Trong ch

ng này trình bày theo hai h

ng ti p c n. Thu t toán AHC

(Agglomerative Hierarchical Clustering) tiêu bi u cho h
up. Thu t toán K-means tiêu bi u cho h

gi a hai h

ng phân c m bottom-

ng phân c m top-down. Và s k t h p

ng đó – Buckshot.

Trình bày thu t toán K-Means m r ng cho bài toán phân c m tài li u
Web d a trên tính m i c a tài li u.
Ch

ng 4: K t qu th c nghi m

Ch

ng 5: T ng k t và h

ng phát tri n trong t

- 14 -

ng lai.


ng Quang Huy-Lu n v n cao h c-Tr

ng

i h c Công ngh -2007


TÀI LI U THAM KHÁO
Ti ng Vi t
[1].

inh i n, X lý ngôn ng t nhiên, NXB Giáo D c.

Ti ng Anh
[2]. Sophoin, Yoshiharu Ishikawa và Hiroyuki Kitagawa (2006), Incremental
Clustering Based on Novelty of Online Documents
[3]. Clement T.Yu và Weiyi Meng (1998), Principles of Database Query
Processing for Advanced Application, Morgan Kaufmann Publisher, Inc.
[4]. Gerard Salton/Michael J.McGill, Introduction to Modern Information
Retrieval.
[5]. Jiawei Han (2000), Data Mining: Concepts and Techiniques
[6]. M. Steinbach, G. Karypis, V. Kumar (2000), A Comparison of Document
Clustering Techniques, TextMining Workshop, KDD.
[7]. O. Zamir and O. Etzioni (1998), Web Document Clustering: A Feasibility
Demonstration, Proc. of the 21st ACM SIGIR Conference, 46-54.
[8]. O. Zamir, O. Etzioni, O Madani, R. M. Karp (1997), Fast and Intuitive
Clustering of Web Documents, Proc. of the 3rd International Conference on
Knowledge Discovery and Data Mining.
[9]. K. Cios, W. Pedrycs, R. Swiniarski (1998), Data Mining – Methods for
Knowledge Discovery, Kluwer Academic Publishers.

- 86 -


ng Quang Huy-Lu n v n cao h c-Tr


ng

i h c Công ngh -2007

[10]. R. Krishnapuram, A. Joshi, L. Yi (1999), A Fuzzy Relative of the k-Medoids
Algorithm with Application to Web Document and Snippet Clustering, Proc.
IEEE Intl. Conf. Fuzzy Systems, Korea.
[11]. Z. Jiang, A. Joshi, R. Krishnapuram, L. Yi (2000), Retriever: Improving
Web Search Engine Results Using Clustering, Technical Report, CSEE
Department, UMBC.
[12]. T. H. Haveliwala, A. Gionis, P. Indyk (2000), Scalable Techniques for
Clustering the Web, Extended Abstract, WebDB’2000, Third International
Workshop on the Web and Databases, In conjunction with ACM
SIGMOD’2000, Dallas, TX.
[13]. A. Bouguettaya (1996), On-Line Clustering, IEEE Trans. on Knowledge
and Data Engineering.
[14]. A. K. Jain và R. C. Dubes (1988), Algorithms for Clustering Data, John
Wiley & Sons.
[15]. G. Karypis, E. Han, V. Kumar (1999), CHAMELEON: A Hierarchical
Clustering Algorithm Using Dynamic Modeling, IEEE Computer 32.
[16]. O. Zamir và O. Etzioni (1999), Grouper: A Dynamic Clustering Interface to
Web Search Results, Proc. of the 8th International World Wide Web
Conference, Toronto, Canada.
[17]. D. R. Cutting, D. R. Karger, J. O. Pedersen, J.W. Tukey (1993),
Scatter/Gather: A Clusterbased Approach to Browsing Large Document
Collections, In Proceedings of the 16th International ACM SIGIR
Conference on Research and Development in Information Retrieval.

- 87 -



ng Quang Huy-Lu n v n cao h c-Tr

ng

i h c Công ngh -2007

[18]. R. Michalski, I. Bratko, M. Kubat (1998), Machine Learning and Data
Mining – Methods and Applications, John Wiley & Sons Ltd..
[19]. J. Jang, C. Sun, E. Mizutani (1997), Neuro-Fuzzy and Soft Computing – A
Computational Approach to Learning and Machine Intelligence, Prentice
Hall.
[20]. G. Biswas, J.B. Weinberg, D. Fisher (1998), ITERATE: A Conceptual
Clustering Algorithm for Data Mining, IEEE Transactions on Systems, Man
and Cybernetics.
[21]. Z. Huang (1997), A Fast Clustering Algorithm to Cluster Very Large
Categorical Data Sets in Data Mining, Workshop on Research Issues on
Data Mining and Knowledge Discovery.

[22]. Y. Yang và J. Pedersen (1997), A Comparative Study on Feature Selection
in Text Categorization, In Proc. of the 14th International Conference on
Machine Learning.
[23]. A Guttman (1984). R-tree: A dynamic index structure for spatial searching,
In Proceedings of ACM SIGMOD.
[24]. Bjornal Larsen và Chinatsu Aone (1999). Fast and effective text mining
using lineartime document clustering, In Proceedings of the ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining, San
Diego, CA, USA.
[25]. C.J.van Rijbergen(1979), Information Retrieval, Butterworth & Co
(Publishers) LTd.


- 88 -


ng Quang Huy-Lu n v n cao h c-Tr

ng

i h c Công ngh -2007

[26]. Wai-chiu Wong và Ada Fu (2000), Incremental Document Clustering for
Web Page Classification, IEEE 2000 Int, Conf. on Infor, Society in the 21st
century: emerging technologies anf new challenges (IS2000), Nh t B n.
[27]. Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003). Modeling the Internet
and the Web: Probabilistic Methods and Algorithms. Wiley, 2003.
[28]. Sen Slattery (2002). Hypertext Classification. PhD Thesis (CMU-CS-02142). School of Computer Science. Carnegie Mellon University, 2002.

- 89 -



×