Tải bản đầy đủ (.doc) (41 trang)

Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (606.24 KB, 41 trang )

Phân cụm tập kết quả tìm kiếm web dựa vào tập thơ dung sai
Mục lục
CHƯƠNG 1........................................................................................................................5
VẤN ĐỀ TÌM KIẾM THƠNG TIN TRÊN WEB...........................................................5
1.1.
Máy truy tìm Web.............................................................................................5
1.1.1.
Web Crawler..............................................................................................6
1.1.2.
Document Index (lập chỉ mục tài liệu).....................................................6
1.1.3.
Document Cache(lưu trữ tài liệu).............................................................7
1.1.4.
Document Ranking....................................................................................7
1.1.5.
Query Processor(bộ xử lý truy vấn).........................................................7
1.1.6.
Presentation interface(giao diện trình bày).............................................7
2.1.
Trình bày kết quả tìm kiếm của máy truy tìm Web Google..........................8
CHƯƠNG II.....................................................................................................................10
PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THƠ DUNG SAI
...........................................................................................................................................10
2.1.
Khái niệm phân cụm.......................................................................................10
2.2.
Phân cụm tập kết quả tìm kiếm Web.............................................................10
2.2.1.
Khái niệm.................................................................................................10
2.2.2.
Phép đo độ tương tự................................................................................11


2.2.3.
Đặc điểm...................................................................................................12
2.2.4.
Hiệu quả....................................................................................................13
2.2.5.
Yêu cầu.....................................................................................................13
2.3.
Lý thuyết tập thô..............................................................................................14
2.3.1.
Giới thiệu..................................................................................................14
2.3.2.
Quan hệ không thể phân biệt..................................................................15
2.3.3.
Hàm thuộc thô..........................................................................................16
2.3.4.
Định nghĩa Hệ thông tin..........................................................................16
2.3.5.
Không gian xấp xỉ tổng quát (Generalized approximation spaces)....18
2.4.
Mơ hình tập thơ dung sai (TRSM).................................................................20
2.4.1.
Khơng gian tolerance của các từ............................................................20
2.4.2.
Biểu diễn tài liệu.......................................................................................22
3. Phương pháp trọng số mở rộng đối với xấp xỉ trên..........................................22
Chương III Giải thuật phân cụm tập kết quả tìm kiếm web.....................................24
3.1.
Giải thuật..........................................................................................................24
3.1.1.
Tiền xử lý snippet.........................................................................................24

3.1.2.
Trích chọn những từ đặc trưng của mỗi snippet......................................26
3.1.3.
Sinh lớp tolerance........................................................................................28
3.1.4.
Giải thuật phân cụm K-means....................................................................30
3.1.5.
Tạo nhãn cho mỗi nhóm..............................................................................33
3.2.
Một số thuật tốn phân cụm khơng giám sát................................................33
3.2.1.
Phương pháp phân hoạch.......................................................................33
3.2.2.
Phương pháp phân cấp...........................................................................34

1


Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

LỜI CẢM ƠN
Sau thời gian làm đồ án, lời đầu tiên em xin cảm ơn thầy giáo huớng dẫn
Th.s Nguyễn Trọng Thể đã tận tình hướng dẫn, chỉ bảo và tạo mọi điều kiện
thuận lợi để em hoàn thành tốt đồ án tốt nghiệp được giao.
Em xin chân thành cảm ơn các thầy cô giáo trong khoa cơng nghệ thơng
tin trường Đại học dân lập Hải Phịng đã giảng dạy và cung cấp tất cả các kiến
thức chun mơn cần thiết và q giá nhất. Ngồi ra chúng em còn được rèn
luyện một tinh thần học tập và sáng tạo. Đây chính là tính cách hết sức cần
thiết để có thể thành cơng khi bắt tay vào công việc trong tương lai.
Cuối cùng em xin gửi lời cảm ơn tới tất cả người thân, bạn bè đã giúp đỡ,

động viên và đóng góp nhiều ý kiến quý báu cho em trong quá trình làm báo
cao tốt nghiệp này.
Em xin trân trọng cảm ơn!
Hải Phòng, tháng 8 năm 2007
Sinh viên
Nguyễn Thị Việt Ánh

2


Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

LỜI MỞ ĐẦU
Ngày nay với sự bùng nổ thông tin , Word Wide Web(www) trở thành
nguồn tài nguyên khổng lồ và quý giá. Nó cung cấp cho chúng ta thông tin về mọi
lĩnh vực đời sống xã hội, khoa học v.v… Tuy nhiên đi đôi với sự thuận lợi ấy có
một vấn đề được đặt ra là chúng ta làm thế nào để truy cập và khai phá được
nguồn tài nguyên ấy hiệu quả nhất.
Từ vấn đề trên người ta đã nghiên cứu và tạo ra Máy truy tìm web(Web
search engine). Máy này có khả năng tìm kiếm thơng tin linh hoạt , nhanh chóng
và rất dễ sử dụng . Người sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề cần quan
tâm là có được tập kết quả liên quan đến câu hỏi truy vấn đó.Hiện nay Google 1,
Altavista2, HotBot3, Lycos4, AllTheWeb5 là những máy truy tìm hiệu quả và đang
được sử dụng rộng rãi .
Ngoài ra, người ta cũng đã tạo ra các thư mục Web , chẳng hạn như Yahoo 6
,Open Directory Project7. Theo kiểu này thì các tài liệu Web được sắp xếp thành
các thư có phân cấp, người sử dụng có thể tìm thơng tin bắng cách duyệt các cây
thư mục và xác định tài liệu mình cần tìm.
Thế nhưng việc tìm kiếm thơng tin theo những kiểu trên vẫn khơng hiệu
quả , chiếm nhiều thời gian vì:

-Khối lượng dữ liệu khổng lồ và tính động của các trang Web, nên máy truy
tìm chỉ có thể sắp xếp một phần các chỉ mục của Web.
-Người sử dụng đặt câu hỏi truy vấn quá ngắn, không thể hiện được hết ý
định của họ , do vậy mà tập kết quả tìm kiếm Web là chung chung.
Từ ảnh hưởng hai nhân tố trên tập kết quả tìm kiếm Web có thể từ hàng
nghìn đến hang triệu tài liệu, do đó tìm được đúng tài liệu mình cần là cơng việc
vơ cùng khó khăn.



4

5

6

7

2
3

3


Phân cụm tập kết quả tìm kiếm web dựa vào tập thơ dung sai

CHƯƠNG I
VẤN ĐỀ TÌM KIẾM THƠNG TIN TRÊN WEB
Như chúng ta đều biết www như là từ điển bách khoa toàn thư , là thư viện
khổng lồ sẵn sàng phục vụ bất cứ ai quan tâm thông qua việc truy cập internet. Đối

với chúng ta nó là một trong những nguồn tài ngun thơng tin có giá trị nhất, nếu
khơng có nó thì mọi hoạt động hang ngày sẽ kém hiệu quả. Nhưng vấn đề đặt ra là
chúng ta phải truy cập và sử dụng nguồn tài nguyên ấy nhhư thế nào để có hiệu
quả nhất. Để tìm được đúng thơng tin cần tìm trong nguồn tài ngun khổng lồ là
một thách thức lớn . Chính vì vậy mà hiện nay đã và đang có rất nhiều hướng
nghiên cứu để giải quyết vấn đề này.

1.1. Máy truy tìm Web
Một trong những thành cơng nhất trong nghiên cứu và giải quyết vấn đề
trên là việc tạo ra được máy truy tìm Web. Máy này có nhiệm vụ giúp người sử
dụng tìm tài liệu mình quan tâm. Các tài liệu chủ yếu có dạng HTML, PDF, PS,
MS Word và MS PowerPoint.
Giao diện máy truy tìm thân thiện và rất dễ sử dụng , người sử dụng chỉ cần
đặt câu hỏi truy vấnvà ra lệnh tìm. Máy sẽ trả về tập kết quả tìm kiếm(được gọi là
các sinppet) liên quan đến câu hỏi truy vấn đó. Snippet miêu tả ngắn gọn nội dung
của tài liệu Web(trang Web), nó thường bao gồm tựa đề , địa chỉ web của tài liệu
(được gọi là URL)và một đoạn text trình bày nội dung liên quan đến câu hỏi truy
vấn .
Cấu trúc và phương thức hoạt động của máy truy tìm Web như sau:

4


Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

1.1.1. W
eb

Crawler
Web Crawler là một trong hai thành phần trực tiếp tương tác với internet,

nó cịn được gọi là web spider hoặc robot. Cơng việc chính của Web Crawler là
phát hiện những nguồn tài nguyên mới trên Web. Nó giải quyết vấn đề này bằng
cách thực hiện tìm kiếm đệ quy theo các đường link từ tất cả các trang đã được
duyệt .
Trong khi khai phá các nguồn tài ngun mới trên Internet, Web Crawler
cịn có nhiệm vụ kiểm tra xem các trang có cịn hợp lệ không và chúng ta đã được
cập nhật hay chưa. Mục đích của cơng việc này là giúp cho máy truy tìm cập nhật
được tất cả tài liệu của Web(kể cả các tài liệu cũ và mới).
1.1.2. Document Index (lập chỉ mục tài liệu)
Mục đích chính của việc lập chỉ mục tài liệu là hỗ trợ tìm kiếm. Tìm tài liệu
có chứa những từ trong câu hỏi truy vấn? Để thực hiện cơng việc này thì đa số các
máy truy tìm sử dụng biến dữ liệu có cấu trúc inverted index. Inverted index
giống như danh sách chỉ mục ở phần cuối của cuốn sách – trong đó với mỗi một từ
là một danh sách liên kết các tài liệu có từ đó xuất hiện. Biến này có khả năng giúp
máy truy tìm xác định chính xác tài liệu có chứa các từ trong câu hỏi truy vấn. Với
bảng chỉ mục như vậy , máy truy tìm có thể thực hiện tìm kiếm theo nhóm từ hoặc
tìm kiếm từ lân cận.

5


Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

1.1.3. Document Cache(lưu trữ tài liệu)
Nhiều máy phục vụ tìm kiếm vừa lưu trữ bảng chỉ mục tài liệu theo từ
(document index), vừa lưu trữ bảng chỉ mục tài liệu gốc .Mục đích của việc lưu
trữ bảng chỉ mục các tài liệu gốc (tài liệu đầy đủ) là tạo ra các sippet và phục vụ
cho việc lưu trữ các phiên bản của tài liệu.
1.1.4. Document Ranking
Chắc chắn rằng trong mơi trường www, thậm chí đối với cả những câu hỏi

truy vấn hồn thiện và chính xác , thì tập kết quả trả tìm kiếm vẫn là hang ngàn
hoặc hàng triệu tài liệu. Do vậy , cần phải có cơng nghệ thực hiện sắp xếp tập kết
quả thu về theo mức độ liên quan và mức độ quan tâm. Và đây chính là cơng việc
của Document Ranking.
1.1.5. Query Processor(bộ xử lý truy vấn)
Vai trò của Query Processor là phối hợp với các bộ trên để thực hiện trả lời
câu hỏi truy vấn của người sử dụng. Cụ thể , trong quá trình thực hiện Query
Processor kết hợp các thành phần document index, document cache, document
ranking để tạo ra tập kết quả tìm kiếm liên quan đến câu hỏi truy vấn.
1.1.6. Presentation interface(giao diện trình bày)
Kết quả tìm kiếm Web được đưa đến người sử dụng thông qua giao diện
này. Do vậy presentation interface đóng vai trị vơ cùng quan trọng, nó ảnh hưởng
tồn bộ chất lượng của máy truy tìm. Bởi vì người sử dụng chỉ cần quan tâm kết

6


Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

quả nhận được thông qua giao diện mà khơng quan tâm máy hoạt động xử lý tìm
kiếm web như thế nào.

2.1. Trình bày kết quả tìm kiếm của máy truy tìm Web
Google
Cách biểu diễn tập kết quả tìm kiếm đến người sử dụng đóng vai trị vơ
cùng quan trọng . Nó giúp người sử dụng xác định được tài lệu họ cần tìm.
Giao diện trình bày kết quả tìm kiếm được đánh giá tốt nếu khơng để người
sử dụng gặp ngay những tài liệu được cho là khơng liên quan đến vấn đề cần tìm ở
ngay đầu danh sách kết quả tìm kiếm . Tuy nhiên , tiêu chuẩn này quá khắt khe vì
-


Hầu hết người sử dụng thường đặt câu hỏi ngắn và chung chung cho
máy truy tìm

-

Trong khi đặt câu hỏi cho máy truy tìm ,người sử dụng không đặt được
câu hỏi đúng như ý định , bởi vì: khi người sử dụng muốn tìm một
thông tin trên Web , nghĩa là trong suy nghĩ của họ đã hình thành khái
niệm về cái mình muốn tìm. Khái niệm này được chuyển thành tập
từ.Tập từ này được sử dụng để đặt câu hỏi truy vấn . Thế nhưng tính
chính xác của việc chuyển đổi giữa khái niệm và tập từ lại phụ thuộc
vào nhiều yếu tố, chẳng hạn như kinh nghiệm tìm kiếm , kiến thức cơ
bản liên quan đến khái niệm đó , hoặc sự thành thạo về ngơn ngữ. Do đó
đã tạo nên sự không cân xứng giữa khái niệm và câu hỏi truy vấn. Vì
thế máy truy tìm khơng thể biết được chủ đề người sử dụng thực sự
quan tâm.

Hiện nay các máy truy tìm vẫn chưa đáp ứng được tiêu chuẩn trên, vì sử
dụng phương thức trình bày kết quả Ranked list . Theo phương thức này tập kết
quả thu về từ câu hỏi truy vấn được sắp xếp theo mối liên quan đến câu hỏi truy
vấn - những tài liệu liên quan nhất được xếp đầu danh sách.

7


Phân cụm tập kết quả tìm kiếm web dựa vào tp thụ dung sai

snippet


Tựa đề

Mô tả
url

Mc dự vy cỏch sp xếp này vẫn cịn nhiều nhược điểm :
-Vì Ranked list trình bày kết quả theo mối quan hệ với câu hỏi truy vấn .
Do vậy có nhiều hơn 24 kết quả tìm kiếm thì ranked list trở thành khơng thực tế
đối với việc duyệt kết quả.
-Phương thức ranked list yêu cầu khắt khe về thứ tự giữa các kết quả tìm
kiếm với giả thuyết rằng các snippet ln có thể so sánh được với nhau .Tuy nhiên
với câu hỏi truy vấn chung chung, sẽ có những kết quả trả về mà nó chỉ chứa chủ
đề con , do vậy việc so sánh giữa các kết quả không cân xứng .
Lý do trên đã tạo động lực cho người ta nghiên cứu và xây dựng phương
thức trình bày kết quả mới khắc phục tất cả những nhược điểm của phương thức
cũ . Phân cụm tập kết quả tìm kiếm Web là một trong những phương thức mới
đang được nhiều người quan tâm nghiên cứu

8


Phân cụm tập kết quả tìm kiếm web dựa vào tập thơ dung sai

CHƯƠNG II
PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA
VÀO TẬP THÔ DUNG SAI
2.1.

Khái niệm phân cụm
Phân cụm là nhóm các đối tượng lại thành các cụm sao cho thoả mãn :

-Các đối tượng trong mỗi cụm là giống nhau hoặc gần nhau được xác định

bằng độ tương tự . Hay nói cách khác, các đối tượng trong mỗi cụm là tương tự
nhau.
-Những đối tượng không cùng một cụm là không tương tự nhau.
Cần phân biệt giữa phân lớp với phân cụm:
Phân lớp còn được gọi học có giám sát . Là q trình xếp một đối tượng
vào trong những lớp đã biết trước . Ví dụ phân lớp các bệnh nhân theo dữ liệu hồ
sơ bệnh án .
Phân cụm cịn được gọi học khơng giám sát .Là quá trình xếp các đối tưọng
theo từng cụm tự nhiên, tức là số lượng và tên cụm chưa được biết trước .
Yêu cầu về việc phân cụm xuất phát từ lĩnh vực thống kê, nó được áp dụng
cho dữ liệu số . Tuy nhiên, trong lĩnh vực khoa học máy tính và khai phá dữ liệu
thì khái niệm này được mở rộng cho cả dữ liệu text hoặc multimedia.
2.2.

Phân cụm tập kết quả tìm kiếm Web

2.2.1. Khái niệm
Phân cụm tập kết quả Web là tổ chức sắp xếp tập kết quả tìm kiếm thành
một số nhóm chủ đề riêng theo cách bố cục tổng thể đến chi tiết, giống như các
thư mục. Ví dụ đối với câu hỏi truy vấn “Clinton” thì kết quả được trình bày theo
các chủ đề như:”Bill Clinton”, “Hillary Clinton”, “George Clinton”, v.v….
Theo cách trình bày này cả những người sử dụng khơng có kinh nghiệm
trong việc đặt câu hỏi truy vấn cũng có thể dễ dàng xác định nhanh chóng và chính
xác tài liệu quan tâm . Mặt khác, đối với những người sử dụng đặt câu hỏi chung

9



Phân cụm tập kết quả tìm kiếm web dựa vào tập thơ dung sai

chung với mục đích biết thêm những chủ đề con sẽ không phải mất nhiều thời gian
.Thay vào đó , họ chỉ cần duyệt theo từng nhóm chủ đề.
2.2.2. Phép đo độ tương tự
Bản chất công việc phân cụm là nhóm những đối tượng tương tự với nhau
vào cùng một nhóm . Vậy cần phải có phép đo để đo độ tương tự giữa các đối
tượng.
Đối với các đối tượng là tài liệu thì người ta thường hay sử dụng phép đo
hệ số góc cosin để đo độ tương tự giữa hai tài liệu (mỗi tài liệu được biểu diễn
dưới dạng một vector). Công thức đo độ tương tự như sau:
t

x y
i

Cosin(X,Y) =

i

i 1

t

 xi2 
i 1

 yi2 

t


x y
i

i

i 1

Trong đó
-X (x1 ,x2 , …..,xt) và Y(y1 ,y2 ,…..,yt) là vector biểu diễn hai tài liệu
-xi ,yi là trọng số thành phần thứ I của vector X,Y tương ứng .
Chú ý:
-Khi hệ số góc cosin =1 nghĩa là hai snippet đó hồn tồn tương tự
nhau(trùng nhau)
-Khi hệ số góc cosin =0 nghĩa là hai snippet đó khơng hồn tồn
tương tự nhau(trùng nhau)
-Các tài liệu có thể được biểu diễn dưới dạng vector, điểm trong
không gian nhiều chiều.
Ví dụ: 2 tài liệu doc1 và doc2, sau khi trích chọn các thuộc tính đặc trưng
của snippet
Trong doc1:từ computer xuất hiện 3 lần, và từ finace xuất hiện 1 lần
Trong doc2:từ computer xuất hiện 2 lần, và từ finace xuất hiện 4 lần
Biểu diễn dưới dạng vector, doc1 được biểu diễn (3i+1j) và doc2 được biểu
diễn (2i+4j)

10


Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai


Biểu diễn dưới dạng một điểm trong không gian nhiều chiều, doc1 được
biểu diễn (3,1) và doc2 c biu din (2,4).

Hình1: Các đối tợng đợc biểu diễn dới dạng vector

Hình2: Các đối tợng đợc biểu diễn dới dạng điểm
2.2.3. c im

11


Phân cụm tập kết quả tìm kiếm web dựa vào tập thơ dung sai

-Phân cụm tập kết quả có tính phụ thuộc vào câu hỏi truy vấn của người sử
dụng do tạo ra các nhóm chủ đề khơng thể dự tính được mà hồn tồn phụ thuộc
-Kết quả phân cụm là giao diện của máy truy tìm.
2.2.4. Hiệu quả
Việc phân các tài liệu thành từng nhóm cơ bản đã được chứng minh là có
hiệu quả trong q trình duyệt một tập lớn các tài liệu . Do đó việc phân cụm tập
kết quả cũng có những ưu điểm sau:
-Việc tổ chức tập kết quả tìm kiếm thành các chủ đề tạo điều kiện thuận lợi
khi duyệt tập lớn các kết quả tìm kiếm.
-Tên của các chủ đề giúp người sử dụng phát hiện được chủ đề chính và do
đó có thể xác định nhanh chóng chủ đề mình quan tâm.
-Việc phân chia tập kết quả thành các chủ đề giúp người sử dụng có thể
nghiên cứu thêm tài liệu liên quan đến các chủ đề khác mà họ thường bỏ qua khi
duyệt danh sách kết quả tìm kiếm được trình bày theo phương thức truyền thống
ranked list, vì những tài liệu này ở rất xa trang đầu.
2.2.5. Yêu cầu
a.Liên quan

Phân cụm phải tạo ra được các nhóm chủ đề khác biệt từ tập kết quả tìm
kiếm Web, những kết quả có liên quan với nhau được sắp xếp vào cùng 1 nhóm và
khơng liên quan thì ở nhóm khác.
b.Tính tổng thể
Nhãn của mỗi chủ đề phải ngắn gọn và chính xác.Như vậy mới giúp người
sử dụng xác định nhanh chóng chủ đề quan tâm và tránh phải duyệt rải rác trên
tồn tập kết quả.
c.Nạp chồng
Vì mỗi một tài liệu (snippet) có thể thuộc về nhiều chủ đề do vậy một tài
liệu có thuộc vào nhiều nhóm khác nhau.
d.Snippet tolerance

12


Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

Giải thụât cần phải tạo được các chủ đề có chất lượng cao thậm chí khi nó
chỉ được thực hiện trên tập kết quả tìm kiếm web.
e.Tốc độ
Vì giải thuật được sử dụng trong hệ thống online, do vậy một yêu cầu về
tốc độ xử lý phân cụm là vô cùng quan trọng để không làm chậm quá trình xử lý
truy vấn .
f.Tăng tốc độ xử lý
Để tiết kiệm thời gian , giải thuật cần phải xử lý từng snippet ngay sau khi
nhận được từ máy truy tìm .
2.3.

Lý thuyết tập thơ


2.3.1. Giới thiệu
Lý thuyết tập thơ (rough set theory) được Zdzislaw Pawlak đề xuất vào đầu
những năm 1980 và nó nhanh chóng được coi như là một cơng cụ tốn học mới để
xử lý những thơng tin mơ hồ và không chắc chắn . Phương pháp này tỏ ra hết sức
quan trọng đối với lĩnh vực Trí tuệ nhân tạo và các ngành khoa học khác liên quan
đến nhận thức, đặc biệt là lĩnh vực học máy, thu nhận tri thức, phân tích quyết
định, phát hiện /khám phá tri thức từ cơ sở dữ liệu , các hệ chuyên gia , các hệ hỗ
trợ quyết định , lập luận dựa trên quy nạp và nhận dạng.
Triết lý của tập thô dựa trên giả sử rằng mọi đối tượng trong vũ trụ đều gắn
một thông tin nào đó (như dữ liệu, tri thức). Ví dụ, nếu các đối tượng là các bệnh
nhân bị một bệnh nhất định , các triệu chứng của bệnh nhân tạo thành thông tin về
bệnh nhân . Các đối tượng được đặc trưng bởi cùng thơng tin thì khơng thể phân
biệt (indiscermible) được với nhau. Quan hệ tương đương là cơ sơ toán học của
lý thuyết tập thô
Một tập bất kỳ các đối tượng không thể phân biệt (các đối tượng tương tự)
được gọi là tập cơ bản (elementary) và tạo thành nguyên tử (atom hay granule) của
tri thức vũ trụ. Hợp bất kỳ các tập cơ bản được gọi là tập rõ (crisp) hay tập chính
xác (precise), ngược lại là tập thơ(rough) hay khơng chính xác(imprecise).
13


Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

Trong lý thuyết tập thô , bất cứ một khái niệm không rõ ràng nào đều
được thay bằng một cặp khái niệm khơng chính xác gọi là xấp xỉ dưới và xấp
xỉ trên của khái niệm không rõ ràng. Xấp xỉ dưới bao gồm tất cả các đối tượng
chắc chắn thuộc về khái niệm và xấp xỉ trên gồm tất cả các đối tượng có thể thuộc
về khái niệm. Hiệu của xấp xỉ trên và xấp xỉ dưới tạo thành khoảng ranh giới của
khái niệm không rõ ràng .
Các phép toán cơ bản của lý thuyết tập thô được sử dụng để phát hện các

mẫu cơ sở trong dữ liệu . Do đó, với một ý nghĩa nhất định phương pháp luận tập
thơ cũng chính là học máy , phát hiện tri thức , suy diễn thống kê và suy diễn quy
nạp.
Lý thuyết tập thô ở một mức độ nhất định giao với nhiều cơng cụ tốn học
khác được dung để xử lý tri thức không đầy đủ . Trong lý thuyết tập thô khái niệm
không rõ ràng dựa trên các xấp xỉ và sự không phân biệt được.
2.3.2. Quan hệ khơng thể phân biệt
Để có thể định nghĩa được xấp xỉ trên và xấp xỉ dưới trước hết chúng ta
cần tìm hiểu về quan hệ khơng thể phân biệt.
Định nghĩa: Quan hệ R(R  UxU) được gọi là quan hệ khơng thể phân
biệt khi nó là một quan hệ tương đương .
Hay nói cách khác, quan hệ không thể phân biệt R là một quan hệ tương
đương và chia vũ trụ thành một họ các lớp tương đương . Họ này được gọi là sự
phân loại và ký hiệu U\R. Các đối tượng trong cùng một lớp tương đương là
không phân biệt được , ngược lại là phân biệt được đối với R. Với xU , lớp
tương đương của x trong quan hệ R được biểu diễn là [x]R
Trong không gian xấp xỉ A=(U,R) xấp xỉ dưới và xấp xỉ trên của tập X
được định nghĩa tương ứng như sau:
LR(X) = {x  U : [x]R  X }
UR(X) = {x  U : [x]R  X   }

14


Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

Tập L R(X) là tập các đối tượng trong U mà theo quan hệ R thì chắc chắn
chúng là các đối tượng của X
Tập U R(X) là tập các đối tượng của U mà theo quan hệ R thì ta chỉ có nói
rằng chúng có thể là các đối tượng của X .

Sự thật là LR  X  do vậy tập BNR = UR - LR được gọi là vùng biên của
xấp xỉ hay là vùng không chắc chắn . Rõ rang , BN R là tập các đối tượng mà theo
quan hệ R ta không thể xác định được chúng có thuộc vào X hay không .
Kết hợp cặp (LR, UR) tạo thành xấp xỉ thô hoặc tập thô của khái niệm X.
2.3.3. Hàm thuộc thơ
Ta cũng có thể định nghĩa các xấp xỉ thơng qua khái niêm hàm thuộc thô.
Cho hàm thuộc thô X : X  [0,1] của tập X  U, tập thô được định nghĩa như
sau:
L(X) = {x  U : (x, X) =1 }
U(X) = {x  U : (x, X) >0 }
Trong đó
(x, X) =  ( x, X ) 

[ x] R  U
[ x] R

2.3.4. Định nghĩa Hệ thông tin
Trong thực tế các đối tượng thường là
Thông thường hệ thông tin được mô tả bởi một cặp I=<U, A>
trong đó:
U={x1 ,x2, …,x n} là một tập khơng rỗng hữu hạn các đối tượng gọi là vũ trụ
A là một tập khơng rỗng hữu hạn các thuộc tính . Với mỗi thuộc tính a  A
thì có tương ứng một hàm giá trị fa : U  Va với Va là tập giá trị của thuộc tính a.
Vậy rõ ràng rằng bất kỳ một tập hữu hạn các đối tượng , mỗi đối tượng
được mô tả bởi một tập các thuộc tính có thể xem là một hệ thơng tin . Ví dụ như,
một nhóm người , với mỗi người được mơ tả bởi giới tính,tuổi, nghề nghiệp .

15



Phân cụm tập kết quả tìm kiếm web dựa vào tập thơ dung sai

Hình thức đơn giản của hệ thơng tin chính là bảng thơng tin , trong đó dịng
là thể hịên đối tượng và cột là thể hiện thuộc tính của đối tượng. Với mỗi đối
tượng x U, việc nắm bắt thông tin về x thông qua tập thuộc tính BA được gọi
là vector thơng tin
infB(x)= { (a, fa(x)) : a  B }
Thông thường bảng thông tin được cho dưới dạng mở rộng , bằng cách thêm
vào cột chứa thuộc tính quyết định vào bảng thơng tin được goi là bảng quyết định

16


Phân cụm tập kết quả tìm kiếm web dựa vào tập thơ dung sai

Ví dụ : Gọi U là tập các bênh nhân , U=(p1,p2,p3,p4,p5,p6,p7,p8)các bệnh
nhân được miêu tả thông qua các triệu chứng ốm .
Bảng biểu diễn hệ thông tin sau

Thuộc tính điều kiện
Bệnh nhân
p1
P2
P3
P4
P5
P6
P7
P8


Đau đầu



Không
Không
Không
Không
Không

Nhức mỏi




Không

Không


Nhiệt độ
Bình thờng
Cao
Rất cao
Bình thờng
Cao
Rất cao
Cao
Rất cao


TT quyết
định
Cảm
Không


Không
Không


Không

R l mt quan h tng đương , được định nghĩa thông qua đẳng thức của
hai thuộc tính Đau đầu và Nhức mỏi.
Ví dụ: xRy có ngha l fĐau đầu(x) = fĐau đầu(y) fNhiệt o(x) = fNhiƯt ®é(y)
Quan hệ tương đương này phân tập U thành các lớp {p 1}, { p2}, { p3},{ p4},
{ p5, p7}, { p6, p8}.Như vậy theo mối quan hệ R thì ta khơng thể phân biệt bệnh
nhân p5 với p7 , bệnh nhân p6 với p8.
Gọi khái niệm X là bệnh nhân bị cảm , như vậyX={ p2 ,p3 ,p6 ,p7}.
Lúc này , xấp xỉ của X theo mối quan hệ R được xác định như sau
LR(X) = { p2, p3}

UR(X) = { p2, p3, p5, p6, p7, p8}

17


Phân cụm tập kết quả tìm kiếm web dựa vào tập thơ dung sai

XÊp xØ trªn

ThÕ giíi thùc

XÊp xØ d ới
Vùng không
chắc chắn

2.3.5. Khụng gian xp x tng quỏt (Generalized approximation spaces)
Như trên đã trình bày, lý thuyết tập thơ kinh điển là dựa trên quan hệ tương
đương để chia vũ trụ thành các lớp rời nhau. Theo định nghĩa, quan hệ tương R 
UxU phải thỏa các tính chất sau:
 Tính phản xạ: xRx, với bất kỳ x  U
 Tính đối xứng: xRy  yRx, với bất kỳ x,y U
 Tính bắc cầu: xRy  yRz  xRz, với bất kỳ x,y,z U
Tuy nhiên trong thực tế, đối với một vài ứng dụng thì yêu cầu của quan hệ
tương được chỉ ra là quá khắt khe. Vì trong nhiều lĩnh vực có rất nhiều khái niệm
là khơng rõ ràng và có thể chồng lên nhau.
Ví dụ: Chúng ta xét một tập các tài liệu khoa học. Mỗi tài liệu được mơ tả
thơng qua tập các từ khóa. Dễ dàng nhận thấy rằng mỗi tài liệu có thể có nhiều từ
khóa và một từ khóa có thể xuất hiện trong nhiều tài liệu. Vì vậy khi phân chia vũ
trụ các tài liệu thành các lớp thì các lớp này có thể chồng lên nhau (nghĩa là một
tài liệu có thể cùng thuộc vào nhiều lớp khác nhau).

18


Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

Do vậy, để phù hợp với thực tế cần phải giảm yêu cầu của quan hệ tương
đương R bằng cách loại bỏ tính bắc cầu, tạo nên quan hệ mới được gọi là quan hệ
Tolerance.

2.3.5.1.

Định nghĩa không gian xấp xỉ tổng quát

Không gian xấp xỉ tổng quát là một bộ bốn A=(U, I, v, P)
trong đó :
 U là một tập không rỗng hữu hạn các đối tượng, hay còn được gọi là
một vũ trụ
 I: U  P(U) là một hàm khơng chắc chắn, trong đó P(U) là tập tất cả các
tập con của U
Hàm I được gọi là hàm không chắc chắn nếu thỏa:
 x  I(x), xU
 y  I(x)  x  I(y), x,yU
Vậy quan hệ xRy  y  I(x) là một quan hệ tolerance vì nó thỏa mãn điều
kiện phản xạ, đối xứng và I(x) là lớp tolerance của x. Như vậy, nếu chúng ta xét
các đối tượng xU theo R thì I(x) là tập các đối tượng tương tự với x.


 : P(U) x P(U)  [0,1] là hàm thuộc mờ.

Hàm thuộc mờ v hầu như giống hàm thuộc (được định nghĩa ở phần 3), tuy
nhiên nó được mở rộng trên P(U) x P(U) để đo mức thuộc của hai tập.
Hàm  : P(U) x P(U)  [0,1] được gọi là hàm thuộc mờ nếu thỏa:
Y  Z   (X, Y) <  (X, Z) với X, Y, Z  U, tính đơn điệu
Kết hợp hàm khơng chắc chắn I và hàm thuộc mờ v, hàm thuộc thô được
định nghĩa như sau:
Với x  U, X  U, ta có hàm thuộc thơ I, (x, X) =  (I(x), X)
1. P: I(U){0,1} là hàm cấu trúc
19



Phân cụm tập kết quả tìm kiếm web dựa vào tập thơ dung sai

Trong đó, I(U) = { I(x) : x U)}
Hàm này dùng làm điều kiện ràng buộc toàn cục trên các tập I(x). Trong
khi sinh các xấp xỉ, chỉ những tập X  I(U) có P(X) = 1 mới được xem xét, nghĩa
là chỉ xét những đối tượng trong U.
2.3.5.2.

Xấp xỉ

Trong khơng gian xấp xỉ A thì các xấp xỉ của tập X  U được định nghĩa
như sau:
LA(X) = {x  U : P(I(X)) =1  (x, X) =1 }
U A(X) = {x  U : P(I(X)) =1  (x, X) >0 }
2.4.

Mơ hình tập thơ dung sai (TRSM)
Với khả năng giải quyết linh hoạt tính gần đúng và tính mờ, tập thơ dung

sai được đánh giá là một công cụ đầy hứa hẹn để xác định mối quan hệ giữa từ và
tài liệu. Bất cứ vấn đề nào trong lĩnh vực thu thập thông tin, đặc biệt trong việc
phân cụm tài liệu thì việc định nghĩa mối quan hệ tương tự giữa tài liệu – tài liệu,
từ – từ, từ – tài liệu là không thể thiếu được. Vì bản chất của bài tốn phân cụm là
tìm những đối tượng tương tự nhóm lại thành một nhóm.
2.4.1. Khơng gian tolerance của các từ
Gọi D là tập các tài liệu, D={d 1, d2,…., dN } và T là tập các từ có trong D,
T={t1, t1,….., tM}.
Thơng qua mơ hình khơng gian vectơ, mỗi tài liệu d i được biểu diễn bởi
một vectơ có trọng số [wi1, wi2, …., wiM], với wij là trọng số của từ j trong tài liệu

di. Trong mơ hình tập thơ dung sai, khơng gian tolerance được định nghĩa dựa trên
tồn bộ các từ trong D.
U= T = {t1, t1,….., tM}
Mục đích đặt ra là căn cứ vào mối quan hệ giữa các từ để thực hiện phân
lớp các tài liệu. Với mục đích này, quan hệ tolerance R được xác định thơng qua

20



×