Tải bản đầy đủ (.ppt) (39 trang)

Phân cụm Web và các thuật toán phân cụm Web

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (680.92 KB, 39 trang )

1
Báo Cáo
Phân cụm Web & các thuật
toán phân cụm Web?
Thành viên thực hiện:
1.Nguyễn Hoàng An
2.Nguyễn Mạnh Cường
3.Bùi Thị Thu Thủy
4.Nguyễn Thị Thu Vân
2
Nội dung
1. Phân cụm Web
2. Các thuật toán phân cụm Web
1. Phân cụm
Phân cụm là nhóm các đối tượng lại thành
cụm sao cho thỏa mãn:

Các đối tượng trong mỗi cụm là giống nhau
hoặc gần nhau được xác định bằng độ tương
tự.

Những đối tượng không cùng 1 cụm thì
không tương tự nhau.

Cần phân biệt giữa phân cụm với phân lớp.

Phân cụm web: là sắp xếp các web thành
các nhóm chủ đề riêng theo từng nội dung
Web.
3
2. Các thuật toán phân cụm Web


Thuật toán phân cụm hướng tới 2 mục tiêu:
chất lượng được khám phá và tốc độ của
thuật toán. Các thuật toán được phân thành
các loại cơ bản sau:
1. Phân cụm phân hoạch
2. Phân cụm phân cấp
3. Phân cụm dựa trên mật độ
4. Phân cụm dựa trên lưới
5. Phân cụm dựa trên mô hình
4
2.1 Phân cụm phân hoạch

Ý tưởng chính của kỹ thuật này là phân một
tập dữ liệu có n phần tử cho trước thành k
nhóm dữ liệu sao cho mỗi phần tử dữ liệu
chỉ thuộc về một nhóm dữ liệu và mỗi nhóm
dữ liệu có tối thiểu ít nhất một phần tử dữ
liệu.

các thuật toán được áp dụng nhiều trong
thực tế như k-means, PAM, CLARA,
CLARANS. Sau đây là một số thuật toán
kinh điển được kế thừa sử dụng rộng rãi.
5
2.1.1. Thuật toán K- means

Thuật toán phân cụm k-means do
MacQueen đề xuất trong lĩnh vực thống kê
năm 1967.


Đến nay, đã có rất nhiều thuật toán kế thừa
tư tưởng của thuật toán k-means áp dụng
trong KPDL để giải quyết tập dữ liệu có kích
thước rất lớn đang được áp dụng rất hiệu
quả và phổ biến như thuật toán k-medoid,
PAM, CLARA, CLARANS, k- prototypes, …
6
Các bước của thuật toán K-means
7
2.1.2. Thuật toán PAM

Thuật toán PAM (Partitioning Around
Medoids) được Kaufman và Rousseeuw đề
xuất 1987, là thuật toán mở rộng của thuật
toán k-means, nhằm có khả năng xử lý hiệu
quả đối với dữ liệu nhiễu hoặc các phần tử
ngoại lai. Thay vì sử dụng các trọng tâm
như k-means, PAM sử dụng các đối tượng
medoid để biểu diễn cho các cụm dữ liệu,
một đối tượng medoid là đối tượng đặt tại vị
trí trung tâm nhất bên trong của mỗi cụm.
8
Các bước thực hiện thuật toán PAM
9
2.1.3. Thuật toán CLARA

CLARA (Clustering LARge Application) được
Kaufman và Rousseeuw đề xuất năm 1990,
thuật toán này nhằm khắc phục nhược điểm
của thuật toán PAM trong trường hợp giá trị

của k và n lớn.
10
Các bước thực hiện thuật toán
11
2.1.4. Thuật toán CLARANS

Thuật toán CLARANS (A Clustering
Algorithm based on RANdomized Search)
được Ng & Han đề xuất năm 1994, nhằm để
cải tiến chất lượng cũng như mở rộng áp
dụng cho tập dữ liệu lớn. CLARANS là thuật
toán PCDL kết hợp thuật toán PAM với chiến
lược tìm kiếm kinh nghiệm mới.
12
Các bước thực hiện thuật toán:
13
2.2 Phân cụm phân cấp
Phân cụm phân cấp là sắp xếp một tập dữ liệu đã cho
thành một cấu trúc có dạng hình cây được xây dựng theo
kỹ thuật đệ quy và chia theo hai phương pháp tổng quát:

Phương pháp “trên xuống” (Top down)

Phương pháp “dưới lên” (Bottom up)

Một số thuật toán điển hình như: CURE, BIRCH,…
14
2.2.1. Thuật toán BIRCH

Ý tưởng của thuật toán là không cần lưu toàn bộ các

đối tượng dữ liệu của các cụm trong bộ nhớ mà chỉ lưu
các đại lượng thống kê.

Đối với mỗi cụm dữ liệu, BIRCH chỉ lưu một bộ ba (n,
LS, SS), với n là số đối tượng trong cụm, LS là tổng
các giá trị thuộc tính của các đối tượng trong cụm và
SS là tổng bình phương các giá trị thuộc tính của các
đối tượng trong cụm.
15
Các bước thực hiện thuật toán:

INPUT: CSDL gồm n đối tượng, ngưỡng T

OUTPUT: k cụm dữ liệu
Bước 1:
- Duyệt tất cả các đối tượng trong CSDL xây
dựng một cây CF
- Một đối tượng được chèn vào nút lá gần nhất
tạo thành cụm con
- Nếu đường kính của cụm con này lớn hơn T thì
nút lá được tách
- Tất cả các nút trỏ tới gốc của cây được cập nhật
với các thông tin cần thiết.
16
Bước 2:
- Nếu cây CF hiện thời không có đủ bộ nhớ trong thì tiến
hành xây dựng một cây CF nhỏ hơn bằng cách điều khiển
bởi tham số T
- Không cần đọc dữ liệu lại từ đầu nhưng vẫn đảm bảo
hiệu chỉnh cây dữ liệu nhỏ hơn.

17
Bước 3: Thực hiện phân cụm
-
Các nút lá của cây CF lưu giữ các đại lượng thống kê
của các cụm con
-
BIRCH sử dụng các đại lượng thống kê này để áp dụng
một số kỹ thuật phân cụm thí dụ như k-means và tạo ra
một khởi tạo cho phân cụm.
18
Bước 4:
-
Phân phối các đối tượng bằng cách dùng các đối tượng
trọng tâm cho các cụm từ bước 3
-
Duyệt lại dữ liệu và gán nhãn lại cho các đối tượng tới
trọng tâm gần nhất
-
Bước này nhằm để gán nhãn cho các dữ liệu khởi tạo
và loại bỏ các đối tượng ngoại lai
19
2.2.2. Thuật toán CURE

Các đối tượng đại diện được lựa chọn sẽ rải rác đều ở
các vị trí khác nhau, sau đó chúng được di chuyển bằng
cách co lại theo một tỉ lệ nhất định

Hai cụm có cặp đối tượng đại diện gần nhất sẽ được
trộn lại thành một cụm.


CURE có thể khám phá được các cụm có các dạng hình
thù và kích thước khác nhau và có khả năng xử lý đối
với các phần tử ngoại lai
20
Hình sau thí dụ về các dạng và kích thước cụm dữ liệu
được khám phá bởi CURE:
21
Các bước thực hiện thuật toán:

Bước 1: Chọn một mẫu ngẫu nhiên từ tập dữ liệu ban
đầu.

Bước 2: Phân hoạch mẫu này thành nhiều nhóm dữ
liệu có kích thước bằng nhau: Ý tưởng chính ở đây là
phân hoạch mẫu thành p nhóm dữ liệu bằng nhau, kích
thước của mỗi phân hoạch là n'/p (với n' là kích thước
của mẫu)

Bước 3: Phân cụm các điểm của mỗi nhóm cho đến khi
mỗi nhóm được phân thành n'/(pq)cụm (với q>1)
22

Bước 4: Khi các cụm được hình thành cho đến khi số
các cụm giảm xuống một phần so với số các cụm ban
đầu. Sau đó, trong trường hợp các phần tử ngoại lai
được lấy mẫu cùng với quá trình pha khởi tạo mẫu dữ
liệu, thuật toán sẽ tự động loại bỏ các nhóm nhỏ.

Bước 5: Phân cụm các cụm không gian: Các đối tượng
đại diện cho các cụm di chuyển về hướng trung tâm

cụm.

Bước 6: Đánh dấu dữ liệu với các nhãn tương ứng.
23
2.3 Phân cụm dựa trên mật độ

Phương pháp này nhóm các đối tượng theo
hàm độ xác định.

Có một số thuật toán cơ bản sau: DBSCAN,
OPTICS, SNN…
24
2.3.1. Thuật toán DBSCAN

DBSCAN (Density – Based Spatial Clustering of
Applications with Noise) do Ester, P.Kriegel và
J.Sander đề xuất năm 1996. Là thuật toán gom cụ dựa
trên mật độ , hiệu quả với cơ sở dữ liệu lớn, có khả
năng xử lí nhiễu.
25

×