Tải bản đầy đủ (.ppt) (14 trang)

Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.05 MB, 14 trang )

Sinh Viên thực hiện:
1. Lê Thị Châu Tra
2. Nguyễn Thị Hạnh
3. Lê Thị Thanh Nga
4. Nguyễn Văn Mẫn
5. Vũ Thành Hưng
I. Giới thiệu về Clustering
1. Clustering là gì?
Thực hiện gom các đối tượng có cùng tính
chất hay có các tính chất gần giống nhau thành
nhóm.
Nếu nhìn từ góc độ tự nhiên là một việc hết sức
bình thường mà chúng ta vẫn làm và thực hiện
hàng ngày. Ví dụ như phân loại học sinh khá, giỏi
trong lớp, phân loại đất đai, phân loại tài sản, phân
loại sách trong thư viện…. .
I. Giới thiệu về Clustering
2. Mục đích của Clustering
Mục đích chính của phương pháp phân cụm
dữ liệu là nhóm các đối tượng tương tự nhau trong
tập dữ liệu vào các cụm sao cho các đối tượng
thuộc cùng một lớp là tương đồng còn các đối
tượng thuộc các cụm khác nhau sẽ không tương
đồng
II. Nội Dung
1. Ứng dụng của Clustering
- Kinh doanh
-
Sinh học
-
Địa lý


-
Bảo hiểm
-
Hoạch định thành phố
-
Một công cụ độc lập để xem xét phân bố dữ liệu
-
Làm bước tiền xử lý cho các thuật toán khác
II. Nội Dung
2. Một số yêu cầu của Clustering
Các yêu cầu của gom cụm trong khai phá dữ liệu:
- Scalability: Có thể thay đổi kích cỡ.
- Khả năng làm việc với các loại thuộc tính
khác nhau.
- Khám phá ra các cụm có hình dạng bất kì.
- Khả năng làm việc với dữ liệu có chứa
nhiễu ( outliers).
II. Nội Dung
3. Các loại dữ liệu trong Clustering
Các biến khoảng tỷ lệ: Biến trị khoảng là các
phép đo liên tục của các thang đo tuyến tính, thô. Ví dụ:
trọng lượng, chiều cao, chiều ngang, chiều dọc, tuổi, nhiệt
độ thời tiết.
Các biến nhị phân: Biến nhị phân chỉ có hai trạng
thái là 0 hay 1.
Các biến định danh: Biến định danh là mở rộng
của biến nhị phân với nhiều hơn hai trạng thái.
Các biến thứ tự :có thể là liên tục hay rời rạc
II. Nội Dung
Các biến thang đo tỉ lệ: Là các biến có độ đo

dương trên thang phi tuyến, xấp xỉ thang đo mũ.
Các biến có kiểu hỗn hợp: Một cơ sở dữ liệu
có thể chứa đồng thời cả sáu loại biến. Khi đó có thể
dùng công thức được gán trọng để kết hợp các hiệu
quả.
Các kiểu dữ liệu phức tạp: Tất cả các đối
tượng được xem xét a trong KPDL là không quan hệ
=> Loại dữ liệu phức tạp.
3. Các loại dữ liệu trong Clustering
II. Nội Dung
4. Các phương pháp Clustering chủ yếu
a. Phân cấp: Tạo phân cấp cụm chứ
không phải phân hoạch các đối tượng. Khác với
phân hoạch, phân cấp không cần số cụm k ở
đầu vào và dùng ma trận khoảng cách làm tiêu
chuẩn gom cụm. Trong phương pháp phân cấp
có thể dùng điều kiện dừng.
II. Nội Dung
* Mô tả phương pháp
Cho một cơ sở dữ liệu D chứa n đối tượng,
tạo phân hoạch thành tập có k cụm sao cho:
- Mỗi cụm chứa ít nhất một đối tượng
- Mỗi đối tượng thuộc về một cụm duy nhất
- Cho trị k, tìm phân hoạch có k cụm sao cho
tối ưu hoá tiêu chuẩn phân hoạch được chọn.
4. Các phương pháp Clustering chủ yếu
b. Phương pháp dựa trên phân hoạch:
II. Nội Dung
* Các phương pháp
Phương pháp gom cụm k-mean

- Input: Số các cụm k cần gom và cơ sở dữ
liệu chứa n đối tượng.
- Output:k cụm đã được gom.
- Thuật giải
4. Các phương pháp Clustering chủ yếu
b. Phương pháp dựa trên phân hoạch:
II. Nội Dung
4. Các phương pháp Clustering chủ yếu
b. Phương pháp dựa trên phân hoạch:
Thuật toán k-medoid
- Input: Số các cụm k cần gom và cơ sở
dữ liệu chứa n đối tượng.
- Output: k cụm đã được gom.
- Thuật toán
II. Kết Luận
- Phân tích gom cụm các đối tượng dựa trên sự
tương tự
- Phân tích gom cụm có phạm vi ứng dụng to lớn
- Có thể tính độ đo tương tự cho nhiều loại dữ liệu
khác nhau.
- Việc lựa chọn độ đo tương tự tùy thuộc vào dữ
liệu được dùng và loại tương tự cần tìm.
- Các phương pháp gom cụm.
+ Các phương pháp phân cấp.
+ Các phương pháp dựa trên phân hoạch.
Link Tài Liệu Tham Khảo
/>3ng-quan-v%E1%BB%81-cong-ngh%E1%BB%87-clustering/
/>
/>%E1%BB%AF_li%E1%BB%87u
/>clustering-trong-khai-pha-du-lieu-35312/

×