Tải bản đầy đủ (.ppt) (13 trang)

TIỂU LUẬN MÔN CƠ SƠ DỮ LIỆU NÂNG CAO PHƯƠNG PHÁP PHÂN TÍCH CỤM TRONG KHAI PHÁ DỮ LIỆU KHÔNG GIAN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (253.52 KB, 13 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
BÁO CÁO MÔN
CƠ SỞ DỮ LIỆU NÂNG CAO
ĐỀ TÀI:
PHƯƠNG PHÁP PHÂN TÍCH CỤM
TRONG KHAI PHÁ DỮ LIỆU KHÔNG GIAN
GVHD : PGS.TS Nguyễn Hà Nam
HVTH : Khúc Ngọc Hiệp
Nguyễn Quang Minh

Cơ sở dữ liệu không gian

Khai phá dữ liệu không gian

Phân tích cụm
NỘI DUNG TRÌNH BÀY
Guting (1994) định nghĩa :
- Là một cơ sở dữ liệu
- Có các kiểu dữ liệu không gian trong mô hình dữ
liệu và ngôn ngữ truy vấn của nó
- Hỗ trợ các kiểu dữ liệu không gian và cung cấp ít
nhất là chỉ số không và một thuật toán hiệu quả
cho phép kết không gian
CƠ SỞ DỮ LIỆU KHÔNG GIAN
CƠ SỞ DỮ LIỆU KHÔNG GIAN
Các đặc điểm của cơ sở dữ liệu không gian:
Các kiểu dữ liệu không gian
Đánh chỉ số dữ liệu không gian
* Phép kết không gian (spatial joins)
KHAI PHÁ DỮ LIỆU KHÔNG GIAN



Khai phá dữ liệu không gian là một lĩnh vực ứng dụng
đặc biệt của khai phá dữ liệu.

Khai phá dữ liệu không gian là quá trình khám phá các
mẫu đáng chú ý, có ích tiềm tàng, chưa biết trước từ
các tập dữ liệu không gian lớn
KHAI PHÁ DỮ LIỆU KHÔNG GIAN

Đặc điểm của khai phá dữ liệu không gian:

Cấu trúc dữ liệu không gian

Tập dữ liệu không gian

Thu thập dữ liệu không gian

Phụ thuộc không gian

Tính tạm thời của dữ liệu không gian

Các nhân tố khác liên quan đến những kỹ thuật và
khái niệm của kiến thức không gian:

Các kỹ thuật khai phá dữ liệu không gian

Các mô hình khái niệm dữ liệu không gian

Phân tích cụm hay phân cụm là công việc gán một tập
các đối tượng lại thành các nhóm


Phân cụm là một trong những nhiệm vụ chính của
khai phá dữ liệu, là một kỹ thuật chung cho phân tích
dữ liệu thống kê

Phân tích cụm bản thân nó không phải là một thuật
toán riêng, mà là một nhiệm vụ chung cần được giải
quyết
PHÂN TÍCH CỤM
PHÂN TÍCH CỤM

Các thuật toán phân cụm:
1. Phân cụm thứ bậc 3. Phân cụm dựa vào tâm
2. Phân cụm theo phân bố 4. Phân cụm theo mật độ

các yêu cầu riêng cho các thuật toán phân cụm:

Cần các thuật toán hiệu quả và mở rộng được

Các thuật toán có thể xác định được các hình không theo quy luật

Các phương pháp phân cụm không nhạy cảm với lượng lớn nhiễu.

Các thuật toán không nhạy cảm với thứ tự của dữ liệu vào

Không yêu cầu có kiến thức trước về dữ liệu
PHÂN TÍCH CỤM

Phân cụm theo phân bố:


Phân cụm theo phân bố là một quá trình lặp đối với dữ liệu đầu
vào. Mỗi bảng ghi đầu vào được đọc liên tiếp. Sự giống nhau của
mỗi bản ghi với một trong những cụm đã tồn tại được tính toán.

Phân cụm theo phân bố sử dụng tiêu chuẩn gà chọi
để quản lý tính toán của độ giống nhau giữa các bản
ghi, giữa bản ghi với các cụm và giữa các cụm với các
cụm

Thuật toán tối ưu hóa mong muốn (EM-clustering).
PHÂN TÍCH CỤM
Tập dữ liệu thường
được mô hình hóa là
một số cố định (để loại
trừ overfitting) của các
phân phối Gauss,
được khởi tạo ngẫu
nhiên và các tham số
của nó được tối ưu
hóa qua các bước lặp
để phù hợp hơn với
tập dữ liệu
CHÂN THÀNH CẢM ƠN!
Hình 1: Kiểu dữ liệu không gian trong Oracle Spatial
Hình 2: Kiểu dữ liệu không gian trong DB2 Spatial Extender
Hình 3: Thứ tự đánh chỉ số trong R-tree
Hình 4: Mối liên hệ không gian giữa các mức trong R-tree

×