BÀI BÁO CÁO-TÌM HIỂU GOM CỤM DỮ LIỆU VÀ HỌ GIẢI THUẬT K-MEAN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (240.37 KB, 23 trang )

TÌM HIỂU GOM CỤM DỮ LIỆU VÀ HỌ GIẢI THUẬT
K-MEAN
GOM CỤM DỮ LIỆU
•
Gom cụm dữ liệu là một tác vụ trong khai phá dữ liệu.
•
Gom cụm dữ liệu giúp ta có thể hệ thống lại dữ liệu làm cho chúng không bị
rời rạc.
•
Với một cơ sở dữ liệu lớn và rời rạc thì việc gom cụm rất cần thiết và hầu
như là không thể thiếu.
MỤC ĐÍCH CỦA GOM CỤM
•
Mục đích của gom cụm dữ liệu là nhằm khám phá ra cấu trúc dữ liệu
thành lập các tập dữ liệu từ các nhóm dữ liệu lớn
YÊU CẦU CỦA GOM CỤM DỮ LIỆU
•
Gom cụm dữ liệu là làm cho các dữ liệu trong cụm thì “tương tự” nhau. Còn
các phần tử khác cụm thì “không tương tư” nhau.
•
Độ tương tự giữa các cụm dữ liệu do người dùng định nghĩa. Được xác định
dựa trên các đối tượng thuộc tính mô tả đối tượng. Thường ta đo khoản cách
giữa các đối tượng.
YÊU CẦU CỦA GOM CỤM DỮ LIỆU
•
Khả năng co giãn về tập dữ liệu.
•
Khả năng xử lý nhiều thuộc tính khác nhau.
•
Khả năng khám phá các cụm với hình dạng tùy ý.
•

Tối thiểu hóa yêu cầu về tri thức miền trong việc xác định thông số nhập.
•
Khả năng xử lý dữ liệu có nhiễu.
YÊU CẦU CỦA GOM CỤM DỮ LIỆU
•
Khả năng gom cụm tăng dần độc lập với dữ liệu nhập
•
Khả năng xử lý dữ liệu đa chiều
•
Khả năng gom cụm dựa trên ràng buộc
•
Khả diển và khả dụng
PHÂN LOẠI CÁC PHƯƠNG PHÁP GOM CỤM
•
Phân hoạch (partitioning): các phân hoạch được tạo ra và đánh giá theo một tiêu chí nào
đó.
•
Phân cấp (hierarchical): phân rã tập dữ liệu/đối tượng có thứ tự phân cấp theo một tiêu chí
nào đó.
•
Dựa trên mật độ (density-based): dựa trên connectivity and density functions.
•
Dựa trên lưới (grid-based): dựa trên a multiple-level granularity structure.
•
Dựa trên mô hình (model-based): một mô hình giả thuyết được đưa ra cho mỗi cụm; sau
đó hiệu chỉnh các thông số để mô hình phù hợp với cụm dữ liệu/đối tượng nhất.
•
……
PHƯƠNG PHÁP ĐÁNH GIÁ GOM CỤM DỮ LIỆU
•

Đánh giá ngoại (external validation)
•
Đánh giá kết quả gom cụm dựa vào cấu trúc được chỉ định trước cho tập dữ liệu
•
Độ đo : Rand statistic, Jaccard coefficient, Folkes and Mallows index
•
Đánh giá nội (internal validation)
•
Đánh giá kết quả gom cụm theo số lượng các vector của chính tập dữ liệu (ma trận gần – proximity matrix)
•
Độ đo : :Hubert’s statistic, Silhouette index, Dunn’s index, …
•
Đánh giá tương đối (relative validation)
•
Đánh giá kết quả gom cụm bằng việc so sánh các kết quả gom cụm khác ứng với các bộ trị thông số khác nhau
 Tiêu chí cho việc đánh giá và chọn kết quả gom cụm tối ưu
-
Độ nén (compactness): các đối tượng trong cụm nên gần nhau.
-
Độ phân tách (separation): các cụm nên xa nhau.
PHƯƠNG PHÁP ĐÁNH GIÁ GOM CỤM DỮ LIỆU
•
Đánh giá theo Entropy (trị nhỏ khi chất lượng gom cụm tốt)
∑ ∑∑ ∑
−=−=
i
i
ij
j
i

ij
i
i
i
ij
j
i
ij
i
n
n
n
n
n
n
p
p
p
p
pIEntropy )log()log()(
CÁC VẤN ĐỀ CẦN GIẢI QUYẾT
•
Biểu Diển Kiểu Dữ Liệu
+ Ta chỉ quan tâm đến những kiểu mà cần thiết cho việc gom cụm mà
thôi
+ Ta định nghĩa d(i,j) là khoản cách giữa 2 đối tượng i và j.
•
d(i,j) ≥ 0
•
d(i,i) = 0

•
d(i,j) = d(j,i)
•
d(i,j) ≤ d(i,k) + d(k,j)
với k là một điểm bất kì khác i,j.
CÁC VẤN ĐỀ CẦN GIẢI QUYẾT
•
Đối tượng i,j được biểu diển bởi vector x,y
•
Độ tương tự (similarity) giữa i và j dược tính theo công thức
•
x = (x1, …, xp)
•
y = (y1, …, yp)
•
s(x, y) = (x1*y1 + … + xp*yp)/((x1
2
+ … + xp
2
)
1/2
*(y1
2
+ … + yp
2
)
1/2
)
CÁC VẤN ĐỀ CẦN GIẢI QUYẾT
•

Interval-scaled variables/attributes
+ khoản lệch
+ khoản cách
+ Z-score measurement
|)| |||(|
1
21 fnffffff
mxmxmx
n
s −++−+−=
.
)
21
1
nffff
xx(x
n
m +++=
f
fif
if
s
mx
z
−
=
CÁC VẤN ĐỀ CẦN GIẢI QUYẾT
•
Các công thức tính độ đo khoản cách
+ Độ đo khoảng cách Minkowski

+ Độ đo khoản cách Manhattan
+ Độ đo khoản cách Euclidean
|| ||||),(
2211 pp
j
x
i
x
j
x
i
x
j
x
i
xjid −++−+−=
)|| |||(|),(
22
22
2
11 pp
j
x
i
x
j
x
i
x
j

x
i
xjid −++−+−=
CÁC VẤN ĐỀ CẦN GIẢI QUYẾT
•
Binary variables/attributes
Obj j
Obj i
pdbcasum
dcdc
baba
sum
++
+
+
0
1
01
Hệ số so trùng đơn giản (nếu đối xứng):
Hệ số so trùng Jaccard (nếu bất đối xứng):
dcba
cb
jid
+++
+
=),(
cba
cb
jid
++

+
=),(
CÁC VẤN ĐỀ CẦN GIẢI QUYẾT
•
Variables/attributes of mixed types
)(
1
)()(
1
),(
f
ij
p
f
f
ij
f
ij
p
f
d
jid
δ
δ
=
=
Σ
Σ
=
Nếu x

if
hoặc x
jf
bị thiếu (missing) thì
f (variable/attribute): binary (nominal)
d
ij
(f)
= 0 if x
if
= x
jf
, or d
ij
(f)
= 1 otherwise
f : interval-scaled (Minkowski, Manhattan, Euclidean)
f : ordinal or ratio-scaled
tính ranks r
if
và
z
if
trở thành interval-scaled
1
1
−
−
=
f

if
M
r
z
if
CÁC VẤN ĐỀ CẦN GIẢI QUYẾT
1
1
−
−
=
f
if
M
r
z
if
1
1
−
−
=
f
if
M
r
z
if
Ý NGHĨA CỦA VIỆC PHÂN CỤM
•

Phân cụm ta có thể đi sâu vào phân tích nghiên cứu từng cụm dữ liệu nhằm
khám phá và tìm kiếm các thông tin ẩn nhằm hỗ trợ cho việc ra quyết định
CÁC GIẢI THUẬT GOM CỤM DỮ LIỆU
•
Trong gom cụm dữ liệu có nhiều giải thuật , tiêu biểu là giải thuật k-mean và
giải thuật gom cụm phân cấp nhóm.
•
Chúng ta sẽ tìm hiểu giải thuật K-Mean trong gom cụm dữ liệu
GIẢI THUẬT K-MEANS
•
INPUT: Một CSDL gồm n đối tượng và số các cụm k.
•
OUTPUT: Các cụm Ci (i=1, ,k) sao cho hàm tiêu chuẩn E đạt giá trị tối thiểu.
•
Bước 1: Khởi tạo
Chọn k đối tượng mj (j=1 k) là trọng tâm ban đầu của k cụm từ tập dữ liệu
(việc lựa chọn này có thể là ngẫu nhiên hoặc theo kinh nghiệm).
•
Bước 2: Tính toán khoảng cách
Đối với mỗi đối tượng Xi (1 <i <n) , tính toán khoảng cách từ nó tới mỗi
trọng tâm mj với j=1, ,k, sau đó tìm trọng tâm gần nhất đối với mỗi đối tượng.
•
Bước 3: Cập nhật lại trọng tâm
Đối với mỗi j=1, ,k, cập nhật trọng tâm cụm mj bằng cách xác định trung bình
cộng của các vector đối tượng dữ liệu.
•
Bước 4: Điều kiện dừng
Lặp các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi.
GIẢI THUẬT K-MEANS
•

Độ phức tạp dữ liệu được tính là O(n.k.d.t.T)
Trong đó : n là số đối tượng dữ liệu
k là số cụm dữ liệu
d là số chiều
t là số vòng lặp
T là thời gian tính toán một phép tính cơ sở như : cộng , trừ,
nhân hoặc chia
GIẢI THUẬT K-MEANS
•
Ưu điểm :K-Means phân tích phân cụm đơn giản nên có thể áp dụng với tập
dữ liệu lớn
•
Nhược điểm: K-Means chỉ áp dụng với dữ liệu có thuộc tính số và khám phá
ra các cụm có dạng hình cầu, k-means còn rất nhạy cảm với nhiễu và các
phần tử ngoại lai trong dữ liệu. Ngoài ra còn phụ thuộc nhiều vào các thông
số đầu vào
GIẢI THUẬT K-MEANS
•
Trong trường hợp, các trọng tâm khởi tạo ban đầu mà quá lệch so với các trọng tâm
cụm tự nhiên thì kết quả phân cụm của k-means là rất thấp, nghĩa là các cụm dữ liệu
được khám phá rất lệch so với các cụm trong thực tế. Trên thực tế người ta chưa có
một giải pháp tối ưu nào để chọn các tham số đầu vào, giải pháp thường được sử dụng
nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháp tốt
nhất.
GIẢI THUẬT K-MEANS
•
Đến nay, đã có rất nhiều thuật toán kế thừa tư tưởng của thuật toán
k-means áp dụng trong khai phá dữ liệu để giải quyết tập dữ liệu có
kích thước rất lớn đang được áp dụng rất hiệu quả và phổ biến như
thuật toán k-medoid, PAM, CLARA, CLARANS, k- prototypes, …

BÀI BÁO CÁO-TÌM HIỂU GOM CỤM DỮ LIỆU VÀ HỌ GIẢI THUẬT K-MEAN

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về