Tải bản đầy đủ (.pdf) (61 trang)

luận văn: các lược đồ phân cụm phân cấp bất biến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.01 MB, 61 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ







DƯƠNG HẢI ĐƯỜNG








CÁC LƯỢC ĐỒ PHÂN CỤM PHÂN CẤP BẤT BIẾN








LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN












Hà Nội – 2014









ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ




DƯƠNG HẢI ĐƯỜNG






CÁC LƯỢC ĐỒ PHÂN CỤM PHÂN CẤP BẤT BIẾN


Ngành: Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103



LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN







NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. HOÀNG XUÂN HUẤN







Hà Nội – 2014





1



Lời cảm ơn
Trước tiên, tôi xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo PGS. TS
Hoàng Xuân Huấn đã dành rất nhiều thời gian và tâm huyết hướng dẫn nghiên cứu và
giúp tôi hoàn thành tốt luận văn tốt nghiệp này. Thầy đã mở ra cho tôi những vấn đề
khoa học rất lý thú, định hướng nghiên cứu các lĩnh vực hết sức thiết thực và vô cùng
bổ ích, đồng thời tạo điều kiện thuận lợi tốt nhất cho tôi học tập và nghiên cứu.
Em xin trân trọng cảm ơn các Thầy, Cô giáo trong khoa Công nghệ thông tin –
Trường ĐH Công nghệ – ĐH Quốc gia Hà Nội đã tận tình chỉ dạy, cung cấp cho tôi
những kiến thức quý báu và luôn nhiệt tình giúp đỡ, tạo điều kiện thuận lợi nhất trong
suốt quá trình học tập tại trường.
Đồng thời tôi xin chân thành cảm ơn những người thân trong gia đình cùng toàn
thể bạn bè đã luôn giúp đỡ, động viên những lúc gặp phải khó khăn trong học tập,
công việc và cuộc sống.
2



Lời cam đoan
Những kiến thức trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và trình
bày lại theo cách hiểu. Trong quá trình làm luận văn, tôi có tham khảo các tài liệu có
liên quan và đã ghi rõ nguồn tài liệu tham khảo. Tôi xin cam đoan đây là công trình
nghiên cứu của tôi và không sao chép của bất kỳ ai.
Hà Nội, ngày … tháng 10 năm 2014
Học viên





Dương Hải Đường


3



MỤC LỤC
Lời cảm ơn 1

Lời cam đoan 2

MỤC LỤC 3

DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT 5

DANH MỤC CÁC HÌNH VẼ 6

DANH MỤC CÁC BẢNG BIỂU 7

MỞ ĐẦU 8

CHƯƠNG I: TỔNG QUAN VỀ PHÂN CỤM 11

1.1. Phân cụm dữ liệu là gì 11

1.2. Các kiểu dữ liệu và độ đo tương tự 11


1.2.1. Cấu trúc dữ liệu 11

1.2.2. Các kiểu dữ liệu 12

1.2.2. Độ đo tương tự 13

1.3. Các phương pháp phân cụm dữ liệu 16

1.4. Vấn đề chuẩn hóa dữ liệu 16

CHƯƠNG II: PHÂN CỤM DỮ LIỆU HƯỚNG TIẾP CẬN PHÂN CẤP 18

2.1. Phân cụm phân cấp 18
2.2. Thuật toán BIRCH 20

2.3. Thuật toán CURE 23

2.4. Thuật toán ANGNES 25

2.5. Thuật toán DIANA 25

2.6. Thuật toán ROCK 26

2.7. Thuật toán Chameleon 27

CHƯƠNG 3: CÁC LƯỢC ĐỒ PHÂN CỤM PHÂN CẤP BẤT BIẾN 28

3.1. Các thủ tục phân cụm bất biến và không bất biến 28

3.2. Các định nghĩa cơ bản 29


3.3. Lược đồ tổng quát của các thủ tục phân cụm phân cấp bất biến 31

4



3.4. Một tiếp cận thuyết đồ thị để tính bao đóng bắc cầu 35

3.5. Các thủ tục phân cụm với các hàm hàng xóm đồng nhất 38

3.6. Lựa chọn các cụm có giá trị 41

3.7. Các thủ tục với các hàm hàng xóm không đồng nhất 43

3.8. Kết quả thực nghiệm 44

3.8.1. Chương trình 44

3.8.3. Ví dụ dữ liệu chuỗi thời gian 48

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 57

TÀI LIỆU THAM KHẢO 58



5




DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT

FN Furthest Neighbour
NN Nearest Neighbour
PCDL Phân cụm dữ liệu
UPGMA Un-Weighted Pair-Group Method using Arithmetic averages
BIRCH Balanced Iterative Reducing and Clustering Using Hierarchies
UWGMA Un-weighted Within-Group Method using Arithmetic averages
BIRCH Balanced Iterative Reducing and Clustering Using Hierarchies
CURE Clustering Using Representatives
Ultrametric Siêu metric

6



DANH MỤC CÁC HÌNH VẼ

Hình 1.1: Phân loại kiểu dữ liệu dựa trên kích thước miền. 12

Hình 1.2: Phân loại kiểu dữ liệu dựa trên hệ đo. 13

Hình 1.3: Dữ liệu chữ thập với các mêtric : a) Euclide; b) Mahattan 17

Hình 1.4: Kết quả phân cụm thay đổi khi đổi tỷ lệ trục tọa độ. a) {Hùng, Bạo },
{Cường Lực}; b) {Cường, Bạo}, {Hùng, Lực} 17

Hình 2.1: Phân cụm tập S = {a, b, c, d, e} theo phương pháp “dưới lên” 19


Hinh 2.2: Cây CF sử dụng trong Birch 21

Hình 2.3: Di chuyển về tâm. 23

Hình 2.4: Kết nhập tại mỗi bước. 24

Hình 2.5 Cụm dữ liệu khai phá bởi thuật toán Cure 24

Hình 3.1: Sự không bất biến của thuật toán liên kết trung bình đối với đánh số khởi tạo
các đối tượng: (a) 7 đối tượng phân bố đều trên hình tròn; (b-c) hai đánh số khác nhau
của các đối tượng; (d) sơ đồ phân cấp đạt được từ các đánh số và kết quả phân cụm
của các đối tượng {{a,b},g,{c,d},{e,f}} và {{b,c},a},{d,e},{f,g}} 28

Hình 3.2: (a) Đồ thị quan hệ tương tự khởi tạo S; (b-d) Các đồ thị có thể có của quan
hệ tương đương E đạt được bởi thủ tục phân cụm từ S. 40

Hình 3.3: Dữ liệu “butterfly” 43

Hình 3.4: Sơ đồ khối chương trình 45

Hình 3.5: Giao diện chính của chương trình 45

Hình 3.6: Dữ liệu các cụm tự nhiên 46

Hình 3.7: Chuỗi thời gian chuỗi thời gian 20 năm từ 1994 đến năm 2013 của GDP
bình quân đầu người của 16 nước 50

Hình 3.8: Cây phân cấp với f
1
, f

2
, f
3
đồng nhất; j = 1; p= 0.5; h
1
53


7



DANH MỤC CÁC BẢNG BIỂU
Bảng 1: Bảng giá trị tham số 14

Bảng 3.1: Khoảng cách giữa bảy điểm phân bổ đều trên hình tròn (Hình 3.1) 28

Bảng 3.2: Tọa độ butterfly 43

Bảng 3.3: Bảng các giá trị không tương tự các điểm hình 3.6 46

Bảng 3.4: GDP bình quân đầu người từ năm 1994 đến 2013 nước quy USD 48

Bảng 3.5: Giá trị độ đo tương tự xu hướng địa phương của 16 nước với nhau 51

Bảng 3.6: Giá trị đã được tinh chỉnh độ đo tương tự xu hướng địa phương 51

Bảng 3.7: Cây khung lớn nhất 52

Bảng 3.8: Giá trị đã tính bao đóng bắc cầu độ đo tương tự xu hướng địa phương 52



8



MỞ ĐẦU
Tin học hóa một cách nhanh chóng trong hoạt động sản xuất, kinh doanh đã tạo
ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu cơ sở dữ liệu cực lớn
cỡ Gigabyte, thậm chí là Terabyte đã được tạo ra. Với lượng dữ liệu lưu trữ khổng lồ
này, các kỹ thuật khai phá dữ liệu cũ bộc lộ nhiều hạn chế, dẫn tới yêu cầu cần phải có
những kỹ thuật mới để chuyển đổi dữ liệu khổng lồ thành các tri thức có ích. Những
năm gần đây, các kỹ thuật khai phá dữ liệu “nóng” trở lại và trở thành một lĩnh vực
thời sự của nền công nghệ thông tin [1,2,7,10,11,12…].
Luận văn này trình bày khảo cứu của tác giả về lược đồ tham số tổng quát cho
các thủ tục phân cụm phân cấp với tính bất biến qua các biến đổi đơn điệu các giá trị
tương tự và tính bất biến qua đánh số các đối tượng. Lược đồ này bao gồm 2 bước:
tinh chỉnh những giá trị tương tự được đưa ra giữa các đối tượng và bao đóng bắc cầu
của quan hệ định trị đạt được. Luận văn cũng khảo cứu vài thuộc tính về mặt lý thuyết
của lược đồ đã được chỉ ra, và các lớp tham số khác nhau từ lược đồ dựa trên nhận
thức như kiểu “giữ các lớp tương tự”, “ngắt các cầu giữa các cụm.”
Có ít nhất hai mục đích khi tiến hành phân tích giá trị tương tự giữa các đối
tượng trong một tập: (1) chia tập đối tượng thành các lớp các đối tượng tương tự và (2)
phân tích cấu trúc tương tự của tập này. Nhiều thuật toán phân cụm hướng đến chia tập
đối tượng đã cho thành một số cho trước các lớp đối tượng tương tự, mà không đưa ra
cấu trúc đặc trưng nhưng các thuật toán này phù hợp dữ liệu với một vài mô hình định
trước [16,27]. Người dùng có thể rất hài lòng với những cụm tốt đạt được đối với dữ
liệu của mình bởi thủ tục phân cụm chuẩn nào đó, nhưng rất có thể cấu trúc các cụm
đạt được không phản ánh cấu trúc dữ liệu thực chất của dữ liệu mà bị áp đặt bởi các
chi tiết kỹ thuật của thuật toán phân cụm được áp dụng. Một trong những nguyên nhân

của nhược điểm này trong nhiều thuật toán phân cụm phổ biến là từ tính không bất
biến của các thuật toán này với việc đánh số (hoán vị, xếp thứ tự) các đối tượng. Việc
đổi trật tự đánh số các đối tượng tại đầu vào của thủ tục phân cụm không bất biến
thường gây ra sự thay đổi các kết quả của phân cụm. Có nghĩa là việc phân cụm đạt
được đối với cách đánh số đối tượng đã cho không phản ánh cấu trúc của tập các đối
tượng. Một ví dụ đơn giản của sự không bất biến như vậy của các thuật toán cổ điển
được xét trong Chương 3, mục 3.1. Đòi hỏi tính bất biến của các thuật toán phân cụm
đối với đánh số các đối tượng trong phân tích cụm là đòi hỏi quan trọng nhất
[2,7,9,22], nhưng thật không may, đa số các thuật toán phân cụm phổ biến không thỏa
mãn thuộc tính này. Thuộc tính này được thỏa mãn trong thuật toán liên kết đơn (còn
được gọi là hàng xóm gần nhất) và được trình bày trong [16,22-24]. Thuật toán này
xây dựng loạt chuỗi các cụm và chính vì lý do đó nó chỉ phản ánh một quan điểm cụ
thể với “cụm” và không luôn luôn được chấp nhận. Luận văn quan tâm tới lược đồ
9



tham số của các thủ tục phân cụm bất biến, lược đồ này đa dạng quan điểm đối với
“cụm” và bao gồm thuật toán liên kết đơn như là một trường hợp cụ thể.
Một đòi hỏi quan trọng khác đối với thuật toán phân cụm là bất biến với sự biến
đổi đều của các giá trị tương tự giữa các đối tượng [19,22,23,25]. Đòi hỏi này là cần
thiết đối với thuật toán phân cụm nếu các giá trị tương tự được ước lượng bởi các
chuyên gia trong độ đo có thứ tự. Sự đòi hỏi này cũng rất cần thiết cho sự không nhạy
cảm của các kết quả phân cụm đối với việc chọn độ đo tương tự hoặc độ đo không
tương tự.
Luận văn khảo cứu lược đồ tổng quát của thủ tục phân cụm phân cấp thỏa mãn
cả hai sự đòi hỏi bất biến được quan tâm ở trên. Lược đồ này được đề xuất đầu tiên bởi
Batyrshin [3-5] dựa vào khái niệm quan hệ tương đương mờ, khái niệm này được giới
thiệu và nghiên cứu trong [29,31]. Thủ tục phân cụm trong lược đồ này bao gồm 2
bước: tinh chỉnh các giá trị tương tự đã cho giữa các đối tượng và bao đóng bắc cầu

lớn nhất-nhỏ nhất của quan hệ (mờ) định trị đạt được. Khi tinh chỉnh các giá trị tương
tự không được dùng và chỉ áp dụng bao đóng bắc cầu của quan hệ tương tự đã cho thì
lược đồ phân cụm dẫn tới thủ tục phân cụm được đề xuất trong [29] thuật toán này
tương tự như thuật toán liên kết đơn [17]. Bởi vì bao đóng bắc cầu là bất biến đối với
đánh số các đối tượng và đối với biến đổi đều của các giá trị tương tự, thủ tục phân
cụm sẽ thỏa mãn cả hai loại bất biến nếu thủ tục tinh chỉnh cũng thỏa mãn hai bất biến
trên. Vài lược đồ của các thủ tục tinh chỉnh tham số bất biến như vậy được đưa ra
nghiên cứu trong luận văn.
Để xây dựng thủ tục phân cụm hợp lý trong lược đồ quan tâm, cần thiết phải đề
xuất thủ tục hiệu chỉnh phù hợp. Luận văn khảo cứu các thuộc tính của các quan hệ
tương tự và các thủ tục hiệu chỉnh liên quan đến nhận thức cụm “tự nhiên” và phân
cụm “hợp lý”. Các kết quả chính được đưa ra trong Định lý 2 và Bổ đề 5 cho thấy mối
quan hệ giữa các thuộc tính của các quan hệ tương tự và các thủ tục hiệu chỉnh. Định
lý 2 đưa ra các nguyên nhân cho việc xây dựng lớp tổng thể của thủ tục hiệu chỉnh như
là sự biến đổi làm giảm các giá trị tương tự trong quan hệ tương tự khởi tạo cho trước.
Bổ đề 5 nói rằng một vài lớp biến đổi như vậy thì kết quả của thủ tục phân cụm sẽ thỏa
mãn tính chất “giữ nguyên các lớp tương tự”. Kết quả này được dùng xa hơn đối với
việc xây dựng thủ tục phân cụm, “ngắt” các lớp tương tự được xem như “các cầu” giữa
các cụm.
Ngoài phần kết luận, cấu trúc nội dung của luận văn bao gồm 3 chương:
Chương 1: Tổng quan về phân cụm dữ liệu
Chương này trình bày khái niệm chung về phân cụm dữ liệu, các độ đo tương
tự, và vấn đề chuẩn hóa dữ liệu.
Chương 2: Phân cụm dữ liệu hướng tiếp cận phân cấp
10



Chương này trình bày khái niệm phân cụm phân cấp (PCPC) và giới thiệu một
số phương pháp, giải thuật của phân cụm phân cấp.

Chương 3: Các thủ tục phân cụm phân cấp bất biến
Chương này trình bày lược đồ các thủ tục phân cụm bất biến, phân cụm với các
hàm đồng nhất, không đồng nhất, cụm có giá trị, và ví dụ minh họa.

11



CHƯƠNG I: TỔNG QUAN VỀ PHÂN CỤM
1.1. Phân cụm dữ liệu là gì
Dựa vào khám phá cấu trúc tập dữ liệu, ta chia tập dữ liệu thành các cụm rời
nhau sao cho các đối tượng trong cùng một cụm thì tương tự nhau so với các đối tượng
khác cụm [1]. Phân cụm được dùng cho các mục đích sau:
+ Tóm tắt và giải thích dữ liệu bài toán.
Nhiều bài toán, dữ liệu có thể được tóm tắt nhờ xem xét thuộc tính của các cụm
dữ liệu mà không cần thiết xem xét thuộc tính của từng mẫu. Trong nhiều lý thuyết
khoa học, việc giải thích theo cụm cũng rất có ý nghĩa, chẳng hạn, việc phân tích tiến
hóa sinh học có thể thực hiện theo loài và nhóm loài.
+ Tạo mẫu cho tiếp cận phân lớp thống kê.
Trong nhiều bài toán phân lớp, việc thu thập dữ liệu mất nhiều thời gian và chi
phí lớn. Việc phân cụm dữ liệu được thực hiện ở giai đoạn đầu để ước lượng phân phối
lớp cho các tập mẫu nhỏ.
+ Để tạo tâm cho các nơron nhân tạo trong các bộ phân lớp loại này.
Khi dùng mạng nơron nhân tạo để phân lớp, người ta thường dùng vectơ trung
bình của các vectơ đặc trưng trong cụm làm tâm của các nơron để nhận biết các mẫu
có đặc trưng gần nó.
+ Một giải pháp giúp xử lý dữ liệu lớn.
Việc khám phá tri thức trong các cơ sở dữ liệu thường phải xử lý khối lượng dữ
liệu rất lớn, nhiều khi ngay cả các thuật toán với độ phức tạp tính toán là đa thức cũng
không dùng được. Việc phân và xử lý dữ liệu theo các cụm là một giải pháp hữu hiệu,

vì vậy bài toán phân cụm nay được nhiều người quan tâm trở lại.
1.2. Các kiểu dữ liệu và độ đo tương tự
1.2.1. Cấu trúc dữ liệu
Các thuật toán gom cụm hầu hết sử dụng hai cấu trúc dữ liệu điển hình sau:
Ma trận dữ liệu (hay cấu trúc đối tượng theo biến): Biểu diễn n đối tượng và
p biến (hay còn được gọi là các phép đo hoặc các thuộc tính) của đối tượng, có dạng
ma trận n hàng và p cột. Trong đó, mỗi hàng biểu diễn một đối tượng, các phần tử
trong mỗi hàng chỉ giá trị thuộc tính tương ứng của đối tượng đó.
















npnfn
ipifi
pf
xxx
xxx
xxx






1
1
1111

12



Ma trận phi tương tự (cấu trúc đối tượng theo đối tượng): Lưu trữ khoảng
cách của tất cả các cặp đối tượng. Biểu thị bằng ma trận n hàng và n cột. Trong đó,
d(i,j) là khoảng cách hay độ khác biệt giữa các đối tượng i và đối tượng j. d(i,j) là một
số không âm, d(i,j) gần tới 0 khi hai đối tượng i và j có độ tương đồng cao hay chúng
“gần” nhau, d(i,j) càng lớn nghĩa là hai đối tượng i và j có độ tương đồng càng thấp
hay chúng càng “xa” nhau. Do d(i,j) = d(j,i) và d(i,i)=0 nên ta có thể biểu diễn ma trận
phi tương tự như sau:

















0 )2,()1,(
0)2,3()1,3(
0)1,2(
0
ndnd
dd
d


Ma trận dữ liệu thường được gọi là ma trận 2 kiểu (two-mode matrix), trong khi
đó ma trận phi tương tự được gọi là ma trận 1 kiểu (one-mode matrix). Phần lớn các
thuật toán phân cụm thường sử dụng cấu trúc ma trận phi tương tự. Do đó, nếu dữ liệu
cần phân cụm được tổ chức dưới dạng ma trận dữ liệu thì cần biến đổi về dạng ma trận
phi tương tự trước khi tiến hành phân cụm.
1.2.2. Các kiểu dữ liệu
Cho một cơ sở dữ liệu D chứa n đối tượng trong không gian k chiều; x, y, z là
các đối tượng thuộc D: x = (

,

,…,

); y = (


,

,…,

); z = (

,

,…,

). Trong
đó: 

, 

, 

(i = 1 k) là các đặc trưng hoặc thuộc tính tương ứng của các đối tượng x,
y, z. Do đó, khái niệm “các kiểu dữ liệu” và “các kiểu thuộc tính dữ liệu” được xem là
tương đương nhau.
Có hai đặc trưng để phân loại kiểu dữ liệu là kích thước miền và hệ đo.
1.2.2.1. Phân loại kiểu dữ liệu dựa trên kích thước miền

Hình 1.1: Phân loại kiểu dữ liệu dựa trên kích thước miền.
Thuộc tính liên tục (Continuous Attribute): nếu miền giá trị của nó là không
đếm được, nghĩa là giữa hai giá trị tồn tại vô số giá trị khác. Thí dụ: các thuộc tính về
màu, cường độ âm thanh,
Nhị phân
Kích thước miền
Liên tục

Rời rạc
13



Thuộc tính rời rạc (Discrette Attribute): nếu miền giá trị của nó là tập hữu hạn,
đếm được. Thí dụ: loại ô tô là một thuộc tính rời rạc với tập giá trị là: {xe tải, xe
khách, xe con, taxi}.
Thuộc tính nhị phân (Binary Attribute): là trường hợp đặc biệt của thuộc tính
rời rạc mà miền giá trị của nó chỉ có hai phần tử được diễn tả như: Yes/ No hoặc Nam/ Nữ,
1.2.2.2. Phân loại kiểu dữ liệu dựa trên hệ đo

Hình 1.2: Phân loại kiểu dữ liệu dựa trên hệ đo.
Thuộc tính định danh (Nominal): đây là dạng thuộc tính khái quát hoá của thuộc
tính nhị phân, trong đó miền giá trị là rời rạc không phân biệt thứ tự và có nhiều hơn
hai phần tử. Nếu x và y là hai đối tượng thuộc tính thì chỉ có thể xác định là x

y hoặc
x = y. Thí dụ như thuộc tính về nơi sinh.
Thuộc tính có thứ tự (Ordinal): là thuộc tính định danh có thêm tính thứ tự,
nhưng chúng không được định lượng. Nếu x và y là hai thuộc tính thứ tự thì ta có thể
xác định là x

y hoặc x = y hoặc x > y hoặc x < y. Thí dụ như thuộc tính huy chương
của vận động viên thể thao.
Thuộc tính khoảng (Interval): dùng để đo các giá trị theo xấp xỉ tuyến tính. Với
thuộc tính khoảng, chúng ta có thể xác định một thuộc tính là đứng trước hoặc đứng
sau thuộc tính khác với một khoảng là bao nhiêu. Nếu x
i
> y

i
thì ta nói x cách y một
khoảng x
i
– y
i
tương ứng với thuộc tính thứ i. Một thí dụ về thuộc tính khoảng như
thuộc tính số serial của một đầu sách trong thư viện hoặc thuộc tính số kênh trên
truyền hình.
Thuộc tính tỉ lệ (Ratio): là thuộc tính khoảng nhưng được xác định một cách
tương đối so với điểm mốc, thí dụ như thuộc tính chiều cao hoặc cân nặng lấy điểm 0
làm mốc.
1.2.2. Độ đo tương tự
Sự khác biệt hay tương tự giữa hai đối tượng được xác định qua một hàm
khoảng cách giữa chúng, khoảng cách d(x,y) giữa x và y cho bởi mêtric thỏa mãn các
tính chất sau:
Tính xác định dương:
d(x,y) ≥0, ∀ x,y,
d(x,y) = 0 khi và chỉ khi x = y.
Hệ đo
Định danh
Có thứ tự
Khoảng
Tỉ lệ
14



Tính giao hoán:
d(x,y) = d(y,x), ∀ x, y.

Bất đẳng thức tam giác:
d(x,y) ≤ d(x,z) + d(z,y), ∀ x, y, z.
Nếu không gian đặc trưng là không gian số học d-chiều và mêtric có tính chất:
d(ax,y) =
|

|
d(x,y)
Sau đây là các phép đo độ tương tự áp dụng đối với các kiểu dữ liệu khác nhau.
1.2.2.1 Thuộc tính nhị phân
Để tìm độ đo, trước hết người ta xây dựng bảng sau:
Bảng 1: Bảng giá trị tham số
Đối tượng y
Đối tượng x
y:1 y:0 Tổng
x:1





+


x:0






+


Tổng

+



+




Trong đó :

=

+

+

+

, các đối tượng x, y mà tất cả các thuộc tính tính của
nó đều là nhị phân biểu thị bằng 0 và 1. Bảng trên cho ta các thông tin sau:

là tổng số các thuộc tính có giá trị là 1 trong cả hai đối tượng x, y;

là tổng số các giá trị thuộc tính có giá trị là 1 trong x và 0 trong y;


là tổng số các giá trị thuộc tính có giá trị là 0 trong x và 1 trong y;


là tổng số các giá trị thuộc tính có giá trị là 0 trong x và y.
Khi đó độ đo tương tự được đo như sau:
Hệ số đối sánh đơn giản:



),( yxd
, ở đây cả hai đối tượng x và y có vai
trò như nhau, nghĩa là chúng đối xứng và có cùng trọng số.
Hệ số Jacard:



),( yxd
, chú ý rằng tham số này bỏ qua số các đối
sánh giữa 0 – 0. Công thức tính này được sử dụng trong trường hợp mà trọng số của
các thuộc tính có giá trị 1 của đối tượng dữ liệu có cao hơn nhiều so với các thuộc tính
có giá trị 0, như vậy các thuộc tính nhị phân ở đây là không đối xứng.
1.2.2.2. Thuộc tính định danh
Độ đo phi tương tự giữa hai đối tượng x và y được định nghĩa như sau:
p
mp
yxd

),(


Trong đó: m là số thuộc tính đối sánh tương ứng trùng nhau và p là tổng số các
thuộc tính.
15



1.2.2.3. Thuộc tính có thứ tự
Phép đo độ phi tương tự giữa các đối tượng dữ liệu với thuộc tính thứ tự được
thực hiện như sau, ở đây ta giả sử i là thuộc tính thứ tự có M
i
giá trị (M
i
là kích thước
miền giá trị):
Các trạng thái M
i
được sắp thứ tự như sau: [1…M
i
], chúng ta có thể thay thế
mỗi giá trị của thuộc tính bằng giá trị cùng loại r
i
, với r
i
∈{1 M
i
}.
Mỗi một thuộc tính có thứ tự có các miền giá trị khác nhau, vì vậy chúng ta
chuyển đổi chúng về cùng miền giá trị [0,1] bằng cách thực hiện phép biến đổi sau cho
mỗi thuộc tính :
1

1
)(
)(



M
r
z
i
j
i
j
i


Sử dụng công thức tính độ phi tương tự của thuộc tính khoảng đối với các giá
trị
z
j
i
)(
, đây cũng chính là độ phi tương tự của thuộc tính có thứ tự.
1.2.2.4. Thuộc tính khoảng
Sau khi chuẩn hoá, độ đo phi tương tự của hai đối tượng dữ liệu x, y được xác
định bằng các metric khoảng cách:
Khoảng cách Minskowski: 
(
,
)

=
(
∑ |


− 

|



)



, q ≥ 1.
Có ba khoảng cách phổ biến sử dụng khoảng cách Minskowski định nghĩa
như sau:
Khoảng cách Euclide: 
(
,
)
=
(
∑ |


− 

|




)



, (q = 2)
Khoảng cách Manhattan: 
(
,
)
=
∑ |


− 

|



, (q = 1)
Khoảng cách cực đại: 
(
,
)
=



|


− 

|
, (q →∞).
Khoảng cách Euclide là chuẩn khoảng cách được dùng phổ biến nhất trong các
chuẩn theo khoảng cách Minshowski.
Ngoài ra, còn có chuẩn khoảng cách Mahalanobis:

(
,
)
=
(
− 
)


(
− 
)

Trong đó, A là một ma trận đối xứng xác định dương.
1.2.2.5. Thuộc tính tỉ lệ
Có nhiều cách khác nhau để tính độ tương tự giữa các thuộc tính tỉ lệ. Một trong
những số đó là sử dụng công thức tính logarit cho mỗi thuộc tính x
i
, thí dụ q

i
= log(x
i
),
lúc này q
i
đóng vai trò như thuộc tính khoảng (Interval - Scale). Phép biến đổi logarit
này thích hợp trong trường hợp các giá trị của thuộc tính là số mũ.
1.2.2.6. Chuỗi thời gian (Time Series)
Chuỗi thời gian là những hình thức đơn giản nhất của dữ liệu tạm thời. Chính
xác, một chuỗi thời gian là một chuỗi của số thực đại diện cho các phép đo của một
16



biến thực tế tại các khoảng thời gian bằng nhau (Gunopulos và Das, 2000). Ví dụ, giá cổ phiếu, các
phong trào, nhiệt độ tại một điểm nào đó, và khối lượng bán hàng theo thời gian tất cả đo là các chuỗi
thời gian. Một chuỗi thời gian là rời rạc nếu biến được xác định trên một tập hữu hạn các điểm thời
gian. Nhiều nhất của chuỗi thời gian gặp phải trong phân tích cụm là thời gian rời rạc. Khi một biến
được định nghĩa ở tất cả các điểm trong thời gian, sau đó là chuỗi thời gian là liên tục. Nói chung, một
chuỗi thời gian có thể được coi là một hỗn hợp của bốn thành phần sau (Kendall và Ord, 1990):
 Một xu hướng, ví dụ, các phong trào lâu dài;
 Biến động về xu hướng đều đặn hơn hoặc ít hơn;
 Một thành phần theo mùa;
 Một hiệu ứng dư hoặc ngẫu nhiên.
1.3. Các phương pháp phân cụm dữ liệu
Có nhiều thuật toán phân cụm dựa trên các cách tiếp cận khác nhau về tính
giống nhau của đối tượng (tính tương đồng, tính tương tự) trong cụm và có thể phân
làm 4 loại chính:
Phương pháp phân cấp (Hierarchical Data Clustering);

Phương pháp phân hoạch (Partition Based Data Clustering);
Phương pháp dựa trên mật độ (Density Based Data Clustering);
Phương pháp dựa trên lưới (Grid Based Data Clustering).
Trong đó, hai phương pháp phân cấp và phân hoạch là thông dụng hơn.
1.4. Vấn đề chuẩn hóa dữ liệu
Tính tương tự giữa các đối tượng thường được xác định qua khoảng cách giữa
chúng, khoảng cách càng bé thì tính tương tự càng cao. Việc chọn mêtric và đơn vị
chia cho mỗi đặc trưng của dữ liệu ảnh hưởng nhiều tới kết quả phân cụm. Trong Hình
1.3 biểu diễn tập dữ liệu hình chữ thập, nếu chia tập dữ liệu thành hai cụm theo tiêu
chuẩn cực tiểu sai số trung bình:
E=


k
d
n
k
k

yx
yx
,
2
1
),(
1

trong đó n
k
là số cặp mẫu x, y trong

k

. Trong ví dụ này, nếu dùng chuẩn
Euclide thì ta được hai cụm ở hình a còn khi dùng chuẩn Mahattan thì ta được hai cụm
ở hình b.
17




Hình 1.3: Dữ liệu chữ thập với các mêtric : a) Euclide; b) Mahattan
Việc chọn đơn vị cho đặc trưng cũng có thể cho kết quả khác nhau. Hình 1.4
minh họa 4 mẫu trong tập dữ liệu phạm nhân với hai đặc trưng tài sản và số tiền sự,
trong đó đơn vị đo cho đặc trưng tài sản thay đổi (tương ứng là cách chọn tỷ lệ cho
trục tọa độ thay đổi). Bằng trực quan, ta thấy kết quả phân dữ liệu thành hai cụm ở
hình a) là {Hùng, Bạo } và {Cường, Lực }; còn ở hình b) là { Cường, Bạo}, {Hùng, Lực}.

Hình 1.4: Kết quả phân cụm thay đổi khi đổi tỷ lệ trục tọa độ. a) {Hùng, Bạo}, {Cường
Lực}; b) {Cường, Bạo}, {Hùng, Lực}
Không phải lúc nào cũng cần chuẩn hóa dữ liệu, đặc biệt với các bài toán cần
thông tin từ đặc trưng gốc thì cần cân nhắc cẩn thận.


18



CHƯƠNG II: PHÂN CỤM DỮ LIỆU HƯỚNG TIẾP CẬN PHÂN CẤP
2.1. Phân cụm phân cấp
Quá trình thực hiện phân cụm theo phương pháp phân cấp được mô tả bởi một

đồ thị có cấu trúc cây, vì vậy nó còn được gọi là phương pháp phân cụm cây [1].
Trong đó, tập dữ liệu được sắp xếp thành một cấu trúc có dạng hình cây gọi là cây
phân cụm. Cây này có thể được xây dựng nhờ kỹ thuật đệ quy theo hai phương pháp
tổng quát: phương pháp dưới lên (bottom up) và phương pháp trên xuống (top down).
Các thuật toán theo phương pháp dưới lên còn gọi là các thuật toán trộn. Ban
đầu, người ta khởi tạo mỗi đối tượng làm một cụm và dùng thủ tục đệ quy để trộn hai
cụm gần nhất với nhau trong mỗi bước để có kết quả chia cụm mới. Thủ tục đệ quy kết
thúc ta có tập duy nhất là toàn bộ dữ liệu. Các thuật toán phân biệt với nhau ở tiêu
chuẩn đánh giá hai cụm nào là gần nhất dựa trên khoảng cách các cụm chọn trước.
Quy tắc để chọn các cụm trộn này được gọi là quy tắc liên kết. Quá trình thực hiện
thuật toán được biểu diễn thành cây và quyết định phân dữ liệu thành bao nhiêu cụm
sẽ do người dùng quyết định. Người dùng cũng dựa trên cây này để nhận được kết quả
phân cụm.
Cụ thể, với cách tính khoảng cách để chọn cặp cụm trộn với nhau cho trước, các
thuật toán trộn bao gồm các bước sau:
1. Khởi tạo mỗi phần tử làm một cụm 

=
{


}
, c = n
2. Khi c
≠ 1 thực hiện lặp:

2.1. Chọn hai cụm gần nhất 

và 


theo quy tắc đã chọn
2.2. Trộn 

và 

thành 

=



∪ 


// còn c-1 cụm
2.3. c c-1
Phương pháp trên xuống còn gọi là phương pháp tách, được thực hiện theo trình
tự ngược với phương pháp trộn. Trong mỗi bước người ta chọn một cụm để tách thành
cụm con theo quy tắc đánh giá và tách cụm cho trước. Phương pháp này thường được
áp dụng khi người ta có thêm thông tin về phân bố cụm để có phương pháp tách phù hợp.
Ví dụ:
Trong ví dụ này, ta giải thiết đã có quy tắc liên kết và không bàn cụ thể tới cách
chọn cụm trộn. Quá trình thực hiện phương pháp “dưới lên” phân cụm tập dữ liệu S =
{a, b, c, d, e} được mô tả trong Hình 2.1 cụ thể như sau:
Bước 0: Mỗi đối tượng dữ liệu được gán cho mỗi cụm, như vậy các cụm ban
đầu là: {a},{b},{c},{d},{e}.
Bước 1: {a} và {b} là được gộp vào thành một cụm lớn hơn là {a,b} và các cụm
thu được là: {a,b},{c},{d},{e}.
Bước 2: Gộp cụm {d},{e} thành {d,e}, các cụm thu được là {a,b},{c},{d,e}.
19




Bước 3: Gộp cụm {c} với {d,e} thành {c,d,e}, các cụm thu được là {a,b}, {c,d,e}.
Bước 4: Gộp cụm hai cụm {c,d,e} với {a,b} thành {a,b,c,d,e}.

Hình 2.1: Phân cụm tập S = {a, b, c, d, e} theo phương pháp “dưới lên”
Các quy tắc liên kết:
Kết quả phân cụm của một thuật toán phụ thuộc vào mêtric được dùng để tính
khoảng cách của các đối tượng. Kết quả phân cụm phân cấp cũng phụ thuộc quy tắc
liên kết hay cách tính khoảng cách (hoặc giả khoảng cách) giữa hai cụm 

và 

để tìm
và trộn hai cụm có khoảng cách nhỏ nhất trong mỗi bước.
Với mêtric trong không gian đặc trưng xác định bởi một chuẩn

.

đã có, sau
đây là một số quy tắc liên kết thông dụng.
Liên kết đơn
Ký hiệu là NN (Nearest Neighbour). Trong quy tắc này, khoảng cách giữa hai
cụm được xác định nhờ khoảng cách nhỏ nhất giữa hai mẫu (đối tượng) tương ứng với
hai cụm:


,


=
{

− 

:∈

, ∈

}

Liên kết đầy
Ký hiệu là FN (Furthest Neighbour). Trong quy tắc này, khoảng cách giữa hai
cụm được xác định nhờ khoảng cách lớn nhất giữa hai mẫu tương ứng với hai cụm:


,

=


− 

:∈

,∈



Liên kết trung bình giữa các nhóm

Ký hiệu là UPGMA (Un-Weighted Pair-Group Method using Arithmetic
averages). Như tên gọi của nó, khoảng cách 

,

 là trung bình của khoảng cách
giữa các cặp đối tượng thuộc hai cụm tương ứng:
Bước 1

Bước 2

Bước 3

Bước 4

Bước 0
e
b
d
c
a b c d e
Chiều từ dưới
a
a b
d e
c d e
20






,

=





∑ ∑ ‖
− 

∈

∈


Trong đó: 

và 

là số phần tử của các cụm 

,

tương ứng.
Liên kết trung bình trong phạm vi nhóm
Ký hiệu là UWGMA (un-weighted within-group method using arithmetic
averages). Trong quy tắc này, khoảng cách 


,

 là trung bình của khoảng cách
giữa các đối tượng trong nhóm mới sau khi đã trộn hai nhóm:


,

=





,
∑ ‖
− 

,∈

∪


Phương pháp Ward
Trong phương pháp này, khoảng cách giữa hai cụm là trung bình của bình
phương khoảng cách tới tâm trong phạm vi cụm:


,


=





∑ ‖
− 


,∈

∪


Trong đó: m là tâm của cụm trộn.
2.2. Thuật toán BIRCH
Thuật toán BIRCH (Balanced Iterative Reducing and Clustering Using
Hierarchies) là thuật toán phân cụm phân cấp sử dụng chiến lược phân cụm từ trên
xuống (Top-down). Ý tưởng của thuật toán là không cần lưu toàn bộ các đối tượng dữ
liệu của các cụm trong bộ nhớ mà chỉ lưu các đại lượng thống kê. Thuật toán đưa ra
hai khái niệm mới để theo dõi các cụm hình thành, phân cụm đặc trưng là tóm tắt
thông tin về một cụm và cây phân cụm đặc trưng (cây CF) là cây cân bằng được sử
dụng lưu trữ cụm đặc trưng (được sử dụng để mô tả cụm tóm tắt). Trước tiên được gọi
là cụm đặc trưng, là một bộ ba (n, LS, SS), trong đó n là số các điểm trong phân hoạch
cụm con, LS là tổng số các giá trị thuộc tích và SS là tổng bình phương của các điểm
đó. Đặc trưng tiếp theo là cây CF, mà đơn giản là cây cân bằng mà lưu bộ ba này. Có
thể chứng mình rằng, các đại lượng thống kê chuẩn, như là độ đo khoảng cách, có thể
xác định từ cây CF. Hình 2.2 dưới đây biểu thị một ví dụ về cây CF. Có thể thấy rừng,

tất cả các nút trong cây lưu tổng các đặc trưng cụm CF, các nút con, trong khi đó các
nút là lưu trữ các đặc trưng của các cụm dữ liệu. Cây CF chứa các nút trong và nút là,
nút trong là nút chứa các nút con và nút lá thì không có con. Nút trong lưu trữ các tổng
đặc trưng cụm(CF) của các nút con của nó. Một cây (CF) được đặc trưng bởi hai tham số :
- Hệ số phân nhánh B (Braching Factor): Nhằm xác định tối đa các nút con của
một nút lá trong của cây.
- Ngưỡng T (Threshold): khoảng cách tối đa giữa bất kỳ một cặp đối tượng
trong nút lá của cây, khoảng cách này còn gọi là đường kính của các cụm con được lưu
tại các nút lá.
21



Hai tham số này có ảnh hưởng đến kích thước của cây CF. thuật toán BIRCH
thực hiện gồm hai pha:
Pha 1: BIRCH quét tất cả các đối tượng trong CSDL để xây dựng cây CF khởi
tạo, mà được lưu trữ trong bộ nhớ. Trong giai đoạn này, các đối tượng lần lượt được
chèn vào nút lá gần nhất của cây CF (nút lá của cây đóng vai trò là cụm con), sau khi
chèn xong thì tất cả các nút trong cây CF được cập nhật thông tin. Nếu đường kính của
cụm con sau khi chèn là lớn hơn ngưỡng T thì nút lá được tách. Quá trình lặp lại cho
đến khi tất cả các đối tượng trong cây chỉ được đọc một lần.
Pha 2: Lựa chọn một thuật toán phân cụm để phân cụm các nút lá của cây CF.

Hinh 2.2: Cây CF sử dụng trong Birch
Các bước cơ bản của thuật toán
Bước1. Các đối tượng dữ liệu lần lượt được chèn vào cây C, sau khi chèn hết
các đối tượng thì thu được cây CF khởi tạo. Một đối tượng được chèn vào nút là gần
nhất tạo thành cụm con. Nếu đường kính của cụm con này lớn hơn T thì nút lá được
tách ra. Khi một đối tượng thích hợp được chèn vào nút lá, tất cả các nút trỏ tới gốc
của cây được cập nhật với thông tin cần thiết.

Bước 2. Nếu cây CF hiện thời không có đủ bộ nhớ trong khi tiến hành xây dựng
một cây CF nhỏ hơn: Kích thước của cây CF được điều khiển bởi tham số F và vì vậy
việc chọn một giá trị lớn hơn cho nó sẽ hòa nhập một số cụm con thành một cụm, điều
này làm cho cây CF nhỏ hơn. Bước này không cần yêu cầu đọc dữ liệu lại từ đầu
nhưng vẫn đảm bảo hiệu chỉnh cây dữ liệu nhỏ hơn.
Bước 3. Thực hiện phân cụm: Các nút lá cây CF lưu trữ các đại lượng thống kê
của các cụm con. Trong bước này, BIRCH sử dụng các đại lượng thống kê này để áp
dụng một số kỹ thuật phân cụm, ví dụ K-means và tạo ra một khởi tạo cho phân cụm.
22



Bước 4. Phân phối lại các đối tượng dữ liệu bằng cách dùng các đối tượng trọng
tâm cho các cụm được khám phá từ Bước 3: Đây là một bước tùy chọn để duyệt lại tập
dữ liệu và gán lại nhãn cho các đối tượng dữ liệu tới các trọng tâm gần nhất. Bước này
nhằm để gán nhãn cho các dữ liệu khởi tạo và loại bỏ các đối tượng ngoại lai.
Các vấn đề cần quan tâm ở Bước 1:
1) Xây dựng lại cây CF
Trong bước này ta sử dụng tất cả các mục lá của cây CF cũ để xây dựng lại một
cây CF mới với ngưỡng lớn hơn. Trong quá trình xây dựng lại ta cần điểu chỉnh đường
đi tới nút lá. Đường đi tới nút lá tương ứng với một đường đi duy nhất tới nút lá. Thuật
toán xây dựng lại là các thuật toán quét và giải phóng đường đi cây cũ, và tạo ra đường
đi cho cây mới. Kích thước của cây mới phải nhỏ hơn cây trước. Việc chuyển từ cây
cũ sang cây mới cần ít nhất thêm h trang bộ nhớ, trong đó h là chiều cao cây cũ.
2) Giá trị ngưỡng T
Để tăng ngưỡng ta sử dụng phương pháp heuristic. Lựa chọn giá trị ngưỡng
mới sao cho số lượng các điểm dữ liệu được quét dưới giá trị ngưỡng mới: Phương
pháp 1: Tìm nút lá đông nhất và hai mục gần nhất trên lá có thể được sáp nhập dưới
ngưỡng mới. Phương pháp 2: Giả sử lượng chiếm đóng các cụm lá tăng tuyến tính với
điểm dữ liệu. một loạt các cặp giá trị: số lượng các điểm dữ liệu và khối lượng => khối

lượng mới (một điểm dữ liệu mới, sử dụng tối thiểu hồi quy tuyến tính) => ngưỡng
mới. Sử dụng một số phương pháp heuristic để điều chỉnh hai ngưỡng trên và chọn một.
3) Tùy chọn xử lý ngoại lai (Outlier)
Outlier là là một giá trị ngoại lai hay nhiễu, trong cây CF nó đóng vai trò là một
mục lá mật độ thấp, nó được đánh giá là quan trọng đối với mô hình phân nhóm tổng
thể. Sử dụng một số không gian đĩa để xử lý giá trị ngoại lai. Khi xây dựng lại các cây
CF, một mục lá cũ chỉ được ghi vào đĩa nếu nó được coi là một outlier tiềm năng. Điều
này có thể làm giảm kích thước của cây CF.
Một outlier không đủ tiêu chuẩn khi:
Tăng trong giá trị ngưỡng;
Sự thay đổi trong việc phân phối do nhiều dữ liệu được đọc.
Quét các outlier tiềm năng để hấp thu mà không gây ra phát triển quá kích thước cây:
Hết không gian đĩa.
Tất cả các điểm dữ liệu đã được quét.
4) Tùy chọn phân chia hiển thị
23



Khi hết bộ nhớ, có thể có nhiều hơn các điểm dữ liệu phù hợp trong cây CF
hiện tại. Chúng ta có thể tiếp tục đọc dữ liệu điểm và ghi những điểm dữ liệu cần chia
một nút vào đĩa cho đến khi hết không gian đĩa. Ưu điểm của phương pháp này là
nhiều hơn các điểm dữ liệu phù hợp trong cây trước khi chúng ta phải xây dựng lại.
Đánh giá thuật toán BIRCH
Với cấu trúc cây CF được sử dụng, BIRCH có tốc độ thực hiện phân cụm dữ
liệu nhanh và có thể áp dụng đối với tập dữ liệu lớn, đặc biệt, BIRCH hiệu quả khi áp
dụng với tập dữ liệu tăng trưởng theo thời gian. BIRCH chỉ duyệt toàn bộ dữ liệu một
lần với một lần quét thêm tùy chon, nghĩa là độ phức tạp của nó là O(n), với n là đối
tượng dữ liệu. Thuật toán này kết hợp các cụm gần nhau và xây dựng lại cây CF, tuy
nhiên mỗi nút trong cây CF có thể chỉ lưu trữ một số hữu hạn bởi kích thước của nó.

Hạn chế:
Thuật toán có thể không xử lý được tốt nếu các cụm không có hình dạng cầu,
bởi vì nó sử dụng khái niệm bán kính hoặc đường kính để kiểm soát ranh giới các cụm
và chất lượng của các cụm được khám phá không được tốt. Nếu BIRCH sử dụng
khoảng cách Eucle, nó thực hiện tốt chỉ với dữ liệu số. Mặc khác, tham số vào T có
ảnh hưởng rất lớn tới kích thước và tính tự nhiên của cụm. Việc ép các đối tượng dữ
liệu làm cho các đối tượng của một cụm có thể là đối tượng kết thúc cụm khác, trong
khi các đối tượng gần nhau có thể hút bởi các cụm khác nếu chúng được biểu diễn cho
thuật toán theo một thứ tự khác. BIRCH không thích hợp với dữ liệu đa chiều.
2.3. Thuật toán CURE
CURE (Clustering Using Representatives – Phân cụm dữ liệu sử dụng điểm đại
diện) là thuật toán sử dụng chiến lược dưới lên (Botton-Up) của kĩ thuật phân cụm
phân cấp. Trong khi hầu hết các thuật toán thực hiện phân cụm với các cụm hình cầu
và kích thước tương tự, như vậy là không hiệu quả khi xuất hiện các phần tử ngoại lai.
Thuật toán này định nghĩa một số cố định các điểm đại diễn nằm rải rác trong toàn bộ
không gian dữ liệu và được chọn để mô tả các cụm được hình thành. Các điểm này
được tạo ra bởi trước hết lựa chọn các đối tượng nằm rải rác trong cụm và sau đó “co
lại” hoặc di chuyển chúng về trung tâm cụm bằng nhân tố co cụm.

Hình 2.3: Di chuyển về tâm.

×