Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.96 MB, 85 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
KHOA CÔNG NGHỆ

PHAN THỊ HỒNG THU

KHÁM PHÁ TRI THỨC TRONG DỮ LIỆU
KHÔNG GIAN DỰA TRÊN MẬT ĐỘ

LUẬN VĂN THẠC SỸ

Người hướng dẫn: TS. Hoàng Xuân Huấn

Hà nội - 2004

Phan Thị Hồng Thu Trang
2
MỤC LỤC
LỜI NÓI ĐẦU 5
CHƢƠNG MỘT TỔNG QUAN VỀ DATA MINING 7
I. I- ĐIỀU GÌ DẪN ĐẾN KỸ THUẬT DATA MINING 7
1- Nhu cầu khai thác dữ liệu 7
2- Sự cho phép của kỹ thuật và xu thế thời đại 8
II. II- DATA MINING LÀ GÌ 9
1- Định nghĩa về Data Mining 9
2- Các bƣớc trong Data Mining 10
3- Phân loại các hệ thống Data Mining 11
4- Ứng dụng của Data Mining 11
CHƢƠNG HAI CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU 13
I- KHÁI QUÁT VỀ PHÂN CỤM DỮ LIỆU 13
1 Phân cụm dữ liệu là gì? 13
2-Các ứng dụng của phân cụm dữ liệu 13
3-Các vấn đề nghiên cứu trong phân cụm 14
4-Các yêu cầu đối với bài toán phân cụm 15
II- KHÁI QUÁT VỀ CÁC PHƢƠNG PHÁP PHÂN CỤM DỮ
LIỆU 17
1-Phương pháp phân hoạch (Partitioning methods). 17
2-Phương pháp phân cấp (Hirarchical methods). 22
3- Phương pháp dựa vào mật độ (Density-based Method). 23
4- Phương pháp dựa vào chia lưới (Grid-based methods). 24
III- PHƢƠNG PHÁP PHÂN CỤM DỰA VÀO MẬT ĐỘ DBSCAN .

1-Cáckháiniệm 29
2- Bổ đề chứng minh tính đúng đắn của DBSCAN: 29
3- Thuật toán DBSCAN 29
CHƢƠNG BA TÌM KIẾM PHẦN TỬ NGOẠI LAI DỰA VÀO SỐ
LOF 32
I- CÁC ĐỊNH NGHĨA VỀ PHẦN TỬ NGOẠI LAI ĐỊA PHƢƠNG .
1-K-distance của một đối tượng 33
2- Lân cận bán kính k-distance của đối tượng p 34
3-Khoảng cách có thể đến một đối tượng 34
4-Mật độ địa phương có thể đến được 34
Phan Thị Hồng Thu Trang
3
5-Hệ số ngoại lai của một đối tƣợng ( LOF )
35
II- TÍNH CHẤT CỦA PHẦN TỬ NGOẠI LAI 36
1- Số LOF của những đối tượng nằm sâu trong cụm gần bằng 1 36
2) Cận dƣới và cận trên của LOF 37
3- Giới hạn LOF của một đối đượng lân cận đến được trải trên
nhiều cụm 40
II- ẢNH HƢỞNG CỦA THAM SỐ MinPts 41
1- Sự Phụ Thuộc của LOF Theo Minpts. 41
2- Xác Định Miền Của Minpts. 43
CHƢƠNG BỐN TÌM HIỂU KINH NGHIỆM XÂY DỰNG ỨNG DỤNG
DATA MINING TRONG THỰC TIỄN 46
I- CÁC PHẠM TRÙ ỨNG DỤNG DATA MINING 47
1- Khai phá dữ liệu khám phá (Discovery data mining) 47
2- Khai phá dữ liệu đoán trƣớc 47
II- PHƢƠNG PHÁP TỔNG QUÁT XÂY DỰNG ỨNG DỤNG 48
1- Định nghĩa vấn đề doanh nghiệp hƣớng tới 49
2- Định nghĩa mô hình dữ liệu 50

3- Chuẩn bị dữ liệu nguồn 51
4- Đánh giá chất lƣợng dữ liệu 52
5- Lựa chọn kỹ thuật Mining 53
6- Thể hiện, làm rõ và đánh gía kết quả. 54
7- Sử dụng những kết quả đó 54
III – ÁP DỤNG THỰC TIỄN : 54
1- Vấn Đề Thƣơng Nghiệp 55
2- Dữ Liệu Cần Sử Dụng 57
3- Nguồn dữ Liệu, Chuẩn Bị Dữ Liệu 61
4- Ƣớc lƣợng dữ liệu 66
5- Phƣơng Pháp Kỹ Thuật Để Khai Phá Dữ Liệu 68
6- Trình bày kết quả 74
7- Triển Khai Mô Hình 83

CHƢƠNG NĂM KẾT LUẬN VÀ ĐỀ NGHỊ 86
I- KẾT LUẬN 86
Phan Thị Hồng Thu Trang
4
II- ĐỀ XUẤT HƢỚNG PHÁT TRIỂN 87
TÀI LIỆU THAM KHẢO 88

LỜI NÓI ĐẦU
Triết học Á đông nói rằng mọi thứ đƣợc sinh ra trên đời đều có “lý”,
nhƣng thực tế cái “lý” ấy nhiều khi chúng ta không hiểu đƣợc hoặc vì nó không
đƣợc thể hiện tƣờng minh, hoặc vì sự xuất hiện của nó quá ngắn ngủi chúng ta
không kịp “nhìn thấy” hoặc nó xuất hiện rất thƣa chúng ta không đủ “độ dày” để
thống kê nên đã không chịu chấp nhận cái “lý” của nó hoặc là cố tình phớt lờ nó
đi. Một ví dụ khá điển hình đó là “Hoa nở vào mùa xuân” - tại sao? Vì ngƣời ta

thấy ( thông kê ) nhƣ vậy – nhƣng không thể kết luận rằng “Hoa Cúc nở vào mùa
thu” là vô lý.
Những nhà triết học đã đƣa tƣ tƣởng của họ vƣợt qua những gì “Mắt thấy
– tai nghe” và những nhà khoa học luôn cố gắng tìm cách chứng minh những
điều ấy là sự thật. Họ cố gắng tìm kiếm những gì không nhìn thấy và cả những gì
chƣa nhìn thấy.
Ngày nay với sự phát triển mạnh mẽ của công nghệ - nhất là công nghệ
sinh học và công nghệ thông tin, con ngƣời có thể “nhìn xa trông rộng” hơn. Và
một trong các xu hƣớng để mở rộng “tầm nhìn” đó là tìm kiếm những gì chứa
đựng ngay trong cái mà chúng ta đang có.
Tài sản lớn nhất của nhân loại đó là thông tin. Thông tin ngày nay đƣợc
lƣu trữ nhiều nhất là trong các hệ thống thông tin (nội bộ và toàn cầu) – Đó là các
Cơ sở dữ liệu – thông tin ấy đã đƣợc sử dụng tƣờng minh trực tiếp và qua các
báo cáo thông kê. Nhƣng ngoài ra những thông tin ấy còn có thể nói lên nhiều
điều nữa mà ngƣời có nó còn chƣa thấy đƣợc.
Bởi vậy, việc khám phá tri thức trong Cơ sở dữ liệu ( KDD – Knowledgle
Discovery in Database ) nói chung và Khai phá dữ liệu (Data Mining) nói riêng
đang đƣợc nhiều ngƣời quan tâm nghiên cứu.
Phan Thị Hồng Thu Trang
2
Phạm vi đề tài này sẽ hệ thống hoá các kết quả nghiên cứu mới nhất về
Data Mining trong dữ liệu nhờ phân tích dựa trên mật độ, đồng thời chỉ ra một
phƣơng pháp tổng quát ứng dụng Data Mining trong thực tiễn dựa theo kinh
nghiệm của IBM và chỉ ra một áp dụng thực tiễn điển hình bài toán dự đoán
khuấy động “Dự đoán khách hàng có thể rời bỏ Công ty viễn thông”.
Ngoài phần mở đầu, kết luận, luận văn đƣợc chia thành các chƣơng sau:
Chƣơng 1: Giới thiệu về các khái niệm cơ bản, quá trình hình thành phát
triển, các bƣớc cơ bản trong kỹ thuật, các cách phân loại và những ứng dụng của
Data mining.
Chƣơng 2 : Giới thiệu tổng quan về các phƣơng pháp phân cụm dữ liệu và

các thuật toán phân cụm dữ liệu điển hình đồng thời trình bày chi tiết về thuật
toán DBSCAN
Chƣơng 3 : Trình bày kết quả mới nhất về lý thuyết cơ bản đánh giá phần
tử ngoại lai dựa vào số LOF trong đó đƣa ra các định nghĩa chặt chẽ hơn về phần
tử ngoại lai khi xem xét các đối tƣợng trong tập dữ liệu dựa trên mật độ theo cách
nhìn địa phƣơng. Trình bày cấp độ ngoại lai và các tính chất của từng đối tƣợng.
Chƣơng 4: Trình bày kinh nghiệm ứng dụng kỹ thuật Data Mining trong
thực tiễn của IBM và xem xét các khía cạnh của ứng dụng dự đoán khuấy động
do IBM thực hiện cho các công ty Viễn thông trên thế giới.
Trong quá trình thực hiện đề tài, tôi đã cố gắng rất nhiều, nhƣng do lần
đầu tiên mới làm quen với kỹ thuật Data Mining, hơn nữa do thời gian có hạn, và
bản thân tôi gặp phải khó khăn về sức khoẻ nên kết quả đạt đƣợc không tránh
khỏi những khiếm khuyết. Kính mong đƣợc sự góp ý của quý Thầy Cô và các
bạn đồng nghiệp.

Tp Hồ chí Minh, Tháng 5 năm 2004

PHAN THỊ HỒNG THU
Phan Thị Hồng Thu Trang
3
CHƢƠNG MỘT
TỔNG QUAN VỀ DATA MINING

I- ĐIỀU GÌ DẪN ĐẾN KỸ THUẬT DATA MINING
Data Mining đƣợc bắt nguồn từ những lĩnh vực: Hoc máy, kỹ thuật nhận
dạng, thống kê, cơ sở dữ liệu và trực quan hoá, nhằm hƣớng tới vấn đề trích ra
những thông tin từ một cơ sở dữ liệu lớn nhằm hỗ trợ dự đoán và ra quyết định.
Mặc dù vậy với những phƣơng pháp và kỹ thuật truyền thống đã không
thể tạo điều kiện để Data Mining phát triển mạnh với một lý do đơn giản là các
phƣơng pháp truyền thống không thể đáp ứng nhu cầu thời gian thực.

Một sự trùng hợp tuyệt vời kéo theo sự phát triển của Data Mining đó
chinh là sự gặp gỡ của hai
yếu tố:
1- Nhu cầu khai
thác dữ liệu của doanh
nghiệp: Môi trƣờng doanh
nghiệp thay đổi và sự quan
tâm của các nhà quản lý
2- Sự cho phép của
những phƣơng tiện thực
hiện nó: Chính là sự phát
triển về mặt kỹ thuật của
Công nghệ thông tin
1- Nhu cầu khai thác
dữ liệu
Xã hội hiện nay có
thể nói đó là một xã hội
thông tin, mỗi doanh
nghiệp hay một tổ chức, lƣợng thông tin ngày càng chồng chất và đƣợc tích luỹ
với một tốc độ bùng nổ. Mỗi chuyên viên hay cán bộ quản lý luôn bị ngập đầu
Phan Thị Hồng Thu Trang
4
trong dữ liệu với một sức ép là phải luôn đƣa ra những quyết định dựa trên
những phán đoán theo những thông tin hiện có của doanh nghiệp hay tổ chức ấy.
Xã hội càng phát triển, chu kỳ sống của một sản phẩm càng ngắn ngủi
điều ấy có nghĩa là mức độ cạnh tranh càng cao, sự sống còn của doanh nghiệp
phụ thuộc vào những quyết đinh sáng suốt có tinh chiến lƣợc, mà mọi sự quyết
đinh đúng đắn đều phải dựa trên nền tảng thông tin và dự đoán. Những nhà quản
trị doanh nghiệp thấy rõ những thông tin dự đoán mang lại lợi ích vô cùng to lớn
cho doanh nghiệp của họ - điều này đã thúc đẩy họ sẵn sàng bỏ ra những chi phí

cho việc phát triển Data Mining
2- Sự cho phép của kỹ thuật và xu thế thời đại
Hơn 40 năm của Công nghệ thông tin đã dẫn tới việc tồn tại những kho dữ
liệu khổng lồ đƣợc lƣu trong các hệ thống máy tính (tính bằng gigabytes và
tetabytes )
Xu hƣớng giải pháp công nghệ thông tin hiện nay là lƣu trữ thông tin tập
trung trên những hệ thống máy chủ ngày càng mạnh, kể cả dữ liệu của chính phủ,
các tổ chức lợi nhuận và phi lợi nhuận đến các doanh nghiệp ngoài ra còn rất
nhiều thông tin có thể tải về trên các website và các Cơ sở dữ liệu dùng chung.
Những giải thuật mới đƣợc sản sinh từ các trƣờng Đại học và các trung
tâm nghiên cứu ngày càng đƣợc chuyển tới ứng dụng vào đời sống xã hôi bởi sự
liên kết ngày càng tăng giữa Các trƣờng Đại học, các trung tâm nghiên cứu với
môi trƣờng thƣơng mại
Công nghệ tính toán song song và sự phát triển của những thuật toán phức
tạp cộng thêm sức mạnh ngày càng vƣợt trội của các máy tính cá nhân cho phép
thể hiện trực quan hình ảnh của những thông tin trừu tƣợng cũng là một chìa
khoá để mở cửa cho Data Mining
II- DATA MINING LÀ GÌ
1- Định nghĩa về Data Mining
Data Mining đƣợc hiểu nhƣ một tiến trình nhằm mục tiêu dự đoán những
kiến thức mới có khả năng hữu dụng và tối thiểu là có thể hiểu đƣợc trong dữ
liệu.
Phan Thị Hồng Thu Trang
5

Có rất nhiều định nghĩa về Data Mining, tạm thời ta có thể hiểu Data
mining nhƣ một công nghệ tri thức giúp ta khai thác những thông tin hữu ích từ
những kho lƣu trữ dữ liệu hiện có trong hệ thống công nghệ thông tin. Dƣới đây
là một trong số các định nghĩa ấy:
“Data Mining là sự thăm dò và trích ra những thông tin hữu ích không biêt

trƣớc tiềm ẩn trong cơ sở dữ liệu lớn”
Hoặc:
“Data Mining là quá trình khai thác, khám phá những tri thức hữu ích,
tiềm ẩn và mang tính dự báo từ một tập dữ liệu lớn”.

Data Mining đƣợc phát triển khoảng 10 năm trở lại đây, nhƣng nguồn gốc
của nó đƣợc thấy trong trí tuệ nhân tạo đã hình thành từ những năm 1950. Trong
thời kỳ này việc phát triển kỹ thuật nhận dạng đã đặt nền tảng cơ sở lý luận cho
sự ra đời và phát triển của Data Mining. Nhiều kỹ thuật của Data Mining thực
chất đã đƣợc sử dụng trong suốt thời kỳ đó nhƣng chủ yếu là ứng dụng với các
bài toán khoa học.
Phan Thị Hồng Thu Trang
6
Với sự ra đời của Cơ sở dữ liệu quan hệ và khả năng lƣu trữ một kho dữ
liệu rất lớn đã là một cầu nối giữa những kỹ thuật đang ứng dụng cho những bài
toán khoa học có thể áp dụng ra môi trƣờng thƣơng mại.
Và một điều khẳng định chắc chắn rằng: Data mining không thể tách rời
giữa kỹ thuật, công nghệ và giải pháp Công nghệ thông tin.
2- Các bƣớc trong Data Mining
Có thể phân chia kỹ thuật Data mining thành các bƣớc chính sau đây:
a) Tích hợp dữ liệu (data integration): Quá trình hợp nhất dữ liệu
thành những kho dữ liệu (data warehouses & data marts) sau khi làm
sạch và tiền xử lý (data cleaning & preprocessing).
b) Trích chọn dữ liệu (data selection): Trích chọn dữ liệu từ những
kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai
thác tri thức. Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu
(noisy data), dữ liệu không đầy đủ (incomplete data), .v.v.
c) Khai thác dữ liệu (data mining): tìm kiếm, khám phá tri thức từ dữ
liệu đã đƣợc trích chọn trong bƣớc hai. Bƣớc này – tuỳ theo từng bài
toán – sẽ áp dụng những kỹ thuật khác nhau mà chúng ta sẽ làm quen

trong các phần sau.
d) Đánh và giá diễn biến tri thức (knowledge evaluation &
presentation): Đánh giá và biểu diễn tri thức vừa khai thác đƣợc trong
bƣớc ba sang dạng gần gũi với ngƣời dùng hơn để sẵn sàng cho việc sử
dụng.
3- Phân loại các hệ thống Data Mining
Data Mining là một công nghệ tri thức liên quan đến nhiều lĩnh vực
nghiên cứu khác nhau nhƣ cơ sở dữ liệu, học máy (machine learning), giải thuật
trực quan hoá .v.v.
Chúng ta có thể phân loại các hệ thống Data Mining dựa trên các tiêu chí
khác nhau sau đây :
Phan Thị Hồng Thu Trang
7
a) Phân loại dựa trên dữ liệu: cơ sở dữ liệu quan hệ (relation
database), kho dữ liệu (data warehouse), cơ sở dữ liệu giao dịch
(transactional database), cơ sở dữ liệu không gian (spatial database), cơ
sở dữ liệu đa phƣơng tiện (multimedia database), cơ sở dữ liệu text &
www, .v.v.
b) Phân loại dựa trên loại tri thức khám phá: tóm tắt và mô tả
(summarization & description). luật kết hợp (association rules), phân lớp
(classification), phân cụm (clustering), khai phá chuỗi (sequential
mining), .v.v.
c) Phân loại dựa trên kỹ thuật đƣợc áp dụng: hƣớng cơ sở dữ liệu
(database-oriented), phân tích trực tuyến (Online analytical Processing –
OLAP), machine learning (cây – quyết định, mạng nơ ron nhân tạo , k-
mean, giải thuật di truyền, máy vectơ hỗ trợ - SVM, tập thô, tập mờ,
.v.v.), trực quan hoá (visualization), .v.v.
d) Phân loại dựa trên lĩnh vực đƣợc áp dụng: kinh doanh bán lẻ
(retial), truyền thông (telecommunication), tin-sinh (bio-informaties) y
học (medical treatment), tài chính và thị trƣờng chứng khoán (finance &

stock market), Web mining, .v.v.
4- Ứng dụng của Data Mining
Dễ thấy rằng Data Mining có thể ứng dụng vào mọi lĩnh vực, miễn là các
dữ liệu đƣợc lƣu trữ số hoá và ngƣời sử dụng nó thực sự cần tới những thông tin
tiềm ẩn trong dữ liệu.
Có thể liệt kê ra đây những ứng dụng điển hình của Data Mining hiện nay
trên thế giới:
 Marketing
 Đánh giá tổng quát
 Phân tích ảnh hƣởng
 Phân tích sản phẩm
 Duy trì khách hàng
 Dự đoán nhu cầu
Phan Thị Hồng Thu Trang
8
 Phân tích dữ liệu và hỗ trợ ra quyết định
 Dự báo trong điều trị y học
 Hoá học
 Vật lý học
 V.v

  
Phan Thị Hồng Thu Trang
9
CHƢƠNG HAI
CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU

I- KHÁI QUÁT VỀ PHÂN CỤM DỮ LIỆU
1- Phân cụm dữ liệu là gì?

Phân cụm (clusteing) là quá trình nhóm một tập các đối tƣợng vật lí hoặc
trừu tƣợng thành các nhóm hay các lớp đối tƣợng giống nhau. Một cụm (cluster)
là một tập đối tƣợng dữ liệu trong đó các đối tƣợng trong cùng một cluster thì
giống nhau và khác các đối tƣợng thuộc cluster khác.
Không giống nhƣ phân loại, ta thƣờng biết trƣớc tính chất hay đặc điểm
của các đối tƣợng trong cùng một lớp và dựa vào đó để ấn định một đối tƣợng
vào lớp mới. Thay vào đó, trong quá trình phân cụm ta không biết trƣớc đƣợc
tính chất của các lớp mà phải dựa vào các mối quan hệ giữa các đối tƣợng để tìm
ra sự giống nhau giữa các đối tƣợng theo một độ đo nào đó đặc trƣng cho mỗi
lớp.
Việc phân cụm không độc lập mà thƣờng đƣợc kết hợp với các phƣơng
pháp khác. Ta có thể thấy thông qua ví dụ về phân cụm để tìm hiểu các vì sao và
độ sáng của nó.
2- Các ứng dụng của phân cụm dữ liệu
Phân cụm là một lĩnh vực hoạt động quan trọng của con ngƣời. Khi còn
bé, đứa trẻ học cách phân biệt giữa các đồ vật, giữa động vật và thực vật bằng
cách liên tục thay đổi nhận thức trong quan hệ phân cụm. Việc phân cụm đã đƣợc
ứng dụng trong nhiều lĩnh vực: nhân dạng mẫu, phân tích dữ liệu, xử lý ảnh và
nghiên cứu thị trƣờng. Bằng các phân cụm, chúng ta có thể nhận ra đƣợc các
miền dày đặc hoặc thƣa thớt. Do vậy, phát hiện ra đƣợc sự phân bố các mẫu và
có thể thấy đƣợc sự tƣơng quan giữa các thuộc tính của dữ liệu.
Trong kinh doanh, phân cụm có thể giúp các nhà nghiên cứu thị trƣờng
phát hiện ra các nhóm khách hàng khác nhau và đặc tính của từng nhóm khách
hàng này dựa vào dữ liệu mua bán.
Phan Thị Hồng Thu Trang
10
Trong sinh học, phân cụm đƣợc sử dụng để phân loại thực vật, động vật,
phân loại gen và có đƣợc những thông tin chi tiết hơn về cấu trúc dân cƣ.
Phân cụm cũng có thể giúp nhận dạng các vùng đất giống nhau dựa vào cơ
sở dữ liệu quan sát đƣợc trên trái đất, phân chia các nhóm nhà trong thành phố

theo các tiêu chí, kiểu dáng, giá trị, vị trí địa lý.
Phân cụm cũng giúp cho việc phân chia tài liệu trên Web dựa vào nội
dung thông tin.
Ngoài ra, phân cụm có thể dùng nhƣ một bƣớc tiền xử lý cho các thuật
toán nhƣ phát hiện ra các đặc tính và phân loại dữ liệu. Sau đó thuật toán sẽ thực
hiện trên cụm dữ liệu đã đƣợc phát hiện.
3- Các vấn đề nghiên cứu trong phân cụm
Có rất nhiều vấn đề nghiên cứu về phân cụm trong các lĩnh vực khác nhƣ:
khai phá dữ liệu, thống kê, học máy, công nghệ cơ sở dữ liệu không gian, sinh
học và nghiên cứu thị trƣờng. Do kích thƣớc cơ sở dữ liệu tăng lên rất nhanh, gần
đây phân cụm dữ liệu đã thực sự trở thành chủ đề đáng quan tâm trong nghiên
cứu khai phá dữ liệu.
Trong lĩnh vực thống kê, phân cụm đã đƣợc nghiên cứu phát triển trong
nhiều năm, tập trung chủ yếu vào phân cụm dựa vào khoảng cách. Các công cụ
phân cụm dựa trên một số phƣơng pháp nhƣ k-mean, k-medoids đã đƣợc xây
dựng trong nhiều hệ thống phần mềm thống kê nhƣ S-plus, SPSS và SAS. Trong
học máy, phân cụm là một ví dụ về học không thầy. Không giống nhƣ sự phân
loại, phân cụm và học không thầy không dựa vào các lớp đƣợc định nghĩa trƣớc
và ví dụ huấn luyện. Nó là một hình thức học bằng quan sát, đúng hơn học bằng
ví dụ. Trong quan niệm về phân cụm, một nhóm các đối tƣợng tạo thành một lớp
nếu nó đƣợc mô tả bằng một khái niệm.
Khái niệm phân cụm bao gồm 2 phần:
 Phát hiện ra lớp thích hợp.
 Đƣa ra sự mô tả cho mỗi lớp, giống trong phân loại.
Nguyên tắc phân chia là cố gắng phân các đối tƣợng có sự giống nhau lớn
nhất và sự khác biệt nhỏ nhất vào một cụm.
Phan Thị Hồng Thu Trang
11
Trong khai phá dữ liệu, các vấn đề nghiên cứu trong phân cụm chủ yếu
tập trung vào tìm kiếm các phƣơng pháp phân cụm có hiệu quả và tin cậy trong

cơ sở dữ liệu lớn. Các yêu cầu đặt ra là: tính hiệu quả (effectivenness) và tính
tuyến tính (scalability) của thuật toán, khả năng làm việc của phƣơng pháp với
các cụm có hình dạng phức tạp, kiểu dữ liệu trong không gian đa chiều, phƣơng
pháp phân cụm dữ liệu dạng số và dữ liệu dạng khác trong cơ sở dữ liệu
4- Các yêu cầu đối với bài toán phân cụm
Phân cụm là một lĩnh vực nghiên cứu với nhiều thách thức, và ở đó tiềm
năng ứng dụng của nó đáp ứng rất nhiều yêu cầu đặc biệt của con ngƣời. Các yêu
cầu cụ thể là:
 Có thể làm việc với cơ sở dữ liệu lớn: Nhiều thuật toán phân cụm
làm việc tốt với dữ liệu nhỏ chứa ít hơn 200 đối tƣợng dữ liệu. Tuy
nhiên, một cơ sở dữ liệu lớn có thể chứa hàng triệu đối tƣợng. Phân cụm
trên một mẫu của một tập dữ liệu lớn có thể dẫn đến một kết quả kém
chính xác. Do đó đòi hỏi phải có một thuật toán riêng áp dụng cho cơ sở
dữ liệu lớn.
 Có thể làm việc với nhiều loại dữ liệu khác nhau: Nhiều thuật toán
đã đƣợc thiết kế để phân cụm dữ liệu dạng số. Tuy nhiên, trong thực tế
có thể yêu cầu phân cụm với nhiều kiểu dữ liệu khác nhƣ: nhị phân,
chuỗi, liệt kê, hoặc tổng hợp của các kiểu dữ liệu này.
 Phát hiện các cụm dữ liệu có hình dạng bất kỳ: Các thuật toán phân
cụm phần lớn xác định các cụm dựa vào khoảng đo lƣờng Euclidean
hoặc Mahatran. Thuật toán dựa vào phép đo khoảng cách có xu hƣớng
tìm các cụm có hình cầu và có mật độ và kích thƣớc giống nhau. Tuy
nhiên, một cụm có thể có hình dạng bất kỳ. Do đó, phát triển thuật toán
có khả năng tìm ra các cụm với hình dạng bất kỳ là rất quan trọng.
 Tối thiểu các tham số đầu vào: Nhiều thuật toán phân cụm yêu cầu
ngƣời dùng nhập vào tham biến nào đó trong phân cụm (nhƣ là số cụm
mong muốn). Kết quả phân cụm có thể khá nhạy với tham số vào. Tuy
Phan Thị Hồng Thu Trang
12
nhiên, tham biến vào thƣờng khó xác định, đặc biệt là tập dữ liệu chứa

đối tƣợng không gian đa chiều. Điều này không chỉ gây khó khăn cho
ngƣời sử dụng mà còn làm cho chất lƣợng phân cụm khó kiểm soát.
 Khả năng làm việc với các dữ liệu nhiễu: Hầu hết cơ sở dữ liệu thực
đều chứa dữ liệu không đầy đủ, hoặc không biết rõ, hoặc dữ liệu lỗi. Một
số thuật toán phân cụm bất biến với dữ liệu kiểu này và có thể dẫn tới
các cụm có chất lƣợng không cao.
 Không phụ thuộc thứ tự dữ liệu đƣa vào: Một số thuật toán phân
cụm không bất biến với thứ tự dữ liệu vào. Ví dụ, cùng một tập dữ liệu,
khi chúng đƣợc đƣa vào với các thứ tự khác nhau cho cùng một thuật
toán, kết quả có thể tạo ra các cụm khác nhau rõ rệt. Để phát triển thuật
toán thì tính độc lập với dữ liệu đầu vào là rất quan trọng.
 Khả năng làm việc với dữ liệu đa chiều: Một cơ sở dữ liệu hoặc một
kho dữ liệu tích hợp (data warehouse) có thể nhiều chiều hoặc nhiều
thuộc tính. Nhiều thuật toán phân cụm rất tốt khi xử lý dữ liệu ít chiều,
hai hoặc ba chiều. Đây là một thách thức trong việc phân cụm các đối
tƣợng dữ liệu trong không gian nhiều chiều, đặc biệt khi các dữ liệu đó
là thƣa thớt và không đối xứng.
 Phân cụm dựa trên sự ràng buộc: Nhiều ứng dụng thực tế có thể cần
thực hiện phân cụm dƣới các loại ràng buộc khác nhau. Một nhiệm vụ
thách thức là tìm ra nhóm dữ liệu với việc phân cụm tốt nhất thỏa mãn
yêu cầu ràng buộc.
 Tính dễ dùng và dễ hiểu: Ngƣời sử dụng mong chờ kết quả phân cụm
để có thể hiểu đƣợc đầy đủ, và có thể dùng đƣợc. Điều đó có nghĩa là,
việc phân cụm phải mang lại ý nghĩa và ứng dụng. Việc nghiên cứu một
mục đích ứng dụng ảnh hƣởng quan trọng đến lựa chọn phƣơng pháp
phân cụm.
Với các yêu cầu đặt ra, rất khó tìm đƣợc một phƣơng pháp phân cụm nào
đáp ứng đầy đủ các yêu cầu trên. Do vậy, tìm đƣợc một phƣơng pháp đáp ứng
Phan Thị Hồng Thu Trang
13

đƣợc càng nhiều yêu cầu của bài toán phân cụm luôn là một thách thức lớn trong
lĩnh vực khai phá dữ liệu. Nó đòi hỏi nhiều công sức, thời gian để đạt đƣợc
những kết quả tốt.

II- KHÁI QUÁT VỀ CÁC PHƢƠNG PHÁP PHÂN CỤM DỮ LIỆU
Có rất nhiều thuật toán phân cụm khác nhau. Việc lựa chọn một thuật toán
thích hợp phụ thuộc vào kiểu dữ liệu cần thực hiện cũng nhƣ mục đích của từng
ứng dụng. Nếu phân cụm đƣợc thực hiện nhƣ một công cụ mô tả hoặc thăm dò,
khi đó phải thực hiện nhiều thuật toán phân cụm khác nhau trên một tập dữ liệu
để tìm ra một phƣơng pháp phù hợp nhất. Các phƣơng pháp phân cụm có thể kể
đến nhƣ: phƣơng pháp phân hoạch, phƣơng pháp phân cấp, phƣơng pháp dựa vào
mật độ, phƣơng pháp chia lƣới.
1- Phƣơng pháp phân hoạch (Partitioning methods).
Phân hoạch là thuật toán phổ dụng. Cho trƣớc một tập D có n đối tƣợng
trong không gian d chiều và một tham số k. Thuật toán phân hoạch tổ chức các
đối tƣợng thành k cụm sao cho độ lệch của mỗi đối tƣợng đến tâm của cụm hoặc
đến một phân phối cụm (cluster distribution) là nhỏ nhất. Các thuật toán khác
nhau tính độ lệch của một điểm theo các cách khác nhau. Độ lệch này thƣờng
đƣợc gọi là hàm tƣơng đồng (similarity function).
Phƣơng pháp phân hoạch có 3 thuật toán chính: thuật toán k-means
(MacQueen 1967), thuật toán mong đợi cực đại (Expectation Maximization-EM)
(Bradley et al 1998 ; Dempster et al 1977 ; Yu et al 1988) và thuật toán k-
medoids (Kaufiman và Rousseenw 1990). Ba thuật toán này dùng các cách khác
nhau để thể hiện các lớp. Thuật toán k-means sử dụng centroid (giá trị trung bình
của các đối tƣợng trong một nhóm làm tâm nhóm). Thuật toán k-medoids sử
dụng đối tƣợng gần tâm nhất trong nhóm. Khác với k-means và k-medoids, EM
sử dụng một phân phối gồm một giá trị trung bình, một ma trận kích thƣớc d x d
để thể hiện cho mỗi cụm. Thay và gán mỗi đối tƣợng vào một cụm dành cho nó,
EM gán mỗi đối tƣợng vào một cụm dựa vào xác suất thuộc về cụm đó - xác suất
này đƣợc tính từ phân phối của mỗi cụm. Theo cách này, mỗi cụm có một xác

Phan Thị Hồng Thu Trang
14
suất nhất định thuộc về mỗi cụm, điều này làm cho phân cụm theo EM là một kỹ
thuật phân hoạch mờ nhạt.
Mặc dù có sự khác nhau trong cách phân cụm, ba thuật toán đều có chung
một cách tiếp cận. Đầu tiên, các thuật toán cố gắng tìm k tâm để đánh giá tiêu
chuẩn đƣa ra. Khi đã tìm thấy k tâm tốt nhất thì n đối tƣợng đƣợc xếp vào k
nhóm một cách tự động.
Tuy nhiên, bài toán tìm k tâm tốt nhất toàn cục đƣợc coi là bài toán NP.
Do đó 3 thuật toán sử dụng một kỹ thuật khác - kỹ thuật định vị lặp đi lặp lại
(iterative relocation), cho phép tìm thấy tốt nhất địa phƣơng. Kỹ thuật này đƣợc
minh họa trong thuật toán tổng quát dƣới đây. Tuy nhiên, các hàm tiêu chuẩn
trong ba thuật toán khác nhau và chúng cũng khác nhau trong bƣớc 3 và 4 của
thuật toán tổng quát. Yếu điểm chung của cả ba thuật toán dựa trên phân hoạch là
ta phải chỉ định tham số k và không thể tìm ra các lớp có hình dạng bất kỳ.
a) Sơ đồ thuật toán tổng quát thuật toán Iterative Relocation:
Input: Số cụm k và một cơ sở dữ liệu chứa nội dung đối tƣợng.
Output: Một tập k cụm sao cho hàm tiêu chuẩn lỗi E nhỏ nhất.
Thuật toán:
Chọn ngẫu nhiên k tâm.
Repeat:
(1) Đƣa đối tƣợng i vào cụm tƣơng ứng
(2) Tính lại tâm mới
Until “tâm mới không thay đổi”

b) Thuật toán phân họach k-means:
K-means là một phƣơng pháp sử dụng rộng rãi trong thực tế và nó có thể
đƣợc biến đổi thích hợp với từng bài toán cụ thể. Phƣơng pháp này đƣợc J.B.
MacQueen đƣa ra vào năm 1967. Để đơn giản cho việc mô tả, ta sử dụng mô
hình dữ liệu hai chiều nhƣng trong thực tế, thuật toán này có thể áp dụng cho dữ

liệu đa chiều.
Bƣớc đầu tiên ta chọn k điểm dữ liệu làm nhân (seed). (Trong thuật toán
MacQueen lấy k điểm dữ liệu đầu tiên). Tổng hợp tổng quát, việc chọn nhân là
Phan Thị Hồng Thu Trang
15
những điểm có khoảng cách không gian giữa chúng lớn có thể đáp ứng cho việc
phân cụm tốt hơn.
Bƣớc tiếp theo xác định các điểm dữ liệu còn lại vào các cụm sao cho việc
chia đó là thích hợp nhất. Điều đó có thể thực hiện một cách đơn giản bằng cách
chia điểm dữ liệu vào cụm nào gần nó nhất. Khoảng cách đó đƣợc đo bằng
khoảng cách từ điểm đó đến tâm của cụm.
Thực hiện phân cụm theo cách này thì chỉ đơn giản vẽ đƣờng thẳng vuông
góc đi qua trung điểm của seed1_seed2, ta chia đƣợc tập điểm làm hai phần.
Những điểm nàm cùng phía với seed1 không thể nằm trong cụm chứa seed2 và
ngƣợc lại. Tƣơng tự, ta thực hiện phân chia đối với seed2_seed3, seed1-seed3 sẽ
phân đƣợc các điểm vào một trong ba cụm. Nếu trong không gian p chiều thì
không đơn thuần là một đƣờng thẳng mà là một siêu phẳng p-1 chiều.
Sau khi đã thực hiện đối với tất cả các điểm dữ liệu, chúng ta chia đƣợc tất
cả các điểm này vào k cụm. Tiếp theo, ta tính lại tâm của cụm. Cách đơn giản để
tính lại tâm của cụm là xác định trung bình cộng của tất cả các điểm trong cụm
đó.
c) Thuật toán phân hoạch k-medoids:
Thuật toán k-means khá nhạy đối với những đối tƣợng ở xa trung tâm (gọi
là nhiễu). Một đối tƣợng với một giá trị vô cùng lớn có thể dẫn đến sai lệch căn
bản sự phân bố của dữ liệu.
Vậy phải sửa đổi thuật toán nhƣ thế nào để có thể làm giảm điều đó ?
Khác với k-means, thay và đƣa ra giá trị means của các đối tƣợng trong một
nhóm, medoids có thể đƣợc dùng nhƣ là đối tƣợng chính đã đƣợc định vị trong
một nhóm. Nhƣ vậy, phƣơng pháp phân cụm vẫn đƣợc thực hiện dựa trên nguyên
tắc cực tiểu hóa tổng các sai khác giữa mỗi đối tƣợng và đối tƣợng medois có

liên quan tƣơng ứng với chúng. Điều này hình thành cơ bản phƣơng pháp k-
medoids.
Chiến lƣợc cơ bản của thuật toán phân cụm k-medoids là tìm kiếm k nhóm
trong n đối tƣợng bằng cách: tìm kiếm tùy ý một đối tƣợng medois (đại diện) đầu
tiên đối với mỗi nhóm. Mối đối tƣợng còn lại đƣợc nhóm cùng với đối tƣợng
Phan Thị Hồng Thu Trang
16
medois mà nó giống nhất. Sau đó là chiến lƣợc lặp thay thế một đối tƣợng
medois bởi một đối tƣợng medois mới. Việc lặp kéo dài làm đặc tính của kết quả
phân cụm sẽ đƣợc cải tiến. Đặc tính này đã đƣợc đánh giá bởi việc sử dụng một
hàm giá. Đó là độ đo sự sai khác trung bình giữa một đối tƣợng và đối tƣợng
medoids của chính nhóm đó. Việc xác định rõ có hay không một đối tƣợng
không là medois, O
random
, là một sự thay thế tốt đối với một đối tƣợng medois
hiện thời, O
j
, bốn trƣờng hợp sau cụ thể hóa cho mỗi đối tƣợng không là medois,
p:
- Trƣờng hợp 1: p thuộc đối tƣợng medois O
j
. Nếu O
j
đã đƣợc thay thế bởi
O
random
bằng một đối tƣợng medois và p ở gần nhất với đại diện của O
i
, i  j, khi
đó p đƣợc ấn định lại là O

i
.
- Trƣờng hợp 2: p hiện thời thuộc về đại diện O
j
, i  j bằng một đại diện
và p là ở gần nhất với O
random
, khi đó p đƣợc ấn định lại là O
random.
- Trƣờng hợp 3: p hiện thời thuộc về đại diện O
i
, ij . Nếu O
j
đã đƣợc
thay thế bởi O
random
bằng một đại diện và p vẫn ở gần nhất với O
i
, i  j, khi đó p
không thay đổi.
- Trƣờng hợp 4: p hiện thời thuộc về đại diện O
i
, i  j. Nếu O
j
đã đƣợc
thay thế bởi O
random
bằng một đại diện và p là ở gần nhất với O
random
, khi đó p

đƣợc ấn định lại là O
random
.

Hình 5 minh họa bốn trƣờng hợp. Mỗi lần một sự phân chia xảy ra, một sự
khác nhau trong E bình phƣơng lỗi đƣợc góp phần vào hàm giá. Bởi vậy hàm giá
tính toán sự khác nhau trong giá trị lỗi bình phƣơng nếu một đại diện hiện thời đã
đƣợc thay thế bởi một đối tƣợng không đại diện. Toàn bộ giá của sự hoán chuyển
Phan Thị Hồng Thu Trang
17
là tổng của các giá đã đƣợc chịu bởi tất cả các đối tƣợng không đại diện. Nếu
toàn bộ giá là không có, khi đó O
j
đƣợc thay thế hoặc đƣợc hoán đổi với O
random

từ lỗi bình phƣơng thực E đã đƣợc rút gọn. Nếu toàn bộ giá là dƣơng, đại diện
hiện thời O
j
đã đƣợc xem xét có thể chấp nhận, và không có sự thay đổi nào
trong việc lặp lại.
Thuật toán k-medoids:
Thuật toán k-medoids đối với sự phân cụm dựa trên đại diện hoặc các đối
tƣợng trung tâm.
Input: Số nhóm k và một cơ sở dữ liệu chứa n đối tƣợng.
Output: Một tập của k nhóm mà tổng sự sai khác của tất cả các đối
tƣợng với đại diện gần chúng nhất giảm đến mức tối thiểu.
(1) Chọn tùy ý k đối tƣợng làm các đại diện ban đầu.
(2) Repeat
(a) Ấn định mỗi đối tƣợng còn lại vào nhóm cùng với đại diện gần

nhất.
(b) Chọn ngẫu nhiên một đối tƣợng không đại diện O
random
.
(c) Tính toán toàn bộ giá, S, của sự hoán chuyển O
j
với O
random
.
(d) Nếu S<0 thì của sự hoán chuyển O
j
với O
random
hình thành tập
mới các đại diện k.
Until < không thay đổi>

PAM (Partitioning around Medoid) là một thuật toán k - đại diện đầu tiên
đƣợc giới thiệu. Nó cố gắng định rõ k phần trong bộ n đối tƣợng. Sau khi lựa
chọn ngẫu nhiên k đại diện, thuật toán cố gắng lặp để đƣa ra một sự lựa chọn tốt
hơn các đại diện. Tất cả các nhóm (k phần) của các đối tƣợng đã đƣợc phân tích,
ở đây mỗi đối tƣợng trong mỗi phần đã đƣợc xem xét là một đại diện và những
đối tƣợng khác thì không là đại diện. Đặc tính của kết quả phân cụm đƣợc tính
toán đối với mỗi sự phối hợp nhƣ vậy, một đối tƣợng O
j
, đƣợc thay thế bởi một
đối tƣợng sao cho việc giảm bình phƣơng lỗi là lớn nhất. Tập các đối tƣợng tốt
hơn đối với mỗi nhóm trong mỗi phép lặp hàng hóa các đại diện đối với phép lặp
tiếp theo. Đối với các giá trị vô cùng lớn của n và k, việc tính toán nhƣ vậy trở
nên rất có giá trị.

Phan Thị Hồng Thu Trang
18
 So sánh hai thuật toán:
"Thuật toán mạnh hơn là k-means hay k-medoids ?". Thuật toán k-
medoids là mạnh hơn so với thuật toán k-means trong sự hiện diện của các đối
tƣợng nhiễu và các đối tƣợng ở xa trung tâm, bởi vì một đại diện là đƣợc ảnh
hƣởng ít nhất bởi cái ở xa trung tâm hoặc các giá trị tận cùng là khác hơn với một
giá trị trung bình. Tuy nhiên, quá trình của nó là tốn kém hơn so với phƣơng
pháp k-means. Cả hai thuật toán đòi hỏi ngƣời dùng định rõ k là số các nhóm.
2- Phƣơng pháp phân cấp (Hirarchical methods).
Phƣơng pháp phân cấp thực hiện bằng cách nhóm các đối tƣợng dữ liệu
trên cây phân cấp. Phƣơng pháp phân cụm phân cấp đƣợc chia ra làm hai loại:
phân cấp theo kiểu từ dƣới lên (bottom up) và phân cấp theo kiểu từ trên xuống
(top down). Chất lƣợng của phƣơng pháp tùy thuộc vào quyết định phân cụm.
a) Phân cụm theo phương pháp từ dưới lên:
Phƣơng pháp phân cụm từ dƣới lên dựa vào độ đo khoảng cách giữa hai
nhóm các đối tƣợng ở mỗi bƣớc để quyết định ghép hai nhóm đó hay không.
Khởi tạo số cụm bằng số điểm dữ liệu. Mọi cụm chỉ có duy nhất một điểm dữ
liệu (nếu cơ sở dữ liệu có N điểm dữ liệu thì ban đầu sẽ có N cụm). Sau đó, tại
mỗi bƣớc ghép hai cụm có khoảng cách nhỏ nhất (mức độ giống nhau là lớn
nhất). Sau N-1 bƣớc, ta đƣợc một cụm duy nhất.
Cụm sau khi thực hiện N-1 bƣớc gọi là cụm gốc. Cùng với cây mới tạo
đƣợc, chúng ta có thể chọn k cụm thích hợp cho bài toán bằng cách cho vào một
tham số để kết thúc việc cụm. Cách làm này đƣa đến một bài toán nhỏ hơn đó là
phải đo đƣợc khoảng cách giữa hai cụm.
b) Phân cụm theo phương pháp từ trên xuống:
Phƣơng pháp phân cụm từ trên xuống sẽ thực hiện quá trình ngƣợc lại với
phƣơng pháp trƣớc, tại mỗi bƣớc sẽ quyết định phân chia một cụm hay không.
Khởi tạo ban đầu chỉ có một cụm gồm tất cả các điểm có trong cơ sở dữ liệu, quá
trình thực hiện tƣơng tự nhƣ việc xây dựng một cây bắt đầu từ gốc. Chúng ta tìm

cách chia mỗi nút gốc (nút cha) thành hai nút con (trong thuật toán mở rộng, số
nút con tách ra từ một nút có thể lớn hơn hai). Quá trình đƣợc thực hiện cho đến
Phan Thị Hồng Thu Trang
19
khi thỏa mãn điều kiện về cụm đã đƣa vào hoặc đến khi mỗi cụm chỉ gồm một
đối tƣợng.
Khó khăn của phƣơng pháp phân cấp là việc chọn điểm để thực hiện quá
trình ghép hoặc phân cụm tiếp theo sẽ đƣợc thực hiện tiếp trên lớp đã đƣợc tạo
ra. Khi đã đƣa ra quyết định ghép cụm lại hoặc phân chia cụm, ta không thể thực
hiện lại. Do vậy, một điểm thuộc cụm này sẽ không thể chuyển sang cụm khác.
3- Phƣơng pháp dựa vào mật độ (Density-based Method).
Hầu hết các phƣơng pháp phân hoạch để phân cụm đối tƣợng đều dựa vào
khoảng cách giữa các đối tƣợng. Các phƣơng pháp đó chỉ có thể tìm đƣợc ra các
cụm có dạng hình cầu và tỏ ra khó khăn khi các lớp có hình dạng bất kỳ. Các
phƣơng pháp phân cụm khác đều đƣợc sử dụng dựa trên khái niệm mật độ.
Chúng thƣờng đánh giá các cụm nhƣ một vùng dày đặc các đối tƣợng trong
không gian dữ liệu - các cụm này đƣợc phân biệt bằng các vùng có mật độ đối
tƣợng thấp (nhiễu). Có thể dùng phƣơng pháp dựa trên mật độ để lọc nhiễu
(outlier) và tìm ra các cụm có hình dạng bất kỳ.
Thuật toán dựa trên mật độ đầu tiên là Density - Based Clustering of
Applications with Noise (DBSCAN) (Ester et al 1996). Thuật toán này đánh giá
mật độ xung quanh lân cận của một đối tƣợng là đủ lớn nếu số điểm dữ liệu trong
đƣờng tròn bán kính  của đối tƣợng đó lớn hơn MinPts - số các đối tƣợng. Vì
các cụm đƣợc phát hiện thuộc tham số  và MinPts nên hiệu quả của thuật toán
phụ thuộc vào khả năng chọn tập tham số tốt của ngƣời dùng. Để giải quyết vấn
đề này, phƣơng pháp Ordering Points to Identify the Clustering Structer
(OPTICS) đã đƣợc đề xuất (Ankerst et al 1999) . Không chỉ phân cụm toàn bộ
tập dữ liệu, OPTICS còn sắp xếp các cụm theo thứ tự tăng dần để phân tích các
cụm một cách tự động và liên tiếp.
Để xử lý các truy vấn lân cận một cách hiệu quả, hai phƣơng pháp đều

dựa trên cấu trúc chỉ số không gian nhƣ cây R* (Beckmann et al 1990) hoặc cây
X (Berchtold et al 1996). Tuy nhiên, tính hiệu quả cũng bị giảm theo chiều tăng
của số chiều. Nghĩa là, DBSCAN và OPTICS không hiệu quả cho dữ liệu có số
chiều lớn.
Phan Thị Hồng Thu Trang
20
Để thao tác với dữ liệu có số chiều lớn một cách có hiệu quả, thuật toán
Density Clustering (DEN-CLUE) (Hinneburg và Keim 1998) dựa trên mô hình
hóa mật độ toàn thể của điểm dữ liệu theo phép giải tích - là tổng hợp của các
hàm tác động của các điểm dữ liệu quanh nó. Để tính tổng các hàm tác động một
cách hiệu quả, ngƣời ta sử dụng cấu trúc lƣới. Các thử nghiệm của Hinneburg và
Keim đã cho thấy DENCLUE thực hiện tốt hơn DBSCAN gấp 45 lần. Tuy nhiên,
cần phải lựa chọn cẩn thận các tham số phân cụm cho DENCLUE - các tham số
này có thể tác động đáng kể đến chất lƣợng phân cụm.
4- Phƣơng pháp dựa vào chia lƣới (Grid-based methods).
Các phƣơng pháp dựa trên mật độ nhƣ DBSCAN và OPTICS là các
phƣơng pháp dựa trên chỉ số - không hiệu quả khi số chiều lớn. Để tăng hiệu quả,
chiến lƣợc phân cụm dựa trên lƣới - sử dụng cấu trúc dữ liệu lƣới ra đời.
Phƣơng pháp chia lƣới đƣợc thống kê để quản lý những điểm trong không
gian dữ liệu đa chiều. Nó sẽ chia toàn bộ không gian dữ liệu thành những khối d
chiều với kích thƣớc của các cạnh nói chung là đều nhau. Tuy nhiên, việc chọn
kích thƣớc của các cạnh cho khối cũng là một bài toán cần đƣợc giải quyết trƣớc
khi sử dụng phƣơng pháp chia lƣới.
Với d trục trong không gian dữ liệu d chiều tạo nên một mảng d chiều và
gọi là từ điển dữ liệu. Mỗi phần tử gọi là một cell và có thể chứa một hoặc nhiều
điểm dữ liệu, hoặc có thể không chứa điểm dữ liệu nào. Những cell không chứa
điểm dữ liệu nào gọi là cell rỗng và không đƣợc xét đến. Mỗi điểm dữ liệu phải
nằm trong một cell và tất cả các điểm trong một cell đƣợc lƣu trữ cùng nhau một
cách riêng biệt với các cell khác. Nói cách khác, các điểm dữ liệu trong cùng một
cell đƣợc lƣu trữ trong cùng một khối và độc lập với các điểm thuộc cell khác.

Một số ví dụ điển hình cho chiến lƣợc dựa trên lƣới: Statistical
Information in Grid (STING). (Wang et al 1997) - thám hiểm các thông tin thống
kê đƣợc lƣu trong lƣới ; WaveCluster (Sheikholeslami et al 1998) - phân cụm các
đối tƣợng sử dụng phép biến đổi sóng ; và CLIQUE 9 (Agrawal et al 1998) -
trình bày một số chiến lƣợc dựa vào mật độ và lƣới để chia lớp không gian dữ
liệu có số chiều lớn.
Phan Thị Hồng Thu Trang
21
Kết luận : Vậy, phân cụm trong cơ sở dữ liệu là quá trình nhằm tìm ra các
đối tƣợng có đặc tính tƣơng tự nhau vào một cụm. Nguyên tắc chung phân cụm
là dựa vào một hàm đích xác định khoảng cách của một đối tƣợng với đối tƣợng
tâm của cụm và hàm này là cơ sở để quyết định một đối tƣợng có thuộc vào cụm
hay không. Để xác định quan hệ giữa các đối tƣợng, ta cần xây dựng một đại
lƣợng xác định độ khác nhau giữa các đối tƣợng. Việc xác định độ khác nhau
giữa các đối tƣợng phụ thuộc vào kiểu thuộc tính biểu diễn đối tƣợng, với một
kiểu dữ liệu ta định nghĩa đƣợc một công thức tính độ khác nhau riêng.
Có rất nhiều phƣơng pháp phân cụm khác nhau. Mỗi phƣơng pháp có rất
nhiều thuật toán tƣơng ứng. Đối với từng bài toán cụ thể, ta có thể áp dụng các
thuật toán khác nhau. Tuy nhiên, hai phƣơng pháp đầu tỏ ra kém hiệu quả trong
trƣờng hợp cơ sở dữ liệu có chứa nhiễu. Ở đây ta sẽ trình bày phƣơng pháp để
hạn chế điều đã nói ở trên. Đó là phƣơng pháp phân cụm dựa vào mật độ
DBSCAN.

III- PHƢƠNG PHÁP PHÂN CỤM DỰA VÀO MẬT ĐỘ DBSCAN
Các thuật toán phân cụm tập trung vào bài toán xác định cụm. Tuy nhiên,
việc ứng dụng để phát triển đối với các cơ sở dữ liệu không gian lớn đòi hỏi các
yêu cầu sau:
(1). Các yêu cầu tối thiểu các tham số đầu vào.
(2). Phát hiện ra các cụm với hình dạng không xác định, và hình dạng của
các cụm trong các cơ sở dữ liệu không gian có thể là hình cầu, đường thẳng

hoặc đường kéo dài vô hạn.
(3). Có hiệu quả tốt đối với các cơ sở dữ liệu lớn, chẳng hạn các cơ sở dữ
liệu có thể chứa trên một vài nghìn đối tượng.
Các thuật toán phân cụm đã biết không đáp ứng đƣợc tất cả các yêu cầu.
Thuật toán DBSCAN phát hiện ra các cụm có hình dạng không xác định và làm
việc tốt trên các cơ sở dữ liệu không gian lớn.
 Các khái niệm

Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về