Tải bản đầy đủ (.pdf) (70 trang)

Tìm hiểu các phương pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh thái nguyên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.8 MB, 70 trang )

LỜI CẢM ƠN
Em xin chân thành cảm ơn Trường Đại học Công nghệ Thông tin và Truyền
thông – Đại học Thái Nguyên đã tạo điều kiện cho em thực hiện luận văn này.
Em xin gửi lời cảm ơn sâu sắc tới thầy giáo TS Nguyễn Hải Minh, trưởng
khoa Công nghệ thông tin – Trường Đại học Công nghệ Thông tin và Truyền thông –
Đại học Thái Nguyên đã trực tiếp hướng dẫn em trong quá trình thực hiện luận văn.
Em cũng xin gửi lời cảm ơn tới các thầy, cô đã có những ý kiến đóng góp bổ
ích và đã tạo mọi điều kiện tốt nhất cho em trong suốt thời gian thực hiện luận văn.
Xin cảm ơn các bạn học đồng khóa đã thường xuyên động viên, giúp đỡ tôi trong
quá trình học tập.
Cuối cùng, em xin gửi lời cảm ơn đến gia đình và đồng nghiệp vì sự ủng hộ
và động viên đã dành cho em trong suốt quá trình học tập cũng như thực hiện luận
văn này.

Thái Nguyên, tháng 11 năm 2015
Học viên

Nguyễn Minh Tú


LỜI CAM ĐOAN

Em xin cam đoan về nội dung đồ án tốt nghiệp với tên đề tài “Tìm hiểu
các phương pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh
trên địa bàn tỉnh Thái Nguyên” không sao chép nội dung từ các luận văn khác,
hay các sản phẩm tương tự mà không phải do em làm ra. Sản phẩm luận văn là do
chính bản thân em tìm hiểu và xây dựng nên.
Nếu có gì sai em xin chịu mọi hình thức kỷ luật của Trường Đại học Công
nghệ Thông tin và Truyền thông – Đại học Thái Nguyên.

Thái Nguyên, tháng 11 năm 2015


Học viên

Nguyễn Minh Tú


MỤC LỤC
LỜI CẢM ƠN .......................................................................................................... i
LỜI CAM ĐOAN .................................................................................................... ii
MỤC LỤC ............................................................................................................. iii
DANH MỤC BẢNG ............................................................................................... v
DANH MỤC CÁC HÌNH VẼ ................................................................................ vi
MỞ ĐẦU ................................................................................................................ 1
MỘT SỐ KẾT QUẢ NGHIÊN CỨU KHÁC ........................................................... 2
CHƯƠNG I. KHAI PHÁ DỮ LIỆU ....................................................................... 3
1.1. Tổng quan khai phá dữ liệu .......................................................................... 3
1.2. Quá trình khám phá tri thức và khai phá dữ liệu ........................................... 3
1.2.1. Quá trình khám phá tri thức .................................................................... 3
1.2.2. Quá trình khai phá dữ liệu ...................................................................... 6
1.3. Các kỹ thuật trong khai phá dữ liệu .............................................................. 7
1.4. Một số thách thức trong khai phá dữ liệu .................................................... 10
CHƯƠNG II. PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁNPHÂN CỤM ...... 12
2.1. Khái niệm phân cụm dữ liệu ....................................................................... 13
2.1.1. Một số định nghĩa................................................................................. 13
2.1.2. Dữ liệu và độ đo ................................................................................... 13
2.2. Các yêu cầu đối với phương pháp phân cụm dữ liệu ................................... 14
2.3. Các kỹ thuật phân cụm ............................................................................... 16
2.3.1. Các kỹ thuật phân cụm cơ bản .............................................................. 16
2.3.2. Các kỹ thuật phân cụm khác ................................................................. 17
2.3.3. Một số tiêu chuẩn đánh giá hiệu quả phân cụm .................................... 22
2.4. Một số thuật toán trong phân cụm dữ liệu ................................................... 23

2.4.1. Các thuật toán phân cụm phân hoạch.................................................... 23
2.4.2. Các thuật toán phân cụm phân cấp........................................................ 31
2.4.3. Các thuật toán phân cụm dựa trên mật độ ............................................. 37
2.4.3. Các thuật toán phân cụm dựa vào lưới .................................................. 41


2.4.4. Các thuật toán phân cụm dựa trên mô hình ........................................... 43
CHƯƠNG 3: XÂY DỰNG BẢN ĐỒ PHÂN BỐ BỆNH....................................... 45
3.1. Bài toán phân cụm dữ liệu hồ sơ bệnh án.................................................... 45
3.2. Dữ liệu và tiêu chí xác định ........................................................................ 45
3.2.1. Một số đặc điểm tập dữ liệu gốc ........................................................... 45
3.2.2. Tiền xử lý dữ liệu gốc .......................................................................... 47
3.3. Lựa chọn phương pháp phân cụm ............................................................... 53
3.4. Kết quả phân cụm dữ liệu mẫu ................................................................... 54
3.5. Biểu điễn kết quả phân bố bệnh trên bản đồ................................................ 60
KẾT LUẬN ........................................................................................................... 62
TÀI LIỆU THAM KHẢO ..................................................................................... 64


DANH MỤC BẢNG
Bảng 3.1: Các loại bệnh và ký hiệu........................................................................ 54
Bảng 3.2: Các khu vực hành chính và ký hiệu ....................................................... 55
Bảng 3.3: Dữ liệu đầu vào cho phân cụm phân cấp ................................................ 55
Bảng 3.4: Biểu diễn kết quả phân cụm chi tiết ....................................................... 58
Bảng 3.5: Biểu diễn kết quả phân cụm theo tiêu chí bệnh ...................................... 60


DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Các giai đoạn trong quá trình khám phá tri thức ....................................... 4
Hình 1.2: Quá trình khai phá dữ liệu ........................................................................ 7

Hình 2.1: Ví dụ về phân cụm theo mật độ[4] ......................................................... 18
Hình 2.2: Cấu trúc phân cụm dựa trên lưới[4]........................................................ 19
Hình 2.3: Ví dụ về phân cụm dựa trên mô hình[4] ................................................. 20
Hình 2.4: Cách mà các cụm có thể đưa ra .............................................................. 21
Hình 2.5: Thuật toán k-means ................................................................................ 24
Hình 2.6: Sự thay đổi tâm cụm trong k-means khi có phần tử ngoại lai ................. 27
Hình 2.7: Phân cụm phân cấp tập theo phương pháp “dưới lên” [4] ....................... 32
Hình 2.8: Single link.............................................................................................. 32
Hình 2.9: Complete link ........................................................................................ 32
Hình 2.10: Các bước cơ bản của AGNES[4] .......................................................... 34
Hình 2.11: Các bước cơ bản của DIANA[4] .......................................................... 35
Hình 2.12: Cấu trúc cây CF ................................................................................... 36
Hình 2.13: Hình dạng các cụm được khám phá bởi thuật toán DBSCAN............... 39
Hình 2.14: Sắp xếp cụm trong OPTICS phụ thuộc vào [4] ................................... 40
Hình 3.1: Sơ đồ khối giải quyết bài toán ................................................................ 45
Hình 3.2: Phân tích dữ liệu gốc, thuộc tính “HO TEN”.......................................... 48
Hình 3.3: Dữ liệu gốc sau khi loại bỏ thuộc tính thừa và dữ liệu trùng lặp ............. 49
Hình 3.4: Phân tích dữ liệu gốc, thuộc tính “QUAN HUYEN” .............................. 50
Hình 3.5: Loại bỏ một số giá trị của thuộc tính “QUAN HUYEN” ........................ 51
Hình 3.6: Dữ liệu trước và sau khi lọc thuộc tính “CHUAN DOAN DAU RA”..... 52
Hình 3.7: Cấu và phân bố dữ liệu mẫu ................................................................... 56
Hình 3.8: Thiết lập tham số thuật toán K-means .................................................... 57
Hình 3.9: Kết quả phân cụm chi tiết....................................................................... 57
Hình 3.10: Kết quả phân cụm dựa trên loại bệnh ................................................... 59
Hình 3.11: Bản đồ phân bố bệnh các khu vực ........................................................ 61


1

MỞ ĐẦU


Đề tài tìm hiểu các phương pháp phân cụm dữ liệu, đánh giá ưu nhược điểm
của mỗi phương pháp để tìm ra phương pháp phù hợp áp dụng trên tập dữ liệu mẫu.
Kết quả sẽ được dùng để xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh Thái
Nguyên nhằm hỗ trợ công tác lên kế hoạch dự trù cơ sở vật chất, thuốc và các trang
thiết bị khác cho các trung tâm y tế của Tỉnh.
Thái Nguyên là một tỉnh trung du miền núi thuộc vùng Đông Bắc của Việt
Nam với diện tích hơn 3500 km2 và dân số khoảng hơn một triệu người; bao gồm 9
đơn vị hành chính: Thành phố Thái Nguyên; Thị xã Sông Công và 7 huyện: Phổ Yên,
Phú Bình, Đồng Hỷ, Võ Nhai, Định Hóa, Đại Từ, Phú Lương. Trong đó, tổng số gồm
180 xã, trong đó có 125 xã vùng cao và miền núi, còn lại là các xã đồng bằng và
trung du.Tỉnh Thái Nguyên có nhiều dân tộc anh em sinh sống. Tuy nhiên, dân cư
phân bố không đều, vùng cao và vùng núi dân cư rất thưa thớt, trong khi đó ở thành
thị và đồng bằng dân cư lại dày đặc. Mật độ dân số thấp nhất là huyện Võ Nhai 72
người/ km2, cao nhất là Thành phố Thái Nguyên với mật độ 1.260 người/ km2.
Do sự khác biệt lớn trong cơ cấu dân số, lối sống, trình độ dân trí nên có
những sự khác biệt đáng kể trong các hình thức bệnh trong các khu vực hành chính
khác nhau. Nếu các thông tin về hình thức bệnh và các vấn đề sức khỏe trong mỗi
khu vực hành chính được thu thập đầy đủ, nó sẽ có thể sẽ giúp việc phân bổ nguồn
lực hiệu quả để phát triển các chính sách y tế công cộng cho các khu vực khác nhau.
Luận văn sử dụng các kỹ thuật khai thác dữ liệu để phân tích dữ liệu y tế
thuộc Đại học Y Dược Thái Nguyên trongbốn tháng đầu năm 2015. Hy vọng rằng
việc sử dụng các công cụ này một cách hiệu quả có thể phân tích và điều tra hình
thức bệnh trong khu vực hành chính khác nhau của Thái Nguyên để tiếp tục xây
dựng một bản đồ y tế cho tỉnh Thái Nguyên.


2

MỘT SỐ KẾT QUẢ NGHIÊN CỨU KHÁC

Ching-Kuo Wei et al. [2] Nghiên cứu này sử dụng các kỹ thuật khai phá dữ liệu
điều tra các loại bệnh trong các khu vực hành chính khác nhau và phân tích sự khác
nhau giữa các khu vực hành chính để tiếp tục xây dựng một bản đồ phân bố bệnh.
Nghiên cứu hy vọng sẽ giúp xây dựng trong tương lai các chiến lược y tế và
phân bố các nguồn lực một cách thích hợp.
Lavrac [4] đề xuất một số kỹ thuật khai thác dữ liệu có thể được áp dụng
trong y học, và đặc biệt là một số kỹ thuật máy học bao gồm các cơ chế mà làm cho
chúng phù hợp hơn cho việc phân tích cơ sở dữ liệu y tế (nguồn gốc của các quy tắc
mang tính biểu tượng, sử dụng các kiến thức nền, độ nhạy và độ đặc hiệu của giới
thiệu gây ra). Tầm quan trọng của thông dịch các kết quả phân tích dữ liệu là thảo
luận và minh họa trên các ứng dụng y tế đã chọn.
Lavrac et al. [5] đề xuất một phương pháp khai thác dữ liệu và công nghệ
trực quan được sử dụng để hỗ trợ việc ra quyết định liên quan đến sức khỏe cộng
đồng tại Slovenia.Mục đích nhằm khai thác cơ sở dữ liệu y tế công cộng để xác
định khả năng đáp ứng của các dịch vụ y tế công cộng đối với các khu vực. Các kết
quả có thể sử dụng để phát triển các chính sách chăm sóc sức khỏe cơ quan y tế.


3

CHƯƠNG I. KHAI PHÁ DỮ LIỆU
1.1. Tổng quan khai phá dữ liệu
Cùng với sự phát triển mạnh mẽ của công nghệthông tin,lượng thông tin của
nhân loại đượclưu trữ trên các thiết bị điện tử, các hệ thống thông tin ngày một tăng.
Việc ứng dựng công nghệ thông tin mạnh mẽ, sâu rộng trong nhiều lĩnh vực: khoa
học, kinh doanh, chứng khoán, thương mại, giao dịch,… đã tích lũy nên nguồn dữ
liệu khổng lồ.Sự bùng nổ này đãdẫn tới một yêu cầu cấp thiết là cần có những kỹ
thuật và công cụ mới để tựđộng chuyển đổi lượng dữ liệu khổng lồ kia thành các tri
thức có ích. Do đó, khai phá dữ liệu (Data Mining) và các kỹ thuật phai phá dữ liệu
ra đời đã phần nào giải quyết được được yêu cầu trên.

Trithức được xem như là các thông tin tích hợp, bao gồm các sự kiện và
mốiquan hệ giữa chúng, đã được nhận thức, khám phá, hoặc nghiên cứu. Nói
cáchkhác, tri thức có thể được coi là dữ liệu ở mức độ cao của sự trừu tượng vàtổng
quát.
Khám phá tri thức là quá trình tìm ra những tri thức, đó là những mẫu tìm ẩn,
trước đó chưa biết và là thông tin hữu ích đáng tin cậy.Khai phá dữ liệu là một bước
trong quá trình khám phá tri thức, gồmcác thuật toán khai thác dữ liệu chuyên dùng
dưới một số qui định về hiệu quảtính toán chấp nhận được để tìm ra các mẫu hoặc
các mô hình trong dữ liệu.Nói cách khác, mục tiêu của khai phá dữ liệu là tìm kiếm
các mẫu hoặc môhình tồn tại trong cơ sở dữ liệu (CSDL) nhưng ẩn trong khối lượng
lớn dữ liệu.
Khám phá tri thức từ CSDL là một quá trình sử dụng các phương pháp và công
cụ tin học để khám phá,lựa chọn được tập con dữ liệu tốt, từ đó phát hiện các mẫu phù
hợp với mục tiêu đề ra. Đó chính là tri thức, được rút ra từ CSDL, thường để phục vụ
cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh vực nhất định.
1.2. Quá trình khám phá tri thức vàkhai phá dữ liệu
1.2.1 . Quá trình khám phá tri thức


4

Quá trình khám phá tri th
thức là một quá trình bao gồm nhiều
ều giai đoạnvới
nhiều hoạt động tương
ương tác gi
giữa con người và CSDL thông qua việc
ệc hỗ trợ của các
phương pháp, thuật
ật toán cũng như các công cụ tin học. Tri thức được

ợc rút ra từ các
CSDL đểể phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh
vực nào đó. Do đó quá trình
tr
khám phá tri thức
ức cũng mang tính chất hướng
h
nhiệm
vụ, không phải
ải phát hiện mọi tri thức đ
được bất kỳ mà phát hiện
ện tri thức nhằm giải
quyết tốt vấn đề đặt ra.

Hình 1.1: Các giai đo
đoạn trong quá trình
ình khám phá tri thức
th
Quá trình khám phá tri thức
th gồm sáu giai đoạn[1] như hình
ình 1.1.
1.1 Bắt đầu của
quá trình là kho dữ
ữ liệu thô v
và kết thúc với tri thức đượcchiết
ợcchiết xuất ra. Đây là một
quátrình rất
ất khó khăn gặp phải rất nhiều v
vướng
ớng mắc: quản lý các tập dữ liệu,phải lặp

đi lặp lại toàn bộ quá trình,
ình, ...
1. Gom dữ
ữ liệu: Tập hợp dữ liệu llà bước đầu tiên
ên trong quá trìnhkhai
trình
phá dữ
liệu. Đây là bước được
ợc khai thác trong một ccơ sở dữliệu, một
ột kho dữ liệu nguồn
thông tin Internet.
2. Trích lọc dữ liệu
liệu: Ở giai đoạn này dữ liệu được
ợc lựa chọn hoặcphân chia
theomột số tiêu chuẩn nào
ào đó ph
phục vụ mục đích khaithác.
3. Làm sạch,
ạch, tiền xử lý v
và chuẩn bị trước dữ liệu: Dữ
ữ liệu cần được
đ
làm sạch
để khắc phục đối với trư
ường dữ liệu rỗng, dư thừa
ừa hoặc dữ liệu không hợp lệ. Giai


5


đoạn này là một bước rấtquan trọng trong quá trình khai phá dữ liệu. Một số lỗi
thườngmắc phải trong khi gom dữ liệu là tính không đủ chặt chẽ.Vì vậy, dữ liệu
thường chứa các giá trị vô nghĩa và không có khảnăng kết nối dữ liệu. Giai
đoạnnày sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nóitrên. Những dữ
liệu dạng được xem như thông tin dư thừa,không có giá trị sẽ được loại bỏ. Dữ liệu
này nếu không được “làm sạch - tiền xử lý - chuẩn bịtrước” thì sẽ gây nên những
kết quả sai lệch nghiêm trọng. Các công việc tiền xử lý dữ liệu bao gồm:
- Xử lý dữ liệu bị mất, thiếu: Các dữ liệu thiếu sẽ được thay thế bằng các giá
trị thích hợp.
- Khử bỏ trùng lặp: các đối tượng dữ liệu trùng lặp sẽ bị loại bỏ.
- Giảm nhiễu: dữ liệu nhiễu và các đối tượng tách rời khỏi phân bố chung sẽ
bị loại bỏ khỏi tập dữ liệu.
- Chuẩn hóa: thông thường là chuẩn hóa miền giá trị của dữ liệu cho phù hợp.
- Rời rạc hóa: chính là việc biến đổi dữ liệu dạng số về dữ liệu với các giá trị
rời rạc.
- Trích rút và xây dựng các đặc trưng mới từ các thuộc tính đã có.
- Giảm chiều không gian thuộc tính: là loại bỏ bớt các thuộc tính có chứa ít
thông tin.
4. Chuyển đổi dữ liệu: Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữliệu đưa
ra có thể sử dụng và điều khiển được bởi việc tổ chức lạinó, tức là dữ liệu sẽ được
chuyển đổi về dạng phù hợp với mục đíchkhai phá dữ liệu.
5. Khai phá dữ liệu (KPDL): Đây là bước quan trọng nhất trong tiến trình phát
hiện tri thức, là bước mang tính tư duy trong khai phádữ liệu. Ở giai đoạn này nhiều
thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán
thường dùng làm nguyên tắc phân loại, nguyên tắc liên kết, ... Kết quả quả giai đoạn
này là trích chọn được các mẫu hoặc các mô hình ẩn dưới một khối lượng lớn dữ liệu.
6. Đánh giá các luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu
được chiết xuất ra bởi phần mềm KPDL. Không phải bất cứ mẫu dữ liệu nào cũng
đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn



6

đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra. Đánh giá sự hữu
ích của các mẫu biểu diễn tri thức dựa trên một số phép đo. Sau đó sử dụng các kỹ
thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho
người sử dụng.
Biểu diễn tri thức bao bao gồm việc hiển thị kết quả hoặc dịch kết quả để
hiểu và trình diễn. Trong bước này các tri thức vừa mới khám phá sẽ được củng cố,
kết hợp lại thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng trong
các tri thức trước đó. Các mô hình rút ra được đưa vào những hệ thống thông tin
thực tế dưới dạng các mô-đun hỗ trợ việc đưa ra quyết định.
Các giai đoạn (bước) của quá trình phát triển tri thức có mỗi quan hệ chặt
chẽ với nhau trong bối cảnh chung của hệ thống. Các kỹ thuật trong bước trước có
thể ảnh hưởng đến hiệu quả của các giải thuật trong nhưỡng bước tiếp theo. Các
bước của quá trình khám phá tri thức có thể lặp đi lặp lại một số lần, kết quả thu
được có thể được lấy trung bình trên tất cả các lần thực hiện.
1.2.2. Quá trình khai phá dữ liệu
KPDL là giai đoạn quan trọng nhất trong quá trình khám phátri thức. Về cơ
bản, KPDL là về xử lý dữ liệu và nhận biết các mẫu và các xu hướng trong thông
tin đó để bạn có thể quyết định hoặc đánh giá. Các nguyên tắc KPDL đã được dùng
nhiều năm, nhưng với sự ra đời của big data (dữ liệu lớn), nó lại càng phổ biến hơn.
Big data gây ra một sự bùng nổ về sử dụng nhiều kỹ thuật KPDL hơn, một phần vì
kích thước thông tin lớn hơn rất nhiều và vì thông tin có xu hướng đa dạng và mở
rộng hơn về chính bản chất và nội dung của nó. Với các tập hợp dữ liệu lớn, để
nhận được số liệu thống kê tương đối đơn giản và dễ dàng trong hệ thống vẫn chưa
đủ[6].
Với 30 hoặc 40 triệu bản ghi thông tin khách hàng chi tiết, việc biết rằng 2
triệu khách hàng trong số đó sống tại một địa điểm vẫn chưa đủ. Bạn muốn biết liệu
2 triệu khách hàng đó có thuộc về một nhóm tuổi cụ thể không và bạn cũng muốn

biết thu nhập trung bình của họ để bạn có thể tập trung vào các nhu cầu của khách
hàng của mình tốt hơn.


7

Những nhu cầu đa dạng
d
đã thay đổi cách lấy ra và thống kêê dữ
d liệu đơn giản
sang việc KPDL phức
ức tạp hơn.
h
Vấn đề hướng
ớng tới việc xem xét dữ liệu để giúp xây
dựng một mô hình đểể mô tả các thông tin m
mà cuối cùng sẽẽ dẫn đến việc tạo ra báo
cáo kết quả.

Hình 1.2:
1. Quá trình khai phá dữ liệu
- Xác định
ịnh nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết.
- Xác định
ịnh các dữ liệu liên
li quan: Dùng đểể xây dựng giải pháp.
- Thu thập và tiền
ền xử lý dữ liệu: Thu thập các dữ liệu li
liên
ên quan và tiền

ti xử lý
chúng sao cho thuật
ật toán KPDL có thể hiểu đ
được. Đây là một
ột quá trình
tr
rất khó
khăn, có thểể gặp phải rất nhiều các v
vướng mắc như: dữ liệu phải đư
ược sao ra nhiều
bản (nếu được
ợc chiết xuất vào
v các tệp),
ệp), quản lý tập các dữ liệu, phải lặp đi lặp lại
nhiều lần toàn bộ quá trình
ình (nếu
(n mô hình dữ liệu thay đổi), ...
- Thuật toán KPDL
KPDL: Lựa chọn thuật toán khai phá dữ liệu vàà thực hiện việc
khai phá dữ liệu để tìm được
đư các mẫu có ý nghĩa, các mẫu này được
ợc biểu diễn dưới
dạng
ạng luật kết hợp, cây quyết định...tương ứng mục đích đề ra.
1.3. Các kỹ thuậtt trong khai phá dữ
d liệu
Có nhiều
ều kỹ thuật khác nhau được
đ ợc sử dụng để KPDL nhằm thực hiện hai
chức năng mô tả và dự

ự đoán. Với mỗi chức năng thì
th có các kỹ
ỹ thuật KPDL tương
t
ứng với nó. Không có kỹ
ỹ thuật nào
n tốt để có thể áp dụng cho mọi trường
ờng hợp [1].
Kỹ
ỹ thuật KPDL mô tả có nhiệm vụ mô tả tính chất hoặc các đặc tính chung
của
ủa dữ liệu trong CSDL hiện có. Một
ột số kỹ thuật khai phá trong nhóm này
n là: phân
cụm
ụm dữ liệu, tổng hợp, trực quan hóa, phân tích sự phát triển và
v độ
ộ lệch,…


8

Kỹ thuật KPDL dự đoán có nhiệm vụ đưa ra các dự đoán vào việc suy diễn
trên CSDL hiện thời. Một số kỹ thuật khai phá trong nhóm này là: phân lớp, hồi
quy, cây quyết định, thống kê, mạng nơ-ron, luật kết hợp,…


9

a. Cây quyết định

Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân
lớp và dự báo. Các đối tượng dữ liệu được phân thành các lớp. Các giá trị của đối
tượng dữ liệu chưa biết sẽ được dự báo, dự đoán. Tri thức được rút ra dưới kỹ thuật
này thường ở dưới dạng tường minh, đơn giản, trực quan đối với người sử dụng.
b. Phân lớp dữ liệu và hồi quy
Mục tiêu của phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu. Quá
trình gồm hai bước: xây dựng mô hình, dử dụng mô hình để phân lớp dữ liệu. Mô hình
được sử dụng để dự đoán nhãn lớp khi mà độ chính xác của mô hình chấp nhận được.
Phương pháp hồi quy tương tự như phân lớp dữ liệu. Nhưng khác ở chỗ nó
dùng để dự đoán trước các giá trị liên tục, còn phân lớp dữ liệu dùng để dự đoán các
giá trị rời rạc.
c. Phân cụm dữ liệu
Phân cụm dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm, phát
hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn
để từ đó cung cấp thông tin, tri thức cho việc ra quyết định.
Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong
tập dữ liệu vào các cụm, sao cho những đối tượng thuộc cùng một lớp là tương
đồng nhau.
d. Khai phá luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra mỗi liên hệ giữa các
giá trị dữ liệu trong CSDL. Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm
được. Phương pháp khai phá luật kết hợp gồm có hai bước:
- Bước một: Tìm ra tất cả các tập mục phổ biến. Một tập mục phổ biến được
xác định thông qua việc tính độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu.
- Bước hai: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, luật phải thỏa
mãn độ hỗ trợ và độ tin cậy cực tiểu.


10


e. Giải thuật di truyền
Giải thuật di truyền là quá trình mô phỏng theo tiến hóa của tự nhiên. Ý
tưởng chính của giai đoạn này là dựa vào quy luật di truyền trong biến đổi, chọn lọc
tự nhiên và tiến hóa trong sinh học.
f. Mạng nơ-ron
Đây là một trong những kỹ thuật KPDL được sử dụng phổ biển hiện nay. Kỹ
thuật này phát triển dựa trên nền tảng toán học vững vàng, khả năng huấn luyện
trong kỹ thật này mô phỏng hệ thần kinh trung ương của con người.
Kết quả mà mạng nơ-ron học được có khả năng tạo ra các mô hình dự báo, dự
đoán với độ chính xác và độ tin cậy cao. Nó có khả năng phát hiện ra các xu hướng
phức tạp mà các kỹ thuật thông thường khác khó có thể phát hiện ra được. Tuy nhiên
đây là kỹ thuật tương đối phức tạp và quá trình thực hiện nó gặp rất nhiều khó khăn,
đòi hỏi tốn nhiều thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử nghiệm.
1.4. Một số thách thức trong khai phá dữ liệu
Khám phá tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh
vực, do đó cũng tồn tại nhiều thách thức và khó khăn:
- Các cơ sở dữ liệu lớn hơn rất nhiều: cơ sở dữ liệu với hàng trăm trường và
bảng, hàng triệu bản ghi và kích thước lên tới nhiều gigabyte là vấn đề hoàn toàn
bình thường.
- Số chiều cao : không chỉ thường có một số lượng rất lớn các bản ghi trong
cơ sở dữ liệu mà còn có một số lượng rất lớn các trường (các thuộc tính, các biến)
làm cho số chiều của bài toán trở nên cao. Thêm vào đó, nó tăng thêm cơ hội cho
một giải thuật khai phá dữ liệu tìm ra các mẫu không hợp lệ.
- Thay đổi dữ liệu và tri thức: thay đổi nhanh chóng dữ liệu có thể làm cho
các mẫu phát hiện trước đó không hợp lệ. Thêm vào đó, các biến đã đo trong một cơ
sở dữ liệu ứng dụng cho trước có thể bị sửa đổi, xóa bỏ hay tăng thêm các phép đo
mới. Các giải pháp hợp lý bao gồm các phương pháp tăng trưởng để cập nhật các
mẫu và xử lý thay đổi.



11

- Dữ liệu thiếu và bị nhiễu: bài toán này đặc biệt nhạy trong các cơ sở dữ liệu
thương mại. Các thuộc tính quan trọng có thể bị mất nếu cơ sở dữ liệu không được
thiết kế với sự khám phá bằng trí tuệ. Các giải pháp có thể gồm nhiều chiến lược
thống kê phức tạp để nhận biết các biến ẩn và các biến phụ thuộc.
- Mối quan hệ phức tạp giữa các trường: các thuộc tính hay giá các giá trị có
cấu trúc phân cấp, các quan hệ giữa các thuộc tính và các phương tiện tinh vi hơn cho
việc biểu diễn tri thức về nội dung của một cơ sở dữ liệu sẽ đòi hỏi các giải thuật phải
có khả năng sử dụng hiệu quả các thông tin này. Về mặt lịch sử, các giải thuật khai
phá dữ liệu được phát triển cho các bản ghi có giá trị thuộc tính đơn giản, mặc dù các
kỹ thuật mới bắt nguồn từ mối quan hệ giữa các biến đang được phát triển.
- Tính dễ hiểu của các mẫu: trong nhiều ứng dụng, điều quan trọng là những
gì khai thác được phải càng dễ hiểu đối với con người thì càng tốt. Các giải pháp có
thể thực hiện được bao gồm cả việc biểu diễn được minh họa bằng đồ thị, cấu trúc
luật với các đồ thị có hướng, biểu diễn bằng ngôn ngữ tự nhiên và các kỹ thuật hình
dung ra dữ liệu và tri thức.
- Người dùng tương tác và tri thức sẵn có: nhiều phương pháp khám phá tri
thức và các công cụ không tương tác thực sự với người dùng và không thể dễ dàng
kết hợp chặt chẽ với tri thức có sẵn về một bài toán loại trừ theo các cách đơn giản.
Việc sử dụng của miền tri thức là quan trọng trong toàn bộ các bước của xử lý khám
phá tri thức.
Kết luận
Khai phá dữ liệu là lĩnh vực đã và đang trở thành một trong những hướng
nghiên cứu thu hút được sự quan tâm của nhiều chuyên gia về công nghệ thông tin.
Gần đây, rất nhiều phương pháp và thuật toán mới liên tục được công bố. Điều này
chứng tỏ những lợi ích và khả năng ứng dụng thực tế của khai phá dữ liệu. Chương
này đã trình bày một số kiến thức tổng quan về khám phá tri thức, những khái niệm
và kiến thức cơ bản nhất về khai phá dữ liệu.



12

CHƯƠNG II. PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN
PHÂN CỤM
Phân cụm là một trong những chủ đề được quan tâm nhiều trong các nghiên
cứu KPDL. Phân cụm là quá trình nhóm một tập các đối tượng thành các nhóm hay
các lớp đối tượng “tương tự” nhau. Một cụm là tập các đối tượng “giống nhau” hay
tương tự nhau. Các đối tượng khác cụm là ít hoặc không tương tự nhau. Không
giống như quá trình phân loại, ta thường biết trước tính chất hay đặc điểm của đối
tượng trong cùng một cụm và dựa vào đó để ấn định một đối tượng vào cụm của nó,
trong quá trình phân cụm ta không hề biết trước các tính chất của cụm mà dựa vào
các mỗi quan hệ của các đối tượng để tìm ra sự giống nhau giữa các đối tượng dựa
vào một độ đo nào đó đặc trưng cho mỗi cụm.
Việc phân cụm dữ liệu không thực hiện độc lập mà thường kết hợp với các
phương pháp khác. Một cách phân cụm đưa ra cũng phải có một phương pháp áp
dụng trên các lớp đó để đưa ra được ý nghĩa của cụm.
Trong lĩnh vực KPDL, các vấn đề nghiên cứu trong phân cụm chủ yếu tập
trung vào tìm kiếm các phương pháp phân cụm hiệu quả và tin cậy trong CSDL lớn.
Một vấn đề thường gặp trong phân cụm dữ liệu (PCDL) là hầu hết các dữ
liệu cần cho PCDL đều có chứa dữ liệu “nhiễu” do nhiều nguyên nhân khác nhau,
vì vậy cần xây dựng chiến lược cho bước tiền xử lý nhằm loại bỏ những dữ liệu
“nhiễu” trước khi bước vào giai đoạn phân tích PCDL.
Ngoài ra, dò tìm phần tử ngoại lai là một trong những hướng nghiên cứu
quan trọng trong PCDL, chức năng của nó là xác định một nhóm nhỏ các đối tượng
dữ liệu “khác thường” so với các dữ liệu khác trong CSDL nhằm tránh sự ảnh
hướng của chúng tới quá trình cũng như kết quả PCDL.
PCDL là một bài toán không hề đơn giản và phải giải quyết nhiều vấn đề cơ
bản như sau:
- Biểu diễn dữ liệu.

- Xây dựng hàm tính độ tương tự.


13

- Xây dựng các tiêu chuẩn phân cụm.
- Xây dựng mô hình cho cấu trúc cụm dữ liệu.
- Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo.
- Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm.
2.1. Khái niệm phân cụm dữ liệu
2.1.1. Một số định nghĩa
Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các
phương pháp “Unsupervised Learning” trong “Machine Learning”. Có rất nhiều
định nghĩa khác nhau về kỹ thuật này, nhưng về bản chất phân cụm là các qui trình
tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng
trong cùng một cụm tương tự (similar) nhau và các đối tượng khác cụm thì không
tương tự (Dissimilar) nhau.
Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu.
Các thuật toán phân cụm (Clustering Algorithms) đều sinh ra các cụm (clusters).
Tuy nhiên, không có tiêu chí nào là được xem là tốt nhất để đánh hiệu của của phân
tích phân cụm, điều này phụ thuộc vào mục đích của phân cụm như: data reduction,
“natural clusters”, “useful” clusters, outlier detection.
2.1.2. Dữ liệu và độ đo
Trong phân cụm, các đối tượng phân tích này phải được biểu diễn chặt chẽ
thông qua các đặc điểm của đối tượng đó. Những đặc điểm này có ý nghĩa quyết
định đến kết quả của thuật toán phân cụm. Các loại dữ liệu được tìm hiểu theo hai
hướng tiếp cận: tiếp cận dựa trên kích thước miền và tiếp cận theo tỷ lệ đo.
a. Phân loại dựa trên kích thước miền
Cách phân loại này phân biệt các đối tượng dữ liệu dựa trên kích thước miền
của đối tượng đó, tức là số giá trị khác nhau của vùng đó. Giả sử có CSDL D và n

đối tượng. Nếu x, y, z là ba đối tượng của D thì chúng sẽ có dạng:
x = (x1, x2,…,xk), y = (y1, y2,…,yk) , z = (z1, z2,…,zk)
Với k là số chiều và xi, yi, zi với 1 ≤ i ≤ k là các thuộc tính tương ứng của
các đối tượng. Vì vậy, thuật ngữ “loại dữ liệu” là chỉ “loại thuộc tính dữ liệu”.


14

Chúng ta có các loại lớp sau[1]:
- Thuộc tính liên tục: miền giá trị của các thuộc tính này là miền các giá trị
liên tục. Ví dụ: nhiệt độ, mầu sắc, âm thanh…
- Thuộc tính rời rạc: miền giá trị của các thuộc tính này là là miền các giá trị
rời rạc. Ví dụ: số quyển sách, số quả cam,…
- Thuộc tính nhị nguyên: miền giá trị của các thuộc tính này chỉ bao gồm
hai giá trị rời rạc. Đó là trường hợp đặc biệt của thuộc tính rời rạc. Ví dụ: các câu
trả lời có/không, giới tính nam/nữ…
b. Phân loại dựa vào phép đo
Giả sử có hai đối tượng x,y và giá trị thuộc tính i của mỗi đối tượng tương
ứng là xi và yi. Ta có các thuộc tính sau:
- Định danh: các giá trị ở lớp này chỉ có phép toán só sánh bằng (xi = yi)
hoặc không bằng (xi # yi).
- Có thứ tự: ngoài các phép toán dữ liệu định danh các giá trị thuộc lớp này
còn là các phép so sánh lớn hơn (xi> yi) và nhỏ hơn (xi< yi).
- Có khoảng cách: các giá trị ở lớp này có phép toán tính được độ lệch giữa
hai giá trị xi - yi.
2.2. Các yêu cầu đối với phương pháp phân cụm dữ liệu
Đến nay chưa có một phương pháp phân cụm tổng quát nào có thể giải quyết
trọn vẹn tất cả các dạng cấu trúc cụm dữ liệu. Hơn nữa, các phương pháp phân cụm
cần có cách thức biểu diễn cấu trúc các cụm dữ liệu khác nhau, với mỗi cách thức
biểu diễn khác nhau sẽ có một phương pháp phân cụm phù hợp.

Việc lựa chọn một thuật toán phân cụm là vấn đề then chốt để giải quyết bài
toán phân cụm dữ liệu, lựa chọn này phụ thuộc vào đặc tính dữ liệu cần phân cụm,
mục đích của các bài toán thực tế là xác định độ ưu tiên giữa chất lượng phân cụm
và tốc độ thực hiện của thuật toán.
Thông thường các nghiên cứu để xây dựng và phát triển thuật toán phân cụm
dữ liệu đều nằm đáp ứng yêu cầu sau [1]:


15

- Có khả năng mở rộng: Một số thuật toán áp dụng cho tập dữ liệu nhỏ
(khoảng 200 bản ghi). Nhưng không hiệu quả khi áp dụng cho tập dữ liệu lớn
(khoảng 1 triệu bản ghi).
-Thích nghi với các kiểu dữ liệu khác nhau: thuật toán có thể áp dụng phân
cụm với nhiều kiểu dữ liệu khác nhau như dữ liệu kiểu số, kiểu nhị phân, … và
thích nghi với kiểu dữ liệu hỗn hợp.
-Khám phá ra các cụm với hình thù bất kỳ: Hầu hết các CSDL chứa nhiều
cụm dữ liệu với nhiều hình thù khác nhau: hình lõm, hình cầu, hình que,… Vì vậy,
để các cụm dữ liệu được khám phá ra có tính tự nhiên thì các thuật toán phân cụm
dữ liệu phải có khả năng khám phá ra các cụm dữ liệu có hình thù khác nhau.
- Tối thiểu lượng tri thức cần cho tham số đầu vào: Do các giá trị đầu vào
của thuật toán có ảnh hướng rất lớn đến độ phức tạp, tốc độ của thuật toán. Do đó
cần xác định giá trị đầu vào của thuật toán một cách tối ưu đặc biệt với những
CSDL lớn.
- Ít nhạy cảm đối với thứ tự của dữ liệu vào: Cùng một tập dữ liệu khi đưa
vào xử lý bằng các thuật toán PCDL, thứ tự vào của các đối tượng dữ liệu ở các lần
thực hiện khác nhau không ảnh hưởng đến kết quả của phân cụm dữ liệu.
- Khả năng thích nghi với dữ liệu nhiễu cao: Hầu hết các dữ liệu phân cụm
trong KPDL đều có chứa các dữ liệu lỗi, dữ liệu không đầy đủ, dữ liệu rác được gọi
chung là dữ liệu nhiễu. Bởi vậy các thuật toán phân cụm không có những hiệu quả

với những dữ liệu nhiễu mà còn chất dẫn đến chất lượng phân cụm thấp do nhạy
cảm với những dữ liệu nhiễu.
- Thích nghi với dữ liệu đa chiều: Thuật toán áp dụng có hiệu quả đối với các
dữ liệu đa chiều.
- Dễ hiểu, dễ cài đặt và khả thi: Đây là yêu cầu đồng thời là tiêu chí để đánh
giá hiệu quả của các thuật toán phân cụm.


16

2.3.Các kỹ thuật phân cụm
2.3.1 Các kỹ thuật phân cụm cơ bản
Các kỹ thuật phân cụm được chia thành hai loại chính: phân hoạch
(partitional) và phân cấp (hierarchical).
Phân hoạch: Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử
thành k nhóm cho đến khi xác định số các cụm được thiết lập. Số các cụm được
thiết lập là các đặc trưng được lựa chọn trước. Phương pháp này là tốt cho việc tìm
các cụm hình cầu trong không gian Euclidean. Ngoài ra, phương pháp này cũng phụ
thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có
quan hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ
hoặc có quan hệ là xa nhau so với mỗi điểm khác. Tuy nhiên, phương pháp này
không thể xử lí các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm
dầy đặc. Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định
nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các
cách phân hoạch có thể được. Chính vì vậy, trên thực tế thường đi tìm giải pháp tối
ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất
lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu.
Như vậy, ý tưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử
dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm.
Điển hình trong phương pháp tiếp cận theo phân cụm phân họach là các thuật

toán như : K-means, K-medoids, CLARA (Clustering Large Applications),
CLARANS (Clustering Large Applications based on RAndomized Search) …
Phân cấp: Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng
dữ liệu đang xem xét. Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có
dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy. Có hai cách
tiếp cận phổ biến của kỹ thuật này đó là: hòa nhập nhóm, thường được gọi là tiếp
cận (Bottom-Up); phân chia nhóm, thường được gọi là tiếp cận (Top-Down)
Phương pháp “dưới lên” (Bottom up) : Phương pháp này bắt đầu với mỗi đối
tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đó tiến hành nhóm các


17

đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm của hai
nhóm), quá trình này được thực hiện cho đến khi tất cả các nhóm được hòa nhập
vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết
thúc thỏa mãn. Như vậy, cách tiếp cận này sử dụng chiến lược ăn tham trong quá
trình phân cụm.
Phương pháp “trên xuống” (Top Down) : Bắt đầu với trạng thái là tất cả các
đối tượng được xếp trong cùng một cụm. Mỗi vòng lặp thành công, một cụm được
tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đó cho
đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn. Cách
tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm.
Điển hình trong phương pháp tiếp cận theo phân cụm phân cấp là các thuật
toán như : AGNES (Agglomerative Nesting), DIANA (Divisive Analysis), BIRCH
(1996), CURE (1998), CHAMELEON (1999) ...
Thực tế áp dụng, có nhiều trường hợp kết hợp cả hai phương pháp phân cụm
phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân
cấp có thể cải tiến thông qua bước phân cụm phân hoạch. Phân cụm phân hoạch và
phân cụm phân cấp là hai phương pháp phân cụm dữ liệu cổ điển, hiện đã có rất

nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được áp dụng phổ biến
trong khai phá dữ liệu.
2.3.2. Các kỹ thuật phân cụm khác
Phân cụm dựa trên mật độ (Density-Based Methods): Kỹ thuật này nhóm các
đối tượng dữ liệu dựa trên hàm mật độ xác định, mật độ là số các đối tượng lân cận
của một đối tượng dữ liệu theo một nghĩa nào đó. Trong cách tiếp cận này, khi một
dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới
miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng đã được xác định
trước. Phương pháp phân cụm dựa trên mật độ của các đối tượng để xác định các
cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ. Kỹ thuật này có
thể khắc phục được các phần tử ngoại lai hoặc giá trị nhiễu rất tốt, tuy nhiên việc


18

xác định các tham số mật độ của thuật toán là rất khó khăn, trong khi các tham số
này lại có tác động rất lớn đến kết quả phân cụm.

Hình 2.1: Ví dụ về phân cụm theo mật độ[4]
Điển hình trong phương pháp tiếp cận theo phân cụm dựa trên mật độ là các
thuật

toán

như

:

DBSCAN(KDD’96),


DENCLUE

(KDD’98),

CLIQUE(SIGMOD’98)), OPTICS (SIGMOD’99) …
Phân cụm dựa trên lưới (Grid-Based Methods): Kỹ thuật phân cụm dựa trên
lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấu trúc dữ liệu lưới để phân cụm,
phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian. Mục tiêu
của phương pháp này là lượng hóa dữ liệu thành các ô tạo thành cấu trúc dữ liệu


19

lưới.
ới. Sau đó, các thao tác phân cụm chỉ cần làm
l việc với các đối tượng
ợng trong từng ô
trên lưới
ới chứ không phải các đối ttượng
ợng dữ liệu. Cách tiếp cận dựa trên
tr lưới này
không di chuyển
ển các đối tượng
t
trong các ô mà xây dựng
ựng nhiều mức phân cấp của
nhóm các đối tượng
ợng trong một ô. Ph
Phương pháp này gần
ần giống với phương

ph
pháp
phân cụm phân cấp nhưng
ưng chúng không trộn
trộn các ô, đồng thời giải quyết khắc phục
yêu cầu
ầu đối với dữ liệu nhiều chiều m
mà phương pháp phân phân cụm
ụm dựa trên
tr mật
độ không giải quyết được
ợc.
Ưu điểm của phương
ương pháp phân cụm
c
dựa trên lưới là thời
ời gian xử lí nhanh và
v
độc lập với số đối tượng
ợng dữ liệu trong tập dữ liệu ban đầu, thay v
vào
ào đó là chúng
phụthuộc vào số
ố ô trong mỗi chiều của không gian llưới.

Hình 2.2:
2. Cấu trúc phân cụm dựa trên lưới[4]
Điển hình
ình trong phương
ph

pháp tiếp
ếp cận theo phân cụm dựa trên
tr lưới là các
thuật toán như
ư : STING (a STatistical INformation Grid approach) bởi
b Wang, Yang
và Muntz (1997), WAVECLUSTER b
bởi
ởi Sheikholeslami, Chatterjee và
v Zhang
(1998), CLIQUE (Clustering In QUEst) b
bởi
ởi Agrawal, Gehrke, Gunopulos,
Raghavan (1998)...
Phân cụm dựa trên
ên mô hình (Model-Based
(Model Based Clustering Methods):
Methods) Phương này
cố
ố gắng khám phá các phép xấp xỉ tốt của các tham số mô hình
hình sao cho khớp
kh với dữ
liệu một cách tốt
ốt nhất. Chúng có thể sử dụng chiến llược
ợc phân cụm phân hoạch hoặc
phân cụm
ụm phân cấp, dựa tr
trên cấu trúc hoặc mô hình mà chúng giảả định về tập dữ
liệu và cách chúng hiệu
ệu chỉnh các mô h

hình này đểể nhận dạng ra các phân hoạch.


×