Tải bản đầy đủ (.docx) (77 trang)

Luận văn thạc sĩ tìm hiểu các phương pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh thái nguyên​

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.65 MB, 77 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG

NGUYỄN MINH TÚ

TÌM HIỂU CÁC PHƢƠNG PHÁP CỤM DỮ LIỆU ỨNG DỤNG XÂY DỰNG

BẢN ĐỒ PHÂN BỐ BỆNH TRÊN ĐỊA BÀN TỈNH THÁI NGUYÊN
Mã số: 60480101
Ngƣời hƣớng dẫn khoa học: TS. NGUYỄN MINH HẢI

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Ngun - 2015

Số hóa bởi Trung tâm Học liệu – ĐHTN


LỜI CẢM ƠN
Em xin chân thành cảm ơn Trƣờng Đại học Công nghệ Thông tin và Truyền
thông – Đại học Thái Nguyên đã tạo điều kiện cho em thực hiện luận văn này.
Em xin gửi lời cảm ơn sâu sắc tới thầy giáo TS Nguyễn Hải Minh, trƣởng khoa
Công nghệ thông tin – Trƣờng Đại học Công nghệ Thông tin và Truyền thông – Đại
học Thái Nguyên đã trực tiếp hƣớng dẫn em trong quá trình thực hiện luận văn.

Em cũng xin gửi lời cảm ơn tới các thầy, cô đã có những ý kiến đóng góp bổ
ích và đã tạo mọi điều kiện tốt nhất cho em trong suốt thời gian thực hiện luận văn.
Xin cảm ơn các bạn học đồng khóa đã thƣờng xuyên động viên, giúp đỡ tơi trong
q trình học tập.
Cuối cùng, em xin gửi lời cảm ơn đến gia đình và đồng nghiệp vì sự ủng hộ
và động viên đã dành cho em trong suốt quá trình học tập cũng nhƣ thực hiện luận


văn này.

Thái Nguyên, tháng 11 năm 2015
Học viên

Nguyễn Minh Tú

Số hóa bởi Trung tâm Học liệu – ĐHTN


LỜI CAM ĐOAN
Em xin cam đoan về nội dung đồ án tốt nghiệp với tên đề tài “Tìm hiểu
các phƣơng pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh
trên địa bàn tỉnh Thái Nguyên” không sao chép nội dung từ các luận văn khác,
hay các sản phẩm tƣơng tự mà không phải do em làm ra. Sản phẩm luận văn là do
chính bản thân em tìm hiểu và xây dựng nên.
Nếu có gì sai em xin chịu mọi hình thức kỷ luật của Trƣờng Đại học Công
nghệ Thông tin và Truyền thông – Đại học Thái Nguyên.

Thái Nguyên, tháng 11 năm 2015
Học viên

Nguyễn Minh Tú

Số hóa bởi Trung tâm Học liệu – ĐHTN


MỤC LỤC
LỜI CẢM ƠN............................................................................................................i
LỜI CAM ĐOAN....................................................................................................iii

MỤC LỤC................................................................................................................ iv
DANH MỤC BẢNG................................................................................................ vi
DANH MỤC CÁC HÌNH VẼ.................................................................................vii
MỞ ĐẦU...................................................................................................................1

́

́

MƠṬ SƠ KÊT QUẢNGHIÊN CƢ́U KHÁC............................................................2
CHƢƠNG I. KHAI PHÁ DỮ LIỆU.........................................................................3
1.1. Tổng quan khai phá dữ liệu.............................................................................3
1.2. Quá trình khám phá tri thức và khai phá dữ liệu............................................3
1.2.1. Quá trình khám phá tri thức......................................................................3
1.2.2. Quá trình khai phá dữ liệu........................................................................6
1.3. Các kỹ thuật trong khai phá dữ liệu.................................................................7
1.4. Môṭsốthách thƣ́c trong khai phádƣƣ̃liêu........................................................ 10
CHƢƠNG II. PHÂN CUṂ DƢƣ̃ LIÊỤ VÀCÁC THUÂṬ TOÁNPHÂN CUṂ......12
2.1. Khái niệm phân cum dữ liệu......................................................................... 13
2.1.1. Một số định nghĩa................................................................................... 13
2.1.2. Dữ liệu và độ đo...................................................................................... 13
2.2. Các yêu cầu đối với phƣơng pháp phân cum dữ liệu....................................14
2.3. Các kỹ thuật phân cum.................................................................................. 16
2.3.1. Các kỹ thuật phân cum cơ bản................................................................ 16
2.3.2. Các kỹ thuật phân cum khác................................................................... 17
2.3.3. Một số tiêu chuẩn đánh giá hiệu quả phân cum......................................23
2.4. Một số thuật toán trong phân cum dữ liệu..................................................... 24
2.4.1. Các thuật toán phân cum phân hoạch...................................................... 24
2.4.2. Các thuật toán phân cum phân cấp.......................................................... 32
2.4.3. Các thuật toán phân cum dựa trên mật độ............................................... 38

Số hóa bởi Trung tâm Học liệu – ĐHTN


2.4.3. Các thuật toán phân cum dựa vào lƣới................................................... 42
2.4.4. Các thuật tốn phân cum dựa trên mơ hình............................................. 44

̀

́

CHƢƠNG 3: XÂY DƢƢ̣NG BẢN ĐÔ PHÂN BÔ BÊNH....................................... 46
3.1. Bài toán phân cum dữ liệu hồ sơ bệnh án...................................................... 46
3.2. Dữ liệu và tiêu chí xác định........................................................................... 46
3.2.1. Một số đặc điểm tập dữ liệu gốc............................................................. 46
3.2.2. Tiền xử lý dữ liệu gốc............................................................................. 48
3.3. Lựa chọn phƣơng pháp phân cum................................................................. 54
3.4. Kết quả phân cum dữ liệu mẫu...................................................................... 55
3.5. Biểu điễn kết quả phân bố bệnh trên bản đồ.................................................. 61

́

KÊT LUÂN............................................................................................................. 63
TÀI LIỆU THAM KHẢO....................................................................................... 65

Số hóa bởi Trung tâm Học liệu – ĐHTN


DANH MỤC BẢNG
Bảng 3.1: Các loại bệnh và ký hiệu......................................................................... 55
Bảng 3.2: Các khu vực hành chính và ký hiệu........................................................ 56

Bảng 3.3: Dữ liệu đầu vào cho phân cum phân cấp................................................. 56
Bảng 3.4: Biểu diễn kết quả phân cum chi tiết........................................................ 59
Bảng 3.5: Biểu diễn kết quả phân cum theo tiêu chí bệnh....................................... 61

Số hóa bởi Trung tâm Học liệu – ĐHTN


DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Các giai đoạn trong quá trình khám phá tri thức........................................ 4
Hình 1.2: Quá trình khai phá dữ liệu......................................................................... 7
Hình 2.1: Ví du về phân cum theo mật độ[4].......................................................... 18
Hình 2.2: Cấu trúc phân cum dựa trên lƣới[4]........................................................ 19
Hình 2.3: Ví du về phân cum dựa trên mơ hình[4].................................................. 20
Hình 2.4: Cách mà các cum có thể đƣa ra............................................................... 22
Hình 2.5: Thuật tốn k-means................................................................................. 25
Hình 2.6: Sự thay đổi tâm cum trong k-means khi có phần tử ngoại lai..................28
Hình 2.7: Phân cum phân cấp tập theo phƣơng pháp “dƣới lên” [4]......................33
Hình 2.8: Single link............................................................................................... 33
Hình 2.9: Complete link.......................................................................................... 33
Hình 2.10: Các bƣớc cơ bản của AGNES[4].......................................................... 35
Hình 2.11: Các bƣớc cơ bản của DIANA[4]........................................................... 36
Hình 2.12: Cấu trúc cây CF..................................................................................... 37
Hình 2.13: Hình dạng các cum đƣợc khám phá bởi thuật tốn DBSCAN..............40
Hình 2.14: Sắp xếp cum trong OPTICS phu thuộc vào ε[4].................................... 41
Hình 3.1: Sơ đồ khối giải quyết bài tốn................................................................. 46
Hình 3.2: Phân tích dữ liệu gốc, thuộc tính “HO TEN”.......................................... 49
Hình 3.3: Dữ liệu gốc sau khi loại bỏ thuộc tính thừa và dữ liệu trùng lặp.............50
Hình 3.4: Phân tích dữ liệu gốc, thuộc tính “QUAN HUYEN”...............................51
Hình 3.5: Loại bỏ một số giá trị của thuộc tính “QUAN HUYEN”........................52
Hình 3.6: Dữ liệu trƣớc và sau khi lọc thuộc tính “CHUAN DOAN DAU RA”....53

Hình 3.7: Cấu và phân bố dữ liệu mẫu.................................................................... 58
Hình 3.8: Thiết lập tham số thuật tốn K-means..................................................... 58
Hình 3.9: Kết quả phân cum chi tiết........................................................................ 59
Hình 3.10: Kết quả phân cum dựa trên loại bệnh.................................................... 60
Số hóa bởi Trung tâm Học liệu – ĐHTN


Hình 3.11: Bản đồ phân bố bệnh các khu vực .......................................................... 62

Số hóa bởi Trung tâm Học liệu – ĐHTN


1

MỞ ĐẦU
Đề tài tìm hiểu các phƣơng pháp phân cum dữ liệu, đánh giá ƣu nhƣợc điểm
của mỗi phƣơng pháp để tìm ra phƣơng pháp phù hợp áp dung trên tập dữ liệu mẫu.
Kết quả sẽ đƣợc dùng để xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh Thái
Nguyên nhằm hỗ trợ công tác lên kế hoạch dự trù cơ sở vật chất, thuốc và các trang
thiết bị khác cho các trung tâm y tế của Tỉnh.
Thái Nguyên là một tỉnh trung du miền núi thuộc vùng Đông Bắc của Việt Nam
2

với diện tích hơn 3500 km và dân số khoảng hơn một triệu ngƣời; bao gồm 9 đơn vị
hành chính: Thành phố Thái Ngun; Thị xã Sơng Cơng và 7 huyện: Phổ n, Phú
Bình, Đồng Hỷ, Võ Nhai, Định Hóa, Đại Từ, Phú Lƣơng. Trong đó, tổng số gồm 180
xã, trong đó có 125 xã vùng cao và miền núi, còn lại là các xã đồng bằng và trung
du.Tỉnh Thái Nguyên có nhiều dân tộc anh em sinh sống. Tuy nhiên, dân cƣ phân bố
không đều, vùng cao và vùng núi dân cƣ rất thƣa thớt, trong khi đó ở thành thị và đồng
2


bằng dân cƣ lại dày đặc. Mật độ dân số thấp nhất là huyện Võ Nhai 72 ngƣời/ km , cao
2

nhất là Thành phố Thái Nguyên với mật độ 1.260 ngƣời/ km .

Do sự khác biệt lớn trong cơ cấu dân số, lối sống, trình độ dân trí nên có
những sự khác biệt đáng kể trong các hình thức bệnh trong các khu vực hành chính
khác nhau. Nếu các thơng tin về hình thức bệnh và các vấn đề sức khỏe trong mỗi
khu vực hành chính đƣợc thu thập đầy đủ, nó sẽ có thể sẽ giúp việc phân bổ nguồn
lực hiệu quả để phát triển các chính sách y tế cơng cộng cho các khu vực khác nhau.
Luận văn sử dung các kỹ thuật khai thác dữ liệu để phân tích dữ liệu y tế
thuộc Đại học Y Dƣợc Thái Nguyên trongbốn tháng đầu năm 2015. Hy vọng rằng
việc sử dung các công cu này một cách hiệu quả có thể phân tích và điều tra hình
thức bệnh trong khu vực hành chính khác nhau của Thái Nguyên để tiếp tuc xây
dựng một bản đồ y tế cho tỉnh Thái Nguyên.

Số hóa bởi Trung tâm Học liệu – ĐHTN


2

́

́

MÔṬ SÔKÊT QUẢNGHIÊN CƢ́U KHÁC
Ching-Kuo Wei et al. [2] Nghiên cứu này sử dung các kỹ thuật khai phá dữ liệu
điều tra các loại bệnh trong các khu vực hành chính khác nhau và phân tích sự khác
nhau giữa các khu vực hành chính để tiếp tuc xây dựng một bản đồ phân bố bệnh.


Nghiên cứu hy vọng sẽ giúp xây dựng trong tƣơng lai các chiến lƣợc y tế và
phân bố các nguồn lực một cách thích hợp.
Lavrac [4] đề xuất một số kỹ thuật khai thác dữ liệu có thể đƣợc áp dung
trong y học, và đặc biệt là một số kỹ thuật máy học bao gồm các cơ chế mà làm cho
chúng phù hợp hơn cho việc phân tích cơ sở dữ liệu y tế (nguồn gốc của các quy tắc
mang tính biểu tƣợng, sử dung các kiến thức nền, độ nhạy và độ đặc hiệu của giới
thiệu gây ra). Tầm quan trọng của thông dịch các kết quả phân tích dữ liệu là thảo
luận và minh họa trên các ứng dung y tế đã chọn.
Lavrac et al. [5] đề xuất một phƣơng pháp khai thác dữ liệu và công nghệ
trực quan đƣợc sử dung để hỗ trợ việc ra quyết định liên quan đến sức khỏe cộng
đồng tại Slovenia.Muc đích nhằm khai thác cơ sở dữ liệu y tế công cộng để xác định
khả năng đáp ứng của các dịch vu y tế công cộng đối với các khu vực. Các kết quả
có thể sử dung để phát triển các chính sách chăm sóc sức khỏe cơ quan y tế.

Số hóa bởi Trung tâm Học liệu – ĐHTN


3

CHƢƠNG I. KHAI PHÁ DỮ LIỆU
1.1. Tổng quan khai phá dữ liệu
Cùng với sự phát triển mạnh mẽ của công nghệthông tin,lƣợng thông tin của
nhân loại đƣợclƣu trữ trên các thiết bị điện tử, các hệ thống thông tin ngày một
tăng. Việc ứng dựng công nghệ thông tin mạnh mẽ, sâu rộng trong nhiều lĩnh vực:
khoa học, kinh doanh, chứng khốn, thƣơng mại, giao dịch,… đã tích lũy nên
nguồn dữ liệu khổng lồ.Sự bùng nổ này đãdẫn tới một yêu cầu cấp thiết là cần có
những kỹ thuật và cơng cu mới để tựđộng chuyển đổi lƣợng dữ liệu khổng lồ kia
thành các tri thức có ích. Do đó, khai phá dữ liệu (Data Mining) và các kỹ thuật phai
phá dữ liệu ra đời đã phần nào giải quyết đƣợc đƣợc yêu cầu trên.

Trithức đƣợc xem nhƣ là các thông tin tích hợp, bao gồm các sự kiện và
mốiquan hệ giữa chúng, đã đƣợc nhận thức, khám phá, hoặc nghiên cứu. Nói
cáchkhác, tri thức có thể đƣợc coi là dữ liệu ở mức độ cao của sự trừu tƣợng vàtổng
quát.
Khám phá tri thức là quá trình tìm ra những tri thức, đó là những mẫu tìm ẩn,
trƣớc đó chƣa biết và là thơng tin hữu ích đáng tin cậy.Khai phá dữ liệu là một
bƣớc trong quá trình khám phá tri thức, gồmcác thuật toán khai thác dữ liệu chuyên
dùng dƣới một số qui định về hiệu quảtính tốn chấp nhận đƣợc để tìm ra các mẫu
hoặc các mơ hình trong dữ liệu.Nói cách khác, muc tiêu của khai phá dữ liệu là tìm
kiếm các mẫu hoặc mơhình tồn tại trong cơ sở dữ liệu (CSDL) nhƣng ẩn trong khối
lƣợng lớn dữ liệu.
Khám phá tri thức từ CSDL là một quá trình sử dung các phƣơng pháp và cơng
cu tin học để khám phá,lựa chọn đƣợc tập con dữ liệu tốt, từ đó phát hiện các mẫu phù
hợp với muc tiêu đề ra. Đó chính là tri thức, đƣợc rút ra từ CSDL, thƣờng để phuc vu
cho việc giải quyết một loạt nhiệm vu nhất định trong một lĩnh vực nhất định.

1.2. Quá trình khám phá tri thức vàkhai phá dữ liệu
1.2.1 . Q trình khám phá tri thức
Số hóa bởi Trung tâm Học liệu – ĐHTN


4

Quá trình khám phá tri thức là một quá trình bao gồm nhiều giai đoạnvới
nhiều hoạt động tƣơng tác giữa con ngƣời và CSDL thông qua việc hỗ trợ của các
phƣơng pháp, thuật tốn cũng nhƣ các cơng cu tin học. Tri thức đƣợc rút ra từ các
CSDL để phuc vu cho việc giải quyết một loạt nhiệm vu nhất định trong một lĩnh
vực nào đó. Do đó q trình khám phá tri thức cũng mang tính chất hƣớng nhiệm
vu, không phải phát hiện mọi tri thức đƣợc bất kỳ mà phát hiện tri thức nhằm giải
quyết tốt vấn đề đặt ra.


Hình 1.1: Các giai đoạn trong quá trình khám phá tri thức
Quá trình khám phá tri thức gồm sáu giai đoạn[1] nhƣ hình 1.1. Bắt đầu của
quá trình là kho dữ liệu thô và kết thúc với tri thức đƣợcchiết xuất ra. Đây là một
qtrình rất khó khăn gặp phải rất nhiều vƣớng mắc: quản lý các tập dữ liệu,phải
lặp đi lặp lại tồn bộ q trình, ...
1. Gom dữ liệu: Tập hợp dữ liệu là bƣớc đầu tiên trong quá trìnhkhai phá dữ

liệu. Đây là bƣớc đƣợc khai thác trong một cơ sở dữliệu, một kho dữ liệu nguồn
thơng tin Internet.
2. Trích lọc dữ liệu : Ở giai đoa n
Ƣ̣ này dữ liệu đƣợc lựa chọn hoặcphân chia

theomột số tiêu chuẩn nào đó phuc vu muc đích khaithác.
3. Làm sạch, tiền xử lý và chuẩn bị trƣớc dữ liệu: Dữ liệu cần đƣợc làm sạch

để khắc phuc đối với trƣờng dữ liệu rỗng, dƣ thừa hoặc dữ liệu khơng hợp lệ. Giai
Số hóa bởi Trung tâm Học liệu – ĐHTN


5

đoạn này là một bƣớc rấtquan trọng trong quá trình khai phá dữ liệu. Một số lỗi
thƣờngmắc phải trong khi gom dữ liệu là tính khơng đủ chặt chẽ.Vì vậy, dữ liệu
thƣờng chứa các giá trị vô nghĩa và không có khảnăng kết nối dữ liệu. Giai đoạnnày
sẽ tiến hành xử lý những dạng dữ liệu khơng chặt chẽ nóitrên. Những dữ liệu dạng
đƣợc xem nhƣ thông tin dƣ thừa,không có giá trị sẽ đƣợc loại bỏ. Dữ liệu này nếu
không đƣợc “làm sạch - tiền xử lý - chuẩn bịtrƣớc” thì sẽ gây nên những kết quả
sai lệch nghiêm trọng. Các công việc tiền xử lý dữ liệu bao gồm:
- Xử lý dữ liệu bị mất, thiếu: Các dữ liệu thiếu sẽ đƣợc thay thế bằng các giá


trị thích hợp.
- Khử bỏ trùng lặp: các đối tƣợng dữ liệu trùng lặp sẽ bị loại bỏ.
- Giảm nhiễu: dữ liệu nhiễu và các đối tƣợng tách rời khỏi phân bố chung sẽ

bị loại bỏ khỏi tập dữ liệu.
- Chuẩn hóa: thơng thƣờng là chuẩn hóa miền giá trị của dữ liệu cho phù hợp.
- Rời rạc hóa: chính là việc biến đổi dữ liệu dạng số về dữ liệu với các giá trị

rời rạc.
- Trích rút và xây dựng các đặc trƣng mới từ các thuộc tính đã có.
- Giảm chiều khơng gian thuộc tính: là loại bỏ bớt các thuộc tính có chứa ít

thơng tin.
4. Chuyển đổi dữ liệu: Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữliệu đƣa

ra có thể sử dung và điều khiển đƣợc bởi việc tổ chức lạinó, tức là dữ liệu sẽ đƣợc
chuyển đổi về dạng phù hợp với muc đíchkhai phá dữ liệu.
5. Khai phá dữ liệu (KPDL): Đây là bƣớc quan trọng nhất trong tiến trình phát

hiện tri thức, là bƣớc mang tính tƣ duy trong khai phádữ liệu. Ở giai đoạn này nhiều
thuật toán khác nhau đã đƣợc sử dung để trích ra các mẫu từ dữ liệu. Thuật tốn
thƣờng dùng làm nguyên tắc phân loại, nguyên tắc liên kết, ... Kết quả quả giai đoạn
này là trích chọn đƣợc các mẫu hoặc các mơ hình ẩn dƣới một khối lƣợng lớn dữ liệu.
6. Đánh giá các luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu

đƣợc chiết xuất ra bởi phần mềm KPDL. Không phải bất cứ mẫu dữ liệu nào cũng
đều hữu ích, đơi khi nó cịn bị sai lệch. Vì vậy, cần phải ƣu tiên những tiêu chuẩn
Số hóa bởi Trung tâm Học liệu – ĐHTN



6

đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra. Đánh giá sự hữu
ích của các mẫu biểu diễn tri thức dựa trên một số phép đo. Sau đó sử dung các kỹ
thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá đƣợc cho
ngƣời sử dung.
Biểu diễn tri thức bao bao gồm việc hiển thị kết quả hoặc dịch kế t quả để
hiểu và trình diễn. Trong bƣớc này các tri thức vừa mới khám phá sẽ đƣợc củng cố,
kết hợp lại thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng trong
các tri thức trƣớc đó. Các mơ hình rút ra đƣợc đƣa vào những hệ thống thông tin
thực tế dƣới dạng các mô-đun hỗ trợ việc đƣa ra quyết định.
Các giai đoạn (bƣớc) của quá trình phát triển tri thức có mỗi quan hệ chặt
chẽ với nhau trong bối cảnh chung của hệ thống. Các kỹ thuật trong bƣớc trƣớc có
thể ảnh hƣởng đến hiệu quả của các giải thuật trong nhƣỡng bƣớc tiếp theo. Các
bƣớc của q trình khám phá tri thức có thể lặp đi lặp lại một số lần, kết quả thu
đƣợc có thể đƣợc lấy trung bình trên tất cả các lần thực hiện.
1.2.2. Quá trình khai phá dữ liệu
KPDL là giai đoạn quan trọng nhất trong quá trình khám phátri thức. Về cơ
bản, KPDL là về xử lý dữ liệu và nhận biết các mẫu và các xu hƣớng trong thơng
tin đó để bạn có thể quyết định hoặc đánh giá. Các nguyên tắc KPDL đã đƣợc dùng
nhiều năm, nhƣng với sự ra đời của big data (dữ liệu lớn), nó lại càng phổ biến hơn.
Big data gây ra một sự bùng nổ về sử dung nhiều kỹ thuật KPDL hơn, một phần vì
kích thƣớc thơng tin lớn hơn rất nhiều và vì thơng tin có xu hƣớng đa dạng và mở
rộng hơn về chính bản chất và nội dung của nó. Với các tập hợp dữ liệu lớn, để nhận
đƣợc số liệu thống kê tƣơng đối đơn giản và dễ dàng trong hệ thống vẫn chƣa
đủ[6].
Với 30 hoặc 40 triệu bản ghi thông tin khách hàng chi tiết, việc biết rằng 2
triệu khách hàng trong số đó sống tại một địa điểm vẫn chƣa đủ. Bạn muốn biết liệu
2 triệu khách hàng đó có thuộc về một nhóm tuổi cu thể không và bạn cũng muốn

biết thu nhập trung bình của họ để bạn có thể tập trung vào các nhu cầu của khách
hàng của mình tốt hơn.
Số hóa bởi Trung tâm Học liệu – ĐHTN


7

Những nhu cầu đa dạng đã thay đổi cách lấy ra và thống kê dữ liệu đơn giản
sang việc KPDL phức tạp hơn. Vấn đề hƣớng tới việc xem xét dữ liệu để giúp xây
dựng một mơ hình để mơ tả các thông tin mà cuối cùng sẽ dẫn đến việc tạo ra báo
cáo kết quả.

Hình 1.2: Quá trình khai phá dữ liệu
- Xác định nhiệm vu: Xác định chính xác các vấn đề cần giải quyết.
- Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp.
- Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý

chúng sao cho thuật tốn KPDL có thể hiểu đƣợc. Đây là một q trình rất khó
khăn, có thể gặp phải rất nhiều các vƣớng mắc nhƣ: dữ liệu phải đƣợc sao ra nhiều
bản (nếu đƣợc chiết xuất vào các tệp), quản lý tập các dữ liệu, phải lặp đi lặp lại
nhiều lần tồn bộ q trình (nếu mơ hình dữ liệu thay đổi), ...
- Thuật toán KPDL: Lựa chọn thuật toán khai phá dữ liệu và thực hiện việc

khai phá dữ liệu để tìm đƣợc các mẫu có ý nghĩa, các mẫu này đƣợc biểu diễn dƣới
dạng luật kết hợp, cây quyết định...tƣơng ứng muc đích đề ra.
1.3. Các kỹ thuật trong khai phá dữ liệu
Có nhiều kỹ thuật khác nhau đƣợc sử dung để KPDL nhằm thực hiện hai
chức năng mơ tả và dự đốn. Với mỗi chức năng thì có các kỹ thuật KPDL tƣơng
ứng với nó. Khơng có kỹ thuật nào tốt để có thể áp dung cho mọi trƣờng hợp [1].
Kỹ thuật KPDL mơ tả có nhiệm vu mơ tả tính chất hoặc các đặc tính chung

của dữ liệu trong CSDL hiện có. Một số kỹ thuật khai phá trong nhóm này là: phân
cum dữ liệu, tổng hợp, trực quan hóa, phân tích sự phát triển và độ lệch,…

Số hóa bởi Trung tâm Học liệu – ĐHTN


8

Kỹ thuật KPDL dự đốn có nhiệm vu đƣa ra các dự đoán vào việc suy diễn
trên CSDL hiện thời. Một số kỹ thuật khai phá trong nhóm này là: phân lớp, hồi
quy, cây quyết định, thống kê, mạng nơ-ron, luật kết hợp,…

Số hóa bởi Trung tâm Học liệu – ĐHTN


9

a. Cây quyết định

Kỹ thuật cây quyết định là một công cu mạnh và hiệu quả trong việc phân
lớp và dự báo. Các đối tƣợng dữ liệu đƣợc phân thành các lớp. Các giá trị của đối
tƣợng dữ liệu chƣa biết sẽ đƣợc dự báo, dự đoán. Tri thức đƣợc rút ra dƣới kỹ thuật
này thƣờng ở dƣới dạng tƣờng minh, đơn giản, trực quan đối với ngƣời sử dung.
b. Phân lớp dữ liệu và hồi quy

Muc tiêu của phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu. Q
trình gồm hai bƣớc: xây dựng mơ hình, dử dung mơ hình để phân lớp dữ liệu. Mơ hình
đƣợc sử dung để dự đốn nhãn lớp khi mà độ chính xác của mơ hình chấp nhận đƣợc.

Phƣơng pháp hồi quy tƣơng tự nhƣ phân lớp dữ liệu. Nhƣng khác ở chỗ nó

dùng để dự đốn trƣớc các giá trị liên tuc, còn phân lớp dữ liệu dùng để dự đoán
các giá trị rời rạc.
c. Phân cụm dữ liệu

Phân cum dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm, phát
hiện các cum, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn
để từ đó cung cấp thơng tin, tri thức cho việc ra quyết định.
Muc tiêu của phân cum dữ liệu là nhóm các đối tƣợng tƣơng tự nhau trong
tập dữ liệu vào các cum, sao cho những đối tƣợng thuộc cùng một lớp là tƣơng
đồng nhau.
d. Khai phá luật kết hợp

Muc tiêu của phƣơng pháp này là phát hiện và đƣa ra mỗi liên hệ giữa các
giá trị dữ liệu trong CSDL. Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm
đƣợc. Phƣơng pháp khai phá luật kết hợp gồm có hai bƣớc:
- Bƣớc một: Tìm ra tất cả các tập muc phổ biến. Một tập muc phổ biến đƣợc

xác định thông qua việc tính độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu.
- Bƣớc hai: Sinh ra các luật kết hợp mạnh từ tập muc phổ biến, luật phải

thỏa mãn độ hỗ trợ và độ tin cậy cực tiểu.

Số hóa bởi Trung tâm Học liệu – ĐHTN


10

e. Giải thuật di truyền

Giải thuật di truyền là quá trình mơ phỏng theo tiến hóa của tự nhiên. Ý

tƣởng chính của giai đoạn này là dựa vào quy luật di truyền trong biến đổi, chọn lọc
tự nhiên và tiến hóa trong sinh học.
f.

Mạng nơ-ron
Đây là một trong những kỹ thuật KPDL đƣợc sử dung phổ biển hiện nay. Kỹ

thuật này phát triển dựa trên nền tảng toán học vững vàng, khả năng huấn luyện
trong kỹ thật này mô phỏng hệ thần kinh trung ƣơng của con ngƣời.
Kết quả mà mạng nơ-ron học đƣợc có khả năng tạo ra các mơ hình dự báo, dự
đốn với độ chính xác và độ tin cậy cao. Nó có khả năng phát hiện ra các xu hƣớng
phức tạp mà các kỹ thuật thông thƣờng khác khó có thể phát hiện ra đƣợc. Tuy nhiên
đây là kỹ thuật tƣơng đối phức tạp và quá trình thực hiện nó gặp rất nhiều khó khăn,
địi hỏi tốn nhiều thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử nghiệm.

1.4. Môṭsốthách thƣ́c trong khai phádƣƣ̃liêụ
Khám phá tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh
vực, do đócũng tồn taịnhiều thách thức và khó khăn:
- Các cơ sở dữ liệu lớn hơn rất nhiều: cơ sở dữ liệu với hàng trăm trƣờng và

bảng, hàng triệu bản ghi và kích thƣớc lên tới nhiều gigabyte là vấn đề hồn tồn
bình thƣờng.
- Số chiều cao : khơng chỉ thƣờng có một số lƣợng rất lớn các bản ghi trong

cơ sở dữ liệu mà cịn có một số lƣợng rất lớn các trƣờng (các thuộc tính, các biến)
làm cho số chiều của bài toán trở nên cao. Thêm vào đó, nó tăng thêm cơ hội cho
một giải thuật khai phá dữ liệu tìm ra các mẫu không hợp lệ.
- Thay đổi dữ liệu và tri thức: thay đổi nhanh chóng dữ liệu có thể làm cho

các mẫu phát hiện trƣớc đó khơng hợp lệ. Thêm vào đó, các biến đã đo trong một

cơ sở dữ liệu ứng dung cho trƣớc có thể bị sửa đổi, xóa bỏ hay tăng thêm các phép
đo mới. Các giải pháp hợp lý bao gồm các phƣơng pháp tăng trƣởng để cập nhật
các mẫu và xử lý thay đổi.
Số hóa bởi Trung tâm Học liệu – ĐHTN


11

- Dữ liệu thiếu và bị nhiễu: bài toán này đặc biệt nhạy trong các cơ sở dữ liệu

thƣơng mại. Các thuộc tính quan trọng có thể bị mất nếu cơ sở dữ liệu không đƣợc
thiết kế với sự khám phá bằng trí tuệ. Các giải pháp có thể gồm nhiều chiến lƣợc
thống kê phức tạp để nhận biết các biến ẩn và các biến phu thuộc.
- Mối quan hệ phức tạp giữa các trƣờng: các thuộc tính hay giá các giá trị có

cấu trúc phân cấp, các quan hệ giữa các thuộc tính và các phƣơng tiện tinh vi hơn cho
việc biểu diễn tri thức về nội dung của một cơ sở dữ liệu sẽ đòi hỏi các giải thuật phải
có khả năng sử dung hiệu quả các thơng tin này. Về mặt lịch sử, các giải thuật khai phá
dữ liệu đƣợc phát triển cho các bản ghi có giá trị thuộc tính đơn giản, mặc dù các kỹ
thuật mới bắt nguồn từ mối quan hệ giữa các biến đang đƣợc phát triển.
- Tính dễ hiểu của các mẫu: trong nhiều ứng dung, điều quan trọng là những

gì khai thác đƣợc phải càng dễ hiểu đối với con ngƣời thì càng tốt. Các giải pháp
có thể thực hiện đƣợc bao gồm cả việc biểu diễn đƣợc minh họa bằng đồ thị, cấu
trúc luật với các đồ thị có hƣớng, biểu diễn bằng ngôn ngữ tự nhiên và các kỹ thuật
hình dung ra dữ liệu và tri thức.
- Ngƣời dùng tƣơng tác và tri thức sẵn có: nhiều phƣơng pháp khám phá tri

thức và các công cu không tƣơng tác thực sự với ngƣời dùng và không thể dễ dàng
kết hợp chặt chẽ với tri thức có sẵn về một bài toán loại trừ theo các cách đơn giản.

Việc sử dung của miền tri thức là quan trọng trong toàn bộ các bƣớc của xử lý
khám phá tri thức.
Kết luân
Khai phá dữ liệu là lĩnh vực đã và đang trở thành một trong những hƣớng
nghiên cứu thu hút đƣợc sự quan tâm của nhiều chuyên gia về công nghệ thông
tin. Gần đây, rất nhiều phƣơng pháp và thuật toán mới liên tuc đƣợc công bố. Điều
này chứng tỏ những lợi ích và khả năng ứng dung thực tế của khai phá dữ liệu.
Chƣơng này đã trình bày một số kiến thức tổng quan về khám phá tri thức, những
khái niệm và kiến thức cơ bản nhất về khai phá dữ liệu.

Số hóa bởi Trung tâm Học liệu – ĐHTN


12

CHƢƠNG II. PHÂN CUṂ DƢƣ̃LIÊỤ VÀCÁC THUÂṬ
TOÁN PHÂN CUṂ
Phân cum là một trong những chủ đề đƣợc quan tâm nhiều trong các nghiên
cứu KPDL. Phân cum là q trình nhóm một tập các đối tƣợng thành các nhóm hay
các lớp đối tƣợng “tƣơng tự” nhau. Một cum là tập các đối tƣợng “giống nhau” hay
tƣơng tự nhau. Các đối tƣợng khác cum là ít hoặc khơng tƣơng tự nhau. Khơng
giống nhƣ q trình phân loại, ta thƣờng biết trƣớc tính chất hay đặc điểm của đối
tƣợng trong cùng một cum và dựa vào đó để ấn định một đối tƣợng vào cum của
nó, trong q trình phân cum ta khơng hề biết trƣớc các tính chất của cum mà dựa
vào các mỗi quan hệ của các đối tƣợng để tìm ra sự giống nhau giữa các đối tƣợng
dựa vào một độ đo nào đó đặc trƣng cho mỗi cum.
Việc phân cum dữ liệu không thực hiện độc lập mà thƣờng kết hợp với các
phƣơng pháp khác. Một cách phân cum đƣa ra cũng phải có một phƣơng pháp áp
dung trên các lớp đó để đƣa ra đƣợc ý nghĩa của cum.
Trong lĩnh vực KPDL, các vấn đề nghiên cứu trong phân cum chủ yếu tập trung

vào tìm kiếm các phƣơng pháp phân cum hiệu quả và tin cậy trong CSDL lớn.

Một vấn đề thƣờng gặp trong phân cum dữ liệu (PCDL) là hầu hết các dữ
liệu cần cho PCDL đều có chứa dữ liệu “nhiễu” do nhiều nguyên nhân khác nhau, vì
vậy cần xây dựng chiến lƣợc cho bƣớc tiền xử lý nhằm loại bỏ những dữ liệu
“nhiễu” trƣớc khi bƣớc vào giai đoạn phân tích PCDL.
Ngồi ra, dị tìm phần tử ngoại lai là một trong những hƣớng nghiên cứu
quan trọng trong PCDL, chức năng của nó là xác định một nhóm nhỏ các đối tƣợng
dữ liệu “khác thƣờng” so với các dữ liệu khác trong CSDL nhằm tránh sự ảnh
hƣớng của chúng tới quá trình cũng nhƣ kết quả PCDL.
PCDL là một bài tốn khơng hề đơn giản và phải giải quyết nhiều vấn đề cơ
bản nhƣ sau:
- Biểu diễn dữ liệu.

Số hóa bởi Trung tâm Học liệu – ĐHTN


13

- Xây dựng hàm tính độ tƣơng tự.
- Xây dựng các tiêu chuẩn phân cum.
- Xây dựng mơ hình cho cấu trúc cum dữ liệu.
- Xây dựng thuật toán phân cum và xác lập các điều kiện khởi tạo.
- Xây dựng các thủ tuc biểu diễn và đánh giá kết quả phân cum.

2.1. Khái niệm phân cụm dữ liệu
2.1.1. Một số định nghĩa
Phân cum là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các
phƣơng pháp “Unsupervised Learning” trong “Machine Learning”. Có rất nhiều
định nghĩa khác nhau về kỹ thuật này, nhƣng về bản chất phân cum là các qui trình

tìm cách nhóm các đối tƣợng đã cho vào các cum (clusters), sao cho các đối tƣợng
trong cùng một cum tƣơng tự (similar) nhau và các đối tƣợng khác cum thì khơng
tƣơng tự (Dissimilar) nhau.
Muc đích của phân cum là tìm ra bản chất bên trong các nhóm của dữ liệu.
Các thuật tốn phân cum (Clustering Algorithms) đều sinh ra các cum (clusters).
Tuy nhiên, khơng có tiêu chí nào là đƣợc xem là tốt nhất để đánh hiệu của của phân
tích phân cum, điều này phu thuộc vào muc đích của phân cum nhƣ: data reduction,
“natural clusters”, “useful” clusters, outlier detection.
2.1.2. Dữ liệu và độ đo
Trong phân cum, các đối tƣợng phân tích này phải đƣợc biểu diễn chặt chẽ
thông qua các đặc điểm của đối tƣợng đó. Những đặc điểm này có ý nghĩa quyết
định đến kết quả của thuật toán phân cum. Các loại dữ liệu đƣợc tìm hiểu theo hai
hƣớng tiếp cận: tiếp câṇ dựa trên kích thƣớc miền và tiếp cận theo tỷ lệ đo.
a. Phân loại dựa trên kích thƣớc miền

Cách phân loại này phân biệt các đối tƣợng dữ liệu dựa trên kích thƣớc miền
của đối tƣợng đó, tức là số giá trị khác nhau của vùng đó. Giả sử có CSDL D và n
đối tƣợng. Nếu x, y, z là ba đối tƣợng của D thì chúng sẽ có dạng:
x = (x1, x2,…,xk), y = (y1, y2,…,yk) , z = (z1, z2,…,zk)

Số hóa bởi Trung tâm Học liệu – ĐHTN


14

Với k là số chiều và xi, yi, zi với 1 ≤ i ≤ k là các thuộc tính tƣơng ứng của
các đối tƣợng. Vì vậy, thuật ngữ “loại dữ liệu” là chỉ “loại thuộc tính dữ liệu”.
Chúng ta có các loại lớp sau[1]:
- Thuộc tính liên tuc: miền giá trị của các thuộc tính này là miền các giá trị


liên tuc. Ví du: nhiệt độ, mầu sắc, âm thanh…
- Thuộc tính rời rạc: miền giá trị của các thuộc tính này là là miền các giá trị

rời rạc. Ví du: số quyển sách, số quả cam,…
- Thuộc tính nhị nguyên: miền giá trị của các thuộc tính này chỉ bao gồm

hai giá trị rời rạc. Đó là trƣờng hợp đặc biệt của thuộc tính rời rạc. Ví du: các câu
trả lời có/khơng, giới tính nam/nữ…
b. Phân loại dựa vào phép đo
Giả sử có hai đối tƣợng x,y và giá trị thuộc tính i của mỗi đối tƣợng tƣơng
ứng là xi và yi. Ta có các thuộc tính sau:
- Định danh: các giá trị ở lớp này chỉ có phép tốn só sánh bằng (xi = yi)

hoặc khơng bằng (xi # yi).
- Có thứ tự: ngồi các phép tốn dữ liệu định danh các giá trị thuộc lớp này

còn là các phép so sánh lớn hơn (xi> yi) và nhỏ hơn (xi< yi).
- Có khoảng cách: các giá trị ở lớp này có phép tốn tính đƣợc độ lệch giữa

hai giá trị xi - yi.
2.2. Các yêu cầu đối với phƣơng pháp phân cụm dữ liệu
Đến nay chƣa có một phƣơng pháp phân cum tổng quát nào có thể giải
quyết trọn vẹn tất cả các dạng cấu trúc cum dữ liệu. Hơn nữa, các phƣơng pháp
phân cum cần có cách thức biểu diễn cấu trúc các cum dữ liệu khác nhau, với mỗi
cách thức biểu diễn khác nhau sẽ có một phƣơng pháp phân cum phù hợp.
Việc lựa chọn một thuật toán phân cum là vấn đề then chốt để giải quyết bài
toán phân cum dữ liệu, lựa chọn này phu thuộc vào đặc tính dữ liệu cần phân cum,
muc đích của các bài tốn thực tế là xác định độ ƣu tiên giữa chất lƣợng phân cum
và tốc độ thực hiện của thuật tốn.


Số hóa bởi Trung tâm Học liệu – ĐHTN


15

Thông thƣờng các nghiên cứu để xây dựng và phát triển thuật toán phân cum
dữ liệu đều nằm đáp ứng yêu cầu sau [1]:
- Có khả năng mở rộng: Một số thuật toán áp dung cho tập dữ liệu nhỏ

(khoảng 200 bản ghi). Nhƣng không hiệu quả khi áp dung cho tập dữ liệu lớn
(khoảng 1 triệu bản ghi).
-Thích nghi với các kiểu dữ liệu khác nhau: thuật tốn có thể áp du Ƣ̣ng phân
cum với nhiều kiểu dữ liệu khác nhau nhƣ dữ liệu kiểu số, kiểu nhị phân, … và
thích nghi với kiểu dữ liệu hỗn hợp.
-Khám phá ra các cum với hình thù bất kỳ: Hầu hết các CSDL chứa nhiều
cum dữ liệu với nhiều hình thù khác nhau: hình lõm, hình cầu, hình que,… Vì vậy,
để các cum dữ liệu đƣợc khám phá ra có tính tự nhiên thì các thuật tốn phân cum
dữ liệu phải có khả năng khám phá ra các cum dữ liệu có hình thù khác nhau.
- Tối thiểu lƣợng tri thức cần cho tham số đầu vào: Do các giá trị đầu vào

của thuật tốn có ảnh hƣớng rất lớn đến độ phức tạp, tốc độ của thuật tốn. Do đó
cần xác định giá trị đầu vào của thuật toán một cách tối ƣu đặc biệt với những
CSDL lớn.
- Ít nhạy cảm đối với thứ tự của dữ liệu vào: Cùng một tập dữ liệu khi đƣa

vào xử lý bằng các thuật toán PCDL, thứ tự vào của các đối tƣợng dữ liệu ở các lần
thực hiện khác nhau không ảnh hƣởng đến kết quả của phân cum dữ liệu.
- Khả năng thích nghi với dữ liệu nhiễu cao: Hầu hết các dữ liệu phân cum

trong KPDL đều có chứa các dữ liệu lỗi, dữ liệu không đầy đủ, dữ liệu rác đƣợc gọi

chung là dữ liệu nhiễu. Bởi vậy các thuật tốn phân cum khơng có những hiệu quả
với những dữ liệu nhiễu mà còn chất dẫn đến chất lƣợng phân cum thấp do nhạy
cảm với những dữ liệu nhiễu.
- Thích nghi với dữ liệu đa chiều: Thuật tốn áp dung có hiệu quả đối với các

dữ liệu đa chiều.
- Dễ hiểu, dễ cài đặt và khả thi: Đây là yêu cầu đồng thời là tiêu chí để đánh

giá hiệu quả của các thuật tốn phân cum.

Số hóa bởi Trung tâm Học liệu – ĐHTN


16

2.3.Các kỹ thuật phân cụm
2.3.1 Các kỹ thuật phân cụm cơ bản
Các kỹ thuật phân cum đƣợc chia thành hai loại chính: phân hoạch
(partitional) và phân cấp (hierarchical).
Phân hoạch: Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành
k nhóm cho đến khi xác định số các cum đƣợc thiết lập. Số các cum đƣợc thiết lập
là các đặc trƣng đƣợc lựa chọn trƣớc. Phƣơng pháp này là tốt cho việc tìm các cum
hình cầu trong khơng gian Euclidean. Ngồi ra, phƣơng pháp này cũng phu thuộc
vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan hệ
là gần nhau với mỗi điểm khác và các điểm dữ liệu nào khơng có quan hệ hoặc có
quan hệ là xa nhau so với mỗi điểm khác. Tuy nhiên, phƣơng pháp này khơng thể
xử lí các cum có hình dạng kỳ quặc hoặc các cum có mật độ các điểm dầy đặc. Các
thuật tốn phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ƣu
toàn cuc cho vấn đề phân cum dữ liệu, do nó phải tìm kiếm tất cả các cách phân
hoạch có thể đƣợc. Chính vì vậy, trên thực tế thƣờng đi tìm giải pháp tối ƣu cuc bộ

cho vấn đề này bằng cách sử dung một hàm tiêu chuẩn để đánh giá chất lƣợng của
cum cũng nhƣ để hƣớng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu. Nhƣ vậy,
ý tƣởng chính của thuật tốn phân cum phân hoạch tối ƣu cuc bộ là sử dung chiến
lƣợc ăn tham (Greedy) để tìm kiếm nghiệm.
Điển hình trong phƣơng pháp tiếp cận theo phân cum phân họach là các
thuật toán nhƣ : K-means, K-medoids, CLARA (Clustering Large Applications),
CLARANS (Clustering Large Applications based on RAndomized Search) …
Phân cấp: Phƣơng pháp này xây dựng một phân cấp trên cơ sở các đối
tƣợng dữ liệu đang xem xét. Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu
trúc có dạng hình cây, cây phân cấp này đƣợc xây dựng theo kỹ thuật đệ quy. Có
hai cách tiếp cận phổ biến của kỹ thuật này đó là: hịa nhập nhóm, thƣờng đƣợc gọi
là tiếp cận (Bottom-Up); phân chia nhóm, thƣờng đƣợc gọi là tiếp cận (Top-Down)

Số hóa bởi Trung tâm Học liệu – ĐHTN


17

Phƣơng pháp “dƣới lên” (Bottom up) : Phƣơng pháp này bắt đầu với mỗi
đối tƣợng đƣợc khởi tạo tƣơng ứng với các cum riêng biệt, sau đó tiến hành nhóm
các đối tƣợng theo một độ đo tƣơng tự (nhƣ khoảng cách giữa hai trung tâm của
hai nhóm), q trình này đƣợc thực hiện cho đến khi tất cả các nhóm đƣợc hịa
nhập vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều
kiện kết thúc thỏa mãn. Nhƣ vậy, cách tiếp cận này sử dung chiến lƣợc ăn tham
trong quá trình phân cum.
Phƣơng pháp “trên xuống” (Top Down) : Bắt đầu với trạng thái là tất cả các
đối tƣợng đƣợc xếp trong cùng một cum. Mỗi vịng lặp thành cơng, một cum đƣợc
tách thành các cum nhỏ hơn theo giá trị của một phép đo độ tƣơng tự nào đó cho
đến khi mỗi đối tƣợng là một cum, hoặc cho đến khi điều kiện dừng thỏa mãn. Cách
tiếp cận này sử dung chiến lƣợc chia để trị trong quá trình phân cum.

Điển hình trong phƣơng pháp tiếp cận theo phân cum phân cấp là các thuật
toán nhƣ : AGNES (Agglomerative Nesting), DIANA (Divisive Analysis), BIRCH
(1996), CURE (1998), CHAMELEON (1999) ...
Thực tế áp dung, có nhiều trƣờng hợp kết hợp cả hai phƣơng pháp phân cum
phân hoạch và phân cum phân cấp, nghĩa là kết quả thu đƣợc của phƣơng pháp
phân cấp có thể cải tiến thông qua bƣớc phân cum phân hoạch. Phân cum phân
hoạch và phân cum phân cấp là hai phƣơng pháp phân cum dữ liệu cổ điển, hiện đã
có rất nhiều thuật toán cải tiến dựa trên hai phƣơng pháp này đã đƣợc áp dung phổ
biến trong khai phá dữ liệu.
2.3.2. Các kỹ thuật phân cụm khác
Phân cum dựa trên mật độ (Density-Based Methods): Kỹ thuật này nhóm các
đối tƣợng dữ liệu dựa trên hàm mật độ xác định, mật độ là số các đối tƣợng lân cận
của một đối tƣợng dữ liệu theo một nghĩa nào đó. Trong cách tiếp cận này, khi một
dữ liệu đã xác định thì nó tiếp tuc đƣợc phát triển thêm các đối tƣợng dữ liệu mới
miễn là số các đối tƣợng lân cận này phải lớn hơn một ngƣỡng đã đƣợc xác định
trƣớc. Phƣơng pháp phân cum dựa trên mật độ của các đối tƣợng để xác định các
cum dữ liệu có thể phát hiện ra các cum dữ liệu với hình thù bất kỳ. Kỹ thuật này có
Số hóa bởi Trung tâm Học liệu – ĐHTN


×