thuật toán k mean với bài toán phân tích dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.5 MB, 34 trang )

LOGO
THUẬT TOÁN K-MEAN VỚI BÀI
TOÁN PHÂN CỤM DỮ LIỆU

Danh sách nhóm:
1.Nguyễn Thị Ngọc Hà
2.Nguyễn Thị Ngọc Quỳnh
3.Trần Thị Hồng Nhung
4.Nguyễn Hữu Quang
5.Huỳnh Bá thùy Trinh
NỘI DUNG
I. PHÂN CỤM DỮ LIỆU
II. THUẬT TOÁN K-MEAN
III. GIỚI THIỆU WEKA VÀ BÀI TOÁN ỨNG DỤNG
2
I.PHÂN CỤM DỮ LIỆU
1. Định nghĩa:

Phân cụm dữ liệu (PCDL) là các qui trình tìm cách
nhóm các đối tượng đã cho vào các cụm, sao cho các
đối tượng trong cùng 1 cụm tương tự nhau và các đối
tượng khác cụm thì không tương nhau.

PCDL nhằm khám phá cấu trúc của mẫu dữ liệu để
thành lập các nhóm dữ liệu từ tập dữ liệu lớn, nó cho
phép người ta đi sâu vào phân tích và nghiên cứu cho
từng cụm dữ liệu này nhằm khám phá và tìm kiếm các
thông tin tiềm ẩn, hữu ích phục vụ cho việc ra quyết
định
3
MỤC ĐÍCH

Xác định được bản chất
của việc nhóm các đối
tượng trong 1 tập dữ liệu
không có nhãn.
Phân cụm không dựa
trên 1 tiêu chuẩn chung
nào, mà dựa vào tiêu chí
mà người dùng cung cấp
trong từng trường hợp
4
2. ỨNG DỤNG
Xác định các nhóm khách hàng tiềm năng,
phân loại và dự đoán hành vi khách hàng.
Xác định các nhóm khách hàng tiềm năng,
phân loại và dự đoán hành vi khách hàng.
Phân loại động, thực vật, phân loại gen
Phân loại động, thực vật, phân loại gen
Nhận dạng các nhóm công ty có chính sách bảo hiểm
mô tô với chi phí đền bù trung bình cao
Nhận ra các vùng đất giống nhau dựa vào
CSDL quan sát trên trái đất, phân nhóm nhà…
Nhận ra các vùng đất giống nhau dựa vào
CSDL quan sát trên trái đất, phân nhóm nhà…
Nhận dạng các nhóm nhà cửa theo loại nhà,
giá trị và vị trí địa lý.
Một công cụ độc lập để xem xét phân bố dữ liệu
Làm bước tiền xử lý cho các thuật toán khác
Marketing
Khác
Hoạch định thành

phố
Địa lý
Bảo hiểm
Sinh học
5
3.CÁC YÊU CẦU PCDL TRONG KHAI PHÁ DỮ
LIỆU

Có khả năng mở rộng tập dữ liệu

Khả năng làm việc với các kiểu dữ liệu khác nhau.

Khám phá ra các cụm có hình dạng bất kì

Khả năng làm việc với dữ liệu nhiều chiều.

Dễ hiểu, có thể diễn dịch và khả dụng

Khả năng làm việc với dữ liệu có chứa nhiễu ( outliers)

Ít nhạy cảm với thứ tự các bản ghi nhập vào
6
7
Phân cụm dựa trên mô hình
Phân cụm dựa trên lưới
Phân cụm dựa trên mật độ
Phân cụm phân cấp
Phân cụm phân hoạch
Phân cụm có ràng buộc
4. PHÂN LOẠI


Cho một cơ sở dữ liệu D chứa n đối tượng, tạo phân
hoạch thành tập có k cụm sao cho:

Mỗi cụm chứa ít nhất một đối tượng

Mỗi đối tượng thuộc về một cụm duy nhất

Cho giá trị k, tìm phân hoạch có k cụm sao cho tối ưu
hoá tiêu chuẩn phân hoạch được chọn.

Các thuật toán tiêu biểu: K-mean, K-mediod

Hạn chế: không điều chỉnh được lỗi.
Phân cụm phân hoạch
8
Phân cụm phân cấp

Là sắp xếp một tập dữ liệu đã cho thành một cấu
trúc có dạng hình cây, cây phân cấp này được xây
dựng theo kỹ thuật đệ quy.

Phân cấp cụm DL thường được biểu diễn dưới
dạng cây các cụm. Trong đó:

Các lá của cây biểu diễn từng đối tượng

Các nút trong biểu diễn các cụm

Một số thuật toán phân cụm phân cấp điển hình

như : CURE, BIRCH
9
Phân cụm phân cấp

Cây phân cụm có thể được xây dưng theo 2 phương
pháp sau:

Phương pháp Bottom up ( từ dưới lên): Thay thế
từng đối tượng trong cụm của nó. Trộn theo từng
bước hai cụm giống nhau nhất cho đến khi chỉ còn
một cụm hay thoả mãn điều kiện thì dừng.

Phương pháp Top- down ( từ trên xuống): Bắt đầu
từ cụm lớn nhất chứa tất cả các đối tượng. Chia cụm
phân biệt nhất thành các cụm nhỏ hơn và tiếp diễn
cho đến khi có n cụm thoả mãn điều kiện dừng.
10
Phân cụm dữ liệu dựa trên mật độ

Phương pháp này nhóm các đối tượng theo hàm mật đ
ộ xác định. Theo phương pháp này các điểm có mật
độ cao hơn sẽ ở cùng một cụm.

Đặc trưng của phương pháp:
- Phát hiện ra các cụm có hình dạng bất kì.
- Phát hiện nhiễu.

Một số thuật toán PCDL dựa trên mật độ điển hình
như: DBSCAN, OPTICS, DENCLUE, …
11


Phân cụm dữ liệu dựa trên lưới
+Phương pháp này chủ yếu tập trung áp dụng cho lớp
dữ liệu không gian.
+Một số thuật toán PCDL dựa trên cấu trúc lưới điển
hình như: STING, WAVECluster,CLIQUE…

Phân cụm dữ liệu dựa trên mô hình
+Có hai tiếp cận chính: Mô hình thống kê &
Mạng Nơron

Phân cụm dữ liệu có ràng buộc
+Để phân cụm dữ liệu không gian hiệu quả hơn,
các nghiên cứu bổ sungcần được thực hiện để cung
cấp cho người dùng khả năng kết hợp các ràng buộc
trong thuật toán phân cụm.
12
II. THUẬT TOÁN K-MEAN
Giới thiệu về thuật toán K-mean.
1.
Khoảng cách Euclidean
2.
Phần tử trung tâm
3.
Thuật toán
4.
5.
Ưu, nhược điểm
13
1.Giới thiệu về thuật toán K-mean


K-Means là thuật toán thuộc phương pháp phân
hoạch dữ liệu, nó rất quan trọng và được sử dụng
phổ biến trong kỹ thuật phân cụm.

Tư tưởng chính của thuật toán :

Tìm cách phân nhóm các đối tượng (objects) đã
cho vào K cụm (K là số các cụm được xác đinh
trước, K nguyên dương)

Sao cho tổng bình phương khoảng cách giữa các
đối tượng đến tâm nhóm (centroid ) là nhỏ nhất.
14
2. Phần tử trung tâm

Với k phần tử trung tâm (k nhóm) ban đầu được chọn ngẫu
nhiên, sau mỗi lần nhóm các đối tượng vào các nhóm, phần tử
trung tâm được tính toán lại.

Clusteri = {a
1
, a
2
a
t
} – Nhóm thứ i
i=1 k, k:số cluster
j= 1 m, m:số thuộc tính
t - số phần tử hiện có của nhóm thứ i

x
sj
- thuộc tính thứ j của phần tử s , s=1 t
c
ij
- toạ độ thứ j của phần tử trung tâm nhóm i
15
3.Khoảng cách Euclidean
Với : a
i
=(x
i1
, x
i2
, x
in
) i=1 n - đối tượng thứ i cần phân phân loại
c
j
=(x
j1
, x
j2
, x
jm
) j=1 k - phần tử trung tâm nhóm j

Khoảng cách Euclidean từ đối tượng a
i
đến phần tử trung tâm

nhóm j , c
j
được tính toán dựa trên công thức:
Trong đó:
∂
ji
- khoảng cách Euclidean từ a
i
đến c
j
x
is
- thuộc tính thứ s của đối tượng a
i
x
js
- thuộc tính thứ s của phần tử trung tâm c
j
16
Thuật toán K-Means thực hiện qua các bước chính sau:

Bước 1: Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster).
Mỗi cụm được đại diện bằng các tâm của cụm.

Bước 2: Tính khoảng cách giữa các đối tượng (objects) đến K
tâm (thường dùng khoảng cách Euclidean)

Bước 3: Nhóm các đối tượng vào nhóm gần nhất

Bước 4: Xác định lại tâm mới cho các nhóm


Bước 5: Thực hiện lại bước 2 cho đến khi không có sự thay đổi
nhóm nào của các đối tượng
17
4. Thuật toán k-mean
4. Thuật toán k-mean

Input: Số các cụm k cần gom và cơ sở dữ liệu chứa n đối
tượng.

Output: k cụm đã được gom.
Sơ đồ thuật toán K-means
18
Ví dụ về thuật toán k-mean, n=10, k=2
19

Ưu điểm : đơn giản, dễ hiểu và cài đặt

Nhược điểm:

Việc khởi tạo phần tử trung tâm của nhóm ban đầu ảnh
hưởng đến sự phân chia đối tượng vào nhóm trong
trường hợp dữ liệu không lớn.

Số nhóm k luôn phải được xác định trước.

Không xác định được rõ ràng vùng của nhóm, cùng 1
đối tượng, nó có thể được đưa vào nhóm này hoặc
nhóm khác khi dung lượng dữ liệu thay đổi.


Điều kiện khởi tạo có ảnh hưởng lớn đến kết quả. Điều
kiện khởi tạo khác nhau có thể cho ra kết quả phân
vùng nhóm khác nhau.

Không xác định được mức độ ảnh hưởng của thuộc tính
đến quá trình tạo nhóm.
5. Ưu, nhược điểm của thuật toán K-mean:
20
III. GIỚI THIỆU WEKA VÀ BÀI TOÁN
ỨNG DỤNG
1. Giới thiệu phần mềm WEKA
2. Bài toán ứng dụng phân cụm dữ liệu trong
WEKA
21
1. Giới thiệu phần mềm WEKA

là một công cụ phần mềm viết bằng Java, phục vụ lĩnh
vực máy học và khai phá dữ liệu.
•
Weka cung cấp nhiều giải thuật khác nhau với nhiều phương
thức cho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho
bất kì một dữ liệu nào.
22
1. Giới thiệu phần mềm WEKA
Trong phần mềm Weka,Explorer có 6 phần:

Preprocess: Tiền xử lý dữ liệu.

Classify: Tạo ra những chương trình để phân loại.


Cluster: Tạo phân cụm cho cơ sở dữ liệu.

Associate: Tạo luật kết hợp cho dữ liệu và đánh giá chúng.

Select attributes: Lựa chọn những thuộc tính liên quan nhất trong
tập dữ liệu.

Visualize: nhìn thấy sự khác nhau 2 chiều của dữ liệu và sự tương
tác giữa chúng
23
2. Bài toán ứng dụng phân cụm dữ liệu
trong WEKA
Bài toán: Phân tích độ quyết toán trong các cuộc đàm phán
lao động trong ngành công nghiệp Canada sử dụng thuật
toán K-mean PCDL trong WEKA

Dữ liệu bao gồm tất cả các thỏa thuận chung đạt được trong
các lĩnh vực kinh doanh và dịch vụ cá nhân tại Canada
trong năm 87 và quý I 88.

Các dữ liệu (file labor.arff) đã được sử dụng để tìm hiểu
những mô tả của một hợp đồng chấp nhận được và hợp
đồng không thể chấp nhận, bao gồm 16 thuộc tính và 57
trường hợp.
24
1. Dur [1 7] : duration of agreement
2. wage1.wage [2.0 7.0] : wage increase in first year of contract
3. wage2.wage [2.0 7.0] : wage increase in second year of contract
4. wage3.wage [2.0 7.0] : wage increase in third year of contract
5. Cola [none, tcf, tc] : cost of living allowance

6. hours.hrs [35 40] : number of working hours during week
7. Pension [none, ret_allw, empl_contr] : employer contributions to
pension plan
8. stby_pay[2 25] : standby pay
9. shift_diff [1 25] : shift differencial : supplement for work on II
and III shift

25
THÔNG TIN THUỘC TÍNH

thuật toán k mean với bài toán phân tích dữ liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về