VIỆN ĐẠI HỌC MỞ HÀ NỘI
KHOA ĐÀO TẠO SAU ĐẠI HỌC
---------------
BÀI TẬP LỚN
MÔN KHAI PHÁ DỮ LIỆU
Thầy giáo hướng dẫn: PGS.TS Nguyễn Quang Hoan
Học viên thực hiện: Nguyễn Thế Thủy
Lớp : Cao học CNTT - Khóa 2
Hà Nội, 04 /2016
Đề bài:
1. Cho tệp dữ liệu dưới đây với 3 thâm số đầu vào x1, x2, x3 đặc trưng đấu hiệu cho một
loại bệnh Y (dương tính: +; âm tính: -). Dùng thuật toán K-NN với k=5; Một bệnh nhân
cho kết quả đo x={2, 6, 9}. Hỏi bệnh nhân đó được chẩn đoán là dương tính hay âm tính?
STT
1
2
3
4
5
6
7
8
9
10
X1
2
6
7
4
6
6
3
3
4
4
X2
4
5
4
1
5
6
9
4
7
9
X3
8
8
9
10
7
8
10
5
7
9
Y
+
+
+
+
+
+
-
D (Euclid)
STT
X1
X2
11
12
13
14
15
16
17
18
19
20
21
8
4
7
5
9
7
8
6
7
6
2
4
3
6
10
7
4
5
6
4
8
6
X3 Y D
(Euclid)
6
10 +
7
+
8
11 +
6
7
+
7
9
+
8
9
?
2. Cho tập dữ liệu về hoa iris (Hoa Diên Vĩ hoặc Hoa Loa kèn) với các tham số
theo thứ tự: chiều dài đài hoa, chiều rộng đài hoa, chiều dài cánh hoa, chiều rông
cánh hoa, loại hoa.
6.4,3.2,5.3,2.3,Iris
5.1,3.5,1.4,0.3,Iris
5.2,2.7,3.9,1.4,Iris
5.0,2.0,3.5,1.0,Iris
5.1,3.8,1.5,0.3,Iris
5.4,3.4,1.7,0.2,Iris
5.1,3.7,1.5,0.4,Iris
5.1,3.3,1.7,0.5,Iris
7.6,3.0,6.6,2.1,Iris
6.3,3.3,4.7,1.6,Iris
4.9,3.1,1.5,0.1,Iris
6.1,2.9,4.7,1.4,Iris
7.3,2.9,6.3,1.8,Iris
6.7,2.5,5.8,1.8,Iris
7.2,3.6,6.1,2.5,Iris
6.7,2.5,5.8,1.8,Iris
Với: C1: 5.4,3.4,1.7,0.2,Iris-setosa
C2: 6.7,2.5,5.8,1.8,Iris-versicolor
Dùng thuật toán K-Trung bình phân 2 cụm
Bài làm
Câu 2.
Với tâm khởi động là
C1 (5.4,3.4,1.7,0.2) ,Iris-setosa
C2 (6.7,2.5,5.8,1.8) ,Iris-versicolor
Lần lặp 1: Gán nhóm cho các phần tử bằng cách tính khoảng cách từ phần tử đến
các tâm và chọn nhóm có tâm gần nhất
Ta có bảng sau
1
Chiều
dài đài
hoa
6.4
Chiều
rộng đài
hoa
3.2
2
5.1
3
Chiều dài
cánh hoa
Chiều rộng
cánh hoa
5.3
2.3
4.29 1.04
Iris-versicolor
3.5
1.4
0.3
0.45 5.02
Iris-setosa
5.2
2.7
3.9
1.4
2.61 2.46
Iris-versicolor
4
5
2
3.5
1
2.45 3.01
Iris-setosa
5
5.1
3.8
1.5
0.3
0.55 5.00
Iris-setosa
6
5.4
3.4
1.7
0.2
0.00 4.68
Iris-setosa
7
5.1
3.7
1.5
0.4
0.51 4.94
Iris-setosa
8
5.1
3.3
1.7
0.5
0.44 4.66
Iris-setosa
9
7.6
3
6.6
2.1
5.71 1.34
Iris-versicolor
10
6.3
3.3
4.7
1.6
3.43 1.43
Iris-versicolor
11
4.9
3.1
1.5
0.1
0.62 5.00
Iris-setosa
12
6.1
2.9
4.7
1.4
3.34 1.37
Iris-versicolor
13
7.3
2.9
6.3
1.8
5.25 0.88
Iris-versicolor
14
6.7
2.5
5.8
1.8
4.68 0.00
Iris-versicolor
15
7.2
3.6
6.1
2.5
5.28 1.43
Iris-versicolor
16
C1
C2
6.7
5.4
6.7
2.5
3.4
2.5
5.8
1.7
5.8
1.8
0.2
1.8
4.68 0.00
Iris-versicolor
Stt
Tính lại tâm cho các nhóm ta có tâm mới là:
C1 ( 5.10,3,26,1,83,0,04) ; C2 ( 6,61, 2,96, 5,47, 1,86)
Lần lặp 2: với tâm mới là :
Loại hoa
C1 ( 5.10,3,26,1,83,0,04) ; C2 ( 6,61, 2,96, 5,47, 1,86)
Ta tính được kết kết quả sau:
Stt
Chiều
dài đài
hoa
6.4
5.1
5.2
5
5.1
5.4
5.1
5.1
7.6
6.3
4.9
6.1
7.3
6.7
7.2
6.7
Chiều
Chiều dài
rộng
cánh hoa
Đài hoa
3.2
5.3
3.5
1.4
2.7
3.9
2
3.5
3.8
1.5
3.4
1.7
3.7
1.5
3.3
1.7
3
6.6
3.3
4.7
3.1
1.5
2.9
4.7
2.9
6.3
2.5
5.8
3.6
6.1
2.5
5.8
Chiều rộng
cánh hoa
2.3
1
0.3
2
1.4
3
1
4
0.3
5
0.2
6
0.4
7
0.5
8
2.1
9
1.6
10
0.1
11
1.4
12
1.8
13
1.8
14
2.5
15
1.8
16
C1
5.10
3.26
1.83
0.40
6.16
2.96
5.47
1.86
C2
Tính lại tâm cho các nhóm ta có tâm mới là:
C1 ( 5.10,3,26,1,83,0,04) ; C2 ( 6,61, 2,96, 5,47, 1,86)
Tâm không thay đổi nên giải thuật kết thúc.
Câu 1:
Loại hoa
4.16
0.50
2.37
2.18
0.64
0.41
0.55
0.17
5.65
3.33
0.51
3.22
5.19
4.57
5.21
4.57
0.58
4.52
1.91
2.62
4.47
4.21
4.42
4.16
1.85
0.89
4.52
0.90
1.41
0.78
1.52
0.78
Iris-versicolor
Iris-setosa
Iris-versicolor
Iris-setosa
Iris-setosa
Iris-setosa
Iris-setosa
Iris-setosa
Iris-versicolor
Iris-versicolor
Iris-setosa
Iris-versicolor
Iris-versicolor
Iris-versicolor
Iris-versicolor
Iris-versicolor