Tải bản đầy đủ (.doc) (5 trang)

Bài tập lớn KPDL nguyen the thuy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (99.91 KB, 5 trang )

VIỆN ĐẠI HỌC MỞ HÀ NỘI
KHOA ĐÀO TẠO SAU ĐẠI HỌC
---------------

BÀI TẬP LỚN
MÔN KHAI PHÁ DỮ LIỆU
Thầy giáo hướng dẫn: PGS.TS Nguyễn Quang Hoan
Học viên thực hiện: Nguyễn Thế Thủy
Lớp : Cao học CNTT - Khóa 2

Hà Nội, 04 /2016


Đề bài:
1. Cho tệp dữ liệu dưới đây với 3 thâm số đầu vào x1, x2, x3 đặc trưng đấu hiệu cho một
loại bệnh Y (dương tính: +; âm tính: -). Dùng thuật toán K-NN với k=5; Một bệnh nhân
cho kết quả đo x={2, 6, 9}. Hỏi bệnh nhân đó được chẩn đoán là dương tính hay âm tính?
STT
1
2
3
4
5
6
7
8
9
10

X1
2


6
7
4
6
6
3
3
4
4

X2
4
5
4
1
5
6
9
4
7
9

X3
8
8
9
10
7
8
10

5
7
9

Y
+
+
+
+
+
+
-

D (Euclid)

STT

X1

X2

11
12
13
14
15
16
17
18
19

20
21

8
4
7
5
9
7
8
6
7
6
2

4
3
6
10
7
4
5
6
4
8
6

X3 Y D
(Euclid)
6

10 +
7
+
8
11 +
6
7
+
7
9
+
8
9
?

2. Cho tập dữ liệu về hoa iris (Hoa Diên Vĩ hoặc Hoa Loa kèn) với các tham số
theo thứ tự: chiều dài đài hoa, chiều rộng đài hoa, chiều dài cánh hoa, chiều rông
cánh hoa, loại hoa.
6.4,3.2,5.3,2.3,Iris
5.1,3.5,1.4,0.3,Iris
5.2,2.7,3.9,1.4,Iris
5.0,2.0,3.5,1.0,Iris
5.1,3.8,1.5,0.3,Iris
5.4,3.4,1.7,0.2,Iris
5.1,3.7,1.5,0.4,Iris
5.1,3.3,1.7,0.5,Iris
7.6,3.0,6.6,2.1,Iris
6.3,3.3,4.7,1.6,Iris
4.9,3.1,1.5,0.1,Iris
6.1,2.9,4.7,1.4,Iris

7.3,2.9,6.3,1.8,Iris
6.7,2.5,5.8,1.8,Iris
7.2,3.6,6.1,2.5,Iris
6.7,2.5,5.8,1.8,Iris
Với: C1: 5.4,3.4,1.7,0.2,Iris-setosa
C2: 6.7,2.5,5.8,1.8,Iris-versicolor
Dùng thuật toán K-Trung bình phân 2 cụm


Bài làm
Câu 2.
Với tâm khởi động là
C1 (5.4,3.4,1.7,0.2) ,Iris-setosa
C2 (6.7,2.5,5.8,1.8) ,Iris-versicolor
Lần lặp 1: Gán nhóm cho các phần tử bằng cách tính khoảng cách từ phần tử đến
các tâm và chọn nhóm có tâm gần nhất
Ta có bảng sau

1

Chiều
dài đài
hoa
6.4

Chiều
rộng đài
hoa
3.2


2

5.1

3

Chiều dài
cánh hoa

Chiều rộng
cánh hoa

5.3

2.3

4.29 1.04

Iris-versicolor

3.5

1.4

0.3

0.45 5.02

Iris-setosa


5.2

2.7

3.9

1.4

2.61 2.46

Iris-versicolor

4

5

2

3.5

1

2.45 3.01

Iris-setosa

5

5.1


3.8

1.5

0.3

0.55 5.00

Iris-setosa

6

5.4

3.4

1.7

0.2

0.00 4.68

Iris-setosa

7

5.1

3.7


1.5

0.4

0.51 4.94

Iris-setosa

8

5.1

3.3

1.7

0.5

0.44 4.66

Iris-setosa

9

7.6

3

6.6


2.1

5.71 1.34

Iris-versicolor

10

6.3

3.3

4.7

1.6

3.43 1.43

Iris-versicolor

11

4.9

3.1

1.5

0.1


0.62 5.00

Iris-setosa

12

6.1

2.9

4.7

1.4

3.34 1.37

Iris-versicolor

13

7.3

2.9

6.3

1.8

5.25 0.88


Iris-versicolor

14

6.7

2.5

5.8

1.8

4.68 0.00

Iris-versicolor

15

7.2

3.6

6.1

2.5

5.28 1.43

Iris-versicolor


16
C1
C2

6.7
5.4
6.7

2.5
3.4
2.5

5.8
1.7
5.8

1.8
0.2
1.8

4.68 0.00

Iris-versicolor

Stt

Tính lại tâm cho các nhóm ta có tâm mới là:
C1 ( 5.10,3,26,1,83,0,04) ; C2 ( 6,61, 2,96, 5,47, 1,86)
Lần lặp 2: với tâm mới là :


Loại hoa


C1 ( 5.10,3,26,1,83,0,04) ; C2 ( 6,61, 2,96, 5,47, 1,86)
Ta tính được kết kết quả sau:
Stt

Chiều
dài đài
hoa
6.4
5.1
5.2
5
5.1
5.4
5.1
5.1
7.6
6.3
4.9
6.1
7.3
6.7
7.2
6.7

Chiều
Chiều dài
rộng

cánh hoa
Đài hoa
3.2
5.3
3.5
1.4
2.7
3.9
2
3.5
3.8
1.5
3.4
1.7
3.7
1.5
3.3
1.7
3
6.6
3.3
4.7
3.1
1.5
2.9
4.7
2.9
6.3
2.5
5.8

3.6
6.1
2.5
5.8

Chiều rộng
cánh hoa

2.3
1
0.3
2
1.4
3
1
4
0.3
5
0.2
6
0.4
7
0.5
8
2.1
9
1.6
10
0.1
11

1.4
12
1.8
13
1.8
14
2.5
15
1.8
16
C1
5.10
3.26
1.83
0.40
6.16
2.96
5.47
1.86
C2
Tính lại tâm cho các nhóm ta có tâm mới là:
C1 ( 5.10,3,26,1,83,0,04) ; C2 ( 6,61, 2,96, 5,47, 1,86)
Tâm không thay đổi nên giải thuật kết thúc.

Câu 1:

Loại hoa
4.16
0.50
2.37

2.18
0.64
0.41
0.55
0.17
5.65
3.33
0.51
3.22
5.19
4.57
5.21
4.57

0.58
4.52
1.91
2.62
4.47
4.21
4.42
4.16
1.85
0.89
4.52
0.90
1.41
0.78
1.52
0.78


Iris-versicolor
Iris-setosa
Iris-versicolor
Iris-setosa
Iris-setosa
Iris-setosa
Iris-setosa
Iris-setosa
Iris-versicolor
Iris-versicolor
Iris-setosa
Iris-versicolor
Iris-versicolor
Iris-versicolor
Iris-versicolor
Iris-versicolor




×