Tải bản đầy đủ (.docx) (15 trang)

Tiểu luận khai phá dữ liệu: Sử dụng weka để phân lớp trên dataset Post-Operative Patient

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (347.24 KB, 15 trang )

Phạm Minh Đức – Khai phá dữ liệu

2011

BTL KHAI PHÁ DỮ LIỆU
Đề bài : Post-Operative Patient

Sinh viên thực hiện: Phạm Minh Đức
Lớp : HTTT6
GVHD : Hồ Nhật Quang

1.Mô tả bài toán
Nhiệm vụ phân loại của cơ sở dữ liệu này là để xác định nơi các
bệnh nhân trong một khu vực phục hồi sau phẫu thuật phải được gửi đến
tiếp theo. Bởi vì hạ thân nhiệt là một mối quan tâm đáng kể sau khi phẫu
thuật (Woolery, L. et al. 1991), các thuộc tính tương ứng với khoảng đo
nhiệt độ cơ thể.

1


Phạm Minh Đức – Khai phá dữ liệu

-Giải

2011

quyết bài toán: sử dụng thuật toán J48 trong Weka dựa vào các thuộc tính đưa
ra cây quyết định xem đưa các bệnh nhân sau khi phẫu thuật phục hồi ở đâu

2.Xây dựng cơ sở dữ liệu


-Dataset: Post-Operative Patient
-Thơng tin dataset

-Các thuộc tính
1. L-CORE (patient's internal temperature in C):
high (> 37), mid (>= 36 and <= 37), low (< 36)
2. L-SURF (patient's surface temperature in C):
high (> 36.5), mid (>= 36.5 and <= 35), low (< 35)
3. L-O2 (oxygen saturation in %):
excellent (>= 98), good (>= 90 and < 98),
2


Phạm Minh Đức – Khai phá dữ liệu

2011

fair (>= 80 and < 90), poor (< 80)
4. L-BP (last measurement of blood pressure):
high (> 130/90), mid (<= 130/90 and >= 90/70), low (< 90/70)
5. SURF-STBL (stability of patient's surface temperature):
stable, mod-stable, unstable
6. CORE-STBL (stability of patient's core temperature)
stable, mod-stable, unstable
7. BP-STBL (stability of patient's blood pressure)
stable, mod-stable, unstable
8. COMFORT (patient's perceived comfort at discharge, measured as
an integer between 0 and 20)
9. decision ADM-DECS (discharge decision):
I (patient sent to Intensive Care Unit),

S (patient prepared to go home),
A (patient sent to general hospital floor)
-Training data

3


Phạm Minh Đức – Khai phá dữ liệu

3.Tiến hành trong Weka
-Đưa dữ liệu vàoWeka

4

2011


Phạm Minh Đức – Khai phá dữ liệu

-Sử dụng toàn bộ dữ liệu để training

5

2011


Phạm Minh Đức – Khai phá dữ liệu

-Nội dung kết quả:
=== Run information ===


Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2
Relation:

test

Instances:

90

Attributes: 9
L-CORE
L-SURF
6

2011


Phạm Minh Đức – Khai phá dữ liệu
L-O2
L-BP
SURF-STBL
CORE-STBL
BP-STBL
COMFORT
decision ADM-DECS
Test mode:evaluate on training data

=== Classifier model (full training set) ===


J48 pruned tree
------------------

CORE-STBL = stable: A (83.0/23.0)
CORE-STBL = unstable
|

BP-STBL = stable: S (3.0)

|

BP-STBL = mod-stable: A (1.0)

|

BP-STBL = unstable: A (2.0)

CORE-STBL = mod-stable: A (1.0)

7

2011


2011

Phạm Minh Đức – Khai phá dữ liệu

Number of Leaves : 5


Size of the tree :

7

Time taken to build model: 0.02 seconds

=== Evaluation on training set ===
=== Summary ===

Correctly Classified Instances

67

74.4444 %

Incorrectly Classified Instances

23

25.5556 %

Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances

0.2066
0.1904

0.3085
84.3172 %
93.1437 %
90

8


2011

Phạm Minh Đức – Khai phá dữ liệu
=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure ROC Area Class
1

0.852

0.125

0.733

0

1

1

0.846


0.594

A

0.125

0.222

0.589

S

1

0

1

1

1

1

A

0

0


0

0

0

0.54

I

Weighted Avg.

0.744

0.596

0.791

=== Confusion Matrix ===

a b c d <-- classified as
63 0 0 0 | a = A
21 3 0 0 | b = S
0 0 1 0| c=A
2 0 0 0| d=I

-Cây quyếtđịnh

9


0.744

0.662

0.596


Phạm Minh Đức – Khai phá dữ liệu

-Lấy 95% dữ liệu để xây dựng,5% dữ liệu để test

10

2011


Phạm Minh Đức – Khai phá dữ liệu

-Lấy 90% dữ liệu để xây dựng,10% dữ liệu để test

11

2011


Phạm Minh Đức – Khai phá dữ liệu

-Lấy 80% dữ liệu để xây dựng,20% dữ liệu để test

12


2011


Phạm Minh Đức – Khai phá dữ liệu

-Lấy75% dữ liệu để xây dựng,25% dữ liệu để test

13

2011


Phạm Minh Đức – Khai phá dữ liệu

-Lấy60% dữ liệu để xây dựng,40% dữ liệu để test

14

2011


Phạm Minh Đức – Khai phá dữ liệu

15

2011




×