Phạm Minh Đức – Khai phá dữ liệu
2011
BTL KHAI PHÁ DỮ LIỆU
Đề bài : Post-Operative Patient
Sinh viên thực hiện: Phạm Minh Đức
Lớp : HTTT6
GVHD : Hồ Nhật Quang
1.Mô tả bài toán
Nhiệm vụ phân loại của cơ sở dữ liệu này là để xác định nơi các
bệnh nhân trong một khu vực phục hồi sau phẫu thuật phải được gửi đến
tiếp theo. Bởi vì hạ thân nhiệt là một mối quan tâm đáng kể sau khi phẫu
thuật (Woolery, L. et al. 1991), các thuộc tính tương ứng với khoảng đo
nhiệt độ cơ thể.
1
Phạm Minh Đức – Khai phá dữ liệu
-Giải
2011
quyết bài toán: sử dụng thuật toán J48 trong Weka dựa vào các thuộc tính đưa
ra cây quyết định xem đưa các bệnh nhân sau khi phẫu thuật phục hồi ở đâu
2.Xây dựng cơ sở dữ liệu
-Dataset: Post-Operative Patient
-Thơng tin dataset
-Các thuộc tính
1. L-CORE (patient's internal temperature in C):
high (> 37), mid (>= 36 and <= 37), low (< 36)
2. L-SURF (patient's surface temperature in C):
high (> 36.5), mid (>= 36.5 and <= 35), low (< 35)
3. L-O2 (oxygen saturation in %):
excellent (>= 98), good (>= 90 and < 98),
2
Phạm Minh Đức – Khai phá dữ liệu
2011
fair (>= 80 and < 90), poor (< 80)
4. L-BP (last measurement of blood pressure):
high (> 130/90), mid (<= 130/90 and >= 90/70), low (< 90/70)
5. SURF-STBL (stability of patient's surface temperature):
stable, mod-stable, unstable
6. CORE-STBL (stability of patient's core temperature)
stable, mod-stable, unstable
7. BP-STBL (stability of patient's blood pressure)
stable, mod-stable, unstable
8. COMFORT (patient's perceived comfort at discharge, measured as
an integer between 0 and 20)
9. decision ADM-DECS (discharge decision):
I (patient sent to Intensive Care Unit),
S (patient prepared to go home),
A (patient sent to general hospital floor)
-Training data
3
Phạm Minh Đức – Khai phá dữ liệu
3.Tiến hành trong Weka
-Đưa dữ liệu vàoWeka
4
2011
Phạm Minh Đức – Khai phá dữ liệu
-Sử dụng toàn bộ dữ liệu để training
5
2011
Phạm Minh Đức – Khai phá dữ liệu
-Nội dung kết quả:
=== Run information ===
Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2
Relation:
test
Instances:
90
Attributes: 9
L-CORE
L-SURF
6
2011
Phạm Minh Đức – Khai phá dữ liệu
L-O2
L-BP
SURF-STBL
CORE-STBL
BP-STBL
COMFORT
decision ADM-DECS
Test mode:evaluate on training data
=== Classifier model (full training set) ===
J48 pruned tree
------------------
CORE-STBL = stable: A (83.0/23.0)
CORE-STBL = unstable
|
BP-STBL = stable: S (3.0)
|
BP-STBL = mod-stable: A (1.0)
|
BP-STBL = unstable: A (2.0)
CORE-STBL = mod-stable: A (1.0)
7
2011
2011
Phạm Minh Đức – Khai phá dữ liệu
Number of Leaves : 5
Size of the tree :
7
Time taken to build model: 0.02 seconds
=== Evaluation on training set ===
=== Summary ===
Correctly Classified Instances
67
74.4444 %
Incorrectly Classified Instances
23
25.5556 %
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances
0.2066
0.1904
0.3085
84.3172 %
93.1437 %
90
8
2011
Phạm Minh Đức – Khai phá dữ liệu
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
1
0.852
0.125
0.733
0
1
1
0.846
0.594
A
0.125
0.222
0.589
S
1
0
1
1
1
1
A
0
0
0
0
0
0.54
I
Weighted Avg.
0.744
0.596
0.791
=== Confusion Matrix ===
a b c d <-- classified as
63 0 0 0 | a = A
21 3 0 0 | b = S
0 0 1 0| c=A
2 0 0 0| d=I
-Cây quyếtđịnh
9
0.744
0.662
0.596
Phạm Minh Đức – Khai phá dữ liệu
-Lấy 95% dữ liệu để xây dựng,5% dữ liệu để test
10
2011
Phạm Minh Đức – Khai phá dữ liệu
-Lấy 90% dữ liệu để xây dựng,10% dữ liệu để test
11
2011
Phạm Minh Đức – Khai phá dữ liệu
-Lấy 80% dữ liệu để xây dựng,20% dữ liệu để test
12
2011
Phạm Minh Đức – Khai phá dữ liệu
-Lấy75% dữ liệu để xây dựng,25% dữ liệu để test
13
2011
Phạm Minh Đức – Khai phá dữ liệu
-Lấy60% dữ liệu để xây dựng,40% dữ liệu để test
14
2011
Phạm Minh Đức – Khai phá dữ liệu
15
2011