Tải bản đầy đủ (.pdf) (13 trang)

Một cách tiếp cận trong khai phá dữ liệu để chuẩn đoán bệnh tim cho bệnh nhân ngoại trú

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (186.11 KB, 13 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÙI XUÂN TRỌNG

MỘT CÁCH TIẾP CẬN TRONG KHAI PHÁ DỮ LIỆU
ĐỂ CHẨN ĐOÁN BỆNH TIM CHO BỆNH NHÂN NGOẠI TRÚ

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI, NĂM 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÙI XUÂN TRỌNG

MỘT CÁCH TIẾP CẬN TRONG KHAI PHÁ DỮ LIỆU
ĐỂ CHẨN ĐOÁN BỆNH TIM CHO BỆNH NHÂN NGOẠI TRÚ

Ngành: Công Nghệ Thông Tin
Chuyên ngành: Hệ Thống Thông Tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TIẾN SĨ. VŨ THỊ HỒNG NHẠN

HÀ NỘI, NĂM 2015



LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này là công trình nghiên cứu của tôi, dưới sự hướng dẫn
của Tiến sĩ Vũ Thị Hồng Nhạn. Luận văn này không sao chép từ của ai hay từ bất kỳ
luận văn nào khác. Nếu sai tôi xin hoàn toàn chịu trách nhiệm trước nhà trường và pháp
luật.

BÙI XUÂN TRỌNG


LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS. Vũ Thị Hồng Nhạn, cô đã
hướng dẫn, chỉ dạy tận tình để tôi có thể hoàn thành luận văn này. Tôi
cũng xin chân thành cảm ơn các thầy, cô giáo khoa Công nghệ thông tin Trường Đại học công nghệ - Đại học Quốc gia Hà nội đã truyền thụ kiến
thức cho tôi trong suốt quá trình học tập.
Tôi cũng muốn bày tỏ lòng biết ơn của mình tới gia đình, người thân và
đồng nghiệp đã động viên, khích lệ, giúp đỡ, tạo mọi điều kiện để tôi
hoàn thành khóa học và luận văn này.


TÓM TẮT

Bệnh tim mạch là một trong những nguyên nhân gây tử vong cao nhất
hiện nay. Với sự phát triển của Công nghệ, người ta có thể sử dụng các
thiết bị không dây, thiết bị cảm ứng tích hợp trên cơ người để thu thập
liên tục dữ liệu về tình trạng sức khỏe của bệnh nhân nội trú cũng như
ngoại trú. Trong luận văn này, chúng tôi nghiên cứu một cách tiếp cận
trong khai phá dữ liệu để chẩn đoán bệnh tim cho bệnh nhân ngoại trú.

Quá trình chẩn đoán được thực hiện qua hai bước. Trong bước thứ nhất,
bệnh nhân được chẩn đoán về nguy cơ mắc bệnh dựa vào luật kết hợp.
Luật kết hợp được tìm ra dựa vào dữ liệu lâm sàng. Dữ liệu lâm sàng của
bệnh nhân được tiền xử lý và sau đó được khai phá để tìm luật kết hợp
dựa trên thuật toán Apriori. Sau bước này, dựa trên kết quả chẩn đoán,
bác sĩ sẽ quyết định những bệnh nhân nào có nguy cơ bị bệnh tim mạch
cao sẽ tiếp tục được chẩn đoán thêm ở bước sau. Ở bước chẩn đoán thứ
hai này sẽ áp dụng thuật toán GNG trên tập dữ liệu về sự thay đổi nhịp
tim. Dữ liệu điện tâm đồ biểu diễn sự thay đổi nhịp tim của bệnh nhân
được thu trong các hoạt động hằng ngày. Tín hiệu điện tâm đồ được tiền
xử lý dựa trên kỹ thuật Poincaré để chuyển sang định dạng của véc tơ đầu
vào. Thuật toán GNG được áp dụng để khai phá dữ liệu đã được tiền xử
lý. Thuật toán này đáp ứng được yêu cầu của việc học liên tục và GNG
có khả năng huấn luyện với dữ liệu mới nhưng không quên những mẫu
đã được huấn luyện từ trước. Một số thực nghiệm được thực hiện để đánh
giá độ chính xác của phương pháp chẩn đoán. Từ kết quả thu được, ta có
thể thấy rằng, phương pháp này có thể áp dụng trong hệ một hệ thống
y tế để hỗ trợ việc chẩn đoán sớm những trường hợp tim mạch bất bình
thường, phòng tránh các hậu quả nghiêm trọng, đặc biệt có thể theo dõi
bệnh nhân ngoại trú và ứng cứu kịp thời trong trường hợp cần thiết.


Mục lục
Mục lục

iii

Danh sách hình vẽ

v


Danh sách bảng
1

2

vii

Giới thiệu

1

1.1

Động cơ nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2

Đóng góp của luận văn . . . . . . . . . . . . . . . . . . . . . . . . .

2

Cơ sở lý thuyết

5

2.1


Giới thiệu về bệnh tim mạch . . . . . . . . . . . . . . . . . . . . . .

5

2.2

Các hệ thống chuẩn đoán bệnh Tim . . . . . . . . . . . . . . . . . . .

7

2.2.1

Các Hệ thống chẩn đoán dựa vào chỉ số nguy cơ mắc bệnh tim

7

2.2.2

Hệ thống hỗ trợ chuẩn đoán bệnh Tim mạch sử dụng kỹ thuật
khai phá dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . .

2.3

Một số thuật toán khai phá dữ liệu . . . . . . . . . . . . . . . . . . . 10
2.3.1

K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.2


Cây quyết định . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3.3

Thuật toán Mạng Perceptron nhiều lớp . . . . . . . . . . . . . 14

2.3.4
3

9

2.3.3.1

Mạng Perceptron một lớp . . . . . . . . . . . . . . 14

2.3.3.2

Mạng Perceptron lan truyền thẳng nhiều lớp . . . . 16

SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Quá trình chẩn đoán bệnh tim dựa trên kỹ thuật khai phá dữ liệu

24

3.1

Tổng quan quá trình chẩn đoán . . . . . . . . . . . . . . . . . . . . . 24

3.2


Chẩn đoán bệnh Tim mạch dựa trên các thông tin lâm sàng . . . . . . 25
3.2.1

Tiền xử lý Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . 26
iii


3.3

4

3.2.2

Các khái niệm và định nghĩa . . . . . . . . . . . . . . . . . . 26

3.2.3

Thuật toán Apriori . . . . . . . . . . . . . . . . . . . . . . . 30

Chẩn đoán bệnh tim dựa vào sự thay đổi nhịp tim . . . . . . . . . . . 31
3.3.1

Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . 32

3.3.2

Thuật toán GNG . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.2.1


Nguyên lý cơ bản và mô hình mạng . . . . . . . . . 35

3.3.2.2

Thuật toán GNG . . . . . . . . . . . . . . . . . . . 36

Thực nghiệm và Đánh giá
4.1

44

Môi trường thực nghiệm và dữ liệu . . . . . . . . . . . . . . . . . . . 44
4.1.1

Môi trường thực nghiệm cho bước chẩn đoán dựa vào các
thông tin lâm sàng . . . . . . . . . . . . . . . . . . . . . . . 44

4.1.2

Môi trường thực nghiệm cho bước chẩn đoán dựa vào sự thay
đổi nhịp tim . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2

Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2.1

Kết quả và đánh giá hiệu quả của thuật toán Apriori . . . . . . 49
4.2.1.1


Đánh giá sự thay đổi số lượng các tập mục phổ biến
theo sự thay đổi của độ hỗ trợ minsup . . . . . . . . 49

4.2.1.2

Đánh giá số lượng các luật sinh ra theo sự thay đổi
của độ hỗ trợ minsup . . . . . . . . . . . . . . . . 50

4.2.1.3

Đánh giá số lượng các luật tạo ra khi độ tin cậy
minconf thay đổi . . . . . . . . . . . . . . . . . . . 51

4.2.2

Kết quả và đánh giá hiệu quả của thuật toán GNG . . . . . . . 53
4.2.2.1

Đánh giá lỗi phân lớp trên tập dữ liệu D(O) . . . . . 53

4.2.2.2

Đánh giá số lượng nút và cạnh của thuật toán GNG
trên tập dữ liệu D(O)

5

. . . . . . . . . . . . . . . . 54

4.2.2.3


Đánh giá lỗi bình phương trung bình MSE trên D(O) 55

4.2.2.4

So sánh GNG với SOM . . . . . . . . . . . . . . . 56

Kết luận

58

Tài liệu tham khảo

60

iv


Danh sách hình vẽ
2.1

Bệnh Tim mạch vành . . . . . . . . . . . . . . . . . . . . . . . . . .

5

2.2

Đặc điểm của các hệ thống ước tính nguy cơ bệnh Tim mạch . . . . .

9


2.3

Cụm dữ liệu khai phá bởi K-mean . . . . . . . . . . . . . . . . . . . 11

2.4

Bảng dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.5

Cây quyết định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.6

Mạng Perceptron một lớp . . . . . . . . . . . . . . . . . . . . . . . . 15

2.7

Lan truyền tín hiệu trong quá trình huấn luyện theo phương pháp lan
truyền ngược sai số . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.8

Mô hình SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.9

Ma trận trọng số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20


2.10 Các lân cận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.11 Nút khớp nhất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.12 Hàm lân cận cơ bản . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1

Tổng quan hệ thống quá trình chẩn đoán bệnh tim . . . . . . . . . . . 25

3.2

Chẩn đoán bệnh tim dựa vào thông tin lâm sàng của bệnh nhân . . . . 26

3.3

Kỹ thuật Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.4

Đồ thị RR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.1

Tập dữ liệu đầu vào của thuật toán Apriori . . . . . . . . . . . . . . . 45

4.2

Sự thay đổi itemset theo minsup . . . . . . . . . . . . . . . . . . . . 50

4.3

Số lượng luật theo minsup . . . . . . . . . . . . . . . . . . . . . . . 51


4.4

Số lượng luật theo minconf . . . . . . . . . . . . . . . . . . . . . . . 52

4.5

Tập luật sinh ra với minsup=0.1 và minconf=0.97 . . . . . . . . . . . 52

4.6

Giá trị lỗi phân lớp của GNG trên tập dữ liệu D(O) . . . . . . . . . . 53

4.7

Số nút và cạnh của GNG trên tập dữ liệu với O=0% . . . . . . . . . . 54

4.8

Số nút và cạnh của GNG trên tập dữ liệu với O=1% . . . . . . . . . . 55
v


4.9

Số nút và cạnh của GNG trên tập dữ liệu với O=2% . . . . . . . . . . 55

4.10 MSE và Mức độ giao giữa các lớp . . . . . . . . . . . . . . . . . . . 56
4.11 GNG và SOM trên tập dữ liệu D(0%) . . . . . . . . . . . . . . . . . 56
4.12 GNG và SOM tập dữ liệu D(1%) . . . . . . . . . . . . . . . . . . . . 57

4.13 GNG và SOM tập dữ liệu D(2%) . . . . . . . . . . . . . . . . . . . . 57

vi


Danh sách bảng
3.1

Bảng thuộc tính của mẫu dữ liệu cho bệnh tim . . . . . . . . . . . . . 27

3.2

Quy tắc chuyển đổi dữ liệu . . . . . . . . . . . . . . . . . . . . . . . 43

4.1

Tổng hợp các tham số sử dụng để sinh ra tín hiệu điện tâm đồ . . . . . 46

4.2

Tham số sử dụng để sinh ra tập dữ liệu (BT-Bình thường, BBT- Bất
bình thường) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.3

Tổng hợp các tham số sử dụng trong GNG . . . . . . . . . . . . . . . 48

4.4

Sự thay đổi số lượng tập mục phổ biến theo độ hỗ trợ . . . . . . . . . 50


4.5

Sự thay đổi số lượng luật sinh ra theo độ hỗ trợ . . . . . . . . . . . . 51

4.6

Sự thay đổi số lượng luật sinh ra theo độ tin cây . . . . . . . . . . . . 51

vii


Tài liệu tham khảo
[1] Anderson KM, Wilson PWF, Odell PM, Kannel WB. An updated
coronary risk profile. A statement for health professionals. Journal
of the American Heart Association, Circulation 1991 , 356-361 24
[2] Azuaje F, W. Dubitzky, X. Wu, P. Lopes, N.D. Black, K. Adamson,
and J.A. White. A Neural Network Approach to Coronary Heart
Disease Risk Assessment based on Short-Term Measurement of
RR Intervals. In:Processing of Computers in Cardiology, (1997).
33
[3] Chan HL, Fang SC, Ko YL, Lin MA, Huang HH, and Lin CH.
Heart rate variability characterization in daily physical activities
using wavelet analysis and multilayer Fuzzy Activity Clustering.
IEEE Transactions on Biomedical Engineering (2006).
[4] E.AbuKhousa and P.Campbell, Predictive data mining to support
clinical decisions: An overview of heart disease prediction systems,
presented at the International Conference on Innovations in Information Technology, 2012.
[5] Fritzke B. A growing neural gas network learns topologies.Advances in Neural Information Processing Systems 7, Cambridge, MA: MIT Press (1995). 36
[6] J. Han and M. Kamber (2001), Data Mining - Concepts and Techniques, Chapter 8: Cluster Analysis. Morgan Kaufmann 19, 30

[7] J.A. Hartigan, Sons. Clustering algorithms(1975) 10
[8] Hiroyuki F, Takashi U, Koichi O. Estimation of Breathing Frequency by R Wave Fluctuation of ECG. Japanese Journal of Medical Electronics and Biological Engineering (1998). 45
[9] Ingo A, Jorg B, Gerald S. On-line learning with dynamic cell structures. Int. Conf. on Artificial Neural Networks, V ol.2, (1995)
[10] Ishtake S.H, Prof. Sanap S.A. Intelligent Heart Disease Prediction
System Using Data Mining Techniques, International J. of Healthcare & Biomedical Research (2013)
[11] Kamen PW, Krum H, Tonkin AM, Poincare plot of heart rate variability allows quantitative display of parasympathetic nervous activity in humans. Clinical Science (1996).
60


[12] Karayiannis NB, Mi GW. Growing radial basis neural networks:
merging supervised and unsupervised learning with network
growth techniques. IEEE Transactions on Neural Networks. (1997)
[13] Kohonen T. Self-Organizing Maps, 3rd ed.. Berlin: SpringerVerlag. (2001)
[14] Laerhoven KV, Lowette S. Real-time analysis of data from many
sensors with neural networks. In Proceedings of the fourth International Symposium on Wearable Computers. (2001)
[15] Lee HG, Noh KY, Park HK, Ryu KH. Predicting coronary artery
disease from heart rate variability using classification and statistical analysis. 7th IEEE International Conference on Computer and
Information Technology, (2007)
[16] Chin-Teng Lin, C.S.George Lee, Neural fuzzy systems: a neurofuzzy synergism to intelligent systems, Prentice-Hall Inc. (1996) 14
[17] M.Ambarasi etc al.:, Enhanced Prediction of Heart Disease with
Feature subset selection using Genetic Algorithm, IJESI, Vol 2(10)
(2010)
[18] MA.Jabbar, B.L.Deekshatulu and Priti Chandra.: Knowledge Discovery using Associative Classification for Heart Disease Prediction. In: International symposium on Intelligent Informatics (ISI
2012)
[19] MA.Jabbar, Priti Chandra, B.L.Deekshatulu..:Cluster based association rule mining for heart attack prediction,JATIT,vol 32,no
2(Oct 2011)
[20] MA.Jabbar, B.L.Deekshatulu and Priti Chandra.: An evolutionary
algorithm for heart disease prediction, ICIP, CCIS 292 PP 378-389,
Springer-Verlag (2012)
[21] Martinetz TM. Competitive hebbian learning rule forms perfectly

topology preserving maps. Int. Conference on Artificial Neural
Networks, Springer, (1993) 35
[22] Mayrhofer R, Radi H. Extending the Growing Neural Gas Classifier for Context Recognition. EUROCAST, (2007)
[23] Mirkin B. Clustering for data mining: A data recovery approach,
Chapman & Hall/CRC,UK. (2005)
[24] Mozaffarian D, Stein PK, Prineas RJ, Siscovick DS. Dietary fish
and w − 3 fatty acid consumption and heart rate variability in US
adults. Circulation, American heart association, 2008. 2
[25] Nakagawa M, Iwao T, Ishida S, Yonemochi H, Fujino T, Saikawa T,
Ito M. Circadian rhythm of the signal averaged electrocardiogram
and its relation to heart rate variability in healthy subjects. 45
61


[26] P. Raphiphan, A. Zaslavsky, P. Prathombutr, and P.
Meesad.Context aware traffic congestion estimation to compensate intermittently available mobile sensors. In Mobile Data
Management: Systems, Services and Middleware,2009. MDM ’09.
Tenth International Conference on (2009)
[27] D.E. Rumelhart; G.E. Hinton and R.J. Williams. Learning internal
representations by error propagation Parallel distributed processing: Explorations in the microstructure of cognition, (Cambridge
MA. MIT Press), 318-362. (1986) 17
[28] S.Oyyathevan and A.Askarunisa, An expert system for heart disease prediction using data mining technique: Neural network, International Journal of Engineering Research and Sports Science,
vol. 1, pp. 1-6, (2014).
[29] Sellappan Palaniappan, Rafiah Awang. Intelligent Heart Disease
Prediction System Using Data Mining Techniques(2008) 10
[30] S.Ranganatha, H. R. P. Raj, C. Anusha, and S. K. Vinay, Medical
data mining and analysis for heart disease dataset using classification techniques, presented at the National Conference on Challenges in Research & Technology in the Coming Decades, 2013.
[31] S.P Syed Ibrahim et al.: An Evolutionary approach for rule set selection in a class based associative classifier. Europian journal of
scientific research (2011)
[32] Juha Vesanto (2000),Using SOM in Data Mining, Licentiate’s thesis, Helsinki University of Technology. 19

[33] www.cs.waikato.ac.nz/ml/weka/ 44
[34] www.archive.ics.uci.edu 44
[35] www.physionet.org/physiobank/ecgsyn/ 45
[36] www.vnha.org.vn/ 1, 5
[37] www.wpro.who.int/vietnam/vi/ 1

62



×