Tải bản đầy đủ (.pdf) (72 trang)

Một cách tiếp cận trong khai phá dữ liệu để chuẩn đoán bệnh tim cho bệnh nhân ngoại trú

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.5 MB, 72 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÙI XUÂN TRỌNG

MỘT CÁCH TIẾP CẬN TRONG KHAI PHÁ DỮ LIỆU
ĐỂ CHẨN ĐOÁN BỆNH TIM CHO BỆNH NHÂN NGOẠI TRÚ

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI, NĂM 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÙI XUÂN TRỌNG

MỘT CÁCH TIẾP CẬN TRONG KHAI PHÁ DỮ LIỆU
ĐỂ CHẨN ĐOÁN BỆNH TIM CHO BỆNH NHÂN NGOẠI TRÚ

Ngành: Công Nghệ Thông Tin
Chuyên ngành: Hệ Thống Thông Tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TIẾN SĨ. VŨ THỊ HỒNG NHẠN

HÀ NỘI, NĂM 2015



LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này là công trình nghiên cứu của tôi, dưới sự hướng dẫn
của Tiến sĩ Vũ Thị Hồng Nhạn. Luận văn này không sao chép từ của ai hay từ bất kỳ
luận văn nào khác. Nếu sai tôi xin hoàn toàn chịu trách nhiệm trước nhà trường và pháp
luật.

BÙI XUÂN TRỌNG


LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS. Vũ Thị Hồng Nhạn, cô đã
hướng dẫn, chỉ dạy tận tình để tôi có thể hoàn thành luận văn này. Tôi
cũng xin chân thành cảm ơn các thầy, cô giáo khoa Công nghệ thông tin Trường Đại học công nghệ - Đại học Quốc gia Hà nội đã truyền thụ kiến
thức cho tôi trong suốt quá trình học tập.
Tôi cũng muốn bày tỏ lòng biết ơn của mình tới gia đình, người thân và
đồng nghiệp đã động viên, khích lệ, giúp đỡ, tạo mọi điều kiện để tôi
hoàn thành khóa học và luận văn này.


TÓM TẮT

Bệnh tim mạch là một trong những nguyên nhân gây tử vong cao nhất
hiện nay. Với sự phát triển của Công nghệ, người ta có thể sử dụng các
thiết bị không dây, thiết bị cảm ứng tích hợp trên cơ người để thu thập
liên tục dữ liệu về tình trạng sức khỏe của bệnh nhân nội trú cũng như
ngoại trú. Trong luận văn này, chúng tôi nghiên cứu một cách tiếp cận
trong khai phá dữ liệu để chẩn đoán bệnh tim cho bệnh nhân ngoại trú.

Quá trình chẩn đoán được thực hiện qua hai bước. Trong bước thứ nhất,
bệnh nhân được chẩn đoán về nguy cơ mắc bệnh dựa vào luật kết hợp.
Luật kết hợp được tìm ra dựa vào dữ liệu lâm sàng. Dữ liệu lâm sàng của
bệnh nhân được tiền xử lý và sau đó được khai phá để tìm luật kết hợp
dựa trên thuật toán Apriori. Sau bước này, dựa trên kết quả chẩn đoán,
bác sĩ sẽ quyết định những bệnh nhân nào có nguy cơ bị bệnh tim mạch
cao sẽ tiếp tục được chẩn đoán thêm ở bước sau. Ở bước chẩn đoán thứ
hai này sẽ áp dụng thuật toán GNG trên tập dữ liệu về sự thay đổi nhịp
tim. Dữ liệu điện tâm đồ biểu diễn sự thay đổi nhịp tim của bệnh nhân
được thu trong các hoạt động hằng ngày. Tín hiệu điện tâm đồ được tiền
xử lý dựa trên kỹ thuật Poincaré để chuyển sang định dạng của véc tơ đầu
vào. Thuật toán GNG được áp dụng để khai phá dữ liệu đã được tiền xử
lý. Thuật toán này đáp ứng được yêu cầu của việc học liên tục và GNG
có khả năng huấn luyện với dữ liệu mới nhưng không quên những mẫu
đã được huấn luyện từ trước. Một số thực nghiệm được thực hiện để đánh
giá độ chính xác của phương pháp chẩn đoán. Từ kết quả thu được, ta có
thể thấy rằng, phương pháp này có thể áp dụng trong hệ một hệ thống
y tế để hỗ trợ việc chẩn đoán sớm những trường hợp tim mạch bất bình
thường, phòng tránh các hậu quả nghiêm trọng, đặc biệt có thể theo dõi
bệnh nhân ngoại trú và ứng cứu kịp thời trong trường hợp cần thiết.


Mục lục
Mục lục

iii

Danh sách hình vẽ

v


Danh sách bảng
1

2

vii

Giới thiệu

1

1.1

Động cơ nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2

Đóng góp của luận văn . . . . . . . . . . . . . . . . . . . . . . . . .

2

Cơ sở lý thuyết

5

2.1


Giới thiệu về bệnh tim mạch . . . . . . . . . . . . . . . . . . . . . .

5

2.2

Các hệ thống chuẩn đoán bệnh Tim . . . . . . . . . . . . . . . . . . .

7

2.2.1

Các Hệ thống chẩn đoán dựa vào chỉ số nguy cơ mắc bệnh tim

7

2.2.2

Hệ thống hỗ trợ chuẩn đoán bệnh Tim mạch sử dụng kỹ thuật
khai phá dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . .

2.3

Một số thuật toán khai phá dữ liệu . . . . . . . . . . . . . . . . . . . 10
2.3.1

K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.2


Cây quyết định . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3.3

Thuật toán Mạng Perceptron nhiều lớp . . . . . . . . . . . . . 14

2.3.4
3

9

2.3.3.1

Mạng Perceptron một lớp . . . . . . . . . . . . . . 14

2.3.3.2

Mạng Perceptron lan truyền thẳng nhiều lớp . . . . 16

SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Quá trình chẩn đoán bệnh tim dựa trên kỹ thuật khai phá dữ liệu

24

3.1

Tổng quan quá trình chẩn đoán . . . . . . . . . . . . . . . . . . . . . 24

3.2


Chẩn đoán bệnh Tim mạch dựa trên các thông tin lâm sàng . . . . . . 25
3.2.1

Tiền xử lý Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . 26
iii


3.3

4

3.2.2

Các khái niệm và định nghĩa . . . . . . . . . . . . . . . . . . 26

3.2.3

Thuật toán Apriori . . . . . . . . . . . . . . . . . . . . . . . 30

Chẩn đoán bệnh tim dựa vào sự thay đổi nhịp tim . . . . . . . . . . . 31
3.3.1

Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . 32

3.3.2

Thuật toán GNG . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.2.1


Nguyên lý cơ bản và mô hình mạng . . . . . . . . . 35

3.3.2.2

Thuật toán GNG . . . . . . . . . . . . . . . . . . . 36

Thực nghiệm và Đánh giá
4.1

44

Môi trường thực nghiệm và dữ liệu . . . . . . . . . . . . . . . . . . . 44
4.1.1

Môi trường thực nghiệm cho bước chẩn đoán dựa vào các
thông tin lâm sàng . . . . . . . . . . . . . . . . . . . . . . . 44

4.1.2

Môi trường thực nghiệm cho bước chẩn đoán dựa vào sự thay
đổi nhịp tim . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2

Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2.1

Kết quả và đánh giá hiệu quả của thuật toán Apriori . . . . . . 49
4.2.1.1


Đánh giá sự thay đổi số lượng các tập mục phổ biến
theo sự thay đổi của độ hỗ trợ minsup . . . . . . . . 49

4.2.1.2

Đánh giá số lượng các luật sinh ra theo sự thay đổi
của độ hỗ trợ minsup . . . . . . . . . . . . . . . . 50

4.2.1.3

Đánh giá số lượng các luật tạo ra khi độ tin cậy
minconf thay đổi . . . . . . . . . . . . . . . . . . . 51

4.2.2

Kết quả và đánh giá hiệu quả của thuật toán GNG . . . . . . . 53
4.2.2.1

Đánh giá lỗi phân lớp trên tập dữ liệu D(O) . . . . . 53

4.2.2.2

Đánh giá số lượng nút và cạnh của thuật toán GNG
trên tập dữ liệu D(O)

5

. . . . . . . . . . . . . . . . 54

4.2.2.3


Đánh giá lỗi bình phương trung bình MSE trên D(O) 55

4.2.2.4

So sánh GNG với SOM . . . . . . . . . . . . . . . 56

Kết luận

58

Tài liệu tham khảo

60

iv


Danh sách hình vẽ
2.1

Bệnh Tim mạch vành . . . . . . . . . . . . . . . . . . . . . . . . . .

5

2.2

Đặc điểm của các hệ thống ước tính nguy cơ bệnh Tim mạch . . . . .

9


2.3

Cụm dữ liệu khai phá bởi K-mean . . . . . . . . . . . . . . . . . . . 11

2.4

Bảng dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.5

Cây quyết định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.6

Mạng Perceptron một lớp . . . . . . . . . . . . . . . . . . . . . . . . 15

2.7

Lan truyền tín hiệu trong quá trình huấn luyện theo phương pháp lan
truyền ngược sai số . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.8

Mô hình SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.9

Ma trận trọng số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20


2.10 Các lân cận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.11 Nút khớp nhất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.12 Hàm lân cận cơ bản . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1

Tổng quan hệ thống quá trình chẩn đoán bệnh tim . . . . . . . . . . . 25

3.2

Chẩn đoán bệnh tim dựa vào thông tin lâm sàng của bệnh nhân . . . . 26

3.3

Kỹ thuật Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.4

Đồ thị RR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.1

Tập dữ liệu đầu vào của thuật toán Apriori . . . . . . . . . . . . . . . 45

4.2

Sự thay đổi itemset theo minsup . . . . . . . . . . . . . . . . . . . . 50

4.3

Số lượng luật theo minsup . . . . . . . . . . . . . . . . . . . . . . . 51


4.4

Số lượng luật theo minconf . . . . . . . . . . . . . . . . . . . . . . . 52

4.5

Tập luật sinh ra với minsup=0.1 và minconf=0.97 . . . . . . . . . . . 52

4.6

Giá trị lỗi phân lớp của GNG trên tập dữ liệu D(O) . . . . . . . . . . 53

4.7

Số nút và cạnh của GNG trên tập dữ liệu với O=0% . . . . . . . . . . 54

4.8

Số nút và cạnh của GNG trên tập dữ liệu với O=1% . . . . . . . . . . 55
v


4.9

Số nút và cạnh của GNG trên tập dữ liệu với O=2% . . . . . . . . . . 55

4.10 MSE và Mức độ giao giữa các lớp . . . . . . . . . . . . . . . . . . . 56
4.11 GNG và SOM trên tập dữ liệu D(0%) . . . . . . . . . . . . . . . . . 56
4.12 GNG và SOM tập dữ liệu D(1%) . . . . . . . . . . . . . . . . . . . . 57

4.13 GNG và SOM tập dữ liệu D(2%) . . . . . . . . . . . . . . . . . . . . 57

vi


Danh sách bảng
3.1

Bảng thuộc tính của mẫu dữ liệu cho bệnh tim . . . . . . . . . . . . . 27

3.2

Quy tắc chuyển đổi dữ liệu . . . . . . . . . . . . . . . . . . . . . . . 43

4.1

Tổng hợp các tham số sử dụng để sinh ra tín hiệu điện tâm đồ . . . . . 46

4.2

Tham số sử dụng để sinh ra tập dữ liệu (BT-Bình thường, BBT- Bất
bình thường) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.3

Tổng hợp các tham số sử dụng trong GNG . . . . . . . . . . . . . . . 48

4.4

Sự thay đổi số lượng tập mục phổ biến theo độ hỗ trợ . . . . . . . . . 50


4.5

Sự thay đổi số lượng luật sinh ra theo độ hỗ trợ . . . . . . . . . . . . 51

4.6

Sự thay đổi số lượng luật sinh ra theo độ tin cây . . . . . . . . . . . . 51

vii


Chương 1

Giới thiệu
1.1

Động cơ nghiên cứu

Theo tổ chức y tế thế giới WHO, bệnh tim mạch đang là nguyên nhân tử vong hàng
đầu ở người trên thế giới và chiếm nhiều nhất ở các nước đang phát triển [37]. Mỗi
năm, người chết do bệnh tim và đột quỵ nhiều hơn cả ung thư, lao, sốt rét và HIV
cộng lại. Còn tại Việt Nam, thống kê của Hội tim mạch cho thấy, cứ 3 người Việt
Nam trưởng thành thì có một người có nguy cơ mắc bệnh tim mạch, chủ yếu là bệnh
tim mạch vành [36]. Bệnh tim mạch có thể chẩn đoán dựa trên các nguy cơ gây bệnh
và triệu chứng. Nhưng, một số trường hợp người bệnh không có những biểu hiện triệu
chứng hay dấu hiệu có thể nhận biết. Đây gọi là bệnh tim mạch vành yên lặng. Những
trường hợp này, người bệnh chỉ có thể phát hiện được triệu chứng khi đã ở giai đoạn
nguy hiểm, tức là có dấu hiệu của hiện tượng suy tim, hay đột quỵ. Người bệnh có thể
bị chết nếu không được cấp cứu kịp thời. Tuy nhiên, khó có thể xác định được bệnh

nhân có bị mắc bệnh hay không khi chỉ thông qua một xét nghiệm. Do đó, chúng ta
cần có một hệ thống hay phương pháp chẩn đoán và phát hiện sớm nguy cơ mắc bệnh
tim mạch có độ tin cậy cao.
Hiện nay, với sự phát triển của công nghệ thì các thiết bị di động, cảm ứng và
mạng không dây được tích hợp vào các hệ thống y tế ngày càng nhiều do lợi ích của
chúng mang lại như giảm chi phí chăm sóc sức khỏe và tăng khả năng truy cập, thu
thập thông tin cho bệnh nhân, cũng như các chuyên gia y tế. Một trong những ứng
dụng là các hệ thống cảm ứng sinh học tiết kiệm năng lượng có thể mang trên người.
Trong bệnh viện, hệ thống này có thể sử dụng để theo dõi các bệnh nhân trong các
trường hợp đăc biệt. Bên ngoài bệnh viện, hệ thống này có thể theo dõi và thu thập
1


liên tục dữ liệu về tình trạng sức khỏe của bệnh nhân. Dữ liệu này bao gồm sự thay
đổi nhịp tim của bệnh nhân trong các hoạt động hàng ngày và có tính thời gian thực.
Những dữ liệu này sẽ được tiền xử lý và khai phá để trích rút ra những thông tin hữu
ích về tình trạng sức khỏe của bệnh nhân, cũng như hỗ trợ việc ra quyết định chẩn
đoán cho bác sĩ. Tuy nhiên, hầu hết các kỹ thuật khai phá dữ liệu truyền thống chủ
yếu áp dụng cho các tập dữ liệu cố định, có sẵn và trong một môi trường tĩnh, không
có tính thời gian thực. Như vậy, chúng ta cần một thuật toán khai phá dữ liệu liên tục
mà có thể tích hợp liên tục các thông tin, dữ liệu mới vào bộ nhớ trong khi vẫn duy trì
những dữ liệu đã được học từ trước. Một số thuật toán khai phá dữ liệu liên tục được
nghiên cứu nhiều như: SOM, GNG,...

1.2

Đóng góp của luận văn

Trong luận văn này, chúng tôi tập trung nghiên cứu và phân tích một cách tiếp cận
trong khai phá dữ liệu để chẩn đoán bệnh tim mạch cho bệnh nhân ngoại trú. Phương

pháp chẩn đoán được thực hiện qua hai bước. Trong bước đầu tiên, dữ liệu lâm sàng
của bệnh nhân như tuổi, giới tính, huyết áp, có bị tiểu đường hay không, lượng cholesterol trong máu, có hút thuốc hay không . . . được thu thập. Tập dữ liệu thu được thường
chứa rất nhiều các thuộc tính được thu thập dưới dạng số nhưng lại không đầy đủ, có
nhiều lỗi và kiểu giá trị đặc biệt. Mặt khác, trong bước chẩn đoán này, thuật toán
Apriori được áp dụng để khai phá luật kết hợp cho bệnh tim mạch. Thuật toán Apriori
được đề xuất cho dữ liệu rời rạc nên không thể áp dụng cho dữ liệu liên tục, dạng số.
Vì vậy, tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình khai phá tri thức từ cơ
sở dữ liệu. Ở giai đoạn tiền xử lý dữ liệu, chúng ta thực hiện chuyển đổi dữ liệu dạng
số sang dữ liệu rời rạc biểu diễn bởi các chỉ mục (items).
Dựa trên tập luật kết hợp mà được khai phá trong quá trình đầu tiên, bác sĩ sẽ
quyết định những bệnh nhân nào có nguy cơ mắc bệnh cao. Những bệnh nhân này
sẽ được chuyển qua bước chẩn đoán kế tiếp. Ở bước thứ hai này bệnh nhân sẽ được
chẩn đoán dựa trên tín hiệu điện tâm đồ mà biểu diễn sự thay đổi nhịp tim của bệnh
nhân khi họ thực hiện các hoạt động hàng ngày bằng cách sử dụng một mô hình mạng
nơ-ron nhân tạo. Sự thay đổi nhịp tim là một thuộc tính quan trọng để chẩn đoán sớm
các trường hợp đột tử ở người mắc bệnh tim mạch [24]. Đầu tiên, tín hiệu điện tâm
đồ được biến đổi thành định dạng véc tơ sử dụng kỹ thuật Poincaré. Mục đích chính
của bước tiền xử lý dữ liệu là chuyển định dạng thông tin biểu diễn trong không gian
2


hai chiều bởi phương pháp mã hóa Poincaré về định dạng tương thích với véc tơ đầu
vào của mô hình mạng nơ-ron. Bên cạnh đó, với cách xử lý và biểu diễn dữ liệu này
kích cỡ của thông tin phần nào được nén lại để phù hợp hơn cho việc xử lý của mạng
nơ-ron. Chính vì vậy thời gian huấn luyện mô hình sẽ trở nên nhanh hơn và làm giảm
tính phức tạp của mô hình mạng. Thuật toán GNG được áp dụng để nhận biết mẫu
thay đổi nhịp tim. Đây là một thuật toán khai phá dữ liệu liên tục và có thể học thêm
được những tri thức mới nhưng vẫn duy trì những tri thức cũ đã học. GNG bao gồm
ba lớp. Lớp đầu vào nhận tín hiệu đầu vào đã qua tiền xử lý. Lớp ẩn là một đồ thị, có
nhiệm vụ hiệu chỉnh và chuyển dịch không tuyến tính tín hiệu đầu vào. Cuối cùng là

lớp đầu ra có nhiệm vụ phân không gian đầu ra vào các vùng quyết định. Mô hình ban
đầu được khởi tạo với hai nút tại hai vị trí ngẫu nhiên. Khi một mẫu được đưa vào,
các nút trong tầng ẩn sẽ cạnh tranh để xác định nút nào khớp nhất với mẫu đầu vào.
Sau một số bước huấn luyện, tầng ẩn được cập nhật bằng cách chèn thêm nút mới với
hy vọng sẽ cải thiện hiệu quả của mô hình. Các nút với giá trị lỗi cao chính là điều
kiện để quyết định việc chèn thêm nút mới. Bên cạnh việc chèn thêm nút mới, các nút
mà không có liên kết với nút nào khác sẽ bị xóa đi bởi vì sau một số bước huấn luyện
giá trị lỗi của chúng có rất ít khả năng trở thành giá trị lỗi lớn nhất. Điều này dẫn đến
việc chèn nút mới gần chúng sẽ rất khó xảy ra. Quá trình huấn luyện lặp lại cho đến
khi mô hình thỏa mãn điều kiện dừng như độ hội tụ hay số lượng nút trong mô hình.
Sự hội tụ của thuật toán được đánh giá bằng giá trị lỗi bình phương trung bình.
Tập dữ liệu sử dụng trong quá trình chẩn đoán đầu tiên được thu thập từ thực tế.
Một mẫu dữ liệu thu được gồm 14 thuộc tính như tuổi, giới tính, huyết áp tâm thu,
lượng cholesterol trong máu, lượng đường trong máu, các dạng đau ngực, kết quả điện
tâm đồ . . . Các thực nghiệm thực hiên trên bộ dữ liệu này có thể đánh giá độ chính
xác của thuật toán và xem xét mức độ ảnh hưởng của tham số đầu vào như minsup,
minconf đối với hiệu quả của thuật toán. Tập dữ liệu cho bước thứ hai của quá trình
chẩn đoán được thu thập từ tập các hoạt động, tần suất thở, trạng thái tim mạch. Kết
quả thực nghiệm chứng tỏ rằng độ chính xác của thuật toán GNG khá cao với số nút
và số cạnh thấp khi so sánh với mô hình mạng nơ-ron SOM.
Luận văn này gồm có 5 chương chính:

• Chương 1: Giới thiệu tổng quan động cơ nghiên cứu và đóng góp của luận văn.
• Chương 2: Giới thiệu bệnh tim mạch và một số hệ thống để chẩn đoán bệnh
3


tim mạch. Trong chương này, chúng tôi cũng giới thiệu qua một số kỹ thuật khai
phá dữ liệu như K-means, Cây quyết định, Mạng Perception nhiều lớp và SOM.
• Chương 3: Giới thiệu tổng quan quá trình chẩn đoán. Trong đó, chúng tôi trình

bày chi tiết hai bước của quá trình chẩn đoán bệnh tim mạch dựa trên thuật toán
Apriori và GNG.
• Chương 4: Đánh giá thuật toán Apriori trong khai phá luật kết hợp trên tập dữ
liệu về bệnh tim trong bước đầu tiên. Sau đó, chúng tôi đánh giá hiệu quả của
thuật toán GNG và so sánh với thuật toán SOM trên tập dữ liệu tín hiệu điện
tâm đồ biểu diễn sự thay đổi nhịp tim.
• Chương 5: Kết luận

4


Chương 2

Cơ sở lý thuyết
2.1

Giới thiệu về bệnh tim mạch

Trái tim của chúng ta hoạt động như một cái bơm để bơm máu đưa máu đi tới khắp
các mô cơ quan trong cơ thể. Để đảm bảo được chức năng bơm máu một cách đều đặn
khoảng 70-80 lần/phút, từ ngày này sang ngày khác, bản thân trái tim cũng được nuôi
dưỡng bởi một hệ thống mạch máu riêng. Hệ thống mạch máu này gọi là hệ mạch
vành. Danh từ mạch vành để chỉ tình trạng bệnh lý làm cho lòng động mạch vành bị
hẹp lại hoặc tắc nghẽn. Khi lòng động mạch vành bị hẹp đến một mức độ nào đó thì
dòng máu đến nuôi tim sẽ không đủ và dẫn đến tình trạng thiếu máu cơ tim. Bệnh
mạch vành còn có nhiều tên gọi khác như: Thiểu năng vành, suy động mạch vành,
thiếu máu cơ tim hay bệnh tim thiếu máu cục bộ [36].

Hình 2.1: Bệnh Tim mạch vành
5



Nguyên nhân
Nguyên nhân thường gặp là do mảng xơ vữa bám vào lòng mạch, mảng xơ vữa gây
phản ứng viêm, có thể lớn dần gây hẹp nặng lòng mạch và khi vỡ dễ dẫn đến nhồi máu
cơ tim. Ngoài ra một số trường hợp mạch vành bị co thắt gây hẹp mạch vành từng lúc
cũng gây ra triệu chứng đau thắt ngực do thiếu máu cơ tim. Nguyên nhân xơ vữa động
mạch thì chưa được xác định rõ ràng tuy nhiên khi nói đến nguyên nhân của bệnh tim
mạch người ta dùng đến khái niệm "yếu tố nguy cơ". Yếu tố nguy cơ của bệnh tim
mạch là những yếu tố mà khi hiển diện ở một cá thể nào đó thì làm cho cá thể đó có
tỷ lệ mắc bệnh tim cao hơn cá thể khác. Những yếu tố nguy cơ của bệnh tim là: tăng
huyết áp, rối loạn lipid máu, hút thuốc lá, béo phì, đái tháo đường, cuộc sống công
việc có nhiều căng thẳng, ít vận động, gia đình có người bị bệnh tim sớm, nam giới,
cao tuổi . . .
Triệu chứng
• Đau ngực: triệu chứng của chứng thiếu máu cơ tim thường hay gặp nhất là đau
ngực. Đau khởi phát khi gắng sức, ở ngay sau xương ức, đau nhói, thắt chặt và
lan ra vai trái, cánh tay trái, bàn tay trái. Đau giảm đi khi nghỉ ngơi hoặc dùng
thuốc dãn mạch. Nếu cơn đau xuất hiện lúc nghỉ ngơi hoặc cơn đau quá trầm
trọng, cơn đau quá 30 phút thì phải nghĩ đến là bệnh nhân bị nhồi máu cơ tim
cấp.
• Một số người già, những người bị bệnh tiểu đường, bệnh phổi tắc nghẽn mãn
tính khi mắc bệnh mạch vành có thể không có triệu chứng đau thắt ngực như
trên mà thay vào đó là mệt hoặc khó thở khi gắng sức. Những trường hợp đó
gọi là thiếu máu cơ tim yên lặng.
Những thăm dò để chẩn đoán bệnh Tim mạch
• Điện tâm đồ lúc nghỉ: thiếu máu cơ tim làm thay đổi điện học của cơ tim và
điện tâm đồ phát hiện ra các thay đổi đó. Tuy nhiên, chỉ khoảng 50% bệnh nhân
bị bệnh tim có thay đổi tín hiệu điện tâm đồ.
• Siêu âm tim: Tình trạng thiếu máu cơ tim làm ảnh hưởng đến sự co bóp của tim.

Những vùng giảm động do thiếu máu cơ tim gây ra sẽ được phát hiện qua siêu
âm tim.
• Điện tâm đồ và Siêu âm tim lúc gắng sức: Nếu lòng động mạch vành chỉ hẹp
nhẹ thì triệu chứng thiếu máu cơ tim chỉ xảy ra khi gắng sức.
6


• Xạ hình tưới máu cơ tim: Dùng chất đồng vị phóng xạ bơm vào mạch máu.
Những vùng nào của cơ tim bị thiếu máu nuôi sẽ giảm hoặc không bắt được
đồng vị phóng xạ. Sau đó, dùng máy Scan để phát hiện các vùng đó.
• Chụp động mạch vành chọn lọc: là tiêu chuẩn vàng để chẩn đoán bệnh tim
mạch. Thông qua thăm dò này, bác sĩ sẽ biết được tình trạng tim mạch của bạn
như thế nào.

2.2

Các hệ thống chuẩn đoán bệnh Tim

2.2.1

Các Hệ thống chẩn đoán dựa vào chỉ số nguy cơ mắc bệnh
tim

Nghiên cứu Framingham là một nghiên cứu được tiến hành trên một bộ phân dân cư
của thị trấn Framingham (hạt Middlesex, bang Massachusettes, Hoa kỳ). Dân số ban
đầu gồm 5029 người đàn ông và phụ nữ khỏe mạnh độ tuổi từ 30 đến 62, được theo
dõi từ năm 1948. Đến năm 1971, các nhà nghiên cứu tuyển thêm một thế hệ thứ hai là
con của những người tham gia ban đầu cùng với vợ (hoặc chồng) của những người con
này. Cỡ mẫu nghiên cứu gồm 3969 người đàn ông và 4522 phụ nữ. Trong quá trình
theo dõi, các nhà nghiên cứu ghi nhận các biến cố tim mạch nặng xảy ra cho những

người tham gia. Cùng với một số nghiên cứu dịch tễ khác, nghiên cứu Framingham
cho phép xác định các yếu tố nguy cơ chính của bệnh tim mạch do xơ vữa động mạch:
hút thuốc lá, tăng huyết áp, tăng cholesterol, đái tháo đường, HDL thấp.
Từ các dữ liệu thu thập được, các nhà nghiên cứu dùng một mô hình toán học để
ước tính xác suất bị các biến cố tim mạch trong 10 năm tới của một người dựa vào
giới tính, tuổi, cholesterol toàn phần, HDL, huyết áp tâm thu, tình trạng hút thuốc lá,
có đái tháo đường hay không, có điều trị tăng huyết áp hay không. Bước kế tiếp, các
nhà nghiên cứu qui đổi từng khoảng trị số của các biến liên tục (tuổi, huyết áp . . . )
thành các điểm. Khi cộng tất cả các điểm lại ta có điểm tổng cộng cho từng người và
ứng với mỗi điểm tổng cộng là một xác suất ( bị các biến cố tim mạch trong 10 năm
tới) tương ứng. Hệ thống Framingham xây dựng hai bảng điểm riêng biệt cho nam và
nữ.
Trong hệ thống Framingham phiên bản năm 1998, biến cố được dự báo là sự xuất
hiện của bệnh tim ( đau thắt ngực, nhồi máu cơ tim được nhận biết hoặc không, suy
động mạch vành và chết do bệnh động mạch vành). Các biến được đưa vào bao gồm
7


giới tính, tuổi, cholesterol toàn phần, HDL, huyết áp tâm thu, có đái tháo đường hay
không, có hút thuốc lá hay không. Dạng trình bày là cac bảng điểm dành riêng cho
nam và nữ. Trong hệ thống Framingham phiên bản 2008, biến cố được dự báo ngoài
bệnh động mạch vành còn có bệnh mạch máu não( đột quỵ dạng thiếu máu cục bộ,
đột quỵ dạng xuất huyết, cơn thiếu máu não thoáng qua), bệnh động mạch ngoại vi
(khập khiễng cách hồi) và suy tim.
Hệ thống chẩn đoán nguy cơ mắc bệnh tim mạch cho các nước Châu âu
(SCORE) được xây dựng từ số liệu của 12 nghiên cứu đoàn hệ ở các nước Châu âu
(khoảng 2,1 triệu người theo dõi), hầu hết được thực hiện trong dân số chung. Các biến
được đưa vào hệ thống SCORE gồm: giới tính, tuổi, cholesterol toàn phần, Huyết áp
tâm thu, có hút thuốc lá hay không( người đái tháo đường được xếp vào nhóm có nguy
cơ cao hoặc rất cao, không cần phải ước tính nguy cơ theo SCORE). Biến cố được dự

báo là chết do nguyên nhân tim mạch gồm tất cả các trường hợp chết vì một bệnh tim
mạch có nguồn gốc xơ vữa động mạch: nhồi máu cơ tim, đột quỵ, phình động mạch
chủ . . . Việc dùng biến cố này có lợi điểm là dễ chuẩn hóa. Dạng trình bày là biểu đồ
màu, có hai biểu đồ riêng cho nhóm các nước có tử vong tim mạch thấp và các nước
có tử vong tim mạch cao.
Hệ thống chẩn đoán chẩn đoán bệnh tim mạch của Hiệp hội tim mạch Hoa
Kỳ (Pooled Cohort Equations - PCE) do nhóm chuyên gia thuộc Trường Tim Mạch
và Hiệp hội Tim Hoa Kỳ đưa ra năm 2013. Nhóm chuyên gia này tập hợp số liệu các
nghiên cứu đoàn hệ cộng đồng trên những người Mỹ gốc Phi và Mỹ da trắng không
phải gốc Latinh được theo dõi ít nhất 12 năm. Biến cố kết cục của hệ thống là chết
do bệnh động mạch vành, nhồi máu cơ tim nhưng không chết, đột quỵ hoặc đột quỵ
nhưng không chết. Các biến được đưa vào hệ thống bao gồm: giới tính, tuổi, chủng
tộc, cholesterol toàn phần, HDL, huyết áp tâm thu, có đang điều trị tăng huyết áp hay
không, có đái tháo đường hay không, có hút thuốc lá hay không.
Nghiên cứu của Reynolds được xây dựng từ số liệu của 2 thử nghiệm lâm sàng là
Nghiên cứu về sức khỏe phụ nữ( Women Health Studay - 24.558 phụ nữ là nhân viên
y tế) và Nghiên cứu về sức khỏe thầy thuốc (Physician’s Health Study - 10724 bác sĩ
nam), với biến cố được dự báo là nhồi máu cơ tim, đột quỵ, tái tưới máu mạch vành
và chết do nguyên nhân tim mạch. Các biến được đưa vào là giới tính, tuổi, huyết áp
tâm thu, cholesterol toàn phần, HDL, có hút thuốc lá hay không, có tiền sử gia đình
mắc nhồi máu cơ tim sớm, HbA1c , hsCRP .

8


Hình 2.2: Đặc điểm của các hệ thống ước tính nguy cơ bệnh Tim mạch

2.2.2

Hệ thống hỗ trợ chuẩn đoán bệnh Tim mạch sử dụng kỹ

thuật khai phá dữ liệu

Ngày nay, các bệnh viện đều lưu trữ và quản lý thông tin về tình hình sức khỏe của
bệnh nhân trên các hệ thống thông tin. Những hệ thống này chứa một lượng lớn dữ
liệu, trong đó có rất nhiều thông tin hữu ích chưa được khai phá để hỗ trợ cho bác sĩ
trong việc chuẩn đoán, cũng như dự đoán tình trạng của bệnh nhân. Với sự phát triển
của khoa học máy tính và các kỹ thuật khai phá dữ liệu, có nhiều nghiên cứu và hệ
thống hỗ trợ chẩn đoán sớm nguy cơ mắc bệnh tim mạch đã được thực hiện. Những
hệ thống đó áp dụng nhiều kỹ thuật khai phá dữ liệu khác nhau và thu được các kết
quả khác nhau. Dưới đây là một số hệ thống và nghiên cứu trong khai phá dữ liệu để
chẩn đoán bệnh tim mạch.
• Hệ thống dự đoán bệnh tim thông minh (IHDPS) được phát triển dựa trên các
kỹ thuật khai phá dữ liệu như cây quyết định, mạng Nơron, Naive Bayes. Hệ
thống được xây dựng bởi Sellappan Palaniappan và các đồng sự vào năm 2008.
9


Hệ thống là một ứng dụng Web, dễ sử dụng và mở rộng. [29]
• Hệ thống dự đoán bệnh tim, huyết áp và tiểu đường với kỹ thuật mạng Nơron,
được xây dựng bởi Niti Guru và đồng sự năm 2007.
• Nghiên cứu chuẩn đoán bệnh tim (CANFIS) dựa trên hệ suy diễn mờ được thực
hiện bởi LathaParthipan năm 2008
• Kiyong Noh và các đồng sự đã sử dụng phương pháp phân lớp để rút ra những
đặc trưng hữu ích bằng cách đánh giá sự thay đổi nhịp tim từ tín hiệu điện tâm
đồ, tiền xử lý dữ liệu và các dữ liệu về bệnh tim năm 2006.

2.3

Một số thuật toán khai phá dữ liệu


2.3.1

K-means

Thuật toán phân cụm k-means do MacQueen đề xuất trong lĩnh vực thống kê năm
1967, mục đích của thuật toán k-means là sinh ra k cụm dữ liệu C1 , C2 , ..., Ck từ một
tập dữ liệu ban đầu gồm n đối tượng trong không gian d chiều Xi = (xi1 , xi2 , ..., xid )(i =
1..n) sao cho hàm tiêu chuẩn
k

D2 (x − mi )

E=

(2.1)

i=1 x∈Ci

đạt giá trị tối thiểu. Trong đó, mi là trọng tâm của cụm Ci , D là khoảng cách giữa
hai đối tượng.
Trọng tâm của một cụm là một véc tơ, trong đó giá trị của mỗi phần tử của nó là
trung bình cộng các thành phần tương ứng của các đối tượng véc tơ dữ liệu trong cụm
đang xét. Tham số đầu vào của thuật toán là số cụm k, tập CSDL gồm n phần tử và
tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu. Độ đo khoảng
cách D giữa các đối tượng dữ liệu thường được sử dụng là khoảng cách Euclide, bởi
vì đây là mô hình khoảng cách dễ lấy đạo hàm và xác định các cực trị tối thiểu. Hàm
tiêu chuẩn và độ đo khoảng cách có thể được xác định cụ thể hơn tùy vào ứng dụng
hoặc các quan điểm của người dùng. [7]
Thuật toán k-means được chứng minh là hội tụ và có độ phức tạp tính toán là
O(n.k.d).....Như vậy, do thuật toán k-means phân tích phân cụm đơn giản nên có thể

áp dụng đối với tập dữ liệu lớn. Tuy nhiên, nhược điểm của k-means là chỉ áp dụng
10


Algorithm 1 Thuật toán K-MEAN
1.Khởi tạo:
Cho k đối tượng mj (j = 1..k) là trọng tâm ban đầu của k cụm từ tập dữ liệu( việc
lựa chọn này có thể ngẫu nhiên hoặc theo kinh nghiệm).
2.Tính toán khoảng cách:
Đối với mỗi đối tượng xi (i = 1..n) tính toán khoảng cách từ nó tới mỗi trọng tâm mj
với j = 1..k, sau đó tìm trọng tâm gần nhất với mỗi đối tượng.
3.Cập nhật lại trọng tâm Đối với mỗi j = 1..k cập nhật lại trọng tâm cụm mj bằng
cách xác định trung bình cộng của các vector đối tượng dữ liệu.
4.Điều kiện dừng:
Lặp lại các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi.

với dữ liệu có thuộc tính số và khám phá ra các cụm có dạng hình cầu, k-means còn
rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu. Hình 2.3 diễn tả mô
phỏng về một số hình dạng cụm dữ liệu khám phá được bởi k-means:

Hình 2.3: Cụm dữ liệu khai phá bởi K-mean
Hơn nữa, chất lượng phân cụm dữ liệu của thuật toán k-means phụ thuộc nhiều
vào các tham số đầu vào như: số cụm k và k trọng tâm khởi tạo ban đầu. Trong trường
hợp, các trọng tâm khởi tạo ban đầu mà quá lệch so với các trọng tâm cụm tự nhiên
thì kết quả phân cụm của k-means có độ chính xác là rất thấp, nghĩa là các cụm dữ
liệu được khám phá rất lệch so với các cụm trong thực tế. Trên thực tế người ta chưa
có một giải pháp tối ưu nào để chọn các tham số đầu vào, giải pháp thường được sử
dụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháp
tốt nhất.


11


2.3.2

Cây quyết định

Cây quyết định là một kiểu mô hình dự báo, nghĩa là một ánh xạ từ các quan sát về
một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Cấu
trúc của một cây quyết định bao gồm các nút và các nhánh. Nút dưới cùng được gọi là
nút lá, trong mô hình phân lớp dữ liệu chính là các giá trị của các nhãn lớp (gọi tắt là
nhãn). Các nút khác nút lá được gọi là các nút con, đây còn là các thuộc tính của tập
dữ liệu, hiển nhiên các thuộc tính này phải khác thuộc tính phân lớp. Mỗi một nhánh
của cây xuất phát từ một nút p nào đó ứng với một phép so sánh dựa trên miền giá trị
của nút đó. Nút đầu tiên được gọi là nút gốc của cây. Xem xét một ví dụ về một cây
quyết định như sau:

Hình 2.4: Bảng dữ liệu
Từ Bảng 2.4, ta xây dựng được cây quyết định như sau:

Hình 2.5: Cây quyết định
Cây quyết định của ví dụ trên Hình 2.5 có thể được giải thích như sau: các nút lá
chứa các giá trị của thuộc tính phân lớp. Các nút con tương ứng với các thuộc tính
12


khác thuộc tính phân lớp. Nút gốc cũng được xem như một nút con đặc biệt. Các
nhánh của cây từ một nút bất kỳ tương đương một phép so sánh có thể là so sánh
bằng, so sánh khác, lớn hơn nhỏ hơn... Nhưng kết quả các phép so sánh này bắt buộc
phải thể hiện một giá trị logic (đúng hoặc sai) dựa trên một giá trị nào đó của thuộc

tính của nút. Lưu ý cây quyết định trên không có sự tham gia của một số thuộc tính
trong thành phần cây, các thuộc tính như vậy được gọi chung là các thuộc tính dư thừa
bởi vì các thuộc tính này không ảnh hưởng đến quá trình xây dựng mô hình của cây.
Các thuộc tính tham gia vào quá trình phân lớp thông thường có các giá trị liên
tục hay còn gọi là kiểu số hoặc kiểu rời rạc hay còn gọi là kiểu dữ liệu phân loại. Ví
dụ kiểu dữ liệu lương biểu diễn bằng số thực là kiểu dữ liệu liên tục, kiểu dữ liệu giới
tính là kiểu dữ liệu rời rạc.
Algorithm 2 Thuật toán Cây quyết định
1. Bắt đầu từ nút đơn biểu diễn tất cả các mẫu.
2. Nếu các mẫu thuộc cùng một lớp, nút trở thành nút lá và được gán nhãn bằng lớp
đó.
3. Ngược lại, dùng độ đo thuộc tính để chọn thuộc tính sẽ phân tách tốt nhất các mẫu
vào các lớp
4. Một nhánh được tạo cho từng giá trị của thuộc tính được chọn và các mẫu được
phân hoạch theo.
5. Dùng đệ quy cùng một quá trình để tạo cây quyết định.
6. Tiến trình kết thúc chỉ khi một trong các điểu kiện sau đây là đúng.
• Tất cả các mẫu của một nút cho trước đều thuộc về cùng một lớp
• Không còn một mẫu nào mà có thể dựa vào để phân hoạch xa hơn

Thuật toán cây quyết định có một số điểm mạnh như sau:
• Cây quyết định có thể tự giải thích và khi được gắn kết lại, chúng có thể dễ dàng
tự sinh ra. Nói cách khác, nếu cây quyết định mà có số lượng nút lá vừa phải thì
người không chuyên cũng dễ dàng hiểu được nó. Hơn nữa, cây quyết định cũng
có thể chuyển sang tập luật. Vì vậy, cây quyết định được xem như là dễ hiểu.
• Cây quyết định có thể xử lý cả thuộc tính tên và số đầu vào.
• Thể hiện của cây quyết định là đủ đa dạng để biểu diễn cho bất kỳ giá trị rời rạc
nào.
13



• Cây quyết định có khả năng xử lý các bộ dữ liệu mà có thể gây ra lỗi.
• Cây quyết định có khả năng xử lý các bộ dữ liệu mà có giá trị rỗng.
• Cây quyết định được xem như là một phương pháp phi tham số. Điều này có
nghĩa là cây quyết định không có giả định về sự phân chia bộ nhớ và cấu trúc
phân lớp.
Bên cạnh đó, cây quyết định cũng có một số hạn chế sau:
• Hầu hết các thuật toán xây dựng cây quyết định (như ID3 hoặc C4.5) bắt buộc
các thuộc tính mục tiêu phải là các giá trị rời rạc.
• Khi cây quyết định sử dụng phương pháp “chia để trị”, chúng có thể thực hiện
tốt nếu tồn tại một số thuộc tính liên quan chặt chẽ với nhau, nhưng sẽ khó khăn
nếu một số tương tác phức tạp xuất hiện. Một trong những nguyên nhân gây
ra điều này là những sự phân lớp mà có mô tả rất mạch lạc về việc phân lớp
cũng có thể gặp khó khăn trong việc biểu diễn bằng cây quyết định. Một minh
họa đơn giản của hiện tượng này là vấn đề tái tạo cây quyết định (Pagallo và
Huassler, 1990). Khi mà hầu hết các cây quyết định phân chia không gian thể
hiện thành những khu vực loại trừ lẫn nhau để biểu diễn một khái niệm. Trong
một số trường hợp, cây nên chứa một vài cây con giống nhau trong thứ tự thể
hiện của việc phân lớp.

2.3.3

Thuật toán Mạng Perceptron nhiều lớp

2.3.3.1

Mạng Perceptron một lớp

Mạng perceptron một lớp do F.Rosenblatt đề xuất năm 1960 [16] là mạng truyền
thẳng chỉ một lớp vào và một lớp ra không có lớp ẩn. Trên mỗi lớp này có thể có một

hoặc nhiều nơ-ron. Mô hình mạng nơ-ron của Rosenblatt sử dụng hàm ngưỡng đóng
vai trò là hàm chuyển. Do đó, tổng của các tín hiệu vào lớn hơn giá trị ngưỡng thì giá
trị đầu ra của nơ-ron sẽ là 1, còn trái lại sẽ là 0.

1 nếu neti ≥ θ
Outi =
0 nếu net < θ
i
Với neti =

wij xj là tổng thông tin đầu vào của nơ-ron i. Ngay từ khi mạng

Perceptron một lớp được đề xuất nó đã được sử dụng để giải quyết bài toán phân lớp.
14


Một đối tượng sẽ được nơ-ron i phân vào lớp A nếu
wij xj > θi

Tổng thông tin đầu vào:

Trong đó wij là trọng số liên kết từ nơ-ron j tới nơ-ron i, xj là đầu vào từ nơ-ron
j, và θ là ngưỡng của nơ-ron i. Trong trường hợp trái lại, đối tượng sẽ được phân vào
lớp B.
Việc huấn luyện mạng dựa trên phương pháp học có giám sát với tập mẫu học là
(k)

(k)

(k)


(x(k) , d(k) , k = 1, 2, .., p. Trong đó, d(k) = [d1 , d2 , ..., dn ]T là đầu ra quan sát
(k)

(k)

(k)

ứng với đầu vào x(k) = [x1 , x2 , ..., xm ]T (với m là số đầu vào, n là số đầu ra, và p
là cặp mẫu đầu vào-đầu ra dùng cho việc học). Như vậy chúng ta mong rằng sau quá
(k)

(k)

(k)

trình huấn luyện, đầu ra tính toán được y (k) = [y1 , y2 , ..., yn ]T sẽ bằng với đầu ra
của mẫu học d(k)

m
(k)
Yi

=

g(wiT x(k) )

(k)

(k)


wij xj ) = di , i = 1, 2, ..., n; k = 1, 2, ...p

= g(

(2.2)

j=1

Hình 2.6: Mạng Perceptron một lớp
Để bắt đầu quá trình huấn luyện mô hình mạng, các trọng số được gán giá trị ngẫu
nhiên trong khoảng [-3, 3]. Sau đó hiệu chỉnh các trọng số cho phù hợp với mẫu huấn
luyện để làm giảm sai số giữa y (k) và d(k)
Các bước tiến hành:
• Xác định ngẫu nhiên bộ trọng số.
• Với mỗi mẫu huấn luyện (x(k) , d(k) ), k = 1, 2, . . . , p thực hiện các bước:
15


×