Tải bản đầy đủ (.pdf) (64 trang)

Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.59 MB, 64 trang )

TĨM TẮT
Trong các nghiên cứu trƣớc về phân loại tín hiệu ECG hầu hết các phƣơng pháp sử
dụng bộ dữ liệu MIT-BIH để đánh giá kết quả dự đoán và đem lại độ chính xác rất cao.
Tuy nhiên trong tập dữ liệu có chứa rất nhiều nhịp tim bình thƣờng chiếm khoảng
83.6% trong tổng số nhịp tim của tập dữ liệu. Do đó đề tài này thiết kế bộ phân loại tín
hiệu điện tim dùng phƣơng pháp Neural Network sau đó đánh giá ảnh hƣởng của phân
cực dữ liệu đến bộ phân loại tín hiệu điện tim sau khi loại bỏ những nhịp tim bình
thƣờng dùng phƣơng pháp ma trận nhầm lẫn (confusion matrix) và đƣờng cong ROC.
Nghiên cứu này đƣa ra hai thí nghiệm để đánh giá hiệu năng của bộ phân loại tín hiệu
điện tim ECG . Thí nghiệm thứ nhất chúng tôi sử dụng tập dữ liệu có chứa các nhịp tim
bình thƣờng và do đó có hiện tƣợng phân cực dữ liệu của bộ phân loại trong trƣờng
hợp này có xảy ra trong kết quả dự đốn. Thí nghiệm thứ hai tác giả loại bỏ những nhịp
tim bình thƣờng trong tập dữ liệu và kết quả ghi lại sự ảnh hƣởng của các nhịp tim bình
thƣờng đến bộ phân loại. Đề tài chứng minh kết quả cuối cùng chỉ ra rằng dữ liệu hiện
có của tập dữ liệu đã đƣợc công bố trên MIT-MIH ARHYTHMIA DATABASE chƣa
thật sự đầy đủ để đƣa ra kết quả phân loại bệnh tim và ảnh hƣởng của tập dữ liệu chứa
nhiều nhịp tim bình thƣờng đến độ chính xác của bộ phân loại [1].

xi


ABSTRACT
In previous studies on ECG signal classification, most methods used the MIT-BIH
databases to evaluate predictions and provide very high accuracy. However, in the
databases there are a very normal heart rate that accounts for about 83.6% of the total
heartbeat of the databases. Therefore, This thesis is the design of ECG signal
classification system using Neuron Network method and then evaluates the effect of
data polarization on the ECG after removing the normal heart rate using the method.
confusion matrix and ROC curve. This study offers two experiments to assess the
performance of ECG signal classification system. In the first experiment, we used
databases that contained normal heartbeats and therefore had data classification


polarization in this case that occurred in the predicted outcome. The second experiment
we removed the normal heartbeat in the databases and recorded the effects of normal
heartbeats on the classifier. The final result demonstrates that the existing data for the
database published on the MIT-MIH ARHYTHMIA DATABASE is not sufficiently
accurate to show the results of the classification of heart disease and the effect of the
database contains many normal heartbeats to the accuracy of the classifier.[1]

xii


MỤC LỤC

QUYẾT ĐỊNH GIAO ĐỀ TÀI ........................................................................................... i
BIÊN BẢN HỘI ĐỒNG CHẤM LUẬN VĂN TỐT NGHIỆP THẠC SĨ ........................ ii
NHẬN XÉT PHẢN BIỆN 1 .............................................................................................. iii
NHẬN XÉT PHẢN BIỆN 2 ............................................................................................... v
LÝ LỊCH KHOA HỌC .................................................................................................... vii
LỜI CAM ĐOAN .............................................................................................................. ix
LỜI CẢM TẠ ...................................................................................................................... x
TÓM TẮT .......................................................................................................................... xi
ABSTRACT ...................................................................................................................... xii
DANH SÁCH CÁC TỪ VIẾT TẮT ................................................................................. xv
DANH SÁCH CÁC HÌNH .............................................................................................. xvi
DANH SÁCH CÁC BẢNG ............................................................................................ xvii
Chƣơng I: TỔNG QUAN .................................................................................................... 1
1.1 Tổng quan về lĩnh vực nghiên cứu .............................................................................1
1.2 Các kết quả nghiên cứu trong và ngoài nƣớc đã công bố ...........................................2
1.3 Mục tiêu của đề tài ......................................................................................................3
1.4 Nhiệm vụ và giới hạn của đề tài .................................................................................4
1.4.1 Nhiệm vụ của đề tài ..............................................................................................4

1.4.2 Giới hạn của đề tài................................................................................................4
1.5 Phƣơng pháp nghiên cứu ............................................................................................5
Chƣơng II: CƠ SỞ LÝ THUYẾT ....................................................................................... 6

xiii


2.1 Khái niệm về tín hiệu điện tim ECG ..........................................................................6
2.2 Ý nghĩa các thành phần trên điện tâm đồ ...................................................................7
2.3 Thu thập dữ liệu ..........................................................................................................9
2.4 Thuật toán biến đổi Wavelet .....................................................................................12
2.5 Thuật toán PCA ........................................................................................................16
2.6

Mạng neural network ............................................................................................18

2.6.1 Cấu trúc .............................................................................................................19
2.6.2 Giải thuật huấn luận mạng Neural Work ..........................................................19
2.7 Đánh giá mơ hình.....................................................................................................21
2.7.1

Ma trận nhầm lẫn (confusion matrix) ............................................................22

2.7.2

Đƣờng cong ROC ..........................................................................................23

Chƣơng III: PHƢƠNG PHÁP NGHIÊN CỨU ................................................................ 25
3.1


Chuẩn bị dữ liệu ...................................................................................................26

3.2

Trích đặc trƣng .....................................................................................................26

3.2.1

Tách từng nhịp tim từ bộ dữ liệu MIT-BIH...................................................26

3.2.2

DWT chuyển đổi tín hiệu nhịp tim từ miền thời gian sang miền tần số........27

3.2.3 Giảm chiều dữ liệu sử dụng PCA .......................................................................28
3.3

Phân loại tín hiệu điện tim sử dụng Neural Network ...........................................29

Chƣơng IV: KẾT QUẢ ..................................................................................................... 31
Chƣơng V: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ..................................................... 36
5.1 KẾT LUẬN ..............................................................................................................36
5.2 HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI ....................................................................36
TÀI LIỆU THAM KHẢO................................................................................................. 37
B. PHỤ LỤC ..................................................................................................................... 39
B.1 CHƢƠNG TRÌNH MATLAB .................................................................................39
B.2 NỘI DUNG BÀI BÁO .............................................................................................51

xiv



DANH SÁCH CÁC TỪ VIẾT TẮT
ECG - ElectroCardioGram
DWT - Discrete Wavelet Transform
MIT-BIH - Massachusetts Institute of Technology-Beth Israel Hospital
PCA - Principal Component Analysis
ROC - Receiver Operating Characteristic
NIBIB - National Institute of Biomedical Imaging and Bioengineering
NIGMS - National Institute of General Medical Sciences
ANN - Artificial Neural Network

xv


DANH SÁCH CÁC HÌNH
Hình 2.1 Dạng sóng ECG bình thƣờng [6] ...................................................................... 7
Hình 2.2 Cách thu thập dữ liệu từ bộ dữ liệu chuẩn có sẵn [8]. ...................................... 9
Hình 2.3 Các thành phần wavelet tƣơng ứng với các tỉ lệ vị trí khác nhau. .................. 14
Hình 2.4 Biến đổi Wavelet rời rạc của tín hiệu.............................................................. 15
Hình 2.5 Q trình phân tích tín hiệu dùng biến đổi DWT một chiều ......................... 16
Hình 2.6 Cấu trúc mạng neural network. ....................................................................... 19
Hình 2.7 Đƣờng cong ROC............................................................................................ 23
Hình 3.1 Sơ đồ khối phân loại tín hiệu điện tim ............................................................ 25
Hình 3.2 Tín hiệu ECG tải từ MIT-BIH ........................................................................ 26
Hình 3.3 Tín hiệu ECG sau khi tách từng nhịp .............................................................. 27
Hình 3.4 Tín hiệu ECG sau khi phân rã wavelet ........................................................... 28
Hình 3.5 Số thành phần chính của xấp xỉ và chi tiết ở mức 4. ...................................... 29
Hình 3.6 Mơ hình mạng neural network 18 ngõ vào, 5 ngõ ra ...................................... 30
Hình 4.1 So sánh độ chính xác giữa có và khơng có nhịp tim bình thƣờng trong mẫu dữ
liệu .................................................................................................................................. 33

Hình 4.2 Các đƣờng cong ROC tạo ra bởi sáu loại nhịp tim của bộ phân loại neural
network có chứa nhịp bình thƣờng trong dữ liệu ECG. ................................................. 34
Hình 4.3 Các đƣờng cong ROC tạo ra bởi năm loại nhịp tim của bộ phân loại neurral
network có chứa nhịp bình thƣờng trong dữ liệu ECG. ................................................. 35

xvi


DANH SÁCH CÁC BẢNG

Bảng 2.1 Cách thu thập dữ liệu từ bộ dữ liệu chuẩn có sẵn [8]. ...................................... 9
Bảng 2.2 Ma trận nhầm lẫn ............................................................................................ 22
Bảng 4.1 Bảng phân loại tín hiệu ECG .......................................................................... 31
Bảng 4.2 Kết quả đánh giá trƣờng hợp có nhịp tim bình thƣờng trong mẫu dữ liệu ..... 32
Bảng 4.3 Kết quả đánh giá trƣờng hợp loại bỏ nhịp tim bình thƣờng trong mẫu dữ liệu
........................................................................................................................................ 32

xvii


Chƣơng I: TỔNG QUAN
1.1 Tổng quan về lĩnh vực nghiên cứu
Cùng với sự phát triển đời sống kinh tế ,xã hội cũng đặt ra cho chúng ta những
thách thức về nguy cơ bệnh lý tim mạch tăng cao và gánh nặng về sức khỏe cũng nhƣ
chi phí tăng vọt trong việc điều trị các bệnh lý tim mạch.
Theo thống kê của tổ chức y tế thế giới, bệnh tim mạch là một trong những căn
bệnh có tỉ lệ gây tử vong cao, mỗi năm có khoảng 17.5 triệu ngƣời chết. Con số này
cho thấy mức độ nguy hiểm và tính chất phổ biến về bệnh lý tim mạch trên các nƣớc
phát triển và có cả Việt Nam. Theo điều tra mới nhất của viện Tim Mạch Việt Nam thì
tỉ lệ mắc bệnh tim mạch trên 25 tuổi là 47,3%. Trung bình mối năm bệnh tim cƣớp đi

sinh mạng của 200.000 ngƣời, chiếm khoảng 1/4 số trƣờng hợp tử vong ở nƣớc ta. Vài
thập kỷ gần đây sự gia tăng rất nhanh của bệnh tăng huyết áp và các bệnh liên quan
nhƣ thiếu máu cục bộ, đột quỵ, động mạch ngoại biên và các bệnh van tim do thấp. Vì
vậy việc phát hiện sớm và phân loại chính xác tín hiệu ECG là rất cần thiết để giúp bác
sĩ chuẩn đoán các bệnh về tim và đƣa ra cách điều trị tốt nhất cho bệnh nhân [2].
Điện tâm đồ ghi lại nhịp tim và dựa vào đó có thể chuẩn đốn các bệnh về tim
mạch. Trong khi đó để phân loại và phát hiện các loại rối loạn nhịp tim có thể giúp xác
định các tín hiệu bất thƣờng trong tín hiệu ECG của một bệnh nhân thì cần đến kỹ
thuật máy học, dựa vào đó bác sĩ đƣa ra các phân tích ban đầu để chuẩn đốn các bệnh
về tim mạch.
Hiện nay phân loại các bệnh tim đang gặp khó khăn bởi vì mỗi tín hiệu điện tim
có những đặc trƣng riêng, không theo quy tắc phân loại tối ƣu nào cho bộ phân loại
ECG nên dẫn tới thiếu sự chuẩn hóa các đặc trƣng của tín hiệu điện tim. Do đó để

1


chuẩn đốn và điều trị cần phát triển một mơ hình phân loại dựa vào kỹ thuật máy tự
học và một bộ phân loại có khả năng phân loại tốt các bệnh lý về rối loạn nhịp tim
trong thời gian thực thay vì đo và ghi lại trên giấy bằng thủ công là vấn đề cần giải
quyết.

1.2 Các kết quả nghiên cứu trong và ngồi nƣớc đã cơng bố
Cùng với sự phát triển không ngừng của các thiết bị ghi lại tín hiệu điện tim cũng
đóng vai trị quan trọng trong việc hỗ trợ các bác sĩ đƣa ra các chẩn đốn chính xác. Tại
Việt Nam, q trình nghiên cứu về bệnh tim cũng chỉ dừng ở mức độ cơ bản và cận
lâm sàn. Một số nghiên cứu về tim điển hình:


Kiểm sốt mối liên quan giữa kiểm sốt huyết áp và chất lƣợng cuộc sống của

bệnh nhân tăng huyết áp.



Nghiên cứu chức năng tâm trƣơng thất trái và thất phải bằng siêu âm Doppler
tim.



Góp phần chuẩn đốn và điều trị dò mạch vành bẩm sinh: nhân 20 trƣờng hợp
tại bệnh viện tim tâm đức.



Xây dựng mơ hình tiên lƣợng hiệu chỉnh cho bệnh nhân nhồi máu cơ tim cấp tại
viện tim thành phố Hồ Chí Minh.
Hiện nay đã có một số thiết kế và phân tích tín hiệu điện tim cơ bản nhằm cố gắng

thu nhận đƣợc tín hiệu điện tim cũng nhƣ chế tạo đƣợc các thiết bị đo đƣợc tín hiệu
điện tim. Tuy nhiên, khi đọc và xử lý tín hiệu ECG ghi đƣợc trên bệnh nhân, ngƣời ta
thấy rằng phần lớn các tín hiệu ghi đƣợc là các tín hiệu biểu thị nhịp tim bình thƣờng,
các tín hiệu này khơng phục vụ cho việc chuẩn đốn bệnh, chỉ có một vài chu kỳ biểu
thị nhịp tim khơng bình thƣờng kèm theo sự thay đổi hình dạng của ECG. Nhƣ vậy
dùng các phƣơng pháp truyền thống để thu nhận và xử lý tín hiệu điện tim tốn rất nhiều

2


bộ nhớ để ghi các tín hiệu khơng phục vụ cho chuẩn đốn bệnh trong khi đó bộ nhớ
của máy ghi khơng đủ để có thể ghi lại các chu kỳ bệnh lý dài hơn.

Theo thống kê của Tổ Chức Y Tế thế giới năm 2015 bệnh tim thiếu máu cục bộ là
nguyên nhân gây tử vong hàng đầu, mỗi năm gây ra tử vong trên 10 triệu ngƣời [3].
Chính vì vậy nghiên cứu về tim đã đƣợc tiến hành từ rất lâu và có nhiều kết quả quan
trọng. Dƣới đây là một số kết quả nghiên cứu đã đƣợc công bố: Tối ƣu phân loại ECG
bằng phƣơng pháp lựa chọn tính năng. Đánh giá cơ sở dữ liệu của nhiều bộ phân loại
nhịp tim. Nhận dạng con ngƣời từ tín hiệu điện tim qua sự phân bố thƣa thớt của các
phân đoạn ECG. Một hệ thống trích xuất các tính năng chuyển mạch để phân loại nhịp
tim ECG. Phân loại tín hiệu điện tim sử dụng PCA, LDA, ICA và chuyển đổi wavelet
rời rạc [4]. Phân loại tín hiệu ECG đƣợc cá nhân hóa sử dụng mạng Neural-Network và
phƣơng pháp tối ƣu bầy đàn. Phân loại các tín hiệu điện tim sử dụng máy học cực trị.
Có rất nhiều bài nghiên cứu về vấn đề phân loại tin hiệu ECG và độ chính xác rất cao
lên tới 99.83%, 99.97%, vì vậy bài nghiên cứu này chúng tơi khơng đánh giá về bộ
phân loại nào tốt hơn mà tập trung đánh giá lại tập dữ liệu ECG có chứa quá nhiều nhịp
tim bình thƣờng làm cho có sự phân cực dữ liệu trong bộ phân loại tín hiệu điện tim.

1.3 Mục tiêu của đề tài
Để có một tập dữ liệu ECG cho phân tích và nghiên cứu về tín hiệu điện tim thì
MIT-BIH cơ sở dữ liệu lƣu trữ 48 trích đoạn ECG của 47 đối tƣợng. Các kết quả
nghiên cứu trƣớc đây dựa trên bộ dữ liệu MIT có rất nhiều những nhịp tim bình thƣờng
và nó thể hiện sai lệch trong việc đánh giá. Trong khi đó chúng ta đang có xu hƣớng
quan tâm đến những nhịp tim bị bệnh. Vì vậy trong bài nghiên cứu này chúng tôi
nghiên cứu ảnh hƣởng của phân cực dữ liệu đến bộ phân loại tín hiệu điện tim sau khi
loại bỏ những nhịp tim bình thƣờng. Đồng thời cũng nghiên cứu sự ảnh hƣởng của số

3


lƣợng mẫu dữ liệu huấn luyện đến độ chính xác của bộ phân loại. Kết quả của thí
nghiệm chứng tỏ rằng bộ dữ liệu MIT không đầy đủ để tạo ra một bộ phân loại tốt.


1.4 Nhiệm vụ và giới hạn của đề tài
1.4.1 Nhiệm vụ của đề tài
Các nội dung chính đƣợc thực hiện trong đề tài:
- Thu thập và xây dựng tập dữ liệu trên môi trƣờng Matlab.
- Tiền xử lý tín hiệu dùng phƣơng pháp DWT.
- Trích đặc trƣng và giảm chiều dữ liệu dùng phƣơng pháp PCA.
- Đánh giá phân cực dữ liệu của bộ phân loại sử dụng phƣơng pháp ma trận
nhầm lẫn và đƣờng cong ROC.
- Phân loại bệnh dùng mạng Neural Network.
- Kết luận, phân tích và đánh giá kết quả.
- Tóm tắt nội dung và viết báo cáo.
1.4.2 Giới hạn của đề tài
Vấn đề phân loại tín hiệu điện tim ECG là mỗi tín hiệu điện tim có những đặc
trƣng riêng, khơng theo quy tắc phân loại tối ƣu nào cho bộ phân loại ECG nên dẫn tới
thiếu sự chuẩn hóa các đặc trƣng của tín hiệu điện tim. Nhịp tim thu đƣợc trên bộ dữ
liệu MIT-BIH là phụ thuộc vào các tác nhân vật lý, môi trƣờng và tâm trạng của ngƣời
đó lúc ghi lại, sẽ tạo ra các nhịp tim thay đổi trong khoảng RR, PR, QT. Làm ảnh

4


hƣởng đến bộ dữ liệu tập huấn để phân loại bệnh. Dữ liệu chỉ sử dụng trên 1 nguồn
MIT-BIH và các nhịp tim dùng để huấn luyện và kiểm tra thực hiện trên cùng một
bệnh nên độ chính xác chỉ mang tính khách quan. Mỗi máy đo điện tâm đồ thì độ chính
xác khác nhau, nên khi một bộ phân loại đƣợc đƣa dữ liệu ECG huấn luyện khác
nhau vào sẽ đƣa ra kết quả phân loại khơng chính xác cho trƣờng hợp thực tế sử dụng
trên hai máy đó khác nhau .

1.5 Phƣơng pháp nghiên cứu
Trong các bài báo nghiên cứu về tín hiệu ECG đã cơng bố thì việc sử dụng tập dữ

liệu thực tế để phân loại là một vấn đề khó khăn. Đa số các tác giả sử dụng tập dữ liệu
trên MIT (MIT-BIH ARHYTHMIA DATABASE) để làm dữ liệu cho bộ phân loại và
từ đó chỉ tập trung vào sử dụng phƣơng pháp gì để phân loại đạt đƣợc độ chính xác
cao. Trong khi đó tập dữ liệu trên MIT chiếm 83.6% nhịp tim bình thƣờng và 16.4%
nhịp tim bị bệnh.
Từ những lý do trên, hƣớng nghiên cứu đƣa ra: Đánh giá lại việc phân loại tín hiệu
nhịp tim bằng thực hiện hai thí nghiệm, thí nghiệm thứ nhất vẫn sử dụng tập dữ liệu
ECG trên MIT có chứa nhiều nhịp tim bình thƣờng trong bộ phân loại, thí nhiệm thứ
hai là loại bỏ những tín hiệu nhịp tim bình thƣờng trƣớc khi đƣa vào bộ phân loại. Kết
quả cuối cùng của thí nghiệm chỉ ra rằng dữ liệu hiện có của tập dữ liệu đã đƣợc công
bố chƣa thật sự đầy đủ để đƣa ra kết quả phân loại bệnh tim và ảnh hƣởng của tập dữ
liệu chứa nhiều nhịp tim bình thƣờng đến độ chính xác của bộ phân loại.
Phân tích và xử lý dữ liệu đƣợc thực hiện trên phần mềm và công cụ hỗ trợ của
Matlab, phiên bản R2016a.

5


Chƣơng II: CƠ SỞ LÝ THUYẾT
Tim là bộ phận quan trọng trong cơ thể, tim đập tạo thành vòng tuần hoàn mang
máu và oxy đến khắp cơ thể. Quả tim co bóp theo nhịp đƣợc điều khiển của một hệ
thống dẫn truyền trong cơ tim, Những dòng điện rất nhỏ nhƣng có thể dị thấy từ các
cực điện dị trên bàn tay, chân và ngực bệnh nhân rồi chuyển đến máy ghi. Máy ghi
khuếch đại lên và ghi lại trên điện tâm đồ. Điện tâm đồ đƣợc sử dụng trong y học để
phát hiện các bệnh về tim nhƣ rối loạn nhịp tim, suy tim, nhồi máu cơ tim và các triệu
chứng lớn tim, đau tim.

2.1 Khái niệm về tín hiệu điện tim ECG
Điện tâm đồ (ECG) là một xét nghiệm y tế phát hiện bất thƣờng của tim bằng
cách đo hoạt động điện tạo ra bởi tim từ các cực điện đặt trên tay, chân, ngực bệnh

nhân và chuyển đến máy ghi sau đó khuếch đại và ghi lại lên điện tâm đồ. Máy ghi lại
hoạt động điện của cơ tim và hiển thị dữ liệu này nhƣ một dấu vết trên màn hình hoặc
trên giấy. Sau khi tiền xử lý lọc nhiễu thì tín hiệu điện tim đƣợc thể hiện bằng một số
nhịp đập và mỗi nhịp bao gồm sóng P, phức hợp QRS, và sóng T. Mỗi đỉnh (P, Q, R,
S, T và U), khoảng thời gian (PR, RR, QRS, ST và QT) và các phân đoạn (PR và ST)
của các tín hiệu ECG có những giá trị biên độ hoặc thời gian bình thƣờng của nó [5].
Những đỉnh, khoảng thời gian và các phân đoạn này đƣợc gọi là các đặc trƣng của tín
hiệu ECG. Chính những phân đoạn này và dựa vào khoảng thời gian của nó để bác sĩ
phân loại và chuẩn đốn các loại bệnh. Thời gian của từng tính năng khá nhỏ tính bằng
đơn vị milli giây. Khoảng thời gian dài nhất là 0.6 đến 1.2 giây chính là khoảng thời
gian giữa hai đỉnh R cũng là khoảng cách về thời gian của hai nhịp tim. Ngoài ra các
phân đoạn PR, QRS, ST và QT cũng mang những đặc trƣng của mỗi loại bệnh khác
nhau. Hình 2.1 mơ tả một nhịp tim ECG bình thƣờng .

6


Hình 2.1 Dạng sóng ECG bình thường [6]

2.2 Ý nghĩa các thành phần trên điện tâm đồ
Thông thƣờng nhịp tim có thể đo bằng cách kiểm tra mạch đập. Tuy nhiện điện
tâm đồ có tầm quan trọng quyết định để chuẩn đốn chính xác các loạn nhịp tim đơn
giản, ít tốn kém. Một chu kỳ tim biểu hiện trên điện tâm đồ là: sóng P, phức hợp QSR,
sóng T, và sóng U , hình dạng, thời gian kéo dài của sóng/phức hợp và cả thời gian
giữa các thành phần với nhau đều có ý nghĩa đặc biệt quan trọng trong việc chẩn đốn
và phân loại bệnh [7].
 Sóng P hình thành do quá trình khử cực tâm nhĩ (cả nhĩ trái và nhĩ phải), bình
thƣờng biên độ của sóng P thƣờng dƣới 2mm (0.2mmV), và thời gian của sóng
P là từ 0.08 đến 0.1 giây, việc tăng biên độ và kéo dài thời gian của sóng gợi ý
đến một tình trạng tâm nhĩ lớn (tăng biên độ gợi ý lớn nhĩ phải. thời gian khử

cực kéo dài gợi ý đến lớn nhĩ trái).

7


 Phức hợp QRS thể hiện quá trình khử cực của tâm thất, tùy vào chiều khử cực
và vị trí đặt điện cực mà trên giấy ghi sẽ cho thấy các phức bộ khác nhau, ƣu thế
sóng R hay S, bình thƣờng QRS kéo dài từ 0.06 đến 0.1 giây.
 Sóng T là sóng theo sau phức bộ QRS, thể hiện q trình tái cực muộn của 2
tâm thất, sóng T có giá trị rất lớn trong việc nhận định một tình trạng cơ tim
thiếu máu, thƣờng của nó là 120 mili giây.
 Sóng U trên điện tâm đồ là sóng nhỏ sau sóng T, sóng U đảo ngƣợc hay nhô cao
nhọn gặp trong rất nhiều loại bệnh lý tim (bệnh mạch vành, tăng huyết áp, bệnh
van tim, tim bẩm sinh, bệnh lý cơ tim, cƣờng giáp, ngộ độc, rối loạn điện giải.
 Khoảng PR Là thời gian dẫn truyền từ nhĩ đến thất, bình thƣờng từ 0.12 - 0.2
giây, việc kéo dài thể hiện quá trình chậm dẫn truyền , PR ngắn sẽ gợi ý đến
một hội chứng kích thích sớm.
 Khoảng ST thời gian của ST thƣờng khơng quan trọng bằng hình dạng của nó,
bình thƣờng ST nằm chênh lệch lên hoặc chênh xuống khỏi đƣờng đẳng điện rất
ít, đoạn ST cực kỳ quan trọng trong việc chẩn đoán nhồi máu cơ tim. Khoảng
thời gian của nhip tim bình thƣờng của nó khoảng 320 mili giây.
 Khoảng QT là thời gian tâm thu điện học của tâm thất, khoảng giá trị bình
thƣờng của QT phục thuộc vào tần số tim, QT kéo dài bất thƣờng có liên quan
với tăng nguy cơ loạn nhịp thất, đặc biệt là xoắn đỉnh, bình thƣờng cảu nó là
420 mili giây. Gần đây, hội chứng QT ngắn bẩm sinh đã đƣợc tìm thấy có liên
quan với tăng nguy cơ rung nhĩ và đột tử do tim.
Điện tâm đồ là một xét nghiệm đơn giản, tuy nhiên nó khơng thể loại trừ những
bệnh tim nghiêm trọng. Ngồi ra khơng phải tất cả các cơn đau tim đều có thể đƣợc
phát hiện bằng điện tâm đồ. Một bệnh tim thƣờng gặp nhƣ đau thắt ngực cũng không
thể đƣợc phát hiện bằng điện tâm đồ thƣờng quy. Để đánh giá đƣợc tình trạng của bệnh


8


nhân thông qua điện tâm đồ bằng phƣơng pháp máy học (machine learning) cần nắm
vững các khái niệm cơ bản về tín hiệu điện tim ECG.

2.3 Thu thập dữ liệu
Để có một bộ dữ liệu thực tế rất khó khăn đối với sinh viên khơng thuộc chun
ngành y bởi vì thiếu chính xác và nhiễu. Nên dữ liệu đƣợc lấy từ MIT-BIH arhythmia
database đã đƣợc kiểm nghiệm và sử dụng rộng rãi trong nghiên cứu về tín hiệu điện
tim. Mặc khác dữ liệu từ MIT-BIT thì các tín hiệu ECG đƣợc gắn sẵn nhãn thông tin
về các bệnh lý của từng nhịp tim cũng nhƣ thông tin về bệnh nhân, thời gian lấy mẫu,
tần số lấy mẫu, vị trí đo và các thơng tin khác.

Hình 2 Cách thu thập dữ liệu từ bộ dữ liệu chuẩn có sẵn [8].
Dữ liệu tín hiệu điện tim trên MIT gồm 48 tín hiệu ECG đƣợc thu từ 47 ngƣời
bệnh nhân bắt đầu từ năm 1975 đến 1979, tại Phịng Thí nghiệm Chứng loạn nhịp tim ở

9


bệnh viện Beth Israel. Mỗi tín hiệu ECG tƣơng ứng với mỗi ngƣời và đã đƣợc ghi chú
sẵn thông tin ngƣời bênh, tần số lấy mẫu, vị trí đo và thuộc loại bệnh gì. Khoảng 60%
tín hiệu lấy từ các bệnh nhân nội trú. Tập dữ liệu này bao gồm 23 tín hiệu (đánh số từ
100 đến 124 với một số (110) không tồn tại) đƣợc chọn ngẫu nhiên, và 25 tín hiệu
(đánh số từ 200 đến 234 và có một vài số không xuất hiện) đƣợc chọn từ cùng một tập
hợp với 23 hồ sơ trên bao gồm các hiện tƣợng hiếm gặp nhƣng có triệu chứng lâm sàng
quan trọng mặc dù hiển thị ngẫu nhiên và khá nhỏ.
Dữ liệu ECG trên MIT-BIH khi tải về gồm 3 file : “*.atr”, “*.dat” và “*.hea”. cho

mỗi tín hiệu điện tim. Sau khi tải bộ dữ liệu về trong phần mềm Matlab ta dùng Tool
kit đọc Database từ MIT-BIH là một mã nguồn mở có thể chạy trên nhiều nền tảng
đƣợc xuất bảng bởi PhysioNet và đƣợc hỗ trợ bởi Viện Khoa Học Y Khoa Quốc Gia
(NIGMS) và Viện nghiên cứu sinh học và kỹ thuật y sinh học quốc gia (NIBIB).
Bảng 2.1 Tồn bộ tín hiệu ECG từ MIT-BIH
File chú thích

File dữ liệu

File tiêu đề

100.atr

100.dat

100.hea

101.atr

101.dat

101.hea

102.atr

102.dat

102.hea

103.atr


103.dat

103.hea

104.atr

104.dat

104.hea

105.atr

105.dat

105.hea

106.atr

106.dat

106.hea

107.atr

107.dat

107.hea

108.atr


108.dat

108.hea

109.atr

109.dat

109.hea

111.atr

111.dat

111.hea

10


File chú thích

File dữ liệu

File tiêu đề

112.atr

112.dat


112.hea

113.atr

113.dat

113.hea

114.atr

114.dat

114.hea

115.atr

115.dat

115.hea

116.atr

116.dat

116.hea

117.atr

117.dat


117.hea

118.atr

118.dat

118.hea

119.atr

119.dat

119.hea

121.atr

121.dat

121.hea

122.atr

122.dat

122.hea

123.atr

123.dat


123.hea

124.atr

124.dat

124.hea

200.atr

200.dat

200.hea

201.atr

201.dat

201.hea

202.atr

202.dat

202.hea

203.atr

203.dat


203.hea

205.atr

205.dat

205.hea

207.atr

207.dat

207.hea

208.atr

208.dat

208.hea

209.atr

209.dat

209.hea

210.atr

210.dat


210.hea

212.atr

212.dat

212.hea

213.atr

213.dat

213.hea

214.atr

214.dat

214.hea

215.atr

215.dat

215.hea

217.atr

217.dat


217.hea

11


File chú thích

File dữ liệu

File tiêu đề

219.atr

219.dat

219.hea

220.atr

220.dat

220.hea

221.atr

221.dat

221.hea

222.atr


222.dat

222.hea

223.atr

223.dat

223.hea

228.atr

228.dat

228.hea

230.atr

230.dat

230.hea

231.atr

231.dat

231.hea

232.atr


232.dat

232.hea

233.atr

233.dat

233.hea

234.atr

234.dat

234.hea

2.4 Thuật tốn biến đổi Wavelet
Trong xử lý tín hiệu biến đổi Fourier là cơng cụ rất mạnh trong phân tích dữ liệu.
Tuy nhiên phép biến đổi này có nhƣợc điểm khi chuyển tín hiệu từ miền thời gian sang
miền tần số thì mọi thông tin về thời gian bị mất đi trong miền tần số và mặc khác phép
biến đổi Fourier khơng thích hợp với tín hiệu khơng ổn định và bị nhiễu. Xuất phát từ
những hạn chế của phép biến đổi Fourier thì phép biến đổi Wavelet phát triển để đáp
ứng tốt đƣợc cả miền thời gian và miền tần số.

12


a) Biến đổi Wavelet liên tục
Một hàm f(t) đƣợc bắt đầu từ một hàm Wavelet mẹ (mother Wavelet) ψ (t), ψ (t)

có thể là bất kỳ một hàm số thực hoặc phức liên tục nào thoả mãn các tính chất
sau đây:
Tích phân suy rộng trên tồn bộ trục t của hàm ψ (t ) là bằng 0. Tức là:


 (t )dt  0



(2.1)

Biến đổi Wavelet liên tục của một hàm bình phƣơng khả tích f(t) đƣợc tính
W

a, b    f (t )

1
a

theo công thức:

t b
dt
 a 

 *

(2.2)

là một hàm của hai tham số thực a và b. Dấu * ký hiệu là liên hiệp phức của

ψ(t). Với:
 a ,b (t ) 

1
a

t b

 a 



(2.3)

Chúng ta có thể viết:


W(a,b)=

 f (t )

a ,b

(t )dt



Theo toán học ta gọi đây là tích vơ hƣớng của hai hàm f (t) và ψa,b(t) Giá trị
1


là hệ số chuẩn hoá để đảm bảo rằng tích phân năng lƣợng của hàm ψa,b(t)

a

sẽ độc lập với a và b :
2





a,b

(t ) dt 





  (t )



13

2

dt

(2.4)



Với mỗi giá trị của a thì ψa,b(t) là một bản sao của ψa,b(t) đƣợc dịch đi b đơn
vị trên trục thời gian. Do đó b đƣợc gọi là tham số dịch. Đặt tham số dịch b = 0
ta thu đƣợc:
 a ,0 (t ) 

1
a

t
a

 

(2.5)

thấy rằng a là tham số tỷ lệ. Hệ số tỷ lệ càng nhỏ, wavelet càng đƣợc nén mạnh
hơn.

Hình 2.2 Các thành phần wavelet tương ứng với các tỉ lệ vị trí khác nhau.
b) Biến đổi wavelets rời rạc
Việc tính tốn các hệ số wavelet tại tất cả các tỉ lệ là một công việc hết sức phức
tạp, sẽ tạo ra một lƣợng dữ liệu khổng lồ. Để đơn giản ngƣời ta chỉ chọn ra một
tập nhỏ các giá trị tỉ lệ và các vị trí để tiến hành tính tốn, cụ thể lựa chọn tiến
hành tại các tỷ lệ và các vị trí trên cơ sở luỹ thừa cơ số 2 thì kết quả thu đƣợc sẽ
hiệu quả và chính xác hơn rất nhiều. Quá trình chọn các tỷ lệ và các vị trí để tính
tốn nhƣ trên tạo thành lƣới nhị tố (dyamic). Một q trình phân tích nhƣ thế
hồn tồn có thể thực hiện đƣợc nhờ biến đổi wavelet rời rạc.
Phân tích wavelet, các xấp xỉ và chi tiết:

-

Xấp xỉ là thành phần có tỷ lệ cao, tức là độ co dãn cao, tần số thấp cảu tín
hiệu.

14


-

Chi tiết là thành phần có tỷ lệ thấp, tức độ co dãn thấp, tần số cao của tín
hiệu.

Với nhiều tín hiệu, nội dung tần số thấp là quan trọng nhất, nó xác định tín hiệu.
Nội dung tần số cao chỉ làm tăng thêm hƣơng vị. Ví dụ nhƣ giọng nói ngƣời,
nếu tách bỏ phần cao tần, giọng có khác nhƣng vẫn có thể hiểu đƣợc nội dung.
Tuy nhiên nếu loại bỏ tần số thấp đến một mức nào đó, sẽ khơng nghe rõ nữa.
Cịn đối với ảnh ta quan tâm đến hai thuật ngữ là xấp xỉ là thành phần tỉ lệ cao
tƣơng ứng thành phần tần số thấp của ảnh và chi tiết tƣơng ứng thành phần tần
số cao của ảnh, tỉ lệ thấp. Với phân tích wavelet ta thu đƣợc hai thành phần
tƣơng ứng trên, cụ thể việc thực hiện nhƣ sau :

Hình 2.3 Biến đổi Wavelet rời rạc của tín hiệu.
Do đó, việc tính tốn biến đổi DWT thực chất là sự rời rạc hoá biến đổi
Wavelet liên tục (CWT); việc rời rạc hoá đƣợc thực hiện với sự lựa chọn các
hệ số a và b nhƣ sau:
a = 2m, b=2m n

m, n € Z


Có thể hiểu phép biến đổi Wavelet rời rạc – DWT nhƣ là áp dụng một tập các
bộ lọc thông cao và thông thấp.

15


Hình 8 minh hoạ dạng tổng quát của biến đổi DWT một chiều.Theo đó tín hiệu
ngun gốc đƣợc cho đi qua các bộ lọc thông cao H (highpass) và thông thấp L
(lowpass) rồi đƣợc lấy mẫu xuống hệ số 2 tạo thành biến đổi DWT mức 1 [9].

Lọc thông thấp (L)

↓2

Xấp xỉ

Lọc thơng cao (H)

↓2

Chi tiết

Tín hiệu

Hình 2.4 Q trình phân tích tín hiệu dùng biến đổi DWT một chiều

2.5 Thuật tốn PCA
Phân tích thành phần đặc trƣng (PCA) là một phƣơng pháp thống kê đƣợc dùng để
phân tích những mối liên hệ giữa các chiều (dimension), một số tài liệu khác gọi là các
biến (variances), của một bộ dữ liệu (dataset) và giải thích những biến này với số lƣợng

biến ít hơn để mơ tả bộ dữ liệu đó với lƣợng thơng tin bị mất đi là ít nhất. Hay nói một
các khác là phƣơng pháp PCA có thể giúp nén dữ liệu. Sau đây là phần nghiên cứu cơ
sở toán học của PCA [10].
Cho một bộ dữ liệu S nhƣ sau:
S   S1

S2

 s11
s
... Sn    21


 sm1

s12

...

s22

...

s11

sn 
s2 n 


smn 


Trong đó:
S:

Tập dữ liệu ta có.

S1, S2, …, Sn :

Các chiều (dimensions) của tập dữ liệu S.

16


Số lƣợng chiều của tập S

n:
m:

Số lƣợng mẫu (sample) của tập S.

Tiến hành tính tốn để tìm các thơng số sau:
C (covariance matrix) :

Ma trận Hiệp phƣơng sai của tập dữ liệu S

 (eigenvalue) :

Giá trị riêng của ma trận C

U (eigenvector) :


Véc tơ trị riêng của ma trận C

P (principal component) :

thành phần đặc trƣng của tập dữ liệu S

Giá trị trung bình (mean value) của mỗi chiều dữ liệu đƣợc tính theo cơng thức:
m

Si 

s
j 1

ji

m

(2.6)

Giá trị hiệp phƣơng sai (covariance value):
m

cov( Si ,S j ) 

 (s
k 1

ki


 Si )(s kj  S j )
m 1

; i, j  1, 2,...n
(2.7)

Ma trận hiệp phƣơng sai C (covariance matrix) đƣợc tính theo cơng thức sau đây:
 cov( S1 ,S1 ) cov( S1 ,S2 )
cov( S ,S ) cov( S ,S )
2
1
2
2
C


cov( Sn ,S1 ) cov( Sn ,S2 )

cov( S1 ,Sn ) 
cov( S2 ,Sn ) 


cov( Sn ,Sn ) 

Tính giá trị riêng  (eigenvalue)và véc tơ trị riêng U (eigenvector) của Ma trận C
CU=  U hoặc (C-  In)U=0
trong đó:
C (covariance matrix) :


Ma trận Hiệp phƣơng sai của tập dữ liệu S

 (eigenvalue) :

Giá trị riêng của ma trận C

In (identify matrix n-by-n ) :

Ma trận xác định kích thƣớc nxn

17


Véc tơ trị riêng của ma trân C (bằng kích thƣớc với

U (eigenvector) :
ma trận C là nxn);

Sau khi giải phƣơng trình trên ta sẽ thu đƣợc  va U có dạng nhƣ sau:
  1 2

U  U 1 U 2

n 

 u11
u

U n    12



u1n

T

u21

...

u22

...

u2 n

sn 
sn 2 


snn 

Khôi phục tập dữ liệu S từ các phần chính:
PU T  SUU T  SUU 1  S

2.6

Mạng neural network
Mạng nơron nhân tạo, Artificial Neural Network (ANN thƣờng đƣợc gọi

ngắn gọn là mạng nơron, neural network) là các hệ thống xử lý thông tin song

song rất cao tƣơng tự nhƣ bộ não con ngƣời theo những cấu trúc tƣơng tự. Nó
bao gồm các phần tử (gọi là nơron) kết nối với nhau thông qua các liên kết (gọi
là trọng số liên kết) để thực hiện một cơng việc cụ thể nào đó.
Khả năng xử lý của mạng nơron đƣợc hình thành thơng qua q trình hiệu
chỉnh trọng số liên kết giữa các nơron, nói cách khác là học từ tập hợp các mẫu
huấn luyện. Các hành vi thu thập minh hoạ khả năng học, nhắc lại và tạo từ các
dữ liệu huấn luyện. Các ANN rất hữu ích trong sự phân loại, xắp xỉ các hàm, tối
ƣu hố, lƣợng tử vectơ và phân nhóm dữ liệu mà các phép tốn thơng thƣờng sẽ
gặp thất bại [11].

18


×