Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.02 MB, 35 trang )

i

DANH MỤC CÁC TỪ VIẾT TẮT
CLS

Cận lâm sàng

CSDL

Cơ sở dữ liệu.

DL

Dữ liệu.

DM

Data Mining

HSBA

Hồ sơ bệnh án

ICD10

Danh mục bệnh quốc tế

KDD

Knowledge Discovery in Databaes.

KPDL

Khai phá dữ liệu

LS

Lâm sàng.

WHO

Tổ chức Y tế thế giới.

YHCT

Y học cổ truyền

CTDL

Canh tác dữ liệu.

ii

DANH MỤC HÌNH VẼ
Hình 1.1: Các bước trong Data Mining & KĐ [3] ......................................................6
Hình 2.1: Biểu diễn cây quyết định cơ bản ...............................................................22
Hình 3.1: Giao diện chính của hệ thống chương trình ..............................................22
Hình 3.2: Lấy dữ liệu đã được xử lý .........................................................................23
Hình 3.3: Hiển thị dữ liệu chạy chương trình ...........................................................24
Hình 3.4: Kết quả thử nghiệm với các bệnh án huyết áp cao ...................................27

iii

DANH MỤC BẢNG BIỂU
Bảng 1: Phân độ THA theo Hội THA Việt Nam (2008) [8]. ....................................11
Bảng 2: Phân tầng nguy cơ tăng huyết áp .................................................................17
Bảng 3: Tệp dữ liệu đầu vào .....................................................................................21
Bảng 4: Kết quả chẩn đoán huyết áp cao .................. Error! Bookmark not defined.

1

LỜI MỞ ĐẦU
Tăng huyết áp ngày nay vẫn đang là vấn đề thời sự vì sự gia tăng nhanh chóng
trong cộng đồng. Tỷ lệ tăng huyết áp rất khác nhau. Ở những nghiên cứu trên những
bệnh nhân cao tuổi thì tỷ lề tăng huyết áp cao hơn rất nhiều so với những nhóm
khác. Theo ước tính của các nhà khoa học Mỹ tỷ lệ tăng huyết áp trên thế giới năm
2000 là 26,4% (tương đương 972 triệu người, riêng các nước đang phát triển chiếm
639 triệu) và sẽ tăng lên 29,2% vào năm 2025 với tổng số người mắc bệnh tăng
huyết áp trên toàn thế giới khoảng 1,56 tỷ người mà 3/4 trong số đó là người thuộc
nước đang phát triển.
Các số liệu điều tra thống kê tăng huyết áp Việt Nam cho thấy tỷ lệ tăng
huyết áp năm 1960 chiếm 1,6% dân số, 1982 là 1,9%, năm 1992 tăng lên 11,79%
dân số, 2002 ở Miền Bắc là 16,3%, riêng thành phố Hà Nội có tỷ lệ 23,2%, còn năm
2004 Thành phố Hồ Chí Minh là 20,5% và năm 2007 tại Thừa thiên -Huế là
22,77%.
Công việc chẩn đoán bệnh tăng huyết áp tương đối dễ dàng dựa vào trị số đo
được sau khi đo huyết áp đúng quy trình. Ngưỡng chẩn đoán tăng huyết áp thay đổi
tùy theo từng cách đo huyết áp và phác đồ điều trị bệnh tăng huyết áp của Bộ Y tế

Việt Nam nhưng để dự đoán một bệnh nhân tăng huyết áp thì còn nhiều khó khăn
trong thực tế lâm sàng. Do vậy vẫn còn bệnh nhân tử vong cao, cũng như chi phí
điều trị cao cho những bệnh nhân vào sốc, đây là bài toán nan giải cho Y tế cộng
đồng nói chung và tại bệnh viện Tuệ tĩnh nói riêng.
Với mục đích mong muốn đưa ra một số giải pháp hỗ trợ công việc của cán
bộ y tế, nhằm rút ngắn thời gian, tăng tính logic trong chẩn đoán bệnh, vì thế mà tác
giả xin đề xuất thực hiện đề tài “Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ
chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh” nhằm nghiên cứu
và áp dụng một vấn đề nhỏ trong lĩnh vực y học và khai phá dữ liệu nói chung.

2

Mục đích nghiên cứu: Tìm ra các quy luật từ dữ liệu thực tế nhằm chẩn
đoán một số bệnh thường gặp tại bệnh viện YHCT Tuệ Tĩnh (Tăng huyết áp, Rối
loạn chức năng tiền đình): xây dựng các thuật toán hỗ trợ chẩn đoán một số bệnh
thường gặp tại Bệnh viện YHCT Tuệ Tĩnh; ứng dụng các thuật toán vào công việc
chẩn đoán bệnh tại bệnh viện YHCT Tuệ Tĩnh.
Sử dụng các phương pháp: tìm hiểu nghiệp vụ y tế liên quan đến một số bệnh
cụ thể phân chia theo độ tuổi, giới tính, …; thu thập và tiền xử lý dữ liệu tại bệnh
viện YHCT Tuệ Tĩnh; tìm hiểu bài toán phân lớp trong khai phá dữ liệu, lựa chọn
thuật toán phù hợp (cây quyết định và thuật toán C4.5); Phân tích và đánh giá.
Cấu trúc của luận văn gồm 3 chương:
Chương I: Tổng quan về khai phá dữ liệu trong y khoa
Nội dung chương này bao gồm các phần chính sau:
- Giới thiệu về khai phá dữ liệu: Khái niệm khai phá dữ liệu; Quy trình và phương
pháp khai phá dữ liệu; Một số kỹ thuật khai phá dữ liệu thông dụng; Ứng dụng khai
phá dữ liệu trong y khoa; Tri thức và khai phá dữ liệu trong y khoa; Các nghiên cứu
trước đây về khai phá dữ liệu trong y khoa
Chương II: Khai phá dữ liệu bệnh án

Chương này giới thiệu cụ thể về dữ liệu được nghiên cứu và các phương
pháp khai phá dữ liệu, các phương pháp trích chọn đặc trưng cơ bản. Nội dung cụ
thể bao gồm: giới thiệu về dữ liệu thu thập được từ bệnh viện YHCT Tuệ Tĩnh; tìm
hiểu cây quyết định và thuật toán C4.5; ứng dụng cây quyết định và thuật toán C4.5
vào khai phá dữ liệu bệnh án
Chương III: Thử nghiệm và đánh giá
Quá trình thu thập dữ liệu tại Bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh:
Qua kho dữ liệu để rà soát hồ sơ bệnh án; phân tích cụ thể đặc điểm và các đặc
trưng của dữ liệu; Các kết quả thực nghiệm chẩn đoán bệnh từ dữ liệu thực tế sử

3

dụng cây quyết định và thuật toán C4.5; Phân tích và đánh giá các kết quả thực
nghiệm.

4

CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
TRONG Y KHOA
1.1. Giới thiệu về khai phá dữ liệu
1.1.1. Sự cần thiết phải khai phá dữ liệu (datamining)
Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ trên các
thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, .v.v.) không ngừng tăng lên. Sự tích
lũy dữ liệu này xảy ra với một tốc độ bùng nổ. Người ta ước đoán rằng lượng
thông tin trên toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó số lượng cũng
như kích cỡ của các cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chóng.
Nói một cách hình ảnh là chúng ta đang “ngập” trong dữ liệu nhưng lại “đói” tri
thức. Câu hỏi đặt ra là liệu chúng ta có thể khai thác được gì từ những “núi” dữ

liệu tưởng chừng như “bỏ đi” ấy không ?
“Necessity is the mother of invention” - Data Mining ra đời như một hướng
giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên . Khá nhiều định nghĩa về Data
Mining và sẽ được đề cập ở phần sau, tuy nhiên có thể tạm hiểu rằng Data Mining
như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho
dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào
đó.

1.1.2. Khai phá dữ liệu là gì
Định nghĩa: Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để
tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập
hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập
dữ liệu đó.
Khai phá dữ liệu là một bước trong bảy bước của quá trình KDD
(Knowleadge Discovery in Database) và KDD được xem như 7 quá trình khác
nhau theo thứ tự sau:

5

1. Làm sạch dữ liệu (data cleaning & preprocessing): loại bỏ nhiễu và các
dữ liệu không cần thiết.
2. Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành
những kho dữ liệu (data warehouse & data marts) sau khi đã làm sạch và tiền xử lý
(data cleaning & preprocessing).
3. Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ
liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá
trình này bao gồm các việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy
đủ (incomplete data), vv.
4. Chuyển đổi dữ liệu: các dữ liệu được chuyển đổi sang các dạng phù hợp

cho quá trình xử lý.
5. Khai phá dữ liệu (data mining): là một trong các bước quan trọng nhất,
trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ
liệu.
6. Ước lượng mẫu (knowledge evaluation): quá trình đánh giá các kết quả
tìm được thông qua các độ đo nào đó.

6

7. Biểu diễn tri thức (knowledge presentation): quá trình này sử dụng các kỹ
thuật để biểu diễn và thể hiện trực quan cho người dùng.

Hình 1.1: Các bước trong Data Mining & KĐ

1.1.3. Các bài toán chính của khai phá dữ liệu
Data Mining được chia nhỏ thành một số hướng chính như sau:

7

- Mô tả khái niệm (concept description); luật kết hợp (association rules);
phân lớp và dự đoán (classification & prediction); Phân cụm (clustering); khai
phá chuỗi (sequential/ temporal patterns).

1.1.4. Ứng dụng của khai phá dữ liệu
Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support);
điều trị y học (medical treatment): giúp tìm ra mối liên hệ giữa các triệu chứng lâm
sàng, chẩn đoán bệnh; text mining & Web mining; tin-sinh (bio-infomatics): tìm
kiếm, so sánh các hệ Gen và thông tin di truyền, tìm mối liên hệ giữa các hệ Gen

và chẩn đoán một số bệnh di truyền; tài chính và thị trường chứng khoán (finance
& stock market): để phân tích tình hình tài chính, phân tích đầu tư, phân tích cổ
phiếu; bảo hiểm (insurance); nhận dạng (patten recognition); thông tin kỹ thuật:
phân tích các sai hỏng, điều khiển và lập lịch trình; thông tin thương mại: phân tích
dữ liệu người dùng, phân tích dữ liệu marketing, phân tích đầu tư, phát hiện gian
lận.

1.2. Các nghiên cứu liên quan
1.2.1. Các dạng dữ liệu đã và đang được khai phá
Phân tích dữ liệu tài chính (financial data analysis); công nghiệp bán lẻ
(Retail Industry); công nghiệp viễn thông (telecommunication industry); phân tích
dữ liệu sinh học (Biological Data Analysis); phát hiện xâm nhập bất hợp pháp
(Intrusion Detection); phân tích dòng dữ liệu (Analysis of Stream data).

1.2.2. Các phương pháp đã khai phá dữ liệu trong y học trước đây
a. Nghiên cứu trong nước
Tác giả Đinh Thị Thu Hương nghiên cứu trên 123 người Việt Nam khỏe
mạnh trung niên với tuổi 51,2 ± 13,9 bằng phương pháp không xâm nhập Complior
thấy vận tốc sóng mạch cảnh đùi là 10,2 ± 1,6 m/s và tương quan thuận với tuổi r=

8

0,56 p<0,01; kết quả nghiên cứu tình hình tăng huyết áp của 605 đối tượng tuổi từ
40-69 tuổi tại phường Hương Xuân, thị xã Hương Trà năm 2013 cho thấy tỷ lệ mắc
tăng huyết áp chung trong độ tuổi từ 40-69 tuổi là 33,9%. Tỷ lệ tăng huyết áp theo
phân độ I là 21,1%, độ II là 7,6%, độ III là 5,1% .

b. Nghiên cứu nước ngoài
Hansen T.W. nghiên cứu ngẫu nhiên trên 1678 dân Đan Mạch tuổi từ 40 đến

70 tuổi nhận thấy rằng vận tốc sóng mạch động mạch chủ (AoPWV), một đo lường
của CĐM chủ, cung cấp thông tin dự báo vượt trội so với các yếu tố nguy cơ truyền
thống bao gồm tuổi tác, giới tính, HA, cholesterol, bệnh ĐTĐ, hút thuốc lá và
HATB 24 giờ; Boutouyrie P từ năm 2002 đã tiến hành nghiên cứu cắt dọc trên 1045
cá thể tăng huyết áp, khẳng định cứng động mạch đo bằng vận tốc sóng mạch cảnh
đùi là yếu tố dự báo độc lập cho biến cố bệnh động mạch vành nguyên phát trên
người tăng huyết áp.

1.2.3. Khai phá dữ liệu y học tại Việt Nam
Ứng dụng khai phá dữ liệu trong phân lớp bệnh nhân điều trị ngoại trú bảo
hiểm y tế tại bệnh viện Tiền Giang: ứng dụng kỹ thuật phân lớp để xây dựng cây
quyết định và các tập luật dự đoán các trường hợp sẽ được bảo hiểm y tế thanh
toán hay giám định lại và đánh giá kết quả (luận văn ThS. Nguyễn Thanh Sang,
Đại học Huế). Ngoài ra khai phá dữ liệu phát hiện gian lận trong bảo hiểm y tế: sử
dụng kỹ thuật khai phá dữ liệu để phát hiện các hành vi gian lận một cách tự động
dựa trên dấu hiệu bất thường so với dữ liệu trong quá khứ. (luận văn ThS. Lã Thúy
Hà, Học viện Công nghệ bưu chính viễn thông).

9

CHƯƠNG II: KHAI PHÁ DỮ LIỆU BỆNH ÁN
2.1. Khai phá dữ liệu y khoa
2.1.1. Giới thiệu về khai phá dữ liệu y khoa:
Tập dữ liệu y khoa
Cho một tập dữ liệu y khoa gồm A ={ T1,T2,T3…,Tn} là một tập thuộc tính
điều kiện (conditional) , và một thuộc tính chẩn đoán D (diagnosis). Trong đó các
thuộc tính có thể chuyển đổi, số hóa. D có các giá trị chẩn đoán.
Bài toán 1: Phân loại bệnh nhân dựa trên chuẩn đoán lâm sàng của chuyên
gia lâm sàng. Mỗi chuyên bác sĩ có thể có những tệp đặc tính khác nhau. Vì vậy để

không bỏ sót chẩn đoán bệnh nên kết hợp kinh nghiệm của nhiều chuyên gia càng
tốt.
Bài toán 2: Kết hợp với bài toán 1 cùng với việc dựa vào các kết quả cận
lâm sàng tiến hành thực nghiệm chẩn đoán bệnh nhân mới nhằm chuẩn hóa các tập
thuộc tính có chẩn đoán chính xác cao để các chuyên gia bác sĩ đưa ra kết luận về
trạng thái bệnh lý.
Bài toán 3: Sử dụng các kỹ thuật khai phá dữ liệu tạo ra các mô hình để
chẩn đoán bệnh. Xây dựng công cụ chuẩn đoán cận lâm sàng tự động gồm 2 bước
cơ bản:
Bước 1: Huấn luyện (tập dữ liệu sẽ được dùng để huấn luyện mô hình học
máy như mô hình Markov ẩn, mô hình mạng Baysian, mô hình cây quyết định
(trong luận văn này tác giả đã sử dụng kỹ thuật khai phai dữ liệu bằng cây quyết
định)
Bước 2: Sau khi được huấn luyện, thì mô hình học máy này sẽ được sử
dụng để chẩn đoán bệnh nhân mới. Kết quả chẩn đoán bệnh nhân mới này được
dùng để kiểm chứng mô hình cũng như tập con thuộc tính đã được lựa chọn trong
bài toán 1.

10

Các lời giải cho các bài toán khai phá tập dữ liệu y khoa:
Lời giải cho bài toán 1
Để chọn ra các tập con các thuộc tính người ta thường chọn theo kinh
nghiệm của chuyên gia.
Tham khảo ý kiến chuyên gia bác sĩ tại Bệnh viện Tuệ Tĩnh và các nghiên
cứu khoa học (y học chứng cớ và y học thực chứng tại bệnh viện ) chọn ra các thuộc
tính có đặc tính liên quan chẩn đoán:
Chọn thuộc tính tuôi (khoangtuoi) còn thông tin hành chính Họ và tên bệnh
nhân, địa chỉ thường trú, giới tính, tình trạng gia đình, tiền sử bệnh không có giá trị

trong chẩn đoán bệnh tăng huyết áp.
Triệu chứng lâm sàng: chọn thuộc tính huyết áp, nhức đầu, ù tai, mờ mắt,
giảm trí nhớ [theo kinh nghiệm của lâm sàng của chuyên gia bác sĩ tại bệnh viện
Tuệ Tĩnh].
Tình trạng đến khám hoặc nhập viện
Thuộc tính nhập viện được chọn: bệnh nhân tăng huyết áp nhập viện càng
muộn tỉ lệ bệnh mắc phải càng cao theo các cấp độ.
Đặc điểm kết quả của bài toán này: mang tính ngẫu nhiên.
Lời giải cho bài toán 2
Kết hợp với dữ liệu được mô tả ở bài toán 1 cùng với dữ liệu được mô tả ở
bài toàn 2 để các chuyên gia bác sĩ đưa ra kết luận trạng thái bệnh lý cụ thể như sau:
Cận lâm sàng
Xét nghiệm

11

- Chọn Hct, tiểu cầu còn xét nghiệm khác (bạch cầu, công thưc máu, …)
không có giá trị trong chẩn đoán bệnh nhân tăng huyết áp [theo kinh nghiệm của
lâm sàng của chuyên gia bác sĩ tại bệnh viện Tuệ Tĩnh].
Tình trạng đến khám hoặc nhập viện
Thuộc tính nhập viện được chọn: bệnh nhân tăng huyết áp nhập viện càng
muộn tỉ lệ bệnh mắc phải càng cao theo các cấp độ.

THA

Bảng 1: Phân độ THA theo Hội THA Việt Nam (2008) [8].

Phân độ

HATT (mmHg)

HATTr (mmHg)

Tối ưu

120

80

Bình thường

< 130

< 85

Bình thường cao

130 - 139

85 - 89

Độ 1

(nhẹ)

140 - 159

90 - 99

Độ 2

(trung bình)

160 - 179

100 - 109

Độ 3

(nặng)

> 180

> 110

> 140

< 90

Tâm thu
Lời giải cho bài toán 3

Sử dụng kỹ thuật khai phá dữ liệu bằng cây quyết định với thuật toán C4.5 để
tạo ra các luật và tiến hành chẩn đoán bệnh nhân mới.

2.1.2. Dữ liệu y khoa tại bệnh viện YHCT Tuệ Tĩnh
Các thuộc tính được lưu trữ trong bệnh án bao gồm:
Tập thuộc tính ban đầu: Khi bệnh nhân đến khám bệnh hoặc nhập viện
gồm có những thông tin sau:

Thông tin hành chính: Họ và tên bệnh nhân; địa chỉ thường trú; tuổi; giới
tính; tiền sử bệnh

12

Các triệu chứng lâm sàng, bao gồm:
Triệu chứng cơ năng (khai thác bệnh nhân bằng hỏi); Triệu chứng thực thể
(thăm khám); Dấu hiệu lâm sàng
Triệu chứng Cận lâm sàng: mục đích để đánh giá nguy cơ tim mạch, tổn
thương thận và tìm nguyên nhân
- Xét nghiệm máu: Ure, creatinin để đánh giá biến chứng suy thận,
Cholesterol, triglycerid, HDL- Cholesterol, LDL- Cholesterol, Glucoese máu,
HbA1C… để phát hiện các yếu tố nguy cơ của người bệnh tăng huyết áp.
- Xét nghiệm nước tiểu: Protein, hồng cầu trong nước tiểu.
- Điện tim: phát hiện dày thất trái, hở van hai lá do biến chứng suy tim trái.
- Siêu âm tim mạch: đánh giá chức năng tâm thu thất trái, tình trạng xơ vữa
mạch.

2.2. Khai phá dữ liệu bằng cây quyết định
2.2.1. Cây quyết định
Cây quyết định là một cấu trúc biễu diễn dưới dạng cây. Trong đó, mỗi node
trong (internal node) biễu diễn một thuộc tính, mỗi nhánh (branch) biễu diễn giá trị
có thể có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên
cùng của cây gọi là gốc (root).

13

Hình 2.1: Biểu diễn cây quyết định cơ bản

a. Xây dựng cây quyết định
Xây dựng cây; đánh giá cây; cắt tỉa cây.
Mã giả cho quá trình Xây dựng cây
Make Tree (Training Data T)
{
Partition(T)
}
Partition(Data S)
{ if (all points in S are in the same class) then
return for each attribute A do
evaluate splits on attribute A;
use best split found to partition S into S1,
S2,..., Sk Partition(S1) Partition(S2)
... Partition(Sk)
}

14

b. Tính chất của cây quyết định
- Khả năng sinh ra các quy tắc hiểu được; khả năng thực thi trong những lĩnh
vực hướng quy tắc; dễ dàng tính toán trong khi phân lớp; khả năng xử lý với cả
thuộc tính liên tục và thuộc tính rời rạc; thể hiện rõ ràng những thuộc tính tốt nhất;
quá trình xây dựng cây tương đối đơn giản.

2.2.2. Khai phá dữ liệu bằng cây quyết định
a. Thuật toán ID3
Thuật toán được mô tả đơn giản như sau:
Function induce_tree (tập_ví dụ, tập thuộc tính)
BEGIN

If mọi ví dụ trong tập_ví_vụ đều nằm cùng một lớp
then Return một nút lá được gán nhãn bởi lớp
đó
Else if tập thuộc tính là rỗng then
Return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong
tập_ví_dụ
Else
BEGIN
Chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại;
Xóa P ra khỏi tap_thuộc_tính;
Với mỗi giá trị V của P
Begin
Tạo một nhãn của cây gán nhãn V;

15

Đặt vào phan_vùngV các ví dụ trong tập_ví_dụ có giá trị
V tại thuộc tính P;
Gọi induce_tree (phân_vùngV, tập thuộc tính), gắn kết
quả vào nhánh V
End
END
END

b. Thuật toán C4.5
Mô tả thuật toán dưới dạng giả mã như sau:
Function xay_dung_cay(T)
{
1. <Tính toán tần xuất các giá trị trong các lớp của T>;

2. If mẫu khác lớp>Then <Trả về 1 nút lá>
Else <Tạo một nút quyết định N>;
3. For <Với mỗi thuộc tính A> Do <Tính giá trị Gain(A)>;
4. giá
trị Gain tốt nhất (lớn nhất). Gọi N.test là thuộc tính có Gain
lớn nhất>;
5. If <Nếu N.test là thuộc tính liên tục> Then cho phép tách của N.test>;
6. For <Với mỗi tập con T` được tách ra từ tập T> Do
(

T` được tách ra theo quy tắc:

16

- Nếu N.test là thuộc tính liên tục tách theo ngưỡng ở bước 5
- Nếu N.test là thuộc tính phân loại rời rạc tách theo các giá trị của thuộc
tính này.
)
7. { If <Kiểm tra, nếu T' rỗng>} Then
lá>;
Else
8. lại đối với hàm xay_dung_cay(T'), với tập T'>;
}
9.

nút N>; nút N>;
}
2.3. Khai phá dữ liệu y học bằng thuật toán cây quyết đinh C4.5
Trong luận văn này, học viên sử dụng mô hình cây quyết định C4.5 đã
được cài đặt trong thư viện WEKA [32]. Đầu vào là một file huyetapcao.arff của
khoảng 80 bệnh nhân đã được lưu trữ trong quá trình khám chữa bệnh huyết áp
cao từ tháng 1/2017 đến tháng 4/2017 tại bệnh viện Y Tuệ Tĩnh. Tập dữ liệu tại
bệnh viện Y Tuệ Tĩnh được phần hoạch thành 10 phần. Trong đó 9 phần dùng để
huấn luyện mô hình cây quyết định một phần dùng để kiềm thử. Quá trình này
lặp lại cho cả 9 phần còn lại. Sau đó tính kết quả trung bình. Từ dữ liệu huấn
luyện, thuật toán C4.5 sinh ra mô hình cây quyết định, và tạo ra các luật để dự
đoán bệnh cho một bệnh nhân mới. Kết quả thử nghiệm được trình bầy trong
chương 3.

17

Bảng 2: Phân tầng nguy cơ tăng huyết áp
Những yếu tố

HA bình

nguy cơ và

thường cao

tiền sử bệnh

(mmHg)

Độ 1

Độ 2

Độ 3

HATT 140-159

HATT 160-179

HATT > 180

hoặc HATTr

hoặc HATTr

hoặc HATTr >

90-99 (mmHg)

100-109

110 (mmHg)

(mmHg)
Nguy cơ thấp

Không có
YTNC

Nguy cơ trung

Nguy cơ cao

bình

Có 1-2 YTNC

Có ≥ 3 YTNC

Nguy cơ thấp

Nguy cơ trung

Nguy cơ trung

Nguy cơ cao

bình

bình

Nguy cơ thấp

Nguy cơ thấp

Nguy cơ cao

Nguy cơ cao

đến trung bình

đến trung bình

Nguy cơ cao

Nguy cơ cao

đến cao
Tổn thương cơ

Nguy cơ trung

quan đích,

bình đến cao

Nguy cơ cao

đến rất cao

CKD giai đoạn
3 hoặc ĐTĐ
BTM có triệu

Nguy cơ rất cao

Nguy cơ rất cao

Nguy cơ rất cao

Nguy cơ rất cao

chứng CKD
giai đoạn ≥ 4
kèm theo hoặc
ĐTĐ có tổn
thương cơ quan
đích/ nhiều
YTNC

Dựa trên bảng 3, có 5 nhãn lớp (class) để phân loại các mức độ huyết áp
cao khác nhau, bao gồm: huyết áp bình thường, huyết áp bình thường cao, huyết
áp cao độ 1, huyết áp cao độ 2, huyết áp cao độ 3. Theo đó huyết áp cao độ 3 là
có nguy cơ biến chứng do huyết áp cao đem lại là rất cao. Cây quyết định sau khi
được huấn luyện từ các mẫu đo các triệu chứng huyết áp (HATT,HATTr, v.v...)

18

cùng với nhãn theo phương pháp học có giám sát (supervised learning) có được
sử dụng để chẩn đoán bệnh nhân mới sẽ đưa ra kết quả là 1 trong 5 lớp trên.

19

CHƯƠNG III: THỬ NGHIỆM VÀ ĐÁNH GIÁ
3.1. Quy trình xây dựng hệ thống
3.1.1. Tìm hiểu nghiệp vụ bài toán

Để xây dựng hệ hỗ trợ chẩn đoán thành công cần phải hiểu biết các kiến thức
y học đặc biệt là lĩnh vực y học có liên quan thì mới đáp ứng chuyên môn điều trị,
vì “ngành y là một ngành chuyên sâu, phục vụ sức khỏe cho nhân dân. Khi nghiên
cứu khoa học trong lĩnh vực này, đòi hỏi người nghiên cứu phải hiểu và ít nhất có
kiến thức y học hoặc kiến thức càng sâu thì kết quả nghiên cứu càng đạt hiệu quả”.

3.1.2. Tập dữ liệu
a. Quá trình thu thập hồ sơ, bệnh án
Trong luận văn này, được sự cho phép của lãnh đạo Bệnh viên Y Tuệ Tính,
học viên được tiếp cận các hồ sơ bệnh án của những bệnh nhân > = 40 tuổi có bệnh
tăng huyết áp theo tiêu chuẩn WHO 1997 và theo Bộ y tế Việt Nam ban hành lưu
trữ tại kho lưu trữ hồ sơ bệnh án tại bệnh viện YHCT Tuệ Tĩnh.
Các bệnh án được lựa chọn trong thực nghiệm này được chọn theo
kinh nghiệm chuyên gia và theo các gợi ý của các chuyên gia Bác sĩ, Điều
dưỡng tư vấn những thuộc tính nào có liên quan đến bệnh nhân có triệu chứng
bệnh tăng huyết áp vào sốc . Ngoài ra tham khảo thêm tài liệu có liên quan bệnh
tăng huyết áp. Sau khi thu thập được HSBA, học viên tiến hành các bước sau:
Bước 1: Hoàn thành các thủ tục mượn HSBA theo đúng quy định.
Bước 2: Xuất dữ liệu HSBA ra file Excel để dễ theo dõi, quan sát
Bước 3: Xử lý các dữ liệu dư thừa hoặc nhiễu (tin lọc dữ liệu). Tại bước
này học viên cũng tham khảo thêm các góp ý của các chuyên gia.
Bước 4: Chuyển đổi thành các dạng dữ liệu thích hợp (ARFF) để thuật
toán C4.5 trong thư viện WEKA có thể hiểu được.

20

b. Các thuộc tính của dữ liệu đầu vào
- Thuộc tính 1: Gồm có 4 nhóm tuổi được định nghĩa theo khoảng tuổi
(khoangtuoi) như sau:

+ Từ 40 đến 50 tuổi: có giá trị là 6
+ Từ 51 đến 60 tuổi: có giá trị là 8
+ Từ 61 đến 70 tuổi : có giá trị là 9
+ Từ 71 tuổi trở lên: có giá trị là 10
- Thuộc tính 2: nhập viện(nhapvien)
+ Nhập viện ngày thứ 1 đến 2 của bệnh sớm : 0
+ Nhập viện ngày thứ 3 trở đi của bệnh trễ: 1
- Thuộc tính 3: Huyết áp (HATT), tùy theo giá trị là kết quả của phép đo
- Thuộc tính 4: Dung tích hồng cầu (HCT)
+ Bình thường bt: 0
+ Cao vừa CV: 1
+ Quá cao: 2
- Thuộc tính 5: Cholesterol toàn phần
- Thuộc tính 6: Axit Uric máu- Creatimin máu (kết hợp đánh giá mức lọc cầu
thận)
- Thuộc tính 7: tổng phân tích nước tiểu
- Thuộc tính 8: điện tâm đồ
- Thuộc tính 9: nhãn của dữ liệu
Gồm 5 nhãn lớp là kết quả của cây quyết định:
+ Huyết áp bình thường: 0
+ Huyết áp bình thường cao: 1

21

+ Huyết áp cao độ 1: 2
+ Huyết áp cao độ 2: 3
+ Huyết áp cao độ 3: 4
@relation huyet_ap_cao
@attribute 'Do tuoi' real

@attribute 'nhap vien' real
@attribute 'Huyet ap' real
@attribute 'Dung tich hong cau' real
@attribute 'cholesterol toan phan' real
@attribute 'Axit uric mau' real
@attribute 'phân tich nuoc tieu' real
@attribute 'Dien tam do' real
@attribute

'class'

{huyet_ap_binh_thuong,

huyet_ap_binh_thuong_cao,

huyet_ap_cao_do_1, huyet_ap_cao_do_2, huyet_ap_cao_do_3}

Bảng 3: Ví dụ về một số dữ liệu đầu vào
Ngày

Độ

Huyet

Dung

Cholesterrol

Axit

phân tich

Dien

nhập

tuổi

ap

tích

toàn phần

uric

nuoc tieu

tam do

viện

hồng

Kết luận

mau

cầu

1

10

154

0.98

71

33.6

0.987

36

huyet_ap_cao_do_3

1

10

159

0.99

85

34.9

0.957

38

huyet_ap_cao_do_3

0

9

124

0.9

61

33.6

0.89

32

huyet_ap_cao_do_2

1

8

127

0.81

61

33.6

0.927

32

huyet_ap_cao_do_2

1

8

111

0.68

58

31.6

0.77

31

huyet_ap_cao_do_1

0

8

114

0.68

58

30.6

0.78

31

huyet_ap_cao_do_1

1

8

98

0.68

55

26.6

0.672

28

huyet_ap_binh_thuong_cao

1

8

108

0.679

56

26.6

0.727

29

huyet_ap_binh_thuong_cao

22

0

6

67

0.41

46

21.9

0.551

23

huyet_ap_binh_thuong

1

6

77

0.41

40

21.1

0.485

22

huyet_ap_binh_thuong

3.1.3. Xây dựng hệ thống
Bước 1: Khởi động phần mềm. Hệ thống sẽ hiển thị giao diện như hình

Hình 3.1: Giao diện chính của hệ thống chương trình

Bước 2: Mở file, lấy dữ liệu đã được xử lý

Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (tt)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về