Tải bản đầy đủ (.pdf) (60 trang)

Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (LV thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.31 MB, 60 trang )

i

MỤC LỤC
MỤC LỤC ...................................................................................................................i
DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................ iii
DANH MỤC HÌNH VẼ ......................................................................................... iiv
DANH MỤC BẢNG BIỂU .......................................................................................v
1. Sự cần thiết của đề tài ...........................................................................................1
2. Tính thực tiễn của đề tài .......................................................................................2
3. Mục đích nghiên cứu .............................................................................................3
4. Đối tượng và phạm vi nghiên cứu ........................................................................3
5. Phương pháp nghiên cứu......................................................................................4
6. Kết cấu luận văn ....................................................................................................4
CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ......................................5
TRONG Y KHOA .....................................................................................................5
1.1. Giới thiệu về khai phá dữ liệu ...........................................................................5
1.1.1. Sự cần thiết phải khai phá dữ liệu (datamining)..........................................5
1.1.2. Khai phá dữ liệu là gì ......................................................................................5
1.1.3. Các bài toán chính của khai phá dữ liệu .......................................................7
1.1.4. Ứng dụng của khai phá dữ liệu ......................................................................8
1.2. Các nghiên cứu liên quan ..................................................................................9
1.2.1. Các dạng dữ liệu đã và đang được khai phá ................................................9
1.2.2. Các phương pháp đã khai phá dữ liệu trong y học trước đây ..................10
1.2.3. Khai phá dữ liệu y học tại Việt Nam ...........................................................11
CHƯƠNG II: KHAI PHÁ DỮ LIỆU BỆNH ÁN .................................................13
2.1. Khai phá dữ liệu y khoa...................................................................................13
2.1.1. Giới thiệu về khai phá dữ liệu y khoa: ........................................................13
2.1.2. Dữ liệu y khoa tại bệnh viện YHCT Tuệ Tĩnh ...........................................16
2.2.Khai phá dữ liệu bằng cây quyết định ............................................................19
2.2.1.Cây quyết định................................................................................................19



ii

2.2.2.Khai phá dữ liệu bằng cây quyết định .........................................................24
2.3. Khai phá dữ liệu y học bằng thuật toán cây quyết đinh C4.5 ......................34
CHƯƠNG III: THỬ NGHIỆM VÀ ĐÁNH GIÁ .................................................36
3.1. Quy trình xây dựng hệ thống ..........................................................................36
3.1.1. Tìm hiểu nghiệp vụ bài toán.........................................................................36
3.1.2. Tập dữ liệu .....................................................................................................36
3.1.3. Xây dựng hệ thống ........................................................................................39
3.1.4. Kết quả và đánh giá ......................................................................................41
3.2. Kết luận .............................................................................................................45
KẾT LUẬN ..............................................................................................................47
TÀI LIỆU THAM KHẢO ......................................................................................49


iii

DANH MỤC CÁC TỪ VIẾT TẮT
CLS

Cận lâm sàng

CSDL

Cơ sở dữ liệu.

DL

Dữ liệu.


DM

Data Mining

HSBA

Hồ sơ bệnh án

ICD10

Danh mục bệnh quốc tế

KDD

Knowledge Discovery in Databaes.

KPDL

Khai phá dữ liệu

LS

Lâm sàng.

WHO

Tổ chức Y tế thế giới.

YHCT


Y học cổ truyền

CTDL

Canh tác dữ liệu.


iv

DANH MỤC HÌNH VẼ
Hình 1.1: Các bước trong Data Mining & KĐ [3] ......................................................7
Hình 2.1: Biểu diễn cây quyết định cơ bản ...............................................................40
Hình 3.1: Giao diện chính của hệ thống chương trình ..............................................40
Hình 3.2: Lấy dữ liệu đã được xử lý .........................................................................40
Hình 3.3: Hiển thị dữ liệu chạy chương trình ...........................................................41
Hình 3.4: Kết quả thử nghiệm với các bệnh án huyết áp cao ...................................45


v

DANH MỤC BẢNG BIỂU
Bảng 1: Phân độ THA theo Hội THA Việt Nam (2008) [8]. ....................................16
Bảng 2: Phân tầng nguy cơ tăng huyết áp .................................................................34
Bảng 3: Tệp dữ liệu đầu vào .....................................................................................39
Bảng 4: Kết quả chẩn đoán huyết áp cao ..................................................................44


1


LỜI MỞ ĐẦU
1. Sự cần thiết của đề tài
Tăng huyết áp ngày nay vẫn đang là vấn đề thời sự vì sự gia tăng nhanh chóng
trong cộng đồng. Tỷ lệ tăng huyết áp rất khác nhau. Ở những nghiên cứu trên những
bệnh nhân cao tuổi thì tỷ lề tăng huyết áp cao hơn rất nhiều so với những nhóm
khác. Theo ước tính của các nhà khoa học Mỹ tỷ lệ tăng huyết áp trên thế giới năm
2000 là 26,4% (tương đương 972 triệu người, riêng các nước đang phát triển chiếm
639 triệu) và sẽ tăng lên 29,2% vào năm 2025 với tổng số người mắc bệnh tăng
huyết áp trên toàn thế giới khoảng 1,56 tỷ người mà 3/4 trong số đó là người thuộc
nước đang phát triển [10].
Các số liệu điều tra thống kê tăng huyết áp Việt Nam cho thấy tỷ lệ tăng
huyết áp năm 1960 chiếm 1,6% dân số, 1982 là 1,9%, năm 1992 tăng lên 11,79%
dân số, 2002 ở Miền Bắc là 16,3%, riêng thành phố Hà Nội có tỷ lệ 23,2%, còn năm
2004 Thành phố Hồ Chí Minh là 20,5% [1] và năm 2007 tại Thừa thiên -Huế là
22,77% [2].
Tăng huyết áp và các yếu tố nguy cơ (nhất là các yếu tố lối sống, vốn có thể
thay đổi được) đã trở thành vấn đề cần giải quyết không những chỉ bằng thuốc điều
trị kiểm soát huyết áp mà cần hàng loạt các biện pháp giáo dục truyền thông sức
khỏe nhằm vào các yếu tố nguy cơ về lối sống có khả năng thay đổi theo chiều
hướng tích cực có lợi cho bệnh nhân tăng huyết áp.
Tăng huyết áp là một tình trạng phổ biến, trong đó áp lực của máu đối với
thành động mạch chủ cao, và cuối cùng có thể gây ra vấn đề sức khỏe, chằng hạn
như bệnh tim. Huyết áp được xác định bằng số lượng máu tim bơm và số lượng đề
kháng lực với dòng chảy của máu trong động mạch. Tim bơm nhiều máu hơn và
động mạch hẹp, huyết áp sẽ cao hơn. Có thể bị tăng huyết áp trong nhiều năm mà
không hề có bất kỳ triệu chứng . Không kiểm soát được huyết áp cao sẽ tăng nguy
cơ các vấn đề sức khỏe nghiêm trọng, bao gồm cơn đau tim và đột quỵ. Tăng huyết


2


áp thường phát triển trong nhiều năm, và cuối cùng ảnh hưởng đến gần như tất cả
mọi cơ quan.
Công việc chẩn đoán bệnh tăng huyết áp tương đối dễ dàng dựa vào trị số đo
được sau khi đo huyết áp đúng quy trình. Ngưỡng chẩn đoán tăng huyết áp thay đổi
tùy theo từng cách đo huyết áp và phác đồ điều trị bệnh tăng huyết áp của Bộ Y tế
Việt Nam nhưng để dự đoán một bệnh nhân tăng huyết áp thì còn nhiều khó khăn
trong thực tế lâm sàng. Do vậy vẫn còn bệnh nhân tử vong cao, cũng như chi phí
điều trị cao cho những bệnh nhân vào sốc, đây là bài toán nan giải cho Y tế cộng
đồng nói chung và tại bệnh viện Tuệ Tĩnh nói riêng.
2. Tính thực tiễn của đề tài
Y học là một lĩnh vực khoa học ứng dụng liên quan đến nghệ thuật chữa
bệnh, bao gồm nhiều phương pháp chăm sóc sức khỏe nhằm duy trì, hồi phục cơ thể
từ việc phòng ngừa và chữa bệnh. Y học hiện đại ứng dụng các kiến thức khoa học
sức khỏe, nghiên cứu về y sinh học và công nghệ y học để chẩn đoán và chữa trị
bệnh tật thông qua thuốc men, phẫu thuật hoặc bằng nhiều phương pháp trị liệu
phong phú khác. Là môn khoa học không ngừng phát triển, nhằm tiếp cận và cập
nhật hóa thông tin y học chứng cớ và y học thực chứng từ những cơ sở dữ liệu, để
nâng cao chất lượng chăm sóc sức khỏe cho nhân dân là điều không thể là điều
không thể thiếu trong thực hành lâm sàng.
Ngày nay, với sự phát triển vượt bậc của công nghệ thông tin, các ứng dụng
công nghệ thông tin đã góp phần thay đổi cuộc sống của con người, hỗ trợ chúng ta
trong hầu như tất cả các lĩnh vực: kinh tế, xã hội, giáo dục, y tế, khoa học, … nó đã
trở thành một phần không thể thiếu được trong cuộc sống hàng ngày của con người.
Tuy nhiên, song hành cùng sự phát triển này là sự gai tăng bùng nổ của dữ liệu.
Khai phá dữ liệu là một trong những lĩnh vực đang phát triển nhanh chóng và đã
được ứng dụng trong nhiều lĩnh vực khác nhau. Những lĩnh vực ứng dụng tiêu biểu
của khai phá dữ liệu là trong kinh doanh thương mại, khoa học kĩ thuật. Trong
những lĩnh vực ứng dụng đó, y học là một trong những lĩnh vực mà khai phá dữ liệu



3

đã có những đóng góp đáng kể và trở thành một trong những giải pháp cho nhiều
vấn đề y học. Nhiều hệ thống phát hiện tri thức y học đã được phát triển và thu được
rất nhiều lợi ích. Khai phá dữ liệu giúp tìm ra manh mối liên hệ giữa các triệu chứng
lâm sàng, chẩn đoán bệnh. Tuy nhiên khai phá dữ liệu trong lĩnh vực y khoa ở nước
ta còn rất ít, gặp nhiều khó khăn, do hiện nay nhiều bệnh viện trên cả nước chưa có
bệnh án điện tử. Việc khai phá trong lĩnh vực này thực sự mang lại nhiều ý nghĩa
cho y học chứng cớ và y học thực chứng để hỗ trợ cho các bác sĩ, chẩn đoán bệnh
sớm và điều trị bệnh có hiệu quả, giảm bớt tử vong cũng như chi phí điều trị, đây là
một nhu cầu thiết thực trong các bệnh viện.
Từ những lý do trên và xu hướng tất yếu luận văn chọn đề tài “Khai phá dữ
liệu hồ sơ bệnh nhân ứng dụng tại bệnh viện YHCT Tuệ Tĩnh” để nghiên cứu cho
luận văn thạc sĩ của mình.
3. Mục đích nghiên cứu
- Tìm ra các quy luật từ dữ liệu thực tế nhằm chẩn đoán một số bệnh thường
gặp tại bệnh viện YHCT Tuệ Tĩnh (Tăng huyết áp, Rối loạn chức năng tiền đình).
- Xây dựng các thuật toán hỗ trợ chẩn đoán một số bệnh thường gặp tại Bệnh
viện YHCT Tuệ Tĩnh.
- Ứng dụng các thuật toán vào công việc chẩn đoán bệnh tại bệnh viện
YHCT Tuệ Tĩnh.
4. Đối tượng và phạm vi nghiên cứu
Các hồ sơ bệnh nhân: Tăng huyết áp, rối loạn chức năng tiền đình tại bệnh
viện YHCT Tuệ Tĩnh. Phân cụm các đối tượng nghiên cứu dựa theo các giai đoạn
của bệnh nhân. Chia nhóm các bệnh nhân thành các nhóm dựa theo giai đoạn phát
triển của bệnh: bệnh nhân đủ tiêu chuẩn chẩn đoán xác định, bệnh nhân hướng tới
chẩn đoán xác định.



4

5. Phương pháp nghiên cứu
- Tìm hiểu nghiệp vụ y tế liên quan đến một số bệnh cụ thể phân chia theo độ
tuổi, giới tính, …
- Thu thập và tiền xử lý dữ liệu tại bệnh viện YHCT Tuệ Tĩnh.
- Tìm hiểu bài toán phân lớp trong khai phá dữ liệu, lựa chọn thuật toán phù
hợp (cây quyết định và thuật toán C4.5).
- Phân tích và đánh giá.
6. Kết cấu luận văn
Luận văn gồm 3 chương: ngoài phần mở đầu, tham khảo, phụ lục.
- Chương I: Tổng quan về khai phá dữ liệu trong y khoa
- Chương II: Khai phá dữ liệu bệnh án
- Chương III: Thử nghiệm và đánh giá


5

CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
TRONG Y KHOA
1.1. Giới thiệu về khai phá dữ liệu
1.1.1. Sự cần thiết phải khai phá dữ liệu (datamining)
Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ trên các
thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, .v.v.) không ngừng tăng lên. Sự tích
lũy dữ liệu này xảy ra với một tốc độ bùng nổ. Người ta ước đoán rằng lượng
thông tin trên toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó số lượng cũng
như kích cỡ của các cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chóng.
Nói một cách hình ảnh là chúng ta đang “ngập” trong dữ liệu nhưng lại “đói” tri
thức. Câu hỏi đặt ra là liệu chúng ta có thể khai thác được gì từ những “núi” dữ
liệu tưởng chừng như “bỏ đi” ấy không ?

“Necessity is the mother of invention” - Data Mining ra đời như một hướng
giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên . Khá nhiều định nghĩa về Data
Mining và sẽ được đề cập ở phần sau, tuy nhiên có thể tạm hiểu rằng Data Mining
như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho
dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào
đó.

1.1.2. Khai phá dữ liệu là gì
Khai phá dữ liệu (data mining) được định nghĩa như là một quá trình chắt
lọc hay khai phá tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng là
là việc khai thác vàng từ đá và cát, Data mining được ví như công việc "đãi cát tìm
vàng" trong một tập hợp lớn các dữ liệu cho trước. Thuật ngữ Data mining ám chỉ
việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô. Có
nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ Data mining như


6

Knowledge Mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức),
data/pattern analysis (phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu),
data dredging(nạo vét dữ liệu),...[11].
Định nghĩa: Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để
tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập
hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập
dữ liệu đó.
Khai phá dữ liệu là một bước trong bảy bước của quá trình KDD
(Knowleadge Discovery in Database) và KDD được xem như 7 quá trình khác
nhau theo thứ tự sau:
1. Làm sạch dữ liệu (data cleaning & preprocessing): loại bỏ nhiễu và các
dữ liệu không cần thiết.

2. Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành
những kho dữ liệu (data warehouse & data marts) sau khi đã làm sạch và tiền xử lý
(data cleaning & preprocessing).
3. Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ
liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá
trình này bao gồm các việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy
đủ (incomplete data), vv.
4. Chuyển đổi dữ liệu: các dữ liệu được chuyển đổi sang các dạng phù hợp
cho quá trình xử lý.
5. Khai phá dữ liệu (data mining): là một trong các bước quan trọng nhất,
trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ
liệu.
6. Ước lượng mẫu (knowledge evaluation): quá trình đánh giá các kết quả
tìm được thông qua các độ đo nào đó.


7

7. Biểu diễn tri thức (knowledge presentation): quá trình này sử dụng các kỹ
thuật để biểu diễn và thể hiện trực quan cho người dùng.

Hình 1.1: Các bước trong Data Mining & KĐ [3]

1.1.3. Các bài toán chính của khai phá dữ liệu
Data Mining được chia nhỏ thành một số hướng chính như sau:


8

- Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp và tóm

tắt khái niệm. Ví dụ: tóm tắt văn bản.
- Luật kết hợp (association rules): là dạng luật biểu diễn tri thức ở dạng khá
đơn giản. Ví dụ: 60% nam giới vào siêu thị nếu mua bia thì có tới 80% trong số
họ sẽ mua thêm thịt bò khô. Được ứng dụng nhiều trong lĩnh vực kinh doanh, y
học, tài chính,…. [12]
- Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào
một trong những lớp đã biết trước. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời
tiết. Hướng tiếp cận này thường sử dụng một số kĩ thuật của học máy (machine
learning) như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural
network), v.v.. [13]
- Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng
như tên của cụm chưa được biết trước). [14]
- Khai phá chuỗi (sequential/ temporal patterns): tương tự như khai phá
luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này ứng
dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự
báo cao. [15]

1.1.4. Ứng dụng của khai phá dữ liệu
Data Mining thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu và
phát triển nhờ vào những ứng dụng thực tiễn của nó. Chúng ta có thể liệt kê ra đây
một số ứng dụng điển hình: phân tích dữ liệu và hỗ trợ ra quyết định (data analysis
& decision support); điều trị y học (medical treatment): giúp tìm ra mối liên hệ
giữa các triệu chứng lâm sàng, chẩn đoán bệnh; text mining & Web mining; tinsinh (bio-infomatics): tìm kiếm, so sánh các hệ Gen và thông tin di truyền, tìm mối
liên hệ giữa các hệ Gen và chẩn đoán một số bệnh di truyền; tài chính và thị trường
chứng khoán (finance & stock market): để phân tích tình hình tài chính, phân tích


9

đầu tư, phân tích cổ phiếu; bảo hiểm (insurance); nhận dạng (patten recognition);

thông tin kỹ thuật: phân tích các sai hỏng, điều khiển và lập lịch trình; thông tin
thương mại: phân tích dữ liệu người dùng, phân tích dữ liệu marketing, phân tích
đầu tư, phát hiện gian lận.

1.2. Các nghiên cứu liên quan
1.2.1. Các dạng dữ liệu đã và đang được khai phá
Phân tích dữ liệu tài chính (financial data analysis): Dữ liệu tài chính trong
ngân hàng và trong ngành tài chính nói chung thường đáng tin cậy và có chất
lượng cao, tạo điều kiện cho khai phá dữ liệu (dự đoán khả năng vay và thanh toán
của khách hàng, phân tích hành vi khách hàng, phân loại và phân nhóm khách hàng
mục tiêu cho tiếp thị tài chính, phát hiện các hoạt động rửa tiền và tội phạm tài
chính khác). [16]; công nghiệp bán lẻ (Retail Industry): nhằm xây dựng mô hình
giúp xác định xu hướng mua hàng của khách hàng, giúp doanh nghiệp cải thiện
chất lượng sản phẩm dịch vụ nhằm nâng cao sự hài lòng của khách hàng và giữ
chân khách hàng tốt (khai phá dữ liệu trên kho dữ liệu khách hàng, phân tích đa
chiều trên kho dữ liệu khách hàng về doanh số bán hàng, phân tích hiệu quả của
các chiến dịch bán hàng, quản trị mối quan hệ khách hàng, giới thiệu và tư vấn sản
phẩm phù hợp cho khách hàng). [17]; công nghiệp viễn thông (telecommunication
industry): giúp xác định các mô hình viễn thông, phát hiện các hoạt động gian lận
trong viễn thông, sử dụng tốt hơn nguồn tài nguyên và cải thiện chất lượng dịch vụ
viễn thông: phân tích dữ liệu đa chiều viễn thông, xây dựng các mô hình phát hiện
gian lận, phát hiện bất thường trong giao dịch viễn thông, phân tích hành vi sử
dụng dịch vụ viễn thông của khách hàng, sử dụng các công cụ trực quan trong
phân tích dữ liệu viễn thông. [18]; phân tích dữ liệu sinh học (Biological Data
Analysis): lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ sở dữ liệu Gen; xây
dựng mô hình khai phá các mạng di truyền và cấu trúc của Gen, protein; xây dựng
các công cụ trực quan trong phân tích dữ liệu di truyền. [19]; phát hiện xâm nhập
bất hợp pháp (Intrusion Detection): phát triển các thuật toán khai phá dữ liệu để



10

phát hiện xâm nhập; phân tích kết hợp, tương quan và khác biệt để phát hiện xâm
nhập; phân tích dòng dữ liệu (Analysis of Stream data) để phát hiện bất thường
(abnormal detection). [20]

1.2.2. Các phương pháp đã khai phá dữ liệu trong y học trước đây
a. Nghiên cứu trong nước
Tác giả Đinh Thị Thu Hương nghiên cứu trên 123 người Việt Nam khỏe
mạnh trung niên với tuổi 51,2 ± 13,9 bằng phương pháp không xâm nhập Complior
thấy vận tốc sóng mạch cảnh đùi là 10,2 ± 1,6 m/s và tương quan thuận với tuổi r=
0,56 p<0,01 [4].
Kết quả nghiên cứu tình hình tăng huyết áp của 605 đối tượng tuổi từ 40-69
tuổi tại phường Hương Xuân, thị xã Hương Trà năm 2013 cho thấy tỷ lệ mắc tăng
huyết áp chung trong độ tuổi từ 40-69 tuổi là 33,9%. Tỷ lệ tăng huyết áp theo phân
độ I là 21,1%, độ II là 7,6%, độ III là 5,1% . [5]

b. Nghiên cứu nước ngoài
Hansen T.W. nghiên cứu ngẫu nhiên trên 1678 dân Đan Mạch tuổi từ 40 đến
70 tuổi nhận thấy rằng vận tốc sóng mạch động mạch chủ (AoPWV), một đo lường
của CĐM chủ, cung cấp thông tin dự báo vượt trội so với các yếu tố nguy cơ truyền
thống bao gồm tuổi tác, giới tính, HA, cholesterol, bệnh ĐTĐ, hút thuốc lá và
HATB 24 giờ [21].
Boutouyrie P từ năm 2002 đã tiến hành nghiên cứu cắt dọc trên 1045 cá thể
tăng huyết áp, khẳng định cứng động mạch đo bằng vận tốc sóng mạch cảnh đùi là
yếu tố dự báo độc lập cho biến cố bệnh động mạch vành nguyên phát trên người
tăng huyết áp [22].
Park Jin-Shik nghiên cứu đánh giá mối quan hệ cứng động mạch chủ bằng đo
vận tốc sóng mạch động mạch chủ xâm nhập với bệnh động mạch vành từ Hàn



11

Quốc trên bệnh nhân tuổi 61.9±9.43 cho thấy tổn thương 1,2,3 nhánh động mạch
vành với tốc độ sóng mạch lần lượt là 9,57; 10,11 và 11,89 (m/s) [23].
Rhee M nghiên cứu trên bệnh động mạch vành tuổi trung bình 59±7 nhận thấy
tương quan vận tốc sóng mạch tim - động mạch đùi không xâm nhập với điểm Gensini
là r = 0,324, p < 0,001 [24].
Hope S.A. nghiên cứu trên bệnh nhân bệnh ĐMV tuổi 59±14 tại Úc cho thấy
vận tốc sóng mạch cảnh - quay xâm nhập tương quan với điểm tổn thương động mạch
vành Gensini bổ sung r= 0,55, p< 0,001[25].
Nghiên cứu của Ahmed Yahya Alarhabi và cs tiến hành đánh giá cứng động
mạch bằng vận tốc sóng mạch không xâm nhập cảnh đùi trên bệnh nhân B.ĐMV
cũng cho thấy có sự khác biệt giữa bệnh và chứng 11,13 ± 0,91 vs 8,14 ± 1,25 m⁄s,
P< 0,001 [26].
Marcin C đánh giá không xâm nhập AoPWV cũng cho kết quả giữa bệnh và
không bệnh động mạch vành là 13,0 so với 10,5 m/s, p < 0,01 với nhóm bệnh tuổi
trung bình 63,5 ± 19,7 [27].

1.2.3. Khai phá dữ liệu y học tại Việt Nam
Ứng dụng công nghệ thông tin trong y tế là nhu cầu cấp thiết và được Bộ Y
tế quan tâm để phát triển. Tuy nhiên đến thời điểm này, hệ thống hỗ trợ y khoa
không nhiều và chưa phát huy được hiệu quả. Nguyên nhân không phải do các y,
bác sĩ thiếu trình độ về ứng dụng hay máy móc kém mà do chưa có một hệ thống
phù hợp. Bên cạnh đó việc ứng dụng khai phá dữ liệu trong phân lớp bệnh nhân
điều trị ngoại trú bảo hiểm y tế tại bệnh viện Tiền Giang: ứng dụng kỹ thuật phân
lớp để xây dựng cây quyết định và các tập luật dự đoán các trường hợp sẽ được
bảo hiểm y tế thanh toán hay giám định lại và đánh giá kết quả (luận văn ThS.
Nguyễn Thanh Sang, Đại học Huế [6]). Ngoài ra khai phá dữ liệu phát hiện gian
lận trong bảo hiểm y tế: sử dụng kỹ thuật khai phá dữ liệu để phát hiện các hành vi



12

gian lận một cách tự động dựa trên dấu hiệu bất thường so với dữ liệu trong quá
khứ. (luận văn ThS. Lã Thúy Hà, Học viện Công nghệ bưu chính viễn thông [7] ).


13

CHƯƠNG II: KHAI PHÁ DỮ LIỆU BỆNH ÁN
2.1. Khai phá dữ liệu y khoa
2.1.1. Giới thiệu về khai phá dữ liệu y khoa:
Triệu chứng lâm sàng và xét nghiệm là đa dạng. Do đó việc chọn thuộc tính
khai phá không đúng hoặc thiếu hoặc dư thừa dẫn đến các luật dư thừa vô nghĩa,
sinh ra các mô hình chẩn đoán sai. Do đó để chọn thuộc tính khai phá chính xác có
liên quan, việc sử dụng tri thức chuyên gia bác sĩ, điều dưỡng là mục tiêu chính
của canh tác dữ liệu y khoa. Tri thức sử dụng của diều dưỡng, bác sĩ là:
Kiến thức chuyên môn: Các điều dưỡng và bác sĩ đã được đào tạo chuyên
sâu về lĩnh vực chuyên môn chẩn đoán và điều trị bệnh cho bệnh nhân, do đó
những triệu chứng lâm sàng và xét nghiệm đã theo tiêu chẩn nhất định nào đó.
Trong y khoa gọi là xét nghiệm thường quy, triệu chứng lâm sàng điển hình, phát
đồ điều trị cơ bản.
Kinh nghiệm: Ngoài kiến thức chuyên môn đã được đào tạo. Với thời gian
lâu năm điều trị bệnh, giúp cho các bác sĩ, điều dưỡng có kinh nghiệm. Do đó các
xét nghiệm, các triệu chứng lâm sàng sẽ được thu hẹp lại.
Y học chứng cứ và y học thực chứng: Nghiên cứu chẩn đoán bệnh là một
trong những đề tài khoa học đã được các y bác sĩ chứng minh qua thực tế lâm sàng
chữa bệnh. Tất cả triệu chứng lâm sàng và xét nghiệm có giá trị chẩn đoán điều
được chứng minh qua những điều trị cho bệnh nhân cụ thể, những bệnh lý cụ thể.

Các tri thức trên giúp cho chuyên viên khai phá dữ liệu chọn lựa thuộc tính
đúng, chính xác,(giảm thuộc tính khai phá cây quyết định đơn giản) giúp cho các
thuật toán thực thi nhanh và hiệu quả. Giúp cho việc xây dựng hệ thống đáp ứng
được mục tiêu đề ra (chẩn đoán bệnh có độ chính xác cao).
Tập dữ liệu y khoa


14

Cho một tập dữ liệu y khoa gồm A ={ T1,T2,T3…,Tn} là một tập thuộc tính
điều kiện (conditional) , và một thuộc tính chẩn đoán D (diagnosis). Trong đó các
thuộc tính có thể chuyển đổi, số hóa. D có các giá trị chẩn đoán.
Từ tập dữ liệu trên, cần tri thức trong tập dữ liệu này để chẩn đoán cho bệnh
nhân mới. Nếu dùng phương pháp khai phá dữ liệu (KPDL) cổ điển thì tập dữ liệu
này sẽ cho ra các luật. Theo thời gian, dữ liệu có thay đổi, khai phá cũng cho ra
các luật. Luật này không tận dụng được tri thức kinh nghiệm của chuyên gia và
sau một thời gian ứng dụng, luật đó sẽ không giúp cho chẩn đoán chính xác hơn.
Do đó, một phương pháp mới là kết hợp CTDL với KPDL nhằm cải thiện những
khuyết điểm đó. “dữ liệu“ trong khai phá tập dữ liệu y khoa, cần giải quyết các
bài toán sau:
Bài toán 1: Phân loại bệnh nhân dựa trên chuẩn đoán lâm sàng của chuyên
gia lâm sàng. Mỗi chuyên bác sĩ có thể có những tệp đặc tính khác nhau. Vì vậy để
không bỏ sót chẩn đoán bệnh nên kết hợp kinh nghiệm của nhiều chuyên gia càng
tốt.
Bài toán 2: Kết hợp với bài toán 1 cùng với việc dựa vào các kết quả cận
lâm sàng tiến hành thực nghiệm chẩn đoán bệnh nhân mới nhằm chuẩn hóa các tập
thuộc tính có chẩn đoán chính xác cao để các chuyên gia bác sĩ đưa ra kết luận về
trạng thái bệnh lý.
Bài toán 3: Sử dụng các kỹ thuật khai phá dữ liệu tạo ra các mô hình để
chẩn đoán bệnh. Xây dựng công cụ chuẩn đoán cận lâm sàng tự động gồm 2 bước

cơ bản:
Bước 1: Huấn luyện (tập dữ liệu sẽ được dùng để huấn luyện mô hình học
máy như mô hình Markov ẩn, mô hình mạng Baysian, mô hình cây quyết định
(trong luận văn này tác giả đã sử dụng kỹ thuật khai phai dữ liệu bằng cây quyết
định)


15

Bước 2: Sau khi được huấn luyện, thì mô hình học máy này sẽ được sử
dụng để chẩn đoán bệnh nhân mới. Kết quả chẩn đoán bệnh nhân mới này được
dùng để kiểm chứng mô hình cũng như tập con thuộc tính đã được lựa chọn trong
bài toán 1.
Các lời giải cho các bài toán khai phá tập dữ liệu y khoa:
Lời giải cho bài toán 1
Để chọn ra các tập con các thuộc tính người ta thường chọn theo kinh
nghiệm của chuyên gia.
Tham khảo ý kiến chuyên gia bác sĩ tại Bệnh viện Tuệ Tĩnh và các nghiên
cứu khoa học (y học chứng cớ và y học thực chứng tại bệnh viện ) chọn ra các thuộc
tính có đặc tính liên quan chẩn đoán:
Chọn thuộc tính tuôi (khoangtuoi) còn thông tin hành chính Họ và tên bệnh
nhân, địa chỉ thường trú, giới tính, tình trạng gia đình, tiền sử bệnh không có giá trị
trong chẩn đoán bệnh tăng huyết áp.
Triệu chứng lâm sàng: chọn thuộc tính huyết áp, nhức đầu, ù tai, mờ mắt,
giảm trí nhớ [theo kinh nghiệm của lâm sàng của chuyên gia bác sĩ tại bệnh viện
Tuệ Tĩnh].
Tình trạng đến khám hoặc nhập viện
Thuộc tính nhập viện được chọn: bệnh nhân tăng huyết áp nhập viện càng
muộn tỉ lệ bệnh mắc phải càng cao theo các cấp độ.
Đặc điểm kết quả của bài toán này: mang tính ngẫu nhiên.

Lời giải cho bài toán 2
Kết hợp với dữ liệu được mô tả ở bài toán 1 cùng với dữ liệu được mô tả ở
bài toàn 2 để các chuyên gia bác sĩ đưa ra kết luận trạng thái bệnh lý cụ thể như sau:


16

Cận lâm sàng
Xét nghiệm
- Chọn Hct, tiểu cầu còn xét nghiệm khác (bạch cầu, công thưc máu, …)
không có giá trị trong chẩn đoán bệnh nhân tăng huyết áp [theo kinh nghiệm của
lâm sàng của chuyên gia bác sĩ tại bệnh viện Tuệ Tĩnh].
Tình trạng đến khám hoặc nhập viện
Thuộc tính nhập viện được chọn: bệnh nhân tăng huyết áp nhập viện
càng muộn tỉ lệ bệnh mắc phải càng cao theo các cấp độ.

THA

Bảng 1: Phân độ THA theo Hội THA Việt Nam (2008) [8].

Phân độ

HATT (mmHg)

HATTr (mmHg)

Tối ưu

120


80

Bình thường

< 130

< 85

Bình thường cao

130 - 139

85 - 89

Độ 1

(nhẹ)

140 - 159

90 - 99

Độ 2

(trung bình)

160 - 179

100 - 109


Độ 3

(nặng)

> 180

> 110

> 140

< 90

Tâm thu
Lời giải cho bài toán 3

Sử dụng kỹ thuật khai phá dữ liệu bằng cây quyết định với thuật toán C4.5 để
tạo ra các luật và tiến hành chẩn đoán bệnh nhân mới.

2.1.2. Dữ liệu y khoa tại bệnh viện YHCT Tuệ Tĩnh
Trong luận văn này, học viên sử dụng tập dữ liệu y khoa bệnh tăng huyết áp
tại bệnh viện Tuệ Tĩnh [9].
a. Sơ lược bệnh tăng huyết áp


17

Tăng huyết áp được định nghĩa khi huyết áp tâm thu và huyết áp tâm trương
nằm ở hai mức độ khác nhau, chọn mức độ cao hơn đã phân loại. Huyết áp tâm thu
đơn độc cũng được đánh giá theo mức độ 1, 2, 3 theo giá trị của huyết áp tâm thu
nếu huyết áp tâm trương < 90 mmHg.

Áp lực mạch đập (hiệu số huyết áp tâm thu và huyết áp tâm trương ): tối ưu
là 40 mmHg, nếu trên 61 mmHg có thể xem là một yếu tố tiên lượng nặng cho
bệnh nhân.
Các thuộc tính được lưu trữ trong bệnh án bao gồm:
Tập thuộc tính ban đầu: Khi bệnh nhân đến khám bệnh hoặc nhập viện
gồm có những thông tin sau:
Thông tin hành chính: Họ và tên bệnh nhân; địa chỉ thường trú; tuổi; giới
tính; tiền sử bệnh
Các triệu chứng lâm sàng, bao gồm:
Triệu chứng cơ năng (khai thác bệnh nhân bằng hỏi): thường không có biểu
hiện gì, có thể có triệu chứng (nhức đầu từng cơn hay liên tục hai bên thái dương và
cùng chẩm, hai nhãn cầu và gốc mũi, ù tai, mờ mắt, giảm trí nhớ, hay quên).
Triệu chứng thực thể (thăm khám): chủ yếu là đo huyết áp thấy các chỉ số
cao, thường cao cả huyết áp động mạch tâm thu và huyết áp động mạch tâm trương,
có khi chỉ cao một trong hai chỉ số ấy (huyết áp tâm thu >= 140 mmHg; huyết áp
tâm trương >= 90 mmHg). Triệu chứng thực thể (thăm khám): chủ yếu là đo huyết
áp thấy các chỉ số cao, thường cao cả huyết áp động mạch tâm thu và huyết áp động
mạch tâm trương, có khi chỉ cao một trong hai chỉ số ấy (huyết áp tâm thu >= 140
mmHg; huyết áp tâm trương >= 90 mmHg).
Dấu hiệu lâm sàng: Bệnh nhân có thể béo phì, mặt tròn. Khám tim mạch có
thể phát hiện sớm dày thất trái hay dấu suy tim trái, các động mạch gian sườn đập
trong eo động mạch chủ. Sờ và nghe động mạch để phát hiện các trường hợp nghẽn


18

hay tắc động mạch cảnh trong động mạch chủ bụng,… Khám bụng có thể phát hiện
tiếng thổi tâm thu hai bên rốn trong hẹp động mạch thận, phồng động mạch chủ
hoặc khám phát hiện thận to, thận đa nang. Khám thần kinh có thể phát hiện các tai
biến mạch máu não cũ hoặc nhẹ.

Triệu chứng Cận lâm sàng: mục đích để đánh giá nguy cơ tim mạch, tổn
thương thận và tìm nguyên nhân
- Xét nghiệm máu: Ure, creatinin để đánh giá biến chứng suy thận,
Cholesterol, triglycerid, HDL- Cholesterol, LDL- Cholesterol, Glucoese máu,
HbA1C… để phát hiện các yếu tố nguy cơ của người bệnh tăng huyết áp.
- Xét nghiệm nước tiểu: Protein, hồng cầu trong nước tiểu.
- Điện tim: phát hiện dày thất trái, hở van hai lá do biến chứng suy tim trái.
- Siêu âm tim mạch: đánh giá chức năng tâm thu thất trái, tình trạng xơ vữa
mạch.
Tình trạng đến khám và nhập viện: tỉnh hay hôn mê. Đến khám (nhập viện)
ngày thứ mấy của bệnh.
- Thông tin hành chính: Chọn thuộc tính tuổi (khoangtuoi) còn thông tin
hành chính Họ và tên bệnh nhân, địa chỉ thường trú, giới tính, tình trạng gia đình,
tiền sử bệnh không có giá trị trong chẩn đoán bệnh tăng huyết áp.
- Triệu chứng lâm sàng: chọn thuộc tính huyết áp (theo kinh nghiệm lâm
sàng của chuyên gia bác sĩ bệnh viện YHCT Tuệ Tĩnh).
- Triệu chứng Cận lâm sàng
Xét nghiệm:
Haemoglobin và/ hoặc haematiocrit.
Đường máu lúc đói


19

Cholesterol toàn phần, LDL-C, HDL-C
Triglycerid lúc đói
Natri và kali máu
Acid uric máu
Creatinin máu (tính mức lọc cầu thận)
Phân tích nước tiểu: soi nước tiểu, tìm protein, albumin trong nước tiểu

Các xét nghiệm bổ sung dựa trên tiền sử, khám thực thể, và kết quả từ các
xét nghiệm thường quy.
HbA1c (nếu đường máu lúc đói > 5,6 mg/dL) hoặc đã chẩn đoán đái tháo
đường từ trước).
Định lượng protein nước tiểu (nếu trong nước tiểu có protein), nồng độ natri,
kali nước tiểu và tỷ lệ của chúng.
Theo dõi huyết áp 24h
Siêu âm động mạch ở bụng.
Đo chỉ số huyết áp cổ chân cánh tay.

2.2. Khai phá dữ liệu bằng cây quyết định
2.2.1. Cây quyết định
Cây quyết định là một cấu trúc biễu diễn dưới dạng cây. Trong đó, mỗi node
trong (internal node) biễu diễn một thuộc tính, mỗi nhánh (branch) biễu diễn giá trị
có thể có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên
cùng của cây gọi là gốc (root).


20

Hình 2.1: Biểu diễn cây quyết định cơ bản
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo
(predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới
các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi nút trong (internal node)
tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể
cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các
giá trị dự đoán của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ
thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay
chỉ gọi với cái tên ngắn gọn là cây quyết định.
Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng

để phân lớp các đối tượng dựa vào dãy các luật (series of rules). Các thuộc tính của


×