Tải bản đầy đủ (.docx) (20 trang)

Tiểu luận môn hệ hỗ trợ quyết định TÌM HIỂU HỆ HỖ TRỢ RA QUYẾT ĐỊNH CHẨN ĐOÁN CÁC BỆNH VỀ TIM SỬ DỤNG CÁC KĨ THUẬT KHAI PHÁ DỮ LIỆU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (767.67 KB, 20 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
o0o
BÀI THU HOẠCH MÔN HỌC
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
ĐỀ TÀI:
TÌM HIỂU HỆ HỖ TRỢ RA QUYẾT ĐỊNH CHẨN ĐOÁN
CÁC BỆNH VỀ TIM SỬ DỤNG CÁC KĨ THUẬT
KHAI PHÁ DỮ LIỆU
GIÁO VIÊN HƯỚNG DẪN:
PGS.TS ĐỖ PHÚC
HỌC VIÊN: VƯƠNG ĐỨC HIỀN
MSHV: CH1301087
TP HỒ CHÍ MINH - THÁNG 6, NĂM 2014
Mục lục
Giới thiệu
Bài thu hoạch này trình bày các vấn đề việc xây dựng một hệ thống hỗ trợ ra quyết định
cho các bác sĩ trong việc chẩn đoán một bệnh nhân có phải bị bệnh về tim hay không.
Nội dung của bài thu hoạch này chủ yếu được dịch từ bài báo “Web-Based Heart Disease
Decision Support System using Data Mining Classification Modeling Techniques” của
các tác giả Sellappan Palaniappan và Rafiah Awang [1].
Ngành y tế thu thập một lượng lớn dữ liệu mà trong đó không phải dữ liệu nào cũng có
thể “khai thác được” để khám phá các thông tin ẩn cho việc ra quyết định hiệu quả của
người làm công tác chăm sóc sức khỏe. Phát hiện các mẫu ẩn và mối quan hệ thường
xuyên chưa được khai thác. Các mô hình kĩ thuật khai thác dữ liệu tiên tiến có thể giúp
khắc phục tình trạng này. Nghiên cứu này đã phát triển một hệ thống hỗ trợ ra quyết định
về bênh tim (HDDSS) dựa trên web sử dụng các kĩ thuật phân loại trong khai thác dữ
liệu, cụ thể là, các mô hình cây quyết định, Naïve Bayes và mạng nơron. Các kết quả cho
thấy mỗi kỹ thuật có các sức mạnh riêng của nó trong việc nhận ra các mục tiêu của các
mục tiêu khai phá đã được xác định.
HDDSS có thể trả lời các câu truy vấn “what if” phức tạp, điều mà các hệ thống hỗ trợ ra


quyết định truyền thống có thể không làm được. Sử dụng hồ sơ y tế như tuổi tác, giới
tính, huyết áp và lượng đường trong máu có thể dự đoán khả năng bệnh nhân bị bệnh tim.
Nó cho phép hiểu biết quan trọng, ví dụ mô hình, mối quan hệ giữa các yếu tố y tế liên
quan đến bệnh tim, được thành lập. HDDSS có giao diện thân thiện, ổn định, đáng tin cậy
và có thể mở rộng.
1. Đặt vấn đề
Một thách thức lớn phải đối mặt với các tổ chức chăm sóc sức khỏe (bệnh viện, trung
tâm y tế) là cung cấp các dịch vụ chất lượng với giá cả phải chăng. Chất lượng dịch
vụ chỉ việc chẩn đoán bệnh một cách chính xác và thực hiện các phương pháp điều trị
hiệu quả. Việc tạo ra các quyết định lâm sàng tệ hại có thể là một thảm họa và do đó
không thể chấp nhận được. Bệnh viện cũng phải giảm thiểu chi phí của các thử
nghiệm lâm sàng. Để làm điều này, họ phải sử dụng thông tin trên máy tính một cách
thích hợp và / hoặc các hệ thống hỗ trợ ra quyết định.
Hầu hết các bệnh viện hiện nay sử dụng một số loại hệ thống thông tin bệnh viện để
quản lý các dữ liệu về chăm sóc sức khỏe hoặc bệnh nhân của họ. Các hệ thống này
tạo ra một lượng lớn các dữ liệu dạng các con số, văn bản, biểu đồ và hình ảnh. Thật
không may, những dữ liệu này rất hiếm khi được sử dụng để hỗ trợ ra quyết định lâm
sàng. Có rất nhiều thông tin ẩn trong các dữ liệu này mà phần lớn là chưa được khai
thác. Điều này đặt ra một câu hỏi quan trọng: "Làm thế nào để chúng ta chuyển dữ
liệu thành các thông tin hữu ích để hỗ trợ việc ra quyết định cho các người làm
chuyên môn chăm sóc sức khỏe?". Đây là động lực chính cho nghiên cứu này.
2. Phát biểu bài toán
Nhiều hệ thống thông tin bệnh viện được thiết kế để hỗ trợ thanh toán viện phí cho
bệnh nhân, quản lý hàng tồn kho và thực hiện các thống kê đơn giản. Nơi có những hệ
thống hỗ trợ quyết định, chúng thường rất hạn chế. Chúng có thể trả lời các truy vấn
đơn giản như “Tuổi trung bình của bệnh nhân bệnh tim là bao nhiêu?”, “Có bao
nhiêu ca phẫu thuật phải nằm ở bệnh viện nhiều hơn 10 ngày?” , “Xác định số lượng
bệnh nhân nữ độc thân, trên 30 tuổi và đang điều trị ung thư”. Tuy nhiên, chúng
không thể trả lời các truy vấn phức tạp như “Xác định các yếu tố dự báo quan trọng
tiền phẫu thuật mà có thể làm tăng thời gian nằm viện”, “Với các hồ sơ của bệnh nhân

ung thư, nên việc điều trị bao gồm chỉ hóa trị liệu, chỉ thực hiện phóng xạ, hoặc cả hai
hóa trị và xạ trị?”, “Với các hồ sơ bệnh nhân đã biết, dự đoán xác suất của các bệnh
nhân có thể có bệnh tim.”
Thông thường, các quyết định lâm sàng được thực hiện dựa trên trực giác của bác sĩ
chứ không phải là những kiến thức dữ liệu phong phú trong cơ sở dữ liệu. Việc thực
hiện điều này dẫn đến những ảnh hưởng xấu không mong muốn, các lỗi và chi phí y
tế quá mức có ảnh hưởng đến chất lượng dịch vụ cung cấp cho bệnh nhân. Wu và
cộng sự đã đề nghị việc tích hợp các hỗ trợ quyết định lâm sàng với hồ sơ bệnh nhân
dựa trên máy tính có thể làm giảm các sai sót y tế, nâng cao sự an toàn cho bệnh nhân,
giảm sự biến đổi thực tế không mong muốn, và cải thiện kết quả chuẩn đoán bệnh
nhân. Đây là sự hứa hẹn các công cụ mô hình hóa và phân tích dữ liệu có khả năng
tạo ra môi trường kiến thức phong phú môi trường mà có thể cải thiện đáng kể chất
lượng của các quyết định lâm sàng.
3. Mục tiêu nghiên cứu
Nghiên cứu này sẽ phát triển một nguyên mẫu của hệ thống hỗ trợ ra quyết định chẩn
đoán bệnh về tim dựa trên nền Web (Heart Disease Decision Support System -
HDDSS), sử dụng ba kĩ thuật phân lớp trong khai thác dữ liệu, cụ thể là, cây quyết
định, Naïve Bayes và mạng Nơron.
Nó có thể trích xuất các thông tin ẩn (các mẫu và các mối quan hệ) liên quan đến bệnh
tim từ một cơ sở dữ liệu lịch sử bệnh tim. Nó có thể trả lời các truy vấn phức tạp liên
quan đến chẩn đoán bệnh tim và do đó giúp các chuyên viên chăm sóc sức khỏe đưa
ra các quyết định lâm sàng thông minh mà các hệ thống hỗ trợ quyết định truyền
thống đã có không thể làm được. Nó sẽ giúp họ cung cấp các phương pháp điều trị
hiệu quả với chi phí thấp hơn. Để nâng cao sự trực quan và dễ giải thích, HDDSS sẽ
hiển thị kết quả cả bằng các bảng và các dạng đồ họa.
4. Tổng quan về khai phá dữ liệu
Mặc dù khai phá dữ liệu đã được khoảng hơn hai thập kỷ, tiềm năng của nó chỉ đang
được nhận ra ngay bây giờ. Khai phá dữ liệu kết hợp phân tích thống kê, máy học và
các kĩ thuật cơ sở dữ liệu để trích xuất các mẫu ẩn và mối quan hệ từ cơ sở dữ liệu
lớn. Fayyad định nghĩa khai phá dữ liệu như là: “một quá trình rút trích không tầm

thường của các thông tin hữu ích tiềm ẩn, chưa được biết trước từ các dữ liệu được
lưu trữ trong cơ sở dữ liệu”. Giudici định nghĩa nó như là “một quá trình lựa chọn,
thăm dò và mô hình của một lượng lớn dữ liệu để khám phá các quy tắc hoặc các mối
quan hệ mà lúc đầu chưa được biết với mục đích thu được các kết quả rõ ràng và hữu
ích cho chủ sở hữu của cơ sở dữ liệu”.
Khai phá dữ liệu sử dụng hai chiến lược: học có giám sát và học không giám sát. Học
có giám sát sử dụng các giá trị của các biến đầu vào để dự đoán một biến mục tiêu với
giá trị đã biết trong khi học không có giám sát hoạt động theo cách tương tự, nhưng
thường xuyên hơn nó dự đoán một biến mục tiêu là một giá trị chưa biết.
Mỗi kỹ thuật khai thác dữ liệu phục vụ một mục đích khác nhau tùy thuộc vào mục
tiêu mô hình. Hai mục tiêu mô hình phổ biến nhất là phân lớp và dự báo. Mô hình
phân lớp dự đoán các nhãn phân loại (rời rạc, không có thứ tự) trong khi các mô hình
dự đoán dự đoán các hàm có giá trị liên tục. Cây quyết định và mạng Nơron sử dụng
các thuật toán phân loại trong khi hồi quy, luật kết hợp và gom cụm sử dụng các thuật
toán dự đoán.
Giải thuật cây quyết định bao gồm CART (Classification and Regression Tree), ID3
(Iterative Dichotomized 3) và C4.5. Các thuật toán khác nhau trong việc lựa chọn các
phần chia nhỏ, khi để dừng một nút khỏi chia nhỏ, và phân công của lớp để một nút
không chia. CART sử dụng chỉ số Gini để đo tạp chất của một phân vùng hoặc tập dữ
liệu huấn luyện. Nó xử lý các dữ liệu đa chiều, có tính phân loại và liên tục.
Naive Bayes hoặc luật Bayes là cơ sở cho nhiều phương pháp máy học và khai phá dữ
liệu. Các quy tắc (thuật toán) được sử dụng để tạo ra các mô hình với khả năng dự
đoán. Nó cung cấp cách thức mới để khám phá và hiểu dữ liệu. Nó học được từ các
"bằng chứng" bằng cách tính toán sự tương quan giữa các mục tiêu và các biến khác.
Mạng nơron bao gồm ba lớp: các đơn vị đầu vào, ẩn và đầu ra (các biến). Sự kết nối
giữa các đơn vị đầu vào và các đơn vị ẩn và đầu ra được dựa trên sự liên quan của các
giá trị được gán(trọng số) của đơn vị đầu vào cụ thể. Các trọng số càng cao thì càng
quan trọng. Các thuật toán mạng nơron sử dụng các hàm chuyển tuyến tính và
sigmoid. Mạng thần kinh phù hợp để huấn luyện một số lượng lớn dữ liệu với ít đầu
vào. Nó được sử dụng khi các kỹ thuật khác không đạt yêu cầu.

5. Phương pháp
HDDSS sử dụng 6 giai đoạn của phương pháp CRISP-DM để xây dựng các mô hình
khai thác dữ liệu. DMX (Data Mining Extension), một ngôn ngữ truy vấn kiểu SQL
cho khai phá dữ liệu, được sử dụng để xây dựng và truy cập vào các nội dung của mô
hình. Các bảng và đồ họa trực quan được tích hợp để mở rộng khả năng phân tích và
giải thích kết quả.
5.1. Nguồn dữ liệu
Tổng cộng có 909 bản ghi với 15 thuộc tính y tế (yếu tố) được lấy từ cơ sở dữ liệu các
bệnh về tim Cleveland. Các bản ghi này đã được chia đều thành hai bộ dữ liệu: bộ dữ
liệu huấn luyện (455 bản ghi) và bộ dữ liệu thử nghiệm (454 bản ghi). Để tránh thiên
vị, các bản ghi cho mỗi bộ được chọn một cách ngẫu nhiên. Mô hình phân loại được
chọn là thuật toán Naïve Bayes chỉ hỗ trợ các thuộc tính phân loại . Cả các thuật toán
cây quyết định mạng Nơron hỗ trợ các thuộc tính phân loại và liên tục. Để thống nhất,
chỉ các thuộc tính phân loại được sử dụng cho tất cả ba mô hình. Tất cả các thuộc tính
y tế trong hình 1 được chuyển đổi từ số thành dữ liệu phân loại. Thuộc tính “chẩn
đoán” được xác định là thuộc tính có thể dự đoán có giá trị “1” cho bệnh nhân bị bệnh
tim và giá trị “0” cho các bệnh nhân không bị bệnh tim. Thuộc tính “PatientID" được
sử dụng như khóa; phần còn lại là các thuộc tính đầu vào. Giả sử rằng các dữ liệu
trùng lặp, thiếu hay không phù hợp đã được xử lí.
Hình1. Mô tả các thuộc tính
5.2. Các mô hình khai phá
Ngôn ngữ truy vấn dữ liệu DMX (Data Mining Extension) đã được sử dụng để tạo mô
hình, huấn luyện mô hình, dự báo mô hình và truy cập các nội dung của mô hình. Tất
cả các thông số được thiết lập giá trị mặc định trừ các thông số “Minimum Support =
1” cho cây quyết định và “Minimum Dependency Probability = 0.005” cho Naïve
Bayes. Các mô hình huấn luyện được đánh giá theo các bộ dữ liệu thử nghiệm về độ
chính xác và hiệu quả trước khi chúng được triển khai trong HDDSS. Các mô hình
được làm cho có hiệu lực sử dụng các biểu đồ Lift Chart và ma trận phân loại
(Classification Matrix).
5.3. Đánh giá hiệu quả của mô hình

Hiệu quả của mô hình đã được thử nghiệm bằng cách sử dụng hai phương pháp: Lift
Chart và Classification Matrix. Mục đích là để xác định mô hình nào đưa ra tỷ lệ dự
đoán chính xác cao nhất cho việc chẩn đoán các bệnh nhân bị bệnh tim.
Lift Chart. Để xác định nếu có đủ thông tin để học các mẫu để đáp ứng thuộc tính dự
đoán, các cột trong mô hình huấn luyện đã được ánh xạ tới các cột trong bộ dữ liệu
thử nghiệm. Các mô hình, cột dự đoán và trạng thái của cột để dự đoán bệnh nhân bị
bệnh tim (giá trị dự đoán = 1) cũng đã được lựa chọn. Hình 2 cho thấy đầu ra của Lift
Chart. Trục X cho thấy tỷ lệ các bộ dữ liệu thử nghiệm được sử dụng để so sánh các
dự đoán trong khi trục Y cho thấy tỷ lệ phần trăm của các giá trị được dự đoán cho
một trạng thái cụ thể. Các đường màu xanh lam và xanh lá cây hiển thị các kết quả
cho các mô hình dự đoán ngẫu nhiên và lý tưởng tương ứng. Các đường màu tím,
vàng và đỏ tương ứng hiển thị các kết quả của các mô hình mạng Nơron, Naïve Bayes
và cây quyết định.
Hình 2. Kết quả của Lift Chart với giá trị dự đoán
Dòng màu xanh lá cây đầu cho thấy mô hình lý tưởng; nó chiếm 100% tập hợp mục
tiêu cho các bệnh nhân bị bệnh tim bằng cách sử dụng 46% của bộ dữ liệu thử
nghiệm. Đường màu xanh lam phía dưới cho thấy dòng ngẫu nhiên mà luôn luôn là
một dòng 45 độ trên bảng xếp hạng. Nó cho thấy rằng nếu chúng ta đoán ngẫu nhiên
kết quả cho từng trường hợp, 50% trong tập hợp mục tiêu sẽ được ghi lại bằng 50%
của bộ dữ liệu thử nghiệm. Tất cả ba dòng mô hình (màu tím, màu vàng và màu đỏ)
nằm giữa đường ngẫu nhiên đoán và lý tưởng, cho thấy rằng cả ba có đủ thông tin để
tìm hiểu mô hình để đáp ứng với tình trạng dự đoán được.
Lift Chart với giá trị không dự đoán được. Các bước để tạo ra Lift Chart là tương
tự như trên ngoại trừ trạng thái của cột có thể dự đoán được để trống. Nó không bao
gồm một đường cho mô hình đoán ngẫu nhiên. Nó cho biết mỗi mô hình ở tình trạng
trong việc dự đoán số lượng chính xác của thuộc tính dự đoán được như thế nào. Hình
3 cho thấy đầu ra của Lift Chart. Trục X cho thấy tỷ lệ dữ liệu thử nghiệm được sử
dụng để so sánh các dự đoán trong khi trục Y cho thấy tỷ lệ dự đoán rằng là chính
xác. Các đường màu xanh, tím, xanh lá cây và màu đỏ hiển thị lý tưởng, Neural
Network, Naïve Bayes và Quyết định cây mô hình tương ứng. Biểu đồ cho thấy việc

thực hiện các mô hình trên tất cả các trạng thái có thể. Dòng lý tưởng (màu xanh) ở
góc 45 độ, cho thấy rằng nếu 50% của bộ dữ liệu thử nghiệm được xử lý, 50% kiểm
tra dữ liệu được dự đoán một cách chính xác.
Hình 3. Kết quả Lift Chart với giá trị không dự đoán
Biểu đồ cho thấy rằng nếu 50% tập hợp được xử lý, tỷ lệ phần trăm của các dự đoán
chính xác của mạng Nơron có mức cao nhất (49,34%), tiếp theo là Naïve Bayes
(47,58%) và cây quyết định (41,85%). Nếu toàn bộ tập hợp được xử lý, mô hình
Naïve Bayes dường như là tốt hơn so với hai mô hình còn lại vì nó có số lượng cao
nhất của dự đoán chính xác (86,12%), tiếp theo mạng Nơron (85,68%) và cây quyết
định (80,4%).
Nếu ít hơn 50% tập hợp được xử lý các dòng Lift cho mạng Nơron và Naïve Bayes sẽ
luôn luôn cao hơn so với cây quyết định. Điều này cho thấy mạng Nơron và Naïve
Bayes là tốt hơn trong việc tạo ra các dự đoán chính xác cho tỷ lệ cao hơn cây quyết
định. Dọc theo trục X dòng Lift cho mạng Nơron và Naïve Bayes chồng lên nhau.
Điều này cho thấy cả hai mô hình đều tốt cho việc dự đoán chính xác. Nếu có nhiều
hơn 50% tập hợp được xử lý, mạng Nơron và Naïve Bayes có vẻ tốt hơn khi chúng
cung cấp tỷ lệ phần trăm cao của các dự đoán chính xác hơn là cây quyết định. Điều
này có được bởi vì dòng Lift cho cây quyết định sẽ luôn luôn thấp hơn so với mạng
Nơron và Naïve Bayes. Đối với phạm vi tập hợp nhất định, mạng Nơron dường như
tốt hơn so với Naives Bayes và ngược lại.
Ma trận phân loại. Phân loại ma trận hiển thị tần số của các dự đoán chính xác và
không chính xác. Nó so sánh các giá trị thực tế trong bộ dữ liệu thử nghiệm với các
giá trị dự đoán trong mô hình huấn luyện. Trong ví dụ này, các dữ liệu thử nghiệm có
208 bệnh nhân bị bệnh tim và 246 bệnh nhân không có bệnh tim. Hình 4 cho thấy kết
quả của ma trận phân loại cho 3 mô hình. Các hàng biểu diễn cho các giá trị dự đoán
trong khi các cột biểu diễn cho các giá trị thực tế (1 cho các bệnh nhân bị bệnh tim, '0
'cho các bệnh nhân không có bệnh tim). Cột ngoài cùng bên trái hiển thị các giá trị dự
đoán của các mô hình. Các giá trị chẩn đoán cho thấy những dự đoán chính xác.
Hình 4. Kết quả của ma trận phân loại cho 3 mô hình
Hình 5 tóm tắt kết quả của tất cả ba mô hình. Naïve Bayes dường như là hiệu quả nhất

vì nó cho tỷ lệ cao nhất của các dự đoán chính xác (86,53%) cho bệnh nhân bị bệnh
tim, tiếp theo là mạng Nơron (với một sự khác biệt nhỏ hơn 1%) và cây quyết định.
Tuy nhiên cây quyết định dường như là hiệu quả nhất để dự đoán bệnh nhân không có
bệnh tim (89%) so với hai mô hình khác.
Hình 5. Các kết quả
5.4 Đánh giá các mục tiêu khai phá
Năm mục tiêu khai phá dữ liệu được xác định dựa trên thăm dò của bộ dữ liệu bệnh
tim và mục tiêu của nghiên cứu này. Chúng được đánh giá đối với các mô hình huấn
luyện. Kết quả cho thấy cả ba mô hình đã đạt được các mục tiêu đã nêu, cho thấy rằng
chúng có thể được sử dụng để cung cấp hỗ trợ quyết định cho các bác sĩ để chẩn đoán
bệnh nhân và phát hiện các yếu tố y tế liên quan đến bệnh tim. Năm mục tiêu được
liệt kê và thảo luận dưới đây:
Mục tiêu 1: Với các hồ sơ y tế của bệnh nhân đã có, dự đoán những người có khả
năng được chẩn đoán có bệnh về tim. Tất cả ba mô hình có thể trả lời câu hỏi này
bằng cách sử dụng truy vấn đơn và hàng loạt hoặc dự đoán tham gia truy vấn. Cả hai
truy vấn có thể dự đoán về các trường hợp một đầu vào và trường hợp nhiều đầu vào
tương ứng. HDDSS hỗ trợ dự đoán sử dụng các kịch bản “what-if”. Người dùng nhập
vào các giá trị của các thuộc tính y tế để chẩn đoán bệnh nhân bị bệnh tim. Ví dụ,
nhập các giá trị Age = 70, CA = 2, Chest Pain Type = 4, Sex = M, Slope = 2 và Thal
= 3 vào các mô hình, sẽ cho kết quả thể hiện trong hình 6. Cả ba mô hình cho thấy,
người đó có bệnh tim. Naïve Bayes xác định xác suất cao nhất (95%) với 432 trường
hợp hỗ trợ, theo sau là cây quyết định (94,93%) với 106 trường hợp hỗ trợ và mạng
Nơron (93,54%) với 298 trường hợp hỗ trợ. Các giá trị càng cao, các bác sĩ có thể
khuyên bệnh nhân phải trải qua kiểm tra tim hơn nữa. Thực hiện các kịch bản “what-
if” do đó có thể giúp ngăn ngừa các cơn đau tim tiềm năng.
Hình 6. Một module truy vấn đơn
Mục tiêu 2: Xác định những ảnh hưởng và mối quan hệ đáng kể trong các đầu vào
liên quan đến trạng thái dự đoán bệnh tim. Dependency viewer ở mô hình cây quyết
định và Naïve Bayes cho thấy kết quả từ quan trọng nhất đến ít nhất (thấp nhất) dự
đoán y tế. Các viewer là đặc biệt hữu ích khi có nhiều thuộc tính dự đoán được. Hình

số 7 và 8 cho thấy trong cả hai mô hình, yếu tố quan trọng nhất ảnh hưởng đến bệnh
tim là “Chest Pain Type”. Các yếu tố quan trọng khác bao gồm Thal, CA và Exang.
Mô hình cây quyết định cho rằng “Trest Blood Pressure” là yếu tố yếu nhất trong khi
mô hình Naïve Bayes cho rằng đó là “Fasting Blood Sugar”. Mô hình Naïve Bayes
dường như là tốt hơn so với cây quyết định vì nó cho tầm quan trọng của tất cả các
thuộc tính đầu vào. Bác sĩ có thể sử dụng thông tin này để phân tích sâu hơn những
điểm mạnh và điểm yếu của các thuộc tính y tế liên quan đến bệnh tim.
Hình 7. Lưới phụ thuộc của cây quyết định
Hình 8. Lưới phụ thuộc của Naïve Bayes
Mục tiêu 3: Xác định các tác động và mối quan hệ giữa các thuộc tính y tế liên quan
đến trạng thái dự đoán bệnh tim. Xác định các tác động và mối quan hệ giữa các
thuộc tính y tế liên quan đến bệnh tim chỉ được tìm thấy tại cây quyết định viewer
(hình 9). Nó cung cấp cho xác suất cao nhất (99,61%) mà bệnh nhân có bệnh tim
được tìm thấy trong mối quan hệ giữa các thuộc tính (nút): “Chest Pain Type = 4 và
CA = 0 và Exang = 0 và Trest Blood Pressure > = 146,362 và <158,036”. Bằng cách
sử dụng các thông tin này, các bác sĩ có thể thực hiện kiểm tra sức khỏe trên bốn
thuộc tính thay vì trên tất cả các thuộc tính đối với những bệnh nhân có khả năng để
được chẩn đoán bị bệnh tim. Điều này sẽ làm giảm chi phí y tế, chi phí hành chính và
thời gian chẩn đoán. Thông tin về tác động ít nhất (5,88%) được tìm thấy trong mối
quan hệ giữa các thuộc tính: “Chest Pain Type != 4 và Sex = F”. Mối quan hệ giữa
các thuộc tính đối với bệnh nhân không có bệnh tim cũng được đưa ra. Các kết quả
cho thấy mối quan hệ giữa các thuộc tính: “Chest Pain Type != 4 và Sex = F” có tác
động cao nhất (92,58%). Ảnh hưởng ít nhất (0,2%) được tìm thấy trong các thuộc
tính: “Chest Pain Type = 4 và CA = 0 và Exang = 0 và Trest Blood Pressure > =
146,362 và <158,036”. Thông tin bổ sung như xác định bệnh nhân và hồ sơ y tế của
họ dựa trên các nút lựa chọn cũng có thể được truy cập bằng cách sử dụng khoan
thông qua chức năng. Các bác sĩ có thể sử dụng cây quyết định viewer để thực hiện
thêm các phân tích khác.
Hình 9. Viewer của cây quyết định
Mục tiêu 4: Xác định các đặc điểm của bệnh nhân bị bệnh tim. Chỉ mô hình Naïve

Bayes xác định các đặc điểm của bệnh nhân bị bệnh tim. Nó cho thấy xác suất của
mỗi thuộc tính đầu vào cho trạng thái có thể dự đoán được. Hình 10 cho thấy 80%
bệnh nhân mắc bệnh tim là nam giới (Sex = 1) và 43% là ở độ tuổi từ 56 và 63. Các
đặc điểm quan trọng khác là: Xác suất cao trong đường trong máu lúc đói dưới 120
mg/dl, đau ngực loại không có triệu chứng, Hình 11 cho thấy những đặc điểm của
bệnh nhân không có bệnh tim với xác suất cao trong đường trong máu lúc đói dưới
120 mg/dl, Những kết quả có thể được phân tích thêm.
Hình 10.
Hình 11.
Mục tiêu 5: Xác định giá trị thuộc tính mà phân biệt các nút ưa thích và không ưa
thích các trạng thái dự đoán: (1) các bệnh nhân bị bệnh tim (2) bệnh nhân không có
bệnh tim. Truy vấn này có thể được trả lời bằng cách phân tích các kết quả của viewer
phân biệt các thuộc tính của mô hình Naïve Bayes và mạng Nơron. Viewer cung cấp
thông tin về tác động của tất cả các giá trị thuộc tính liên quan đến tình trạng dự đoán
được. Mô hình Naive Bayes (hình 12) cho thấy các thuộc tính quan trọng nhất thiên
về bệnh nhân bị bệnh tim: “Chest Pain Type = 4” với 158 trường hợp và 56 bệnh
nhân không có bệnh tim. Thuộc tính đầu vào “Thal = 7” với 123 (75,00%) bệnh nhân,
“Exang = 1” với 112 (73,68%) bệnh nhân, “Slope = 2” với 138 (66,34%) bệnh nhân,
cũng là các trạng thái dự đoán ưa thích. Ngược lại, các thuộc tính “Thal = 3” với 195
(73,86%) bệnh nhân, “CA = 0” với 198 (73,06%) bệnh nhân, “Exang = 0” với 206
(67,98%), là các trạng thái dự đoán ưa thích cho bệnh nhân không bị bệnh tim.
Mô hình mạng Nơron (hình 13) cho thấy giá trị thuộc tính quan trọng nhất mà các
bệnh nhân bị bệnh tim là “Old peak = 3,05-3,81” (98%). Các thuộc tính khác cho
bệnh tim bao gồm “Old peak > = 3,81” , “CA = 2”, “CA = 3”, Các thuộc tính như
"Serum Cholesterol > = 382,37”, “Chest Pain Type = 2”, “CA = 0”, cũng là các
trạng thái dự đoán ưa thích cho bệnh nhân không bị bệnh tim
Hình 12.
Hình 13.
6. Kết luận
Một nguyên mẫu của hệ thống hỗ trợ ra quyết định chẩn đoán bệnh tim dựa trên web

đã được phát triển bằng cách sử dụng ba kỹ thuật mô hình phân loại khai thác dữ liệu.
Nó trích xuất kiến thức ẩn từ một cơ sở dữ liệu lịch sử bệnh tim. Ngôn ngữ truy vấn
DMX và các hàm được sử dụng để xây dựng và truy cập các mô hình. Các mô hình
được huấn luyện và đánh giá dựa vào các bộ dữ liệu thử nghiệm. Các phương pháp
nâng Lift Chart và Classification Matrix đã được sử dụng để đánh giá sự hiệu quả của
các mô hình. Cả ba mô hình có thể trích xuất các mẫu để đáp ứng với tình trạng dự
đoán được. Các mô hình hiệu quả nhất để dự đoán bệnh nhân có thể bị bệnh tim là
Naïve Bayes tiếp theo là mạng Nơron và cây quyết định.
Năm mục tiêu khai phá dữ liệu được xác định dựa trên các thông tin nghiệp vụ và
khai thác dữ liệu. Các mục tiêu được đánh giá theo các mô hình huấn luyện. Cả ba mô
hình có thể trả lời các truy vấn phức tạp, mỗi mô hình có điểm mạnh riêng liên quan
đến giải thích mô hình dễ dàng, tiếp cận với thông tin chi tiết và chính xác. Naïve
Bayes có thể trả lời bốn trong năm mục tiêu; Cây quyết định: ba và mạng Nơron là
hai. Mặc dù không phải là mô hình hiệu quả nhất, các kết quả từ mô hình cây quyết
định thì dễ dàng hơn để đọc và giải thích. Mô hình Naïve Bayes thì tốt hơn so với cây
quyết định vì nó có thể xác định tất cả các dự đoán đáng kể. Mối quan hệ giữa các
thuộc tính được cung cấp bởi mô hình mạng Nơron thì khó hiểu hơn.
HDDSS có thể được mở rộng hơn nữa. Ví dụ, nó có thể kết hợp các kỹ thuật khác như
gom cụm (Clustering) và luật kết hợp (Association Rules). Nó cũng có thể sử dụng
Text Mining để khai thác số lượng lớn các dữ liệu phi cấu trúc có sẵn trong cơ sở dữ
liệu y tế, hoặc tích hợp Data Mining và Text Mining.
Tài liệu tham khảo:
[1] Sellappan Palaniappan, Rafiah Awang, “Web-Based Heart Disease Decision
Support System using Data Mining Classification Modeling Techniques” ,
Proceedings of iiWAS2007.

×