Tải bản đầy đủ (.pdf) (26 trang)

Ứng dụng khai phá dữ liệu để xây dựng hệ thống chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ em

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (836.31 KB, 26 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM

`

TRẦN VĂN ĐỒNG

ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ
THỐNG CHẨN ĐOÁN BỆNH HEN PHẾ QUẢN VÀ
VIÊM PHẾ QUẢN CHO TRẺ EM

Chuyên ngành: Hệ thống thông tin
Mã số: 61.49.01.04

TÓM TẮT
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

ĐÀ NẴNG - NĂM 2017


Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN

Người hướng dẫn khoa học: TS. NGUYỄN HOÀNG HẢI

Phản biện 1: PGS.TSKH. Trần Quốc Chiến

Phản biện 2: PGS.TS. Huỳnh Công Pháp

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt
nghiệp thạc sĩ Hệ thống thông tin họp tại Trường Đại học Sư


phạm – ĐHĐN vào ngày 30 tháng 7 năm 2017.

Có thể tìm hiểu luận văn tại:
- Thư viện Trường Đại học Sư phạm, Đại học Đà Nẵng
- Trung tâm thông tin học liệu, Đại học Đà Nẵng


1
MỞ ĐẦU
1. Lý do chọn đề tài
Nhiễm khuẩn hô hấp cấp là bệnh lý phổ biến ở trẻ em và
gây tỉ lệ tử vong cao nhất so với các bệnh khác. Các thông báo
chính tại hội nghị quốc tế về chống nhiễm khuẩn hô hấp cấp cho
biết hàng năm trên thế giới có khoảng 4,3 triệu trẻ em dưới 5 tuổi
chết vì nhiễm khuẩn hô hấp. Mỗi năm một đứa trẻ bị 5 đến 8 lần
nhiễm khuẩn hô hấp cấp làm ảnh hưởng đến ngày công lao động
của bố mẹ, là gánh nặng đối với xã hội. Do nhiễm khuẩn hô hấp
cấp có tầm quan trọng như vậy nên tổ chức y tế thế giới và Unicef
đã đưa ra chương trình phòng chống bệnh nhiễm khuẩn hô hấp
cấp với mục tiêu cụ thể là làm giảm tỉ lệ tử vong do nhiễm khuẩn
hô hấp cấp ở trẻ dưới 5 tuổi, cùng với mục tiêu lâu dài là làm
giảm tỉ lệ mắc bệnh và giảm tỉ lệ kháng kháng sinh.
Nhìn chung, tại các nước đang phát triển, nhiễm khuẩn hô
hấp cấp là nguyên nhân mắc bệnh hàng đầu ở trẻ em dưới 5 tuổi,
là nguyên nhân đến khám bệnh cũng như vào điều trị hàng đầu tại
các tuyến y tế và cũng là nguyên nhân tử vong làm trẻ chết nhiều
nhất. Thật vậy, nguyên nhân ước tính của 12,8 triệu tử vong ở trẻ
dưới 5 tuổi, 1990: nhiễm khuẩn hô hấp cấp 33,4 % (4,3 triệu), tiêu
chảy 24,8% (3,2 triệu), nguyên nhân khác 41,8% (5,4 triệu).
Hen phế quản là một trong những bệnh mạn tính thường

gặp ở trẻ em và là một trong những nguyên nhân buộc trẻ phải
nghỉ học nhiều ngày (trung bình trẻ nghỉ học 5-7 ngày/năm do bị
hen phế quản), tỷ lệ mắc bệnh cũng như tử vong do hen phế quản
ngày càng tăng. Tỉ lệ mắc bệnh từ 0,5-6% trước đây, hiện nay tỉ lệ


2
mắc trung bình tử 5-10%. Tỉ lệ tử vong trước đây là 1-2% hiện
nay có thể cao hơn 2-3%.
Nước ta đang trên đà phát triển và hội nhập. Hệ thống Y tế
và Giáo dục vẫn còn nhiều bất cập và hạn chế, đặc biệt là các cơ
sở vùng sâu vùng xa, chưa có điều kiện tiếp cận với công nghệ
hiện đại. Đội ngũ Y Bác sĩ chưa đủ để đáp ứng với tình trạng bệnh
nhân ngày càng tăng cả về số lượng và loại bệnh. Nhận thức của
người dân về bệnh tật và cách sơ cứu cũng mơ hồ. Nếu muốn đưa
bệnh nhân đến được các bệnh viện trung tâm thì mất nhiều thời
gian…Để khắc phục những khó khăn này, chúng ta cần có công
cụ gần gũi với thực tiễn, người dùng dễ sử dụng và linh hoạt để có
thể giúp bệnh nhân và Y Bác sĩ phát hiện bệnh và điều trị kịp thời.
Việc ứng dụng Công nghệ thông tin (CNTT) vào lĩnh vực y
tế còn hạn chế, nhất là việc hỗ trợ tìm kiếm, khai thác thông tin
nhằm chẩn đoán các biểu hiện lâm sàng. Trong đó, khai phá dữ
liệu là một kỹ thuật thường được áp dụng để hỗ trợ đưa ra các
quyết định khá chính xác.
Chính vì vậy tôi đã chọn luận văn “Ứng dụng khai phá dữ
liệu để chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ
em” làm đề tài nghiên cứu luận văn của mình.
2. Mục tiêu và nhiệm vụ nghiên cứu của đề tài
 Mục tiêu
Mục tiêu của đề tài là xây dựng và áp dụng có hiệu quả việc

trợ giúp ra quyết định trong việc chẩn đoán bệnh hen phế quản và
viêm phế quản cho trẻ em từ 2 tháng tuổi đến 5 tuổi.
 Nhiệm vụ
 Nghiên cứu lý thuyết về thuật toán phân lớp và kỹ thuật cây
quyết định.


3
 Tìm hiểu về bệnh hen phế quản và viêm phế quản, tiến hành
điều tra thu thập dữ liệu về bệnh hen phế quản và viêm phế quản ở trẻ
em từ 2 tháng tuổi đến 5 tuổi.
 Đánh giá kết quả dự đoán của mô hình và lựa chọn mô hình
tốt nhất để chẩn đoán bệnh hen phế quản và viêm phế quản.
 Xây dựng ứng dụng khai phá dữ liệu để chẩn đoán bệnh hen
phế quản và viêm phế quản dựa vào kỹ thuật cây quyết định.
3. Đối tƣợng và phạm vi nghiên cứu
 Đối tƣợng nghiên cứu
 Dữ liệu nghiên cứu bao gồm các yếu tố liên quan đến biểu
hiện và các yếu tố lâm sàng của bệnh hen phế quản và viêm phế quản.
 Các kỹ thuật khai phá dữ liệu, công cụ khai phá dữ liệu và
mô-đun lập trình trong khai phá dữ liệu.
 Phạm vi nghiên cứu
 Dữ liệu thu thập gồm các hồ sơ bệnh án thuộc đối tượng
trẻ em từ 2 tháng tuổi đến 5 tuổi, được chẩn đoán bệnh hen phế quản
và viêm phế quản tại Khoa nhi - bệnh viện đa khoa tỉnh Khánh Hòa,
phòng khám đa khoa trường Cao Đẳng Y tế Khánh Hòa và một số
phòng khám tư nhân trên địa bàn tỉnh Khánh Hòa.
 Nghiên cứu ứng dụng về thuật toán phân lớp và kỹ thuật
cây quyết định.
Xây dựng ứng dụng khai phá dữ liệu để chẩn đoán bệnh hen

phế quản và viêm phế quản cho trẻ em.
4. Phƣơng pháp nghiên cứu
 Phƣơng pháp nghiên cứu lý luận.
 Tìm tòi, đọc hiểu, phân tích thông tin, dữ liệu từ các tài
liệu, giáo trình, sách liên quan đến khai phá dữ liệu.


4
 Nghiên cứu các kỹ thuật phân lớp bằng thuật toán cây
quyết định, ứng dụng các kỹ thuật đó để chuẩn đoán bệnh hen phế
quản và viêm phế quản dựa vào các thông tin đầu vào.
 Phƣơng pháp nghiên cứu thực tiễn.
 Sử dụng kiến thức khai phá dữ liệu cộng với tri thức
chuyên gia bác sĩ, y học chứng cớ và y học thực chứng trong quá
trình khai phá dữ liệu y khoa.
 Tiến hành so sánh kết quả của các kỹ thuật khai phá dữ liệu
để lựa chọn kỹ thuật cho kết quả chính xác nhất.
 Xây dựng hệ thống nhằm hỗ trợ bác sĩ trong việc chẩn đoán
và điều trị bệnh.
5. Kết quả dự kiến
 Kết quả lý thuyết
 Nắm được kỹ thuật khai phá dữ liệu bằng thuật toán phân lớp
và kỹ thuật cây quyết định.
 Ứng dụng kỹ thuật khai phá dữ liệu trên kết quả lâm sàng về
bệnh hen phế quản và viêm phế quản để đưa ra chẩn đoán về khả
năng mắc hay không mắc hai chứng bệnh này.
 Kết quả thực tiễn
 Xây dựng được mô hình chẩn đoán và tư vấn bệnh hen phế
quản và viêm phế quản dựa trên kỹ thuật khai phá dữ liệu.
 Xây dựng hệ thống hỗ trợ để chẩn đoán bệnh hen phế quản

và viêm phế quản cho trẻ em.
6. Ý nghĩa khoa học và thực tiễn của luận văn.
 Ý nghĩa khoa học.
 Thông qua đề tài sẽ hiểu sâu hơn về thuật toán phân lớp và
kỹ thuật cây quyết định.


5
 Góp phần chẩn đoán bệnh hen phế quản và viêm phế quản
của trẻ em dựa trên khai phá dữ liệu.
 Ý nghĩa thực tiễn.
Việc xây dựng ứng dụng chẩn đoán bệnh hen phế quản và
viêm phế quản sẽ hỗ trợ cho bác sĩ, cha mẹ các bé phát hiện được
bệnh để có giải pháp can thiệp kịp thời trong việc chăm sóc sức
khoẻ cho trẻ.
7. Bố cục của luận văn
Dự kiến luận văn được trình bày bao gồm 3 chương như sau:
Chương 1: Trong chương 1 sẽ trình bày về tổng quan về khai
phá dữ liệu, quy trình khai phá dữ liệu, các kỹ thuật khai phá bằng
cây quyết định, Trình bày chi tiết hai thuật toán là ID3 và C4.5
Chương 2: Nghiên cứu và xử lý dữ liệu về bệnh hen phế quản
và viêm phế quản ở trẻ em. Chương này trình bày nội dung sau: Đặc
điểm hệ hô hấp của trẻ em, khái niệm về bệnh hen phế quản và viêm
phế quản, bệnh nguyên, cơ chế sinh bệnh, đặc điểm lâm sàng và chẩn
đoán bệnh hen phế quản, viêm phế quản cho trẻ em, trình bày về canh
tác dữ liệu trong khai phá dữ liệu và ứng dụng vào khai phá dữ liệu
trong y khoa.
Chương 3: Xây dựng hệ thống chẩn đoán bệnh hen phế quản
và viêm phế quản cho trẻ em.



6
CHƢƠNG 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1.1 Sơ lƣợc về khai phá dữ liệu
Khai phá dữ liệu (KPDL) là một khái niệm ra đời vào
những năm cuối của thập kỷ 80 của thế kỷ 20. KPDL được dùng
để mô tả quá trình phát hiện ra tri thức trong cơ sở dữ liệu
(CSDL). Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu
giúp cho việc dự báo trong kinh doanh, các hoạt động sản xuất,...
KPDL làm giảm chi phí về thời gian so với phương pháp truyền
thống trước kia (ví dụ như phương pháp thống kê).
1.1.2 Quy trình khai phá dữ liệu
1.1.3 Các kỹ thuật khai phá dữ liệu

1.1.4 Ứng dụng của khai phá dữ liệu
1.1.5 Tổng quan ứng dụng khai phá dữ liệu vào hỗ trợ chẩn
đoán bệnh trong y tế.
1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU
1.2.1 Phân lớp dữ liệu
Phân lớp dữ liệu là gán các mẫu mới vào các lớp với độ
chính xác cao nhất để dự báo cho các bộ dữ liệu (mẫu) mới.
Đầu vào là một tập các mẫu dữ liệu huấn luyện, với một
nhãn phân lớp cho mỗi mẫu dữ liệu. Đầu ra là mô hình dự đoán
(bộ phân lớp) dựa trên tập huấn luyện và những nhãn phân lớp.
1.2.2 Quá trình phân lớp dữ liệu.
1.2.3 Đánh giá độ chính xác của mô hình phân lớp.
1.3 KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT
ĐỊNH



7
1.3.1 Giới thiệu chung
1.3.2 Biểu diễn cây quyết định
1.3.3 Các bƣớc chính xây dựng cây quyết định
1.3.4 Ƣu điểm và nhƣợc điểm của cây quyết định
1.4 THUẬT TOÁN ID3
1.4.1 Giới Thiệu
1.4.2 Xây dựng giải thuật
Entropy đo tính thuần nhất của tập dữ liệu:
Dùng để đo tính thuần nhất của một tập dữ liệu. Entropy của một
tập S được tính theo công thức
Entropy(S) = - P+ log2 (P+) - P- log2 (P-)

(1.1)

Trong trường hợp các mẫu dữ liệu có hai thuộc tính phân
lớp "yes" (+), "no" (-). Ký hiệu p+ là để chỉ tỷ lệ các mẫu có giá trị
của thuộc tính quyết định là "yes", và P - là tỷ lệ các mẫu có giá trị
của thuộc tính quyết định là "no" trong tập S.
Trường hợp tổng quát, đối với tập con S có n phân lớp thì ta
có công thức sau:
n

Entropy ( s)   ( Pi log 2 ( Pi ))

(1.2)

i 1


Trong đó Pi là tỷ lệ các mẫu thuộc lớp i trên tập hợp S các mẫu
kiểm tra.
Information Gain (viết tắt là Gain): Gain là đại lượng dùng
để đo tính hiệu quả của một thuộc tính được lựa chọn cho việc
phân lớp. Đại lượng này được tính thông qua hai giá trị
Information và Entropy.
Cho tập dữ liệu S gồm có n thuộc tính Ai(i=1,2…n) giá trị
Gain của thuộc tính A trong tập S ký hiệu là Gain(S, A) và được tính
theo công thức sau:


8
Gain(S,A)=Entropy ( S ) 



Sv

vvalue ( A )

s

Entropy ( Sv )

(1.3)

Trong đó:
 S là tập hợp ban đầu với thuộc tính A. Các giá trị của V
tương ứng là các giá trị của thuộc tính A.

 Sv bằng tập hợp con của tập S mà có thuộc tính A mang giá
trị v.
 |Sv| là số phần tử của tập Sv.
 |S| là số phần tử của tập S.
 Trong quá trình xây dựng cây quyết định (DT) theo thuật
toán ID3 tại mỗi bước triển khai cây, thuộc tính được chọn để triển
khai là thuộc tính có giá trị Gain lớn nhất.
 Hàm xây dựng cây quyết định trong thuật toán ID3
Function induce_tree (tập_ví_dụ, tập_thuộc_tính)
begin
if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then
return một nút lá được gán nhãn bởi lớp đó
else if tập_thuộc_tính là rỗng then
return nút lá được gán nhãn bởi tuyển của tất cả các lớp
trong tập_ví_dụ
else begin
chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại;
xóa P ra khỏi tập_thuộc_tính;
với mỗi giá trị V của P
begin
tạo một nhánh của cây gán nhãn V;
Đặt vào phân_vùng V các ví dụ trong tập_ví_dụ có
giá trị V tại thuộc tính P;


9
Gọi induce_tree (phân_vùng V, tập_thuộc_tính), gắn
kết quả vào nhánh V
end
end

end
1.4.3 Ví dụ thuật toán ID3
1.4.4 Nhận xét về thuật toán
1.5 THUẬT TOÁN C4.5
1.5.1 Giới thiệu về thuật toán
Thuật toán C4.5 được phát hiện và công bố bởi J. Ross
Quinlan vào năm 1996. Thuật toán C4.5 được cải tiến từ thuật
toán ID3 với việc cho phép xử lý trên tập dữ liệu có các thuộc tính
số (numeric atributes) và làm việc được với tập dữ liệu bị thiếu và
bị nhiễu. Nó thực hiện phân lớp tập mẫu dữ liệu theo chiến lược
ưu tiên theo chiều sâu (Depth – First). Thuật toán xét tất cả các
phép thử có thể để phân chia tập dữ liệu đã cho và chọn ra một
phép thử có giá trị GainRatio tốt nhất. GainRatio là một đại lượng
để đánh giá độ hiệu quả của thuộc tính dùng để thực hiện phép
tách trong thuật toán để phát triển DT.
GainRatio được xác định bởi công thức sau:
Gain( S , A)
GainRatio(S , A) 
Split inf omation(S , A)

(1.4)

Trong đó:
 Cách tính của Entropy và Gain có ở công thức 1.2 và 1.3.
 Trong đó, SplitInformation(S, A) chính là thông tin do phân
tách của A trên cơ sở giá trị của thuộc tính phân loại S. Công thức
tính như sau.


10

n

SplitInfomation  S , A  
i 1

Si
S

log 2

Si

S

(1.5)

Để ý rằng SplitInfomation thực sự chính là Entropy của S
với sự liên quan trên những giá trị của thuộc tính A. Trong thuật
toán C4.5 tất cả các thuộc tính sẽ được tính toán độ đo GainRatio,
thuộc tính nào có độ đo GainRatio lớn nhất sẽ được chọn làm
thuộc tính phân chia.
1.5.2 Xây dựng giải thuật
 Thuật Toán C4.5
Dữ liệu vào: Tập dữ liệu E, tập thuộc tính F, tập nhãn lớp.
Dữ liệu ra: Mô hình DT.
Thuật toán: Tạo cây (tập dữ liệu E, tập thuộc tính F, tập
nhãn lớp)
Nếu điều kiện dừng (E,F)=Đúng
Nutla=CreaNode(); Nutla.nhanlop=phanlop(E)
Return nutla

Ngược lại
Nutgoc=CreateNode()
Nutgoc.điều kiện kiểm tra=Tìm điểm chia tốt nhất (E,F)
Đặt F=F\{nút chọn phân chia}
Đặt V={v|v thõa mãn điều kiện là phần phân chia xuất
phát từ Nutgoc}
Lặp qua từng tập phân chia v  V
Đặt Ev ={e| Nutgoc.điều kiện kiểm tra (e)=v và e  E}
Nutcon=Tạocây(Ev, F, Tập nhãn lớp)
Dừng lặp
End if


11
Trả về Nút gốc
1.5.3 Ví dụ thuật toán C4.5
 Dữ liệu vào:
+ Tập dữ liệu thời tiết.
Bảng 1.1. Tập dữ liệu ví dụ thuật toán C4.5
Ngày

Quang
cảnh

Nhiệt độ

Độ ẩm

Gió


Chơi
tennis

D1

Nắng

Nóng

85

Nhẹ

Không

D2

Nắng

Nóng

90

Mạnh

Không

D3

Âm u


Nóng

78

Nhẹ



D4

Mưa

Ấm áp

96

Nhẹ



D5

Mưa

Mát

80

Nhẹ




D6

Mưa

Mát

70

Mạnh

Không

D7

Âm u

Mát

65

Mạnh



D8

Nắng


Ấm áp

95

Nhẹ

Không

D9

Nắng

Mát

70

Nhẹ



D10

Mưa

Ấm áp

80

Nhẹ




D11

Nắng

Ấm áp

70

Mạnh



D12

Âm u

Ấm áp

90

Mạnh



D13

Âm u


Nóng

75

Nhẹ



D14

Mưa

Ấm áp

80

Mạnh

Không

Tạo Cây lần 1:
Entropy(S) = -(

9
9
5
5
)log2( ) – ( )log2( ) = 0.940
14

14
14
14

Thuộc tính Ngày:
Gain(S, Ngày) = Entropy(S) - Entropy(S, Ngày), Trong đó:


12

1
1
)×Entropy(SD1) + ( )×Entropy(SD2)…
14
14
1
1
+ ( ) × Entropy(SD14) = 14×( )×(0) = 0
14
14
Entropy(S, Ngày)= (

Gain(S, Ngày) = Entropy(S) - Entropy(S, Ngày) = 0.940 – 0
=0.940
SplitInfomation(S, Ngày) = 14×(- (

1
1
)log2( )) = 3.807
14

14

GainRatio(S, Ngày) = 0.940/3.807 = 0.246
Thuộc tính quang cảnh:
Gain(S, Quang cảnh) = Entropy(S) – Entropy(S, Quang Cảnh)
Trong đó:
Entropy(S, QuangCảnh)=(

5
4
)×Entropy(SNắng)+( )
14
14

5
) ×Entropy(SMưa)
14
5
4
5
Gain(S, Quang cảnh) = 0.940 – ( )* 0.971 – ( )* 0 – ( )*
14
14
14
×Entropy(SÂmu)+ (

0.97= 0.246
SplitInfomation(S, Quang cảnh) = - (

5

5
4
)log2( ) - ( )log2(
14
14
14

4
5
5
) - ( )log2( ) = 1.577
14
14
14
GainRatio(S, Quang cảnh) = 0.246/1.577 = 0.156
Thuộc tính nhiệt độ:
Gain(S, Nhiệt độ) = Entropy(S) - Entropy(S, Nhiệt độ), Trong
đó:


13
Entropy(S, Nhiệt độ) = (

4
6
)×Entropy(SNóng)+( )
14
14

4

) × Entropy(SMát)
14
4
6
4
Gain(S, Nhiệt độ) = 0.940 – ( )*1 – ( )*0.9178 – ( )
14
14
14
×Entropy(SẤmáp)+(

*0.81128 = 0.029
SplitInfomation(S, Nhiệt độ) = - (
–(

4
4
6
6
)log2( ) – ( )log2( )
14
14
14
14

4
4
)log2( ) = 1.557
14
14


GainRatio(S, Nhiệt độ) = 0.028/1.557 = 0.019
Thuộc Tính Độ ẩm:
Gain(S, Độ ẩm) = Entropy(S) - Entropy(S, Độ ẩm), Trong đó:
Entropy(S, Độ ẩm) = (

9
)×Entropy(Sđộ
14

ẩm<=82.5)

+ (

5
)
14

×Entropy(Sđộ ẩm>82.5)

9
7
7
2
2
5
2
2
)(- ( )log2( ) – ( )log2( )) + ( )(-( )log2( ) –
14

9
9
9
9
14
5
5
3
3
( )log2( ))= 0.838
5
5
=(

Gain(S, Độ ẩm) = Entropy(S) - Entropy(S, Độ ẩm) = 0.940 –
0.838 = 0.102
SplitInfomation(S, Độ ẩm) = -(

9
9
5
5
)log2( ) – ( )log2( )
14
14
14
14

= 0.940
GainRatio(S, Độ ẩm) = 0.102/0.940 = 0.108

Thuộc Tính Gió:
Gain(S, Gió) = Entropy(S) – Entropy(S, Gió), Trong đó:


14

6
8
)×Entroy(SMạnh) + ( )×Entropy(SNhẹ)
14
14
8
6
Gain(S, Gió) = 0.940 – ( )*0.811 – ( )*1= 0.048
14
14
6
6
8
8
SplitInfomation(S,
Gió)=-( )log2( )–( )log2(
14
14 14
14
Entropy(S, Gió) = (

)=0.985
GainRatio(S, Gió) = 0.048/0.985 = 0.049
Lựa chọn thuộc tính tốt nhất để phân chia

Entropy trung bình của các thuộc tính = (0.694 + 0.892 + 0.838
+ 0.911 + 0)/5 = 0.667
Ta có: GainRatio(S, Quang cảnh) = 0.156
Entopy(S, Quang Cảnh) = 0.694 > 0.667.
Vậy thuộc tính đƣợc chọn làm thuộc tính phân chia là
Quang Cảnh
Tạo Cây lần 2:
Sau khi lập được cấp đầu tiên của DT ta lại xét nhánh Nắng
GainRatio(SNắng, Nhiệt độ) = 0.571/1.522 = 0.375
GainRatio(SNắng, Độ ẩm) = 0.971/0.971 = 1
GainRatio(SNắng, Gió) = 0.020/0.971 = 0.021
GainRatio(SNắng, Ngày) = 0.971/2.322 = 0.418
Như vậy thuộc tính “Độ ẩm” có hiệu suất phân loại cao nhất
huộc tính “Độ ẩm” làm nút kế
tiếp.
Tương tự như vậy đối với nhánh còn lại của DT ta được cây
quyết định hoàn chỉnh như sau:


15

Quang cảnh
Nắng

Độ ẩm
82.5



Âm u


Mưa

Gió

Có Chơi
>82.5
Không Chơi

Mạnh

Nhẹ

Không Chơi

Có Chơi

Hình 1.1 Cây Quyết định Chơi tennis thuật toán C4.5
Tập luật từ cây quyết định:
Luật 1: if (Quang cảnh = Nắng) Và (Độ ẩm ≤ 82.5) then Chơi
tennis = Có
Luật 2: if (Quang cảnh = Nắng) Và (Độ ẩm >82.5) then Chơi
tennis = Không
Luật 3: if (Quang cảnh = Âm u) Và Chơi tennis = Có
Luật 4: if (Quang cảnh = Mưa) Và (Gió = Mạnh) then Chơi
tennis = Không
Luật 5: if (Quang cảnh = Mưa) Và (Gió = Nhẹ) then Chơi
tennis = Có
1.5.4 Nhận xét về thuật toán



16
CHƢƠNG 2
TỔNG QUAN VỀ BỆNH HEN PHẾ QUẢN
VÀ VIÊM PHẾ QUẢN
2.1 ĐẶC ĐIỂM HỆ HÔ HẤP Ở TRẺ EM
2.1.1 Đặc điểm giải phẫu
2.1.2 Đặc điểm sinh lí
2.2 KHÁI NIỆM BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN
2.2.1 Khái niệm bệnh hen phế quản
Mặc dù cho tới nay vẫn chưa có được một định nghĩa nào
hoàn chình về hen và vấn đề này còn đang được tranh luận, nhưng
những quan điểm chính về hen được nhiều người công nhận có
thể tóm tắt như sau:
 Quan điểm của các nhà sinh lý học cho rằng hen là sự kết
hợp giữa hai hiện tượng tăng tính mẫn cảm của phế quản và tắc
nghẽn đường hô hấp.
 Quan điểm của các nhà sinh lý bệnh cho rằng hen bao gồm
các hiện tượng co thắt cơ trơn phế quản, phù niêm mạc và tăng tiết
dịch nhầy của phế quản.
Hiện nay người ta cho rằng viêm là yếu tố trung tâm gây
nên các thay đổi kể trên. Phản ứng viêm huy động và hoạt hóa tê
bào Mast, bạch cầu đa nhân trung tính, đại thực bào, tiểu cầu và
bạch cầu ưa axít giải phóng ra các chất trung gian hóa học như
Histamin, Leucotrien, Prostaglandin, Thromboxan và các yếu tố
hoạt hóa tiểu cầu.
2.2.2 Khái niệm bệnh viêm phế quản
Viêm phế quản (VPQ) là bệnh thường gặp ở trẻ em, bất kể
lứa tuổi nào và thời tiết nào. Đặc biệt là trẻ ở thành thị cũng như ở



17
các nơi tập trung dân cư đông đúc thì tỉ lệ bệnh còn cao hơn. Hiểu
biết một số nguyên nhân và cách đề phòng sẽ làm giảm thiểu căn
bệnh, đề phòng biến chứng và nâng cao chất lượng cuộc sống.
VPQ là viêm nhiễm đường thở dưới, dân gian còn gọi là
sưng cuống phổi, bệnh chưa tấn công vào nhu mô phổi, tuy nhiên
khi viêm cuống phổi thì sẽ gây triệu chứng kích thích ho nhiều và
nếu không được điều trị tích cực thì có thể lan xuống nhu mô phổi
dẫn đến viêm phổi.
2.3 BỆNH NGUYÊN – CƠ CHẾ SINH BỆNH HEN PHẾ QUẢN
VÀ VIÊM PHẾ QUẢN
2.3.1 Nguyên nhân bệnh hen phế quản
2.3.2 Nguyên nhân bệnh viêm phế quản
2.3.3 Chẩn đoán bệnh
2.4 KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU

2.4.1 Khái niệm
KPDL và khám phá ra tri thức là quá trình tìm ra những tri
thức, những mô hình hữu dụng từ CSDL ban đầu. Quá trình này
cần phải có những phương pháp luận và công cụ cho việc xác
định những loại dữ liệu nào thích hợp nhất cho mục đích và yêu
cầu của bài toán.
Qui trình và các phương pháp được sử dụng để quyết định
đặc tính nào thích đáng nhất cần thu thập dữ liệu, nhằm rút ra
được tri thức hữu dụng từ các CSDL, gọi là canh tác dữ liệu.
Canh tác dữ liệu (CTDL), xét về mặt ứng dụng thì giá trị
thông tin là gần như chưa có. Còn về phương pháp, CTDL thì tập
trung xác định bản chất tác động qua lại giữa các thuộc tính để
khai phá.

2.4.2 Mục đích và phƣơng pháp luận của canh tác dữ liệu


18
2.4.3 Vai trò canh tác dữ liệu trong khám phá tri thức và
khai phá dữ liệu
2.4.4 Lựa chọn và áp dụng phƣơng pháp CTDL.
2.4.5 Phƣơng pháp canh tác dữ liệu đánh giá đặc tính
 Định nghĩa.
Chọn lựa thuộc tính có đặc tính tốt là quy trình chọn lựa ra
các tập con thuộc tính từ một tập con đặc tính gốc đầy đủ, sao cho
mỗi tập con này có thể đánh giá tốt và khả năng dự đoán chính xác.
 Các phƣơng pháp chọn lựa đặc tính
Có 3 phương pháp chọn lựa đặc tính sau:
Phương pháp vét cạn, phương pháp chọn ngẫu nhiên, phương
pháp chọn theo kinh nghiệm chuyên gia.
Trong 3 phương pháp trên phương pháp vét cạn sẽ cho ra
dư thừa các tập con rất nhiều vì nó có thể không liên quan đến giá
trị trong chẩn đoán. Phương pháp chọn ngẫu nhiên sẽ có thể dẫn
đến khả năng thiếu tập con mà những tập dữ liệu con này có khả
năng có giá trị trong chẩn đoán. Còn phương pháp chọn theo kinh
nghiệm của chuyên gia nó sẽ khắc phục được các khuyết điểm của
2 phương pháp trên, vì những thuộc tính do kinh nghiệm của các
chuyên gia đưa ra đa phần là kết quản đã được kiểm chứng thực tế
do đó đều liên quan đến chẩn đoán, mặc dù các chuyên gia khác
nhau nhiều lúc đem ra các đặc tính khác nhau.
Nên trong luận văn này em chọn phương pháp theo kinh
nghiệm của chuyên gia.
2.5 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ
DỮ LIỆU Y KHOA

2.5.1 Vai trò của điều dƣỡng, bác sĩ trong canh tác dữ liệu y
khoa


19
2.5.2 Ứng dụng canh tác dữ liệu trong khai phá dữ liệu
bệnh HPQ và VPQ
Có nhiều triệu chứng ảnh hưởng đến việc chẩn đoán bệnh
HPQ và VPQ như đã nêu ở trên. Tuy nhiên ở đây, chúng ta chú
trọng đến những triệu chứng quan trọng sau:
 Thuộc tính ho: Là kiểu thuộc tính loại Nominal có giá trị {có,
không}.
 Thuộc tính sốt: Là kiểu thuộc tính loại Nominal có giá trị
{sốt, không sốt}.
 Thuộc tính nặng ngực (tức ngực): Là kiểu thuộc tính loại
Nominal có giá trị {có, không}.
 Thuộc tính nhịp thở: Là kiểu thuộc tính loại Nominal có giá
trị {bình thường, khó thở, thở nhanh}.
 Thuộc tính đàm (đờm): Là kiểu thuộc tính loại Nominal có
giá trị {không có, màu xanh,Màu trắng}.
 Thuộc tính sổ mũi: Là kiểu thuộc tính loại Nominal có giá trị
{có, không}.
 Thuộc tính khò khè: Là kiểu thuộc tính loại Nominal có giá
trị {có, không}.
 Thuộc tính rút lõm lồng ngực: Là kiểu thuộc tính loại
Nominal có giá trị {có, không}.
 Thuộc tính ran ngáy, ran rít: Là kiểu thuộc tính loại Nominal
có giá trị {có, không}.
 Thuộc tính ran ẩm: Là kiểu thuộc tính loại Nominal có giá trị
{có, không}.

 Thuộc tính li bì, quấy khóc: Là kiểu thuộc tính loại Nominal
có giá trị {có, không}.
Trên chính là các tập thuộc tính, dựa vào tập thuộc tính này
ta sẽ dự đoán giá trị cho thuộc tính đích là chẩn đoán, đây là
thuộc tính phân loại.


20
CHƢƠNG 3
XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH HEN
PHẾ QUẢN VÀ VIÊM PHẾ QUẢN
3.1 DỮ LIỆU
3.1.1 Thu thập dữ liệu
3.1.2 Xử lý dữ liệu-Chuyển đổi dữ liệu
3.1.3 Chọn lựa thuật toán và ngôn ngữ lập trình để tiến
hành khai phá
3.2 XÂY DỰNG CHƢƠNG TRÌNH
3.2.1 Dữ liệu đầu vào
Tập dữ liệu y khoa của những bệnh nhân có độ tuổi từ 2
tháng tuổi đến 5 tuổi được chẩn đoán bệnh HPQ và VPQ. Và các
triệu chứng lâm sàng người dùng nhập vào để chẩn đoán bệnh.
3.2.2 Dữ liệu đầu ra
Đầu ra: Cây quyết định dạng treeview và các tập luật để
chẩn đoán bệnh HPQ và VPQ.
3.2.3 Các chức năng chính của chƣơng trình
3.2.4 Phân tích yêu cầu của bài toán
3.3 DEMO CHƢƠNG TRÌNH
Màn hình đăng nhập: Người dùng nhập tên đăng nhập và
mật khẩu để vào hệ thống.


Hình 3.1 Màn hình đăng nhập vào hệ thống


21
 Màn hình chọn lựa chức năng: Người dùng có hai lựa chọn
chức năng là “Huấn luyện dữ luyện” và “chẩn đoán bệnh”.

Hình 3.2 Màn hình lựa chọn chức năng
 Màn hình huấn luyện dữ liệu: Ở màn hình này người dùng
chọn vào nút “Tải dữ liệu” dữ liệu ở đây được định dạng bởi file
excel có phần mở rộng là *arff hoặc file CSV.

Hình 3.3 Màn hình huấn luyện dữ liệu với giải thuật C4.5


22
 Màn hình chẩn đoán bệnh:

Hình 3.4 Màn hình chẩn đoán bệnh
3.4 KẾT QUẢ ĐẠT ĐƢỢC
 Với bộ dữ liệu là 1812 hồ sơ bệnh án hệ thống chẩn đoán với
giải thuật C4.5 với tỉ lệ chính xác của của Cây Quyết Đinh =
95.6401766004415%.

Hình 3.5 Kết quả huấn luyện dữ liệu của hệ thống


23
 Kết quả chẩn đoán bệnh của hệ thống.


Hình 3.6 Kết quả chẩn đoán bệnh
3.5 SO SÁNH VỚI CÁC ĐỀ TÀI TƢƠNG TỰ.
Thời gian qua cũng có nhiều đề tài ứng dụng KPDL để xây
dựng một hệ thống nhằm chẩn đoán bệnh như: Hoàng Thị Thanh
Hiền, ứng dụng khai phá dữ liệu để xây dựng hệ thống chẩn đoán
bệnh trầm cảm cho học sinh phổ thông, Đại học Đà Nẵng. Trương
Minh Văn, ứng dụng khai phá dữ liệu chẩn đoán bệnh sốt xuất
huyết, Đại học Lạc Hồng.
Trong luận văn này tác giả có sử dụng phương pháp CTDL
trong KPDL y khoa, lựa chọn đặc tính theo kinh nghiệm của
chuyên gia (y bác sỹ). Luận văn đã đạt được độ chính xác trong
huấn luyện dữ liệu là 95.64% so với các đề tài của Hoàng Thanh
Hiền là 97,23%, đề tài của Trương Minh Văn là 88,88%.
Luận văn này tác giả cũng đã xây dựng thêm chức năng huấn
luyện dữ liệu tích hợp vào hệ thống mà hai luận văn trên không có.


×