Tải bản đầy đủ (.pdf) (23 trang)

Ứng dụng khoa học dữ liệu vào chẩn đoán nguy cơ mắc bệnh đái tháo đường ở phụ nữ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.43 MB, 23 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b> BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEHKHOA TÀI CHÍNH</b>

<i><b>TIỂU LUẬN CUỐI KỲ</b></i>

<b>ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO CHẨN ĐOÁNNGUY CƠ MẮC BỆNH ĐÁI THÁO ĐƯỜNG Ở PHỤ NỮ </b>

<i><b>Giảng viên hướng dẫn : Võ Thành Đức</b></i>

<b>Môn học: Khoa học Dữ liệu</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

1.3. Đối tượng nghiên cứu...3

CHƯƠNG 2: TỔNG QUAN VỀ ĐÁI THÁO ĐƯỜNG...4

2.1. Định nghĩa...4

2.2. Phân loại Đái tháo đường...4

2.2.1. Đái tháo đường type 1...4

2.2.2. Đái tháo đường type 2...4

2.2.3. Các loại bệnh Đái tháo đường đặc biệt khác...5

2.3. Các biến chứng của Đái tháo đường...5

CHƯƠNG 4: KẾT QUẢ THỰC HIỆN...9

4.1. Phân tích dữ liệu dựa trên phần mềm...9

4.1.1. Kết quả dữ liệu huấn luyện...9

4.1.2. Kết quả dữ liệu dự báo...12

4.2. Đánh giá kết quả và mơ hình...14

CHƯƠNG 5: KẾT LUẬN VÀ NHẬN XÉT...16

5.1. Kết luận...16

5.2. Nhận xét...17

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

5.2.1. Hạn chế...17

5.2.2. Giải pháp...17

TÀI LIỆU THAM KHẢO...19

PHỤ LỤC KẾT QUẢ DỰ BÁO...20

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>LỜI CẢM ƠN</b>

Trước hết, nhóm chúng em muốn bày tỏ lịng biết ơn chân thành đến Trường Đại học Kinh tế Thành phố Hồ Chí Minh vì đã tích hợp mơn học Khoa học dữ liệu vào chương trình giảng dạy. Đặc biệt, chúng em khơng thể khơng bày tỏ lịng kính trọng và biết ơn sâu sắc đến thầy Võ Thành Đức, giảng viên của chúng em, người đã không ngừng hỗ trợ và chia sẻ những kiến thức quý báu trong suốt khoảng thời gian học vừa qua. Thầy không chỉ là người thầy mẫu mực mà còn là nguồn động viên lớn lao, giúp chúng em phát triển tư duy và kỹ năng trong lĩnh vực này.

Quãng thời gian tham gia môn học Khoa học dữ liệu của thầy thực sự là một hành trình đầy ấn tượng. Chúng em đã học được không chỉ những kiến thức chuyên sâu mà còn là tinh thần làm việc hiệu quả và nghiêm túc. Những thông điệp và kinh nghiệm thực tế mà chúng em đã thu được từ thầy sẽ là nguồn động viên quý báu, giúp chúng em tự tin hơn trên con đường sự nghiệp.

Môn học Khoa học dữ liệu khơng chỉ là thách thức mà cịn là cơ hội để chúng em phát triển. Nó khơng chỉ cung cấp những kiến thức sâu rộng mà còn tận dụng tối đa nhu cầu thực tế của sinh viên trong thời đại công nghệ số ngày nay. Tuy nhiên, do chúng em có hạn chế về kiến thức và khả năng tiếp thu, có những điểm chưa hồn hảo trong bài tiểu luận của chúng em. Chúng em đã cố gắng hết sức, nhưng không thể tránh khỏi những khuyết điểm và sai sót. Chúng em mong rằng thầy sẽ chia sẻ ý kiến và góp ý của mình để chúng em có cơ hội hồn thiện bài tiểu luận hơn.

Nhóm chúng em chân thành cảm ơn sự hỗ trợ và sự dạy dỗ quý báu của thầy!

2

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>CHƯƠNG 1: TỔNG QUAN</b>

<b>1.1. Lý do chọn đề tài</b>

Đái tháo đường là một trong những bệnh mãn tính phổ biến nhất trên thế giới, với tốc độ gia tăng đáng kể và trở thành một vấn đề sức khỏe cộng đồng cần đặc biệt quan tâm. Bệnh Đái tháo đường cũng là một trong những nguyên nhân gây tử vong hàng đầu hiện nay, làm gia tăng gánh nặng y tế, ảnh hưởng nghiêm trọng đến sức khỏe cộng đồng. Tuy nhiên, hiểu biết của cộng đồng về “kẻ giết người thầm lặng” này còn nhiều hạn chế, nhiều người vẫn không nhận ra được tầm quan trọng của vấn đề này.

Song song với sự phổ biến của các bệnh mãn tính như Đái tháo đường, sự phát triển nhanh chóng của khoa học dữ liệu và công nghệ thông tin đã mở ra rất nhiều những cơ hội mới để áp dụng trong lĩnh y tế. Ứng dụng dữ liệu trong y tế đã tạo ra những thay đổi lớn trong việc hỗ trợ các y bác sĩ trong q trình chẩn đốn, phân tích và đánh giá trong q trình chăm sóc sức khỏe, điều trị bệnh nhân.

Trước tình hình đó, nhóm chúng em đã lựa chọn tiến hành đề tài “ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO CHẨN ĐOÁN NGUY CƠ MẮC BỆNH ĐÁI THÁO ĐƯỜNG Ở PHỤ NỮ” để có thể nhận biết được những nguy cơ mắc bệnh Đái tháo đường từ trước đặc biệt ở phụ nữ. Từ đó giúp tăng cơ hội cho việc can thiệp sớm và tối ưu hóa quản lý bệnh, giúp giảm thiểu các biến chứng và chi phí điều trị. Qua đó góp phần nào vào việc kiểm soát và ngăn chặn bệnh Đái tháo đường cho các bài nghiên cứu sau này.

<b>1.2. Mục nghiên cứu</b>

Đưa ra cái nhìn tổng quát về căn bệnh Đái tháo đường; Xây dựng mơ hình phù hợp nhất để tiến hành dự báo những người phụ nữ có nguy cơ mắc bệnh Đái tháo đường từ bộ dữ liệu dự báo đã được chọn; Từ đó đưa ra những kết luận về những chỉ số tạo nguy cơ cao mắc bệnh Đái tháo đường ở phụ nữ, giải pháp góp phần phịng, chống bệnh Đái tháo đường.

<b>1.3. Đối tượng nghiên cứu</b>

Đối tượng nghiên cứu của đề tài là 768 bệnh nhân tham gia khảo sát tất cả bệnh nhân ở đây đều là những người phụ nữ Ấn độ Pima ít nhất 21 tuổi - một trong những nơi có tỷ lệ Đái tháo đường cao nhất thế giới.

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>CHƯƠNG 2: TỔNG QUAN VỀ ĐÁI THÁO ĐƯỜNG</b>

<b>2.1. Định nghĩa</b>

Theo WHO (Tổ chức y tế thế giới), Đái tháo đường là một bệnh mãn tính gây ra bởi sự thiếu hụt tương đối hoặc tuyệt đối insulin, dẫn đến các rối loạn chuyển hóa hydrat cacbon. Bệnh được đặc trưng bởi tình trạng tăng đường huyết mãn tính và các rối loạn chuyển hóa.

Các triệu chứng bao gồm tiểu tiện, khát nước và cảm thấy đói nhiều hơn bình thường. Nếu khơng được điều trị, Đái tháo đường có thể gây ra nhiều biến chứng, gồm các biến chứng cấp tính như tăng áp lực thẩm thấu và tử vong cũng như các biến chứng mãn tính như bệnh tim mạch, tai biến mạch máu não, bệnh thận, tổn thương mắt, thần kinh và suy giảm nhận thức,...

<b>2.2. Phân loại Đái tháo đường2.2.1. Đái tháo đường type 1</b>

- Đái tháo đường type 1 xảy ra khi cơ thể ngừng sản xuất insulin hoặc lượng insulin được sản xuất q ít khơng đủ để điều hịa lượng glucose có trong máu.

- Đái tháo đường type 1 còn được biết đến với cái tên “Đái tháo đường tuổi vị thành niên” hoặc “Đái tháo đường phụ thuộc insulin”.

- Đái tháo đường type 1 chiếm khoảng 5%-10% các trường hợp bị Đái tháo đường trên toàn thế giới, thường gặp chủ yếu ở trẻ em hoặc thiếu niên.

- Đái tháo đường type 1 cũng có thể gặp ở những người lớn tuổi hơn do tụy bị hủy hoại bởi rượu, phẫu thuật hoặc bệnh tật. Bệnh cũng có thể là kết quả của bệnh suy tế bào beta tuyến tụy tiến triển, vốn là những tế bào sản xuất insulin

- Những bệnh nhân bị Đái tháo đường type 1 cần phải được điều trị bằng insulin mỗi ngày để duy trì cuộc sống.

<b>2.2.2. Đái tháo đường type 2</b>

Xảy ra khi tụy có khả năng sản xuất insulin nhưng cơ thể mất khả năng sử dụng được lượng insulin này (một phần hay hoàn toàn). Cơ thể cố gắng chống lại sự đề kháng này bằng cách chế tiết insulin nhiều hơn. Những người bị đề kháng insulin sẽ phát triển thành bệnh Đái tháo đường type 2 khi cơ thể họ không tiếp tục chế tiết đủ Insulin để đáp ứng với nhu cầu cao hơn.

- Đái tháo đường loại 2 thường được gọi là “Đái tháo đường tuổi trưởng thành” hoặc “Đái tháo đường không phụ thuộc insulin”.

- Có ít nhất 90% bệnh nhân Đái tháo đường bị Đái tháo đường type 2. Các bệnh nhân ở giai đoạn trưởng thành có khả năng cao bị bệnh Đái tháo đường type 2, thường là sau 45 tuổi.

4

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

- Đái tháo đường type 2 có thể kiểm sốt được bằng chế độ ăn, giảm cân, thể thao và thuốc. Hơn 50% bệnh nhân Đái tháo đường type 2 cần sử dụng insulin để kiểm soát đường huyết ở một số giai đoạn tiến triển của bệnh.

<b>2.2.3. Các loại bệnh Đái tháo đường đặc biệt khác</b>

<b>● Đái tháo đường thứ phát: do bệnh lý tụy ngoại tiết, bệnh nội tiết, do dùng thuốc và hóa</b>

chất, một số hội chứng rối loạn gen.

<b>● Đái tháo đường thai kỳ: Hội chứng này xảy ra trong nửa cuối thai kỳ</b>

- Những phụ nữ bị Đái tháo đường thai kỳ dễ sinh con to.

- Mặc dù Đái tháo đường thai kỳ thường sẽ khỏi sau khi sinh, những phụ nữ bị bệnh này sẽ dễ bị Đái tháo đường type 2 hơn những phụ nữ khác sau này.

<b>2.3. Các biến chứng của Đái tháo đường2.3.1. Biến chứng cấp tính</b>

Trong giai đoạn ngắn, Đái tháo đường có thể gây ra những tình trạng cấp tính sau: - Nhiều bệnh nhiễm trùng

- Hạ đường huyết

- Nhiễm ceton acid do Đái tháo đường

- Hội chứng tăng áp lực thẩm thấu không do ceton

<b>2.3.2. Biến chứng mãn tính</b>

Nếu kéo dài, Đái tháo đường có thể gây tổn thương võng mạc, thận, thần kinh và mạch máu.

- Tổn thương võng mạc có thể dẫn đến mù lịa - Tổn thương thận có thể gây suy thận

- Tổn thương thần kinh có thể gây ra những vết thương và loét ở bàn chân, thường phải cắt cụt bàn và cẳng chân

- Tổn thương các dây thần kinh thuộc hệ thần kinh tự chủ có thể dẫn tới liệt dạ dày, tiêu chảy, không kiểm soát được tần số tim và huyết áp khi thay đổi tư thế. - Thúc đẩy xơ vữa động mạch dẫn đến hẹp hoặc tắc nghẽn mạch máu. Những thay

đổi này có thể dẫn đến cơn suy tâm cấp, đột quỵ và giảm lưu lượng tuần hoàn đến tay và chân (bệnh lý mạch máu ngoại biên).

- Dẫn đến tăng huyết áp và tăng cholesterol, triglycerid. Những bệnh này tiến triển độc lập kết hợp với Đái tháo đường để gia tăng nguy cơ bị bệnh tim mạch, bệnh thận, và những biến chứng về mạch máu khác.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>CHƯƠNG 3: MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT</b>

<b>3.1. Mô tả dữ liệu.</b>

Bộ dữ liệu được lấy trực tiếp từ nguồn:

Trong các cột dữ liệu, cột outcome là mục tiêu của bài nghiên cứu, cho biết việc dự đốn bạn có nguy cơ Đái tháo đường hay khơng. Trong bài này, sinh viên sử dụng 768 phiếu khảo sát trong đó sử dụng 768 phiếu để huấn luyện (Training) và 200 phiếu ngẫu nhiên để kiểm tra dữ liệu (Forecast). Sau đây là một số tác nhân chúng em thực hiện khảo sát để tổng hợp dữ liệu cho việc dự đốn các chứng bệnh hình thành nên nguy cơ Đái tháo đường.

<b>3.1.1. Mô tả các biến</b>

Pregnancies Việc mang thai có thể làm tăng các vấn đề Đái tháo đường lâu dài nhất định, như vấn đề về mắt và bệnh

Cho biết mức đường trung bình có thể dẫn đến bệnh

Blood Pressure Huyết áp cao (tăng huyết áp) có thể dẫn đến nhiều biến chứng của bệnh Đái tháo đường. Hầu hết mọi người mắc Đái tháo đường cuối cùng sẽ phải đối mặt với tình trạng huyết áp cao, cùng với những vấn

đề về tim và tuần hoàn máu khác.

Định lượng

Skin Thickness <sup>Các kết quả nghiên cứu cho thấy độ dày da giảm đi</sup> do sự tiến triển của bệnh Đái tháo đường. Độ dày da

bị ảnh hưởng đáng kể bởi mức độ insulin, nhưng không bị ảnh hưởng bởi mức độ glucose.

Định lượng

Insulin Insulin là một yếu tố quan trọng trong việc phát triển Đái tháo đường loại 2. Hormone quan trọng

này, mà bạn không thể sống sót nếu thiếu, điều chỉnh đường huyết (glucose) trong cơ thể, một quá

trình rất phức tạp.

Định lượng

6

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

BMI Chỉ số người ta dùng để tính tốn mức độ béo phì Định lượng Diabetes Pedigree

Function <sup>DPF ước lượng khả năng mắc bệnh Đái tháo đường</sup>tùy thuộc vào tuổi của người nghiên cứu và tiền sử Đái tháo đường trong gia đình, được xem xét là các yếu tố nguy cơ chính của bệnh Đái tháo đường.

Định lượng

Age Tuổi cao là một yếu tố nguy cơ lớn cho bệnh Đái tháo đường và Đái tháo đường tiền sử. Do đó, người

cao tuổi có tỷ lệ mắc bệnh Đái tháo đường và Đái tháo đường tiền sử cao hơn so với nhóm người trẻ và trung niên và có khả năng phát triển các biến chứng ở hệ tim mạch, võng mạc và thận cao hơn.

Định lượng

<i>OutcomeHọ có nguy cơ Đái tháo đường hay khơng? 0 là</i>

<i>khơng có nguy cơ; 1 là có nguy cơ<sup>Định tính (0;1)</sup></i>

<i><b>Bảng 3.1: Mơ tả các biến</b></i>

<i>Nguồn: Tổng hợp</i>

<b>3.1.2. Bộ dữ liệu huấn luyện</b>

Khi ứng dụng mơ hình khai phá dữ liệu trong việc dự báo chỉ số nguy cơ Đái tháo đường ở người, bài nghiên cứu đã sử dụng bộ dữ liệu gồm 768 lượng mẫu thuộc bộ dữ liệu huấn luyện, có các biến độc lập như trên nhưng trong đó chủ yếu tập trung vào 9 biến độc lập chủ yếu là nguyên nhân chính dẫn đến Đái tháo đường (Pregnancies, Glucose, Blood Pressure, Skin Thickness, Insulin, BMI, Diabetes Pedigree Function, Age). Trong đó Outcome sẽ là biến Target.

<b>3.1.3. Bộ dữ liệu dự báo</b>

Sau khi đã sử dụng 768 mẫu khảo sát để huấn luyện, 200 lượng mẫu ngẫu nhiên được lấy từ bộ dữ liệu sẽ dùng để kiểm tra. Cũng được thể hiện qua các biến độc lập như dữ liệu huấn luyện, riêng outcome sẽ không còn là biến Target nữa, mà sẽ là Feature. Sau khi đã Training bộ dữ liệu huấn luyện, từ đó lựa chọn phương pháp phân loại phù hợp nhất để tiến hành phân loại cho bộ dữ liệu dự báo. Outcome sẽ được dự báo theo dạng numeric 0 và 1 với 0 là khơng có nguy cơ Đái tháo đường và 1 là sẽ có nguy cơ Đái tháo đường trong tương lai.

<b>3.2. Tiền xử lý dữ liệu</b>

Trước khi áp dụng dữ liệu và mơ hình, sinh viên nghiên cứu làm sạch và xử lý gọn dữ liệu. Tuy nhiên, bộ dữ liệu khơng có thuộc tính khơng ảnh hưởng đến việc đưa ra đánh giá, vì vậy nhóm chúng em sử dụng 100% các đặc tính nêu trên trong quá trình sau

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<b>CHƯƠNG 4: KẾT QUẢ THỰC HIỆN</b>

<b>4.1. Phân tích dữ liệu dựa trên phần mềm4.1.1. Kết quả dữ liệu huấn luyện</b>

Đầu tiên, chúng ta sẽ sử dụng phần mềm Orange để đưa bộ dữ liệu huấn luyện vào. Sau khi đưa bộ dữ liệu huấn luyện vào, chúng ta sẽ bắt đầu khai báo các thuộc tính của bộ dữ liệu huấn luyện.

<i><b>Hình 4.1: Khai báo thuộc tính các biến trong bộ dữ liệu huấn luyện</b></i>

<i>Nguồn: Orange</i>

Trong đó các biến có liên quan bao gồm: Pregnancies, Glucose, Blood Pressure, Skin Thickness, Insulin, BMI, Diabetes Pedigree Function, Age. Và biến mục tiêu: Outcome được mã hoá “0,1” (kết quả huấn luyện cho thấy có nguy cơ bị Đái tháo đường hay là khơng) với kết quả cho ra là 0 thì thể hiện khơng có nguy cơ bị Đái tháo đường và kết quả cho ra là 1 thì có nguy cơ bị Đái tháo đường. Đa số các biến đều thuộc chuyên 8

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

ngành y nên chúng ta sẽ đánh giá hết để tăng tính hiệu quả việc chuẩn đốn.

Sau khi đã khai báo các thuộc tính của các dữ liệu cần được chú ý, bài nguyên cứu sẽ lựa chọn phương pháp phân lớp dữ liệu phù hợp nhất thông qua các chỉ số như AUC, CA, F1, Precision, Recall. Các phương pháp phân lớp mà bài nghiên cứu sử dụng là Tree, Logistic Regression, SVM, Neural Network. Bài nghiên cứu đã vẽ ra sơ đồ của quá trình huấn luyện và dự báo được thể hiện ở Hình 4.2 như sau:

<i><b>Hình 4.2: Tổng quan về quy trình huấn luyện và dự báo</b></i>

<i>Nguồn: Orange</i>

Sau khi đã có sơ đồ như Hình 4.2, bài nghiên cứu sẽ tiếp tục đến phần Test and Score để tổng quan các chỉ số và lựa chọn mơ hình phù hợp nhất cho bài nghiên cứu. Ở đây, bài nghiên cứu sử dụng phương pháp K-fold cross validation với k=5 để đánh giá mơ hình nhờ những đặc tính vượt trội của nó so với phương pháp Hold-out như: mơ hình sẽ được huấn luyện và dự báo trên nhiều phần dữ liệu khác nhau, không trùng dữ liệu khi huấn luyện giúp mơ hình tăng độ chính xác.

<b>● Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao</b>

nhiêu mẫu có đúng (tránh nhầm lẫn với tính chính xác accuracy).

<b>● Recall (độ phủ) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive</b>

<b>● F1-score là giá trị trung bình điều hịa (harmonic mean) của hai độ đo Precision và</b>

Recall.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

- F1 có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall. - F1 sẽ có giá trị lớn nếu cả 2 giá trị Precision và Recall đều lớn.

<b>● AUC là diện tích nằm dưới đường cong ROC. Giá trị này là một số dương nhỏ hơn hoặc</b>

bằng 1.

Giá trị này càng lớn thì mơ hình càng tốt.

<i><b>Hình 4.3: Kết quả đánh giá mơ hình bằng phương pháp K - fold</b></i>

<i>Nguồn: Orange</i>

Ở hình 4.3, Logistic Regression được đánh giá là cao nhất ở các chỉ số AUC (0,282), CA (0,771) , F1 (0,764), Precision (0,771), Recall (0,477) so với các phương pháp còn lại

Đặc biệt, độ phù hợp của của thuật toán Logistic Regression đối với bài nghiên cứu này cịn được chứng minh thơng qua phương pháp đánh giá bằng ma trận nhầm lẫn như Hình 4.4 sau:

10

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<i><b>Hình 4.4: Ma trận nhầm lẫn với Logistic Regression</b></i>

<i>Nguồn: Orange</i>

Trong 768 quan sát có:

- 500 quan sát khơng bị bệnh, kết quả dự đốn sai lệch 60

- 258 quan sát là bị bệnh nhưng dự đoán sai lệch 116 tuy nhiên sai lệch của phương pháp Logistic vẫn thấp hơn so với các phương pháp cịn lại.

Từ đó có thể kết luận rằng, mơ hình Logistic Regression rất thích hợp cho bộ dữ liệu của bài nghiên cứu này và khá phù hợp để dự báo số trường hợp có nguy cơ Đái tháo đường. Tiếp theo đây, bài nghiên cứu sẽ đi phân tích dự báo để dự đốn xem mơ hình Logistic Regression dự báo như thế nào trong bộ dữ liệu dự báo thông qua bộ dữ liệu huấn luyện. Kết quả của dữ liệu dự báo được trình bày ở mục 4.1.2

<b>4.1.2. Kết quả dữ liệu dự báo</b>

Logistic Regression là phương pháp phân lớp thích hợp nhất cho bài nghiên cứu, vì vậy sẽ sử dụng Logistic Regression dự báo "outcome" cho 200 lượng mẫu ngâu nhiên. Nhóm sinh viên cũng tiến hành các bước tương tự như bộ dữ liệu huấn luyện, đưa bộ dữ liệu dự báo vào chương trình Orange và chạy các thuộc tính cho các biến số ở bộ dữ liệu dữ báo giống như bộ dữ liệu huấn luyện.

</div>

×