Tải bản đầy đủ (.pdf) (56 trang)

Xây dựng mô hình dự đoán bệnh tiểu đường ở bệnh nhân dựa trên tiền sử bệnh và thông tin nhân khẩu học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.91 MB, 56 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>BỘ GIÁO DỤC VÀ ĐÀO TẠO </b>

<b>ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH </b>

<b>KHOA HỌC DỮ LIỆU </b>

<i><b>ĐỀ TÀI:</b></i><b> Xây Dựng Mơ Hình Dự Đốn Bệnh Tiểu Đường Ở Bệnh Nhân Dựa Trên Tiền Sử Bệnh Và </b>

<b>Thông Tin Nhân Khẩu Học. </b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>MỤC LỤC </b>

<b>LỜI NÓI ĐẦU ... 1</b>

<b>I. Tổng quan ... 2</b>

<b>1. Giới thiệu về đề tài ... 2</b>

<b>2. Mục tiêu của đề tài ... 2</b>

<b>2.2. Một số phương pháp phân lớp dữ liệu ... 5</b>

<b>2.3 Các phương pháp đánh giá mô hình phân lớp ... 6</b>

<b>III. Kết quả thực nghiệm ... 7</b>

<b>1. Giới Thiệu Bộ dữ liệu ... 7</b>

<b>2. Khám phá dữ liệu ... 9</b>

<b>2.1. Liệu có mối liên hệ nào giữa tuổi tác và khả năng mắc bệnh tiểu đường khơng? ... 9</b>

<b>2.2. Giới tính có ảnh hưởng đến xác suất mắc bệnh tiểu đường không? ... 10</b>

<b>2.3. Mức BMI có liên quan đến nguy cơ mắc bệnh tiểu đường khơng? ... 11</b>

<b>2.4. Tăng huyết áp có phản ánh về nguy cơ mắc bệnh tiểu đường khơng? .. 12</b>

<b>2.5. Có mối liên hệ nào giữa bệnh tim và bệnh tiểu đường khơng? ... 12</b>

<b>2.6. Tiền sử hút thuốc có ảnh hưởng đến nguy cơ mắc bệnh tiểu đường không? ... 13</b>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>2.7. Mức HbA1c có liên quan đến nguy cơ mắc bệnh tiểu đường không? .... 14</b>

<b>2.8. Mức đường huyết có ảnh hưởng đến khả năng phát triển bệnh tiểu đường không? ... 14</b>

<b>3. Xây dựng mô hình và đánh giá kết quả ... 15</b>

<b>3.1. Xây dựng mơ hình phân lớp ... 15</b>

<b>4. Hướng phát triển mơ hình ... 20</b>

<b>TÀI LIỆU THAM KHẢO ... 22</b>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !1

LỜI NĨI ĐẦU

Hiện nay, sự bùng nổ của cuộc cách mạng công nghệ - thông tin khiến kho dữ liệu của các hệ thống thông tin quản lý tăng lên một cách khơng kiểm sốt được. Luồng thơng tin chuyển tải trên thế giới được ước tính tăng khơng ngừng nghỉ. Các tổ chức hiện đại chìm ngập trong dữ liệu và hiện có vơ vàn thiết bị có thể tự động thu thập và lưu trữ dữ liệu. Các hệ thống và cổng thanh toán trực tuyến đang dần thu thập nhiều dữ liệu hơn trong những lĩnh vực thương mại điện tử, y tế, tài chính cũng như mọi khía cạnh khác của đời sống con người. Phân tích dữ liệu là quá trình kiểm tra thơng tin những hoạt động đã di n ra trong quá kh và gi p đưa ra các quyết đ nh cũng như kết ễ ứ ú ị luận cuối cùng cho tương lai. Dữ liệu cần được xử lý một cách nhanh chóng, chính xác thông qua các phần mềm để đạt được mục tiêu, năng suất đề ra. Nhu cầu trong ngành đã tạo ra một hệ sinh thái các khóa học, bằng cấp và vị trí việc làm trong lĩnh vực khoa học dữ liệu. Do địi hỏi trình độ chuyên môn và bộ kỹ năng đa ngành nghề, lĩnh vực khoa học dữ liệu cho thấy sự phát triển mạnh mẽ được dự kiến trong những thập niên tới.

Trong những năm gần đây, số bệnh nhân đái tháo đường đang có xu hướng gia tăng nhanh với nhiều biến chứng nặng nề như biến chứng tim mạch, thận, mắt, thần kinh… trở thành nỗi lo ngại hàng đầu của toàn xã hội. Việc trang bị những hiểu biết về triệu chứng bệnh tiểu đường sẽ giúp phát hiện sớm, điều trị hiệu quả bệnh ngay từ giai đoạn đầu. Trong bài tiểu luận này, nhóm ch ng em c ng nhau tìm hiểu và trình bày ú ù “mơ hình dự đoán bệnh tiểu đường ở bệnh nhân dựa trên tiền sử bệnh và thông tin nhân khẩu học của họ” bằng khoa học dữ liệu. Điều này có thể hữu ích cho các chun gia chăm sóc sức khỏe trong việc xác định những bệnh nhân có nguy cơ mắc bệnh tiểu đường và phát triển các kế hoạch điều trị cá nhân hóa.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !2

I. Tổng quan

1. Giới thiệu về đề tài

Đái tháo đường hay còn gọi là tiểu đường, là bệnh rối loạn chuyển hóa đặc trưng với biểu hiện lượng đường ở trong máu luôn ở mức cao hơn so với bình thường do cơ thể thiếu hụt về tiết insulin hoặc đề kháng với insulin hoặc cả 2, dẫn đến rối loạn quan trọng về chuyển hóa đường, đạm, mỡ, chất khống. Hiệp hội Đái tháo đường Thế giới (IDF) cũng đưa ra những con số thống kê đáng chú ý về thực trạng bệnh tiểu đường trên toàn thế giới như sau:

• Mỗi năm thế giới có khoảng 132.600 trẻ em được chẩn đoán mắc bệnh tiểu đường tuýp 1, chỉ tính riêng số trẻ em bị bệnh tiểu đường tuýp 1 trong độ tuổi 0 – 19 tuổi là hơn 1 triệu.

• Hơn 21 triệu phụ nữ đang mang thai bị tăng đường huyết và dung nạp đường kém, chiếm tỷ lệ 1/6 tổng số phụ nữ mang thai.

• Khoảng 2/3 số bệnh nhân tiểu đường là người cao tuổi, tuy nhiên, số bệnh nhân tiểu đường trẻ tuổi cũng khơng ngừng gia tăng.

• Cứ 6 giây trơi qua sẽ có 1 người tử vong vì các biến chứng nguy hiểm của tiểu đường.

Năm 2017, số bệnh nhân tử vong do tiểu đường là 4 triệu người. Chi phí điều trị bệnh tiểu đường tồn thế giới là 727 tỷ đô la, trở thành gánh nặng của tồn thế giới. Qua đó, có thể thấy được đái tháo đường là một căn bệnh vô cùng nghiêm trọng, bệnh nhân mắc bệnh ngày càng nhiều và đang có xu hướng trẻ hóa. Chính vì thế, việc đưa ra cảnh báo khả năng mắc bệnh tiểu đường một cách kịp thời và chính xác là rất cần thiết, giúp bệnh nhân điều chỉnh lại lượng đường cung cấp vào cơ thể, nhận được điều trị kịp thời để có được một sức khỏe tốt hơn, tránh được các biến chứng nguy hiểm. Vì vậy, chúng em quyết định thực hiện dự án nghiên cứu “Xây dựng mơ hình dự báo khả năng bị đái tháo đường” để dự đoán khả năng bị mắc bệnh đái tháo đường ở các bệnh nhân dựa trên tiền sử bệnh và thông tin nhân khẩu học của họ.

2. Mục tiêu của đề tài

Với đề tài này, khi nghiên cứu nhóm chúng em mong muốn có thể hỗ trợ các bệnh nhân đang có nguy cơ mắc bệnh tiểu đường có thể kịp thời phát hiện được bệnh, nhằm nhận được sự chăm sóc về y tế, cũng như đảm bảo được sức khỏe, tránh khỏi các biến chứng nguy hiểm, và đóng góp một phần nhỏ vào y khoa trong việc thăm khám điều trị cho các bệnh nhân thơng qua bộ dữ liệu có sẵn.

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !3 3. Phương pháp thực hiện

• Phương pháp thu thập dữ liệu: Nhóm chúng em đã thu thập dữ liệu từ nguồn kaggle.com, một nguồn dữ liệu đáng tin cậy. Dữ liệu gốc được xử lý bằng phần mềm Excel và trực quan hóa qua các biểu đồ.

• Phương pháp nghiên cứu lý luận: Tiến hành tìm hiểu, thu thập, chắt lọc và phân tích các dữ liệu, thơng tin thông qua đọc sách báo, tài liệu. Bao gồm các phương pháp sau:

Phương pháp phân tích – tổng hợp lý thuyết: đọc và tổng hợp các tài liệu để rút ra nội dung cần thiết.

Phương pháp mơ hình hóa: xây dựng mơ hình nghiên cứu dựa trên lý thuyết và kiểm đ nh tính chính xác của mơ hình.ị

• Phương pháp nghiên cứu thực tiễn: Từ cơ sở lý luận, tiến hành nghiên cứu thực tiễn bằng các thuật toán trong KPDL và phần mềm Orange. Xây dựng các mơ hình dự báo dựa trên bộ dữ liệu huấn luyện có sẵn và so sánh kết quả để lựa chọn mơ hình phù hợp nhất.

Từ đó, xây dựng các mơ hình dự báo dựa vào bộ dữ liệu huấn luyện có sẵn và so sánh các kết quả rút ra được với nhau nhằm lựa mơ hình phù hợp nhất nhằm giúp các siêu thị đưa ra được các biện pháp thu hút và giữ chân khách hàng một cách kịp thời thơng qua các chương trình ưu đãi.

II. Giới thiệu về phương pháp sử dụng 1. Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là một bước rất quan trong trong việc giải quyết bất kỳ vấn đề nào trước khi xử lý dữ liệu. Hầu hết các bộ dữ liệu được sử dụng đều cần phải xử lý, làm sạch hay biến đổi trước khi các thuật toán huấn luyện trên những bộ dữ liệu này. Quy trình kỹ thuật tiền xử lí dữ liệu gồm: Làm sạch dữ liệu (Data cleaning), Tích hợp dữ liệu (Data integration), chuyển đổi dữ liệu (Data transformation) và rút gọn dữ liệu (Data reduction).

* Làm sạch dữ liệu (Data cleaning):

Làm sạch dữ liệu là quá trình chuẩn bị dữ liệu bằng cách thêm dữ liệu thiếu, sửa chữa hay loại bỏ những dữ liệu không quan trọng ra khỏi bộ dữ liệu để tránh những yếu tố dẫn đến quyết đ nh sai lầm. Q trình làm sạch dữ liệu gồm có 3 phần: Tóm tắt dữ liệu, ị xử lý dữ liệu bị thiếu (missing data) và xử lý dữ liệu b nhiễị u (noisy data)

• Tóm tắt dữ liệu là xác định các thuộc tính tiêu biểu của dữ liệu như các xu hướng chính hay sự phân tán,…Từ đó cung cấp cái nhìn cụ thể hơn về dữ liệu.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !4

• Xử lý dữ liệu bị thiếu (missing data) bằng cách sử dụng giá tr thay thế hay tự ị động hoặc không tự động. Bên cạnh đó, có thể bỏ qua những bộ bị thiếu dữ liệu hoặc phải đảm bảo tốt CSDL và các thủ tục nhập liệu.

• Xử lý dữ liệu bị nhiểu (noisy data) có 2 cách là giảm thiểu nhi u (phân giỏi, hồi ễ quy, phân tích cụm) và nhận diện phần tử biên (phân bố thống kê, khoảng cách, mật độ, độ lệch).

* Tích hợp dữ liệu (data integration): Tích hợp dữ liệu là trộn dữ liệu từ nhiều nguồn khác nhau vào một kho dữ liệu, gồm có:

• Vấn đề dạng thực thể là các thực thể đến từ nhiều nguồn dữ liệu khác nhau, 2 hay nhiều hơn 2 thực thể trở lên thì c ng di n tả một thực thể. ù ễ

• Vấn đề dư thừa là giá trị của một thuộc tính có thể được trích ra từ một hay nhiều thuộc tính khác, làm trùng lặp.

• Phát hiện và xử lý mâu thuẫn giá trị dữ liệu: c ng một thực thể nhưng các giá trù ị đến từ nhiều nguồn dữ liệu khác nhau có thể gây ra sự khác nhau về các biểu di n, đo ễ lường hay mã hóa.

* Chuyển đổi dữ liệu (Data transformation): Chuyển đổi dữ liệu là quá trình biến dữ liệu trở thành những đinh dạng phù hợp cho việc phân tích và tiến hành các bước quy trình kế tiếp, thường gồm có việc làm trơn dữ liệu, kết hợp dữ liệu, tổng quát hóa dữ liệu, chuẩn hóa dữ liệu, xây dựng thuộc tính.

* Rút gọn dữ liệu (Data reduction): Rút gọn dữ liệu là việc làm giảm kích thước của dữ liệu bằng cách kết hợp các phương pháp như kết hợp dữ liệu,…

2. Mơ hình phân lớp dữ liệu 2.1. Định nghĩa

Quy trình “phân lớp dữ liệu” là một tiến trình xử lý nhằm sắp xếp các mẫu dữ liệu hay các đối tượng vào một trong các lớp đã được định nghĩa trước.

Phân lớp dữ liệu gồm hai bước xử lý chính:

• Bước 1: Học, mục đích của bước này là xây dựng một mơ hình xác định một tập hợp các lớp dữ liệu.

• Bước 2: Kiểm tra và đánh giá, bước này sử dụng mơ hình phân lớp đã được xây dựng ở bước 1 vào việc phân lớp.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !5 2.2. Một số phương pháp phân lớp dữ liệu

* Phương pháp Logistic Regression: Hồi quy Logistic Regression là một mơ hình xác suất dự đốn giá trị đầu ra rời rạc từ một tập giá trị đầu vào (biểu di n dưới dạng vector), ễ bằng cách dự đoán xác xuất hoặc cơ hội xảy ra gi p suy ra mối quan hệ giữa biến phụ ú thuộc và các biến độc lập. Việc này tương đương với chuyện phân loại các đầu vào x cào các nhóm y tương ứng.

* Phương pháp AdaBoost: Mơ hình tăng cường thích ứng AdaBoost Adaptive Boosting là một thuật tốn học máy có khả năng tạo ra một mơ hình dự đốn mạnh từ việc kết hợp các mơ hình yếu bằng cách AdaBoots sẽ gán trọng số cho các mẫu dữ liệu trong q trình huấn luyện, để sau đó mơ hình có thể tập trung vào việc dự đoán đúng những mẫu dữ liệu bị phân loại sai trước đó. Nhờ đó, mơ hình này có khả năng sử lý các tập dữ liệu không cân bằng và đem lại hiệu quả trong nhiều trường hợp.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !6

* Phương pháp Super vector support (SVM): SMV là một thuật tốn có giám sát, SMV nhận dữ liệu vào, xem ch ng như những các vector trong không gian và phân loại ú chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.

* Phương pháp Neural Network: Mạng lưới Neural Network nhân tạo là một chuỗi thuật toán được đưa ra để dùng xác đ nh các mối quan hệ trong tập hợp các dữ liệu cụ ị thể, thông qua việc bắt chước bộ não của con người. Nói một cách dễ hiểu hơn có thể là nhân tạo về chất. Neural Network có khả năng tương thích với mọi th ngay từ khi ứ chúng ta thay đổi dữ liệu đầu vào. Nó có thể đưa ra các kết quả một cách tốt nhất mà chúng ta khơng cần phải xây dựng các tiêu chí đầu ra.

2.3 Các phương pháp đánh giá mô hình phân lớp

Để quyết định một mơ hình có ph hợp và đáng tin cậy để sử dụng hay khơng thì các ù phương pháp đánh giá mơ hình phân lớp sẽ kiểm tra tính hiệu quả của mơ hình phân lớp trên dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mơ hình đó hay khơng. Mơ hình lý tưởng hướng tới là mơ hình khơng q đơn giản hay quá phức tạp và không quá nhạy cảm với nhi u. ễ

* Ma trận nhầm lẫn (Confusion Matrix): Ma trận nhầm lẫn chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc vào một lớp cụ thể và được dự đoán là tơi vào lớp nào.

Confusion matrix là có kích thước k x k với k là số lượng lớp của dữ liệu.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !7

* Độ chính xác (Accuracy): Accuracy là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu nhưng chỉ cho chúng ta biết được tỷ lệ dữ liệu được phân loại đ ng mà không ú chỉ ra được cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại đúng nhiều nhất và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác.

* Precision, Recall, F1 – core:

• Precision (độ chính xác) cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao nhiêu mẫu là đúng (tránh nhầm lẫn với tính chính xác accuracy).

• Recall (độ phủ) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate).

• F1 – score: giá tr trung bình điều hịa (harmonic mean) của hai độ đo Precision ị và Recall.

* ROC và AUC:

• ROC là đồ thị được sử dụng khá phổ biến trong đánh giá các mơ hình phân loại nhị phân. Đường cong này được tạo ra bằng cách biểu di n tỷ lệ dự báo true positive ễ rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau. Một mơ hình hiệu quả khi có FPR thấp và TPR cao hay ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mơ hình càng hiệu quả.

• AUC là diện tích nằm đưới đường cong ROC. Giá trị này là một số dương nhỏ hơn hoặc bằng 1. Giá tr này càng lớn thì mơ hình càng tốt. ị

III. Kết quả thực nghiệm

1. Giới Thiệu Bộ dữ liệu

Tên Bộ dữ li : Diabetes prediction dataset ệu

Nguồn gốc: Bộ dữ liệu dự đoán bệnh tiểu đường này được tập hợp từ dữ liệu y tế và nhân khẩu học từ bệnh nhân, cùng với tình trạng bệnh tiểu đường của họ.

Mục tiêu: Phân tích dữ liệu đã được thu thập để chẩn đốn xem bệnh nhân có mắc bệnh tiểu đường hay không và khám phá mối quan hệ giữa các yếu tố y tế và nhân khẩu học khác nhau với khả năng phát triển bệnh tiểu đường. Từ đó, xây d ng mự ơ hình ph n l p â ớ nhằm dự đoán bệnh tiểu đường ở bệnh nhân dựa trên tiền sử bệnh và thông tin nhân khẩu học của họ. Điều này hữu ích cho các chun gia chăm sóc sức khỏe trong việc xác định những bệnh nhân có nguy cơ mắc bệnh tiểu đường và phát triển các kế hoạch điều trị phù hợp, kịp thời.

Bộ dữ liệu bao gồm: 100000 dịng dữ liệu, 9 thuộc tính (khơng có dữ liệu khuyết).

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !8

Mô tả các biến như sau:

Diabetes Bệnh tiểu đường. (1 nếu bệnh nhân mắc

bệnh tiểu đường, 0 là ngược lại) <sup>Target </sup>

Hypertension Cao huyết áp. Có giá trị 0 hoặc 1 (1 nếu bệnh nhân bị cao huyết áp và 0 là ngược lại.

Feature

Heart disease Bệnh tim. Có giá trị 0 hoặc 1 (1 nếu bệnh nhân mắc bệnh tim và 0 là ngược lại).

Feature

BMI (Body Mass Index)

HbA1c level (Hemoglobin A1c)

Thước đo lượng đường trong máu trung bình của một người trong 2-3 tháng qua.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !9

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !13

Bệnh tim là một tình trạng y tế khác có liên quan đến việc tăng nguy cơ phát triển bệnh tiểu đường. Tỷ lệ trên cho thấy có đến 32,14% người vừa mắc bệnh tim vừa mắc bệnh tiểu đường. Bệnh tiểu đường có thể gây ra các vấn đề mạch máu và hỏng hệ thống tim mạch, làm tăng nguy cơ bị mắc các bệnh tim mạch.

2.6. Tiền sử hút thuốc có ảnh hưởng đến nguy cơ mắc bệnh tiểu đường không?

Tiền sử hút thuốc cũng được coi là yếu tố nguy cơ của bệnh tiểu đường và có thể làm trầm trọng thêm các biến chứng liên quan. Tỷ lệ trên cho thấy các mức độ mắc bệnh là tương tự nhau, tuy nhiên ở người có tiền sử hút thuốc và đang hút thuốc cao hơn bình thường. Hút thuốc lá cũng làm giảm khả năng phản ứng với insulin, làm cho cơ thể khó kiểm sốt đường huyết. Hút thuốc lá cũng làm tăng nguy cơ mắc các biến chứng của bệnh tiểu đường, như bệnh thận, bệnh võng mạc, bệnh thần kinh và bệnh ngoại biên. Những người bị tiểu đường có thói quen hút thuốc lá thường có nguy cơ tử vong sớm cao gấp hai lần người không hút thuốc.

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !14

2.7. Mức HbA1c có liên quan đến nguy cơ mắc bệnh tiểu đường không?

Mức HbA1c (Hemoglobin A1c) là thước đo lượng đường trong máu trung bình của một người trong 2 3 tháng qua. Vậy, ta có thể thấy, nếu xét nghiệm có chỉ số từ lớn hơn 5.5 - – 6.4 là mức tiền tiểu đường, tuy nhiên chỉ số này càng cao nguy cơ tiểu đường càng tăng, khảo sát cho thấy có 100% người mắc bệnh tiểu đường (từ mức 7.0 trở lên).

2.8. Mức đường huyết có ảnh hưởng đến khả năng phát triển bệnh tiểu đường không?

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !15

Mức đường huyết đề cập đến lượng glucose trong máu tại một thời điểm nhất định. Từ mức đường huyết 120 đã có đến 8,57% người mắc bệnh tiểu đường, và số người mắc bệnh ngày càng tăng cho đến mức từ 220 trở đi thì hoàn toàn mắc bệnh tiểu đường (100%). Vậy nên, mức đường huyết cao là dấu hiệu chính của bệnh tiểu đường.

3. Xây dựng mơ hình và đánh giá kết quả 3.1. Xây dựng mơ hình phân lớp

Dùng các thuật toán SVM, AdaBoost, Logistic Regression, Neural Network để phân lớp dữ liệu. Ta được kết quả ở phần tiếp theo

3.2. Đánh giá kết quả:

* Đánh giá mơ hình dựa trên kết quả của công cụ Confusion Matrix:

1 - True Positive: Mơ hình dự đốn (Predicted) bệnh nhân bệnh tiểu đường (Actual)

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !16

4 - False Negative: Mơ hình dự đốn bệnh nhân không bị tiểu đường nhưng thực tế họ bị tiểu đường.

Quan sát thấy:

- Neural Network có True Positive cao nhất (96,8%), theo sau là Logistic Regression (86,8%).

- Neural Network có False Negative thấp nhất (2,8%), cùng với đó là AdaBoost (2,8%) ððððð Ta nên tập trung vào việc tăng True Positive, đồng thời giảm thiểu False Negative để tránh bỏ lỡ những bệnh nhân không mắc bệnh tiểu đường.

➢ Thông qua việc đánh giá các chỉ số kiểm định, cũng như ý nghĩa rủi ro thực ti n từ ễ ma trận nhầm lẫn: Ta thấy được việc sử dụng phương pháp Mơ hình Neural Network cho ra mơ hình có chỉ số kiểm định tốt nhất và độ nhầm lẫn của dự báo so với thực tế của phương pháp này cũng thấp.

➢ Trong y khoa, chỉ số FN đóng vai trị cực kỳ quan trọng, bởi vì chỉ số FN thể hiện số lượng các dự đoán sai lệch một cách gián tiếp, có nghĩa là “khi mơ hình dự đốn một

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !17

người không bị bệnh đái tháo đường nhưng thực tế người đó bị đái tháo đường, tức là việc không chọn trường hợp bị đái tháo đường là sai”. Điều này cực kỳ nguy hiểm, bởi vì kết quả sai lệch đó sẽ làm bác sĩ và bệnh nhân chủ quan và mất cảnh giác trước căn bệnh, khơng có phác đồ điều trị kịp thời để ngăn chặn bệnh từ giai đoạn khởi phát. Vì vậy, mơ hình có chỉ số FN thấp nhất sẽ là một mơ hình dự báo tốt nhất.

* Đánh giá mơ hình dựa trên kết quả của cơng cụ Test and Score

Dựa vào điểm số trung bình đánh giá được mơ hình cho ra kết quả tốt nhất là

• Diện tích đường cong (AUC) là 97,6%

ððððð Trong cả 4 phương pháp được sử dụng, phương pháp Neural Network cũng cho ra kết quả F1-score, Precision và CA và cả AUC là cao nhất. Chỉ số của phương pháp càng tiến về 1 thì càng tốt. Nên có thể nói theo cơng cụ Test and Score thì là phương pháp phân lớp hiệu quả nhất là phương pháp Neural Network.

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !18 Đánh giá kết quả:

Mơ hình đánh giá:

Predictions:

Sau khi đã huấn luyện mơ hình và đánh giá, ta áp dụng mơ hình Neural Network để gán nhãn cho tập Forecast dât. Ta được kết quả dự báo như sau:

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !19

IV. Kết luận

1.Kết quả đạt được

Nhóm nghiên cứu đã phân tích dữ liệu Diabetes prediction và đồng thời xây dựng được mơ hình dự đốn bệnh nhân mắc bệnh đái tháo đường dựa trên các thông tin như giới tính, tuổi, tình trạng bệnh lý và lịch sử hút thuốc. Sau khi tiến hành xử lý dữ liệu, huấn luyện dữ liệu, phân lớp dữ liệu qua phần mềm Orange thì nhóm đã chọn ra được phương pháp Neural Network là phương pháp đánh giá tốt nhất để phân lớp dữ liệu, với độ chính xác cao nhất và có tỷ lệ sai lầm nhỏ nhất trong các phương pháp (tỷ lệ sai lầm False Negative là 2,8% còn False Positive là 3,2%).

Qua q trình nghiên cứu, nhóm đã xác định được một số chỉ số quan trọng và mối liên quan giữa các yếu tố dữ liệu về việc chẩn đoán bệnh đái tháo đường (tiểu đường). Như mức đường huyết (blood glucose level) cao thì tỷ lệ mắc bệnh tiểu đường càng cao, cụ thể mức đường huyết từ 220 trở lên thì 100% bệnh nhân đều mắc bệnh tiểu đường theo như phân tích từ bộ dữ liệu. Bên cạnh đó, mức HbA1c (Hemoglobin A1c), huyết áp, BMI và độ tuổi càng cao nguy cơ tiểu đường sẽ càng tăng, cũng như người có tiền sử hút thuốc, tiền sử bệnh tim thì nguy cơ mắc bệnh tiểu đường cũng cao hơn hết so với trường hợp ngược lại. Những phát hiện này có thể giúp cải thiện q trình phát hiện sớm và đưa ra dự đốn chính xác hơn về khả năng mắc bệnh.

Không những thế, việc áp dụng các phương pháp phân tích dữ liệu hiện đại và mơ hình học máy (phân lớp dữ liệu) đã mở ra những cánh cửa mới trong việc nghiên cứu và ứng dụng trong lĩnh vực y tế. Các cơng nghệ này có thể hỗ trợ bác sĩ và chuyên gia y tế trong việc đưa ra quyết định chẩn đoán và lập kế hoạch điều trị.

2. Ý nghĩa mơ hình

Viêc thực hiện tiến hành nghiên cứu và xây dựng mơ hình dự báo với các bệnh nhân bị bệnh tiểu đường là một dự án có ý nghĩa về nhiều mặt (cả cá nhân cả cộng đồng) khơng những thế, nó cịn mang đến lợi ích về mặt y khoa và kinh tế.

Đây chính là cách thức áp dụng khoa học dữ liệu để dự báo nhằm hỗ trợ cho những nghiên cứu về các trang thiết bị, về dữ liệu giúp hỗ trợ hay khẳng định để các y bác sĩ có thể phát hiện được bệnh ngay tại nhà. Đối với các sinh viên ngành Y đang theo học và nghiên cứu về các bệnh liên quan, dự án mong muốn có thể làm tư liệu để các bạn có thể thu thập và phát triển các dự án nghiên cứu khác hoặc dễ dàng hơn trong việc thực hành khám và chữa bệnh.

Dự án này phần nào sẽ hỗ trợ được các y bác sĩ rút ngắn được thời gian chẩn đốn giúp nhận diện những người có nguy cơ cao mắc bệnh tiểu đường từ trước khi có những dấu hiệu, triệu chứng nghiêm trọng biểu hiện. Điều này mở ra cơ hội để thực hiện các biện pháp phòng ngừa sớm, như thay đổi lối sống, chế độ ăn uống và theo dõi sức khỏe định kỳ cho bệnh nhân, giúp giảm nguy cơ trở nặng của căn bệnh. Ngồi ra, mơ hình dự đoán

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !20

này còn giúp tiết kiệm được thời gian để nhanh chóng tiến hành bước tiếp theo, nhờ vào khả năng dự đoán và phân loại, ngành y tế có thể tập trung nguồn lực vào nhóm rủi ro cao hơn, giảm chi phí chẩn đốn và điều trị cho những người khơng mắc bệnh (ít có khả năng mắc bệnh) tiết kiệm được chi phí khám chữa bệnh cho bệnh nhân cũng như chi phí thực hiện các xét nghiệm ở bệnh viện. Qua đó, có thể thấy được dự đốn bệnh tiểu đường có thể giúp cá nhân và nhà điều hành chăm sóc sức khỏe quản lý bệnh một cách hiệu quả hơn. Việc biết trước về rủi ro và tình trạng sức khỏe có thể giúp cá nhân tham gia tích cực vào các kế hoạch quản lý bệnh và tuân thủ điều trị.

Ngồi ra, mơ hình dự đốn này cịn có thể làm nền tảng cho việc phát triển ứng dụng công nghệ y tế, từ ứng dụng di động cho việc theo dõi sức khỏe đến các hệ thống thông tin y tế. Điều này không chỉ giúp cải thiện chăm sóc cá nhân mà cịn tạo ra nguồn lợi nền kinh tế từ sự phát triển của ngành cơng nghiệp y tế số. Khi có thơng tin chính xác và đáng tin cậy về tình trạng sức khỏe cộng đồng, chính phủ và các tổ chức y tế có thể xây dựng chính sách và chiến lược phịng ngừa một cách thơng minh. Điều này giúp họ tập trung nguồn lực vào những vùng đặc biệt nguy cơ và tối ưu hóa hiệu quả chiến lược y tế công cộng.

3. Hạn chế

Bài nghiên cứu chỉ là một bước đầu trong việc hiểu rõ hơn về bệnh đái tháo đường và phương pháp chuẩn đoán. Việc nghiên cứu chuyên sâu cần phải thêm sự đầu tư và kiểm tra trên quy mơ lớn để xác định chính xác và mở rộng kiến thức đã đạt được từ nghiên cứu này. Và mơ hình nghiên cứu vẫn cịn một vài hạn chế như sau:

<small>• </small> Kết quả dự đốn chỉ có tính tương đối nên sẽ có những trường hợp dự đoán sai với kết quả bệnh trạng thực tế.

<small>• </small> Dữ liệu phân tích thiếu sự đa dạng về biến, vì thế trong những trường hợp mới ngoài phạm vi của các thuộc tính từ dữ liệu sẽ khơng thể đưa ra kết quả dự đốn mang tính chính xác cao.

<small>• </small> Mơ hình dự đốn chưa có khả năng linh hoạt thích ứng về sự đa dạng tình trạng bệnh ở từng giai đoạn

<small>• </small> Cơ chế phát triển của bệnh tiểu đường trong tương lai có thể sẽ bị thay đổi. Khi ấy mơ hình dự đốn này sẽ có khả năng khơng đánh giá được tốt như hiện tại. 4. Hướng phát triển mơ hình

<small>• </small> Thực hiện kết hợp dữ liệu từ nhiều nguồn khác nhau như dữ liệu lâm sàng, gen, lối sống, và dữ liệu từ thiết bị theo dõi sức khỏe để tạo ra một bức tranh tồn diện và đa chiều về tình trạng sức khỏe.

<small>• </small> Phát triển mơ hình có khả năng thích nghi với sự biến động của bệnh tiểu đường, đặc biệt là khi người bệnh thay đổi lối sống, chế độ ăn uống, hoặc đang thực hiện điều trị.

<small>• </small> Sử dụng trí tuệ nhân tạo và học máy tăng cường để tạo ra các mô hình có khả năng tự điều chỉnh và tương tác với môi trường một cách linh hoạt.

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !21

<small>• </small> Tạo sự hợp tác giữa các tổ chức y tế, nghiên cứu và doanh nghiệp để chia sẻ dữ liệu và kiến thức, tạo điều kiện cho sự phát triển của mơ hình dự đốn bệnh tiểu đường trên quy mơ rộng lớn.

<small>• </small> Tận dụng sức mạnh của cơng nghệ di động và wearable (công nghệ đeo) để tạo ra các ứng dụng giúp theo dõi và quản lý sức khỏe của người bệnh tiểu đường theo thời gian thực. Điều này giúp có thêm nhiều thơng tin về bệnh đái tháo đường từ bệnh nhân để nạp vào dữ liệu, từ đó duy trì và phát triển mơ hình dự đốn được chính xác hơn.

<small>• </small> Mở rộng mơ hình để dự đốn và theo dõi các yếu tố đặc biệt, như biến động thời tiết, yếu tố môi trường và tâm lý để tăng cường độ chính xác của dự đốn.

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Khoa Học Dữ Liệu Giảng viên: TS. Võ Thành Đức

Diabetes prediction dataset - Nhóm 8 !22

TÀI LIỆU THAM KHẢO

1. Thuật tốn tăng cường là gì? - Giải thích về Thuật tốn tăng cường trong cơng nghệ máy học. (n.d.). AWS. Retrieved December 8, 2023, from

2. Đái tháo đường: Nguyên nhân, dấu hiệu, điều trị và phòng ngừa. (2021, June 7). Bệnh viện Đa khoa Tâm Anh. Retrieved December 8, 2023, from

3. Bài giảng môn Khoa học dữ liệu. (2023). Giảng viên Võ Thành Đức.

4. MOHAMMED MUSTAFA. (n.d.). Diabetes prediction dataset. Kaggle. Retrieved December 8, 2023, from dataset

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

-BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

KHOA HỌC DỮ LIỆU

Đ TÀI: Xây dựng mơ hình dự đoán bệnh tiểu đường ở bệnh nhân dựa trên tiền sử bệnh và thông tin nhân khẩu học của họ.

</div>

×