Tải bản đầy đủ (.pdf) (37 trang)

Ứng dụng khoa học dữ liệu vào chẩn đoán nguy cơ bệnh nhân mắc bệnh tiểu đường

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.46 MB, 37 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>BỘ GIÁO DỤC VÀ ĐÀO TẠOĐẠI HỌC UEHKHOA TÀI CHÍNH</b>

<i><b>TIỂU LUẬN CUỐI KỲ</b></i>

<b>ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO CHẨN ĐOÁN NGUY CƠ BỆNH NHÂN MẮC BỆNH TIỂU ĐƯỜNG </b>

<b>Giảng viên hướng dẫn</b> <i><b>: Võ Thành Đức</b></i>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

2 Nguyễn Thành Đạt 31221021190 CHƯƠNG 3: MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<i>2.1.2. Quy trình khai phá dữ liệu...5</i>

<i>2.1.3. Các phương pháp khai phá dữ liệu...6</i>

<i>2.1.4. Công cụ khai phá dữ liệu được sử dụng trong bài - Orange...6</i>

2.2. Phân lớp dữ liệu...10

<i>2.2.1. Khái niệm...10</i>

<i>2.2.2. Quy trình phân lớp dữ liệu...10</i>

<i>2.2.3. Các phương pháp phân lớp dữ liệu được sử dụng trong bài...12</i>

<i>2.2.4. Các phương pháp đánh giá mơ hình phân lớp...14</i>

CHƯƠNG 3: MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT...18

CHƯƠNG 4: KẾT QUẢ THỰC HIỆN...21

4.1. Phân tích dữ liệu dựa trên phần mềm...21

<i>4.1.1. Kết quả dữ liệu huấn luyện...21</i>

<i>4.1.2. Kết quả dữ liệu dự báo...24</i>

4.2. Đánh giá kết quả và mơ hình...26

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

TÀI LIỆU THAM KHẢO...30 PHỤ LỤC KẾT QUẢ DỰ BÁO...31

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>LỜI CẢM ƠN</b>

Trước hết, nhóm chúng em muốn bày tỏ lịng biết ơn chân thành đến Trường Đại học Kinh tế Thành phố Hồ Chí Minh vì đã tích hợp mơn học Khoa học dữ liệu vào chương trình giảng dạy. Đặc biệt, chúng em khơng thể khơng bày tỏ lịng kính trọng và biết ơn sâu sắc đến thầy Võ Thành Đức, giảng viên của chúng em, người đã không ngừng hỗ trợ và chia sẻ những kiến thức quý báu trong suốt khoảng thời gian học vừa qua. Thầy không chỉ là người thầy mẫu mực mà còn là nguồn động viên lớn lao, giúp chúng em phát triển tư duy và kỹ năng trong lĩnh vực này.

Quãng thời gian tham gia môn học Khoa học dữ liệu của thầy thực sự là một hành trình đầy ấn tượng. Chúng em đã học được không chỉ những kiến thức chuyên sâu mà còn là tinh thần làm việc hiệu quả và nghiêm túc. Những thông điệp và kinh nghiệm thực tế mà chúng em đã thu được từ thầy sẽ là nguồn động viên quý báu, giúp chúng em tự tin hơn trên con đường sự nghiệp.

Môn học Khoa học dữ liệu khơng chỉ là thách thức mà cịn là cơ hội để chúng em phát triển. Nó khơng chỉ cung cấp những kiến thức sâu rộng mà còn tận dụng tối đa nhu cầu thực tế của sinh viên trong thời đại công nghệ số ngày nay. Tuy nhiên, do chúng em có hạn chế về kiến thức và khả năng tiếp thu, có những điểm chưa hồn hảo trong bài tiểu luận của chúng em. Chúng em đã cố gắng hết sức, nhưng không thể tránh khỏi những khuyết điểm và sai sót. Chúng em mong rằng thầy sẽ chia sẻ ý kiến và góp ý của mình để chúng em có cơ hội hồn thiện bài tiểu luận hơn.

Nhóm chúng em chân thành cảm ơn sự hỗ trợ và sự dạy dỗ quý báu của thầy!

3

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>CHƯƠNG 1: TỔNG QUAN</b>

<b>1.1. Lý do chọn đề tài</b>

Theo Liên đoàn Đái tháo đường Thế giới, năm 2021 có 537 triệu người trưởng thành (20-79 tuổi) trên thế giới sống chung với bệnh đái tháo đường (ĐTĐ), cứ 10 người thì có 1 người mắc phải bệnh này. Dự đoán, số người mắc ĐTĐ sẽ tăng lên 643 triệu vào năm 2030 và 783 triệu vào năm 2045 trên thế giới.

Với sự ảnh hưởng ngày càng tăng của tiểu đường đối với sức khỏe cộng đồng. Bệnh tiểu đường đang dần trở thành một vấn đề y tế lớn, gây ảnh hưởng mạnh mẽ đến chất lượng cuộc sống của những người mắc bệnh.

Song song là sự phát triển nhanh chóng của khoa học dữ liệu và công nghệ thông tin đã mở ra những cơ hội mới để áp dụng chúng trong lĩnh vực y tế. Điều này không chỉ giúp nâng cao khả năng chẩn đốn mà cịn hỗ trợ trong việc dự đốn nguy cơ mắc bệnh tiểu đường.

Trước tình hình đó, nhận thức được tầm quan trọng của việc chăm sóc sức khỏe bản thân và phòng ngừa bệnh tiểu đường, nhóm chúng em đã quyết định chọn chủ đề:” ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO CHẨN ĐOÁN NGUY CƠ BỆNH NHÂN MẮC BỆNH TIỂU ĐƯỜNG” để có thể nhận biết được những người có nguy cơ mắc bệnh tiểu đường từ trước. Điều này giúp tăng cơ hội cho việc can thiệp sớm và tối ưu hóa quản lý bệnh, nhờ đó giúp giảm thiểu các biến chứng và chi phí điều trị. Qua đó góp phần nào vào việc kiểm soát và ngăn chặn bệnh tiểu đường cho các bài nghiên cứu sau này.

<b>1.2. Mục nghiên cứu</b>

- Phân tích các lý thuyết về khai phá dữ liệu nhằm làm rõ những vấn đề cốt lõi mà bài nghiên cứu hướng tới.

- Nghiên cứu các phương pháp phân lớp dữ liệu, và từ đó sẽ chọn ra một phương pháp tối ưu và đảm bảo nhất cho quá trình dự báo dữ liệu.

- Dự báo các nguy cơ tiểu đường của bệnh nhân sẽ dựa vào bộ dữ liệu đã được huấn luyện, từ đó sẽ đưa ra những nhận xét về các chỉ số liên quan báo động về cơ thể của con người.

- Dựa trên kết quả từ dữ liệu huấn luyện và dự báo, nhóm nghiên cứu sẽ rút ra các kết luận quan

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

- Hướng đến việc đặt ra những tiền đề cơ bản và hữu ích để tạo nền tảng cho các nghiên cứu sau này trong lĩnh vực ứng dụng khoa học dữ liệu trong chẩn đoán nguy cơ bệnh tiểu đường.

<b>1.3. Đối tượng nghiên cứu</b>

Đối tượng nghiên cứu của đề tài là 768 bệnh nhân tham gia khảo sát tất cả bệnh nhân ở đây đều là phụ nữ ít nhất 21 tuổi, gốc Ấn Độ Pima.

<b>1.4. Phương pháp thực hiện</b>

- Để thực hiện nghiên cứu, chúng em đã lựa chọn một phương pháp toàn diện, kết hợp giữa phân tích định tính và định lượng (dự báo). Quá trình này địi hỏi sự sử dụng cẩn thận của các phương pháp thống kê và phân tích dữ liệu.

- Chúng em đã chủ yếu sử dụng phân tích dữ liệu thống kê, kết hợp với ứng dụng mơ hình hồi quy kinh tế định lượng để dự báo khả năng tiểu đường dựa trên các chỉ số sức khỏe. Sự hỗ trợ của các cơng cụ như chương trình Orange và Excel (2016) đã giúp chúng em hiệu quả trong việc xử lý và phân tích dữ liệu.

<b>1.5. Phạm vi nghiên cứu</b>

- Thời gian: Mẫu dữ liệu được cập nhật lần cuối vào năm 2022

- Không gian: Bài nghiên cứu dựa trên 768 mẫu khảo sát và dữ liệu từ những người phụ nữ ít nhất 21 tuổi, gốc Ấn Độ Pima. Trong đó có 768 lượng mẫu khảo sát sẽ được đưa vào bộ dữ liệu huấn luyện và 200 lượng mẫu sẽ được lấy ngẫu nhiên đưa vào bộ dữ liệu dự báo.

5

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>CHƯƠNG 2: CƠ SỞ LÝ LUẬN</b>

<b>2.1. Khai phá dữ liệu</b>

<b>2.1.1. Khái niệm</b>

<b>Định nghĩa: Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai</b>

thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.

<b>2.1.2. Quy trình khai phá dữ liệu</b>

Quy trình khai phá dữ liệu gồm có 7 bước như sau:

<b>1. Làm sạch dữ liệu (Data Cleaning): Loại bỏ nhiễu và các dữ liệu không cần thiết.</b>

<b>2. Tích hợp dữ liệu (Data Integration): Hợp nhất dữ liệu thành những kho dữ liệu (Data</b>

Warehouses & Data Marts) sau khi đã làm sạch và tiền xử lý (Data cleaning & Preprocessing).

<b>3. Trích chọn dữ liệu (Data Selection): Trích chọn dữ liệu từ những kho dữ liệu và sau đó</b>

chuyển đổi về dạng thích hợp cho q trình khai thác tri thức. Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (Noisy Data), dữ liệu không đầy đủ (Incomplete Data),...

<b>4. Chuyển đổi dữ liệu (Data Conversion): Các dữ liệu được chuyển đổi sang các dạng phù hợp</b>

cho quá trình xử lý.

<b>5. Khai phá dữ liệu (Data Mining): Được coi là một trong những bước quan trọng nhất, trong</b>

đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu.

<b>6. Ước lượng mẫu (Knowledge Evaluation): Quá trình đánh giá các kết quả tìm được thơng qua</b>

các độ to nào đó.

<b>7. Biểu diễn tri thức (Knowledge Presentation): Quá trình này sử dụng các kỹ thuật để biểu</b>

diễn và thể hiện trực quan cho người dùng.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<i><b>Hình 2.1: Các bước trong data Mining&KDD</b></i>

<i>Nguồn: uet.vnu.edu.vn</i>

<b>2.1.3. Các phương pháp khai phá dữ liệu</b>

Có thể khai phá dữ liệu bằng các phương pháp như sau:

<i><b>1. Phân lớp (Classification): Phương pháp được sử dụng để dự báo dữ liệu thông qua bộ dữ liệu</b></i>

huấn luyện, phân loại đối tượng, thường được sử dụng trong nghiên cứu để dự báo số liệu.

<i><b>2. Hồi quy (Regression): Mục đích chính của việc sử dụng phương pháp này là để khám phá và</b></i>

ánh xạ dữ liệu.

<i><b>3. Phân cụm (Clustering): Bằng việc xác định tập hợp hữu hạn các cụm với nhau, phương pháp</b></i>

phân cụm giúp việc mô tả dữ liệu trở nên dễ dàng hơn bao giờ hết.

<i><b>4. Tổng hợp (Summarization): Phương pháp này cho phép người làm tìm kiếm một mơ tả nhỏ</b></i>

<i><b>5. Mơ hình ràng buộc (Dependency modeling): Người làm sẽ tìm được mơ hình cục bộ mô tả</b></i>

các phụ thuộc dựa vào phương pháp mơ hình ràng buộc.

<i><b>6. Dị tìm biến đổi và độ lệch (Change and Deviation Detection): Mục đích của việc sử dụng</b></i>

phương pháp này là để tìm ra những thay đổi quan trọng.

<b>2.1.4. Công cụ khai phá dữ liệu được sử dụng trong bài - Orange</b>

Phần mềm Orange nổi tiếng với khả năng tích hợp các cơng cụ khai phá dữ liệu mã nguồn mở một cách đơn giản. Được xây dựng bằng ngơn ngữ lập trình Python và được thiết kế với giao diện trực quan và tương tác dễ dàng, Orange không chỉ là một công cụ mạnh mẽ trong việc khai phá dữ liệu mà còn cực kỳ thân thiện với người dùng. Với đa dạng chức năng, phần 7

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

mềm Orange có khả năng phân tích dữ liệu từ những bộ dữ liệu đơn giản nhất đến những tệp dữ liệu siêu phức tạp. Nó khơng chỉ tạo ra những đồ họa đẹp mắt, thú vị mà còn giúp người dùng dễ dàng hơn trong việc thực hiện khai thác dữ liệu và học máy. Chính vì những tính năng trên mà Orange vơ cùng quan trọng đối với người mới bắt đầu học và cả chuyên gia trong lĩnh vực Khoa học Dữ liệu.

Các cơng cụ, hay cịn được gọi là Widgets, cung cấp nhiều chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dưới dạng bảng, lựa chọn các thuộc tính đặc điểm của dữ liệu, huấn luyện mơ hình để dự đốn, so sánh các thuật tốn tốn học, và trực quan hóa các phần tử dữ liệu. Nhờ vào sự đa dạng và linh hoạt của các Widgets, người dùng có thể dễ dàng thực hiện và điều chỉnh q trình phân tích của mình theo nhu cầu cụ thể.

Các Widgets điển hình có trong Orange:

<b>- Data: Dùng để rút trích, biến đổi và nạp dữ liệu (ETL, Process)</b>

<i><b>Hình 2.2: Data</b></i>

<i>Nguồn: Orange</i>

<b>- Visualize: Dùng để biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn</b>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>- Add ons: Giúp mở rộng các chức năng nâng cao như xử lý dữ liệu lớn (big data) với Spark, xử</b>

lý ảnh với Deep Learning, xử lý văn bản, phân tích mạng xã hội,...

<i><b>Hình 2.7: Add ons</b></i>

<i>Nguồn: Orange</i>

<b>2.2. Phân lớp dữ liệu2.2.1. Khái niệm</b>

Phân lớp dữ liệu là 1 kỹ thuật trong khai phá dữ liệu mà trong đó ta gắn tên lớp cho một phần tử của tập dữ liệu dựa vào đặc điểm của lớp. Mục đích của phân lớp dữ liệu là để xây dựng một mơ hình mà ta có thể dự đoán được tên lớp của những phần tử mới dựa vào những đặc điểm của nó.

<b>2.2.2. Quy trình phân lớp dữ liệu</b>

Quy trình phân lớp dữ liệu gồm có <b>2 bước chính</b>:

<b>● Bước 1: Xây dựng mơ hình ( giai đoạn “học” hoặc “huấn luyện” )</b>

- Dữ liệu đầu vào: Là dữ liệu mẫu đã được gán nhãn và tiền xử lý. - Các thuật toán phân lớp: Cây quyết định, hàm số toán học, tập luật,... - Kết quả của bước này là <b>Mơ hình phân lớp</b> đã được huấn luyện.

11

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<i><b>Hình 2.8: Xây dựng mơ hình</b></i>

<i>Nguồn: Bài giảng LMS</i>

<b>● Bước 2: Sử dụng mơ hình. Ở bước này dữ liệu được xử lý ở 2 bước nhỏ tiếp theo:</b>

<b>Bước 2.1: Đánh giá mơ hình (kiểm tra tính đúng đắn của mơ hình)</b>

- Dữ liệu đầu vào: Là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý. Tuy nhiên lúc đưa vào mơ hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn.

- Tính đúng đắn của mơ hình sẽ được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mơ hình.

<i><b>Hình 2.9: Đánh giá mơ hình</b></i>

<i>Nguồn: Bài giảng LMS</i>

<b>Bước 2.2: Phân lớp dữ liệu mới</b>

- Dữ liệu đầu vào: Là dữ liệu “khuyết” thuộc tính cần dự đốn lớp (nhãn)

- Mơ hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<i><b>Hình 2.10: Phân lớp dữ liệu mới</b></i>

<i>Nguồn: Bài giảng LMS</i>

<b>2.2.3. Các phương pháp phân lớp dữ liệu được sử dụng trong bài</b>

<b>❖ Phương pháp cây ra quyết định</b>

Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định. Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng qt hóa tập dữ liệu cho trước.

<i><b>Hình 2.11: Cây ra quyết định</b></i>

<i>Nguồn: Bài giảng LMS</i>

<b>❖ Phương pháp hồi quy Logistics</b>

Hồi quy Logistic là một mơ hình thống kê ở dạng cơ bản được sử dụng để mô tả mối quan hệ giữa một biến phụ thuộc nhị phân và một hay nhiều biến độc lập thông qua việc sử dụng hàm logistic. Mặc dù mơ hình cơ bản này tập trung vào biến phụ thuộc có hai giá trị, thường được ký hiệu là 0 và 1, dùng để mô tả trạng thái như là “đạt được” hoặc “không đạt được”, nhưng cũng có nhiều phần mở rộng phức tạp hơn để xử lý các tình huống phức tạp hơn.

13

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

<i><b>Hình 2.12: Hồi quy Logistics</b></i>

<i>Nguồn: Bài giảng LMS</i>

Trong q trình phân tích hồi quy, hồi quy logistic, là quá trình ước lượng các tham số của mơ hình logistic, một dạng cụ thể của hồi quy nhị phân. Tốn học của mơ hình logistic nhị phân liên quan đến một biến phụ thuộc chỉ có hai giá trị cụ thể, thường được biểu diễn bằng một biến chỉ báo, trong đó “0” và “1” là hai nhãn tương ứng. Mơ hình này cung cấp linh hoạt và chính xác về xác suất của sự kiện “đạt được” hoặc “không đạt được” dựa trên các biến độc lập.

<b>❖ Phương pháp Neural Network</b>

Neural Network, hay còn được biết đến với tên gọi khác là Mạng Neural Nhân Tạo, là một chuỗi thuật toán được thiết kế để khám phá và mơ hình hóa các mối quan hệ phức tạp trong tập dữ liệu cụ thể, lấy cảm hứng từ cách hoạt động của bộ não con người. Đơn giản hóa, đây là một hệ thống nhân tạo với khả năng mơ phỏng q trình tư duy của con người.

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

<i><b>Hình 2.13: Kiến trúc mạng Neural Network</b></i>

<i>Nguồn: Bài giảng LMS</i>

Mạng Neural thể hiện khả năng linh hoạt bằng cách tương thích với nhiều loại dữ liệu khác nhau từ khi chúng ta thay đổi đầu vào. Điều này có nghĩa là nó có khả năng tự học và điều chỉnh để tối ưu hóa kết quả mà không cần sự can thiệp đặc biệt từ người lập trình. Mạng Neural có khả năng đưa ra các dự đồn và kết quả một cách chính xác và hiệu quả, giảm bớt nhu cầu phải xây dựng các tiêu chí đầu ra cụ thể. Điều này nó trở thành một công cụ mạnh mẽ và linh hoạt trong việc giải quyết nhiều vấn đề trong lĩnh vực trí tuệ nhân tạo và phân tích dữ liệu.

<b>❖ Phương pháp SVM</b>

Là một thuật tốn có giám sát, SVM nhận dữ liệu vào, xem chúng như những vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.

Phương pháp SVM có các biến thể sau:

<b>Multi - class SVM</b> Phân lớp đa lớp (biên giữa các lớp là tuyến tính)

<b>Kernel SVM</b> Dữ liệu là phi tuyến

<i><b>Bảng 2.1: Các biến thể của SVM</b></i>

<i>Nguồn: Tổng hợp</i>

<b>2.2.4. Các phương pháp đánh giá mô hình phân lớp2.2.4.1. Ma trận nhầm lẫn (Confusion matrix)</b>

Ma trận nhầm lẫn: Ma trận nhầm lẫn là một công cụ quan trọng trong đánh giá hiệu suất của mơ hình, nó thể hiện số lượng lượng điểm dữ liệu thực sự thuộc vào một lớp cụ thể và được dự đốn rơi vào lớp nào. Confusion matrix có kích thước là k x k, trong đó k là số lượng lớp của 15

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

dữ liệu.

Các thuật ngữ chính trong ma trận nhầm lẫn bao gồm:

<b>1. True positive (TP): Số lượng điểm dữ liệu thực sự thuộc vào lớp tích cực và được mơ hình dự</b>

Những giá trị này cung cấp cái nhìn chi tiết về khả năng dự đốn của mơ hình đối với từng lớp và là cơ sở để tính tốn các độ đo đánh giá hiệu suất như độ chính xác, độ nhạy, độ đặc,...

<b>2.2.4.2. ROC (Receiver Operating Characteristic) và AUC (Area Under the Curve)</b>

Đồ thị ROC là một công cụ phổ biến trong đánh giá mơ hình phân loại nhị phân. Đường cong ROC biểu diễn tỷ lệ dự đoán true positive rate (TPR) theo tỷ lệ dự đoán false positive rate (FPR) tại các ngưỡng quyết định khác nhau. Đối với một mơ hình hiệu quả, đường cong ROC sẽ tiệm cận điểm (0;1), nơi TPR cao và FPR thấp, làm cho mơ hình trở nên phù hợp và chính xác hơn.

<i><b>Hình 2.14: ROC</b></i>

</div>

×