Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (185.83 KB, 14 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
<b>KHOA CÔNG NGHỆ THÔNG TIN</b>
<b>BÁO CÁO CHUYÊN ĐỀNHẬP MÔN HỌC MÁY</b>
<b> ĐỀ TÀI:</b>
<b>ỨNG DỤNG THUẬT TOÁN HỒI QUY TUYẾN TÍNH ĐỂ CHẨN ĐỐN XƠ VỮA ĐỘNG MẠCH</b>
<b>Sinh viên thực hiện:PHẠM ĐÌNH NGUYÊNNGUYỄN TƯỜNG VYĐỖ TUẤN LONGGiảng viên hướng dẫn:VŨ VĂN ĐỊNH</b>
<b>Chuyên ngành:CÔNG NGHỆ PHẦN MỀM</b>
<i><b>Hà Nội, tháng 11 năm 2023</b></i>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><b>MỤC LỤC</b>
<b>CHƯƠNG 1: GIỚI THIỆU THUẬT TỐN HỒI QUY TUYẾN TÍNH</b>
1.1. Giới thiệu 1.2. Mơ tả thuật tốn
1.2.1. Các dạng của mơ hình hồi quy tuyến tính 1.2.2. Các hàm và cơng thức liên quan
1.3. Một số tính chất 1.4. Ưu và nhược điểm 1.4.1. Ưu điểm
1.4.2. Nhược điểm
<b>CHƯƠNG 2: ỨNG DỤNG THUẬT TOÁN HỒI QUY TUYẾN TÍNH ĐỂ CHẨNĐỐN SƠ VỮA ĐỘNG MẠCH</b>
<b>CHƯƠNG 3: DEMO CHƯƠNG TRÌNH</b>
<b>KẾT LUẬN</b>
<b>DANH MỤC THAM KHẢO</b>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><b>DANH MỤC HÌNH ẢNH</b>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><b>LỜI NĨI ĐẦU</b>
Thành cơng chính là sự thành tựu, là kết quả tốt đẹp mà ai cũng mong muốn hướng tới. Thực tế, thành cơng khơng đến từ sự đơn độc, mà cịn cần phải có những sự hỗ trợ, giúp đỡ ít nhiều của mọi người xung quanh. Bản thân chúng em cũng đã nhận được nhiều sự giúp đỡ từ thầy cơ, gia đình và bạn bè trong q trình đã và đang học tập tại trường Đại học Điện Lực. Đặc biệt, chúng em xin cảm ơn thầy Vũ Văn Định đã hướng dẫn, góp ý để chúng em có thể hoàn thiện bài báo cáo này một cách tốt nhất. Dưới sự chỉ dẫn tận tình của thầy suốt thời gian học tập, rèn luyện vừa qua, không những tiếp thu được nhiều kiến thức do thầy truyền đạt, mà chúng em còn học được thêm nhiều kỹ năng làm việc nhóm, làm word, trải nghiệm thực tế. Đặc biệt, chúng em
<b>cũng được truyền cảm hứng, truyền sự say mê và thích thú đối với bộ mơn Nhập mơnhọc máy.</b>
<b>Trong học kỳ này, chúng em xin chọn đề tài “Ứng dụng thuật tốn hồi quytuyến tính để chẩn đốn xơ vữa động mạch”. Đây không chỉ là một đề tài nghiên</b>
cứu thơng thường mà cịn là một chủ đề hấp dẫn trong việc áp dụng học máy vào lĩnh vực y học. Lựa chọn này được thúc đẩy bởi tiềm năng của thuật tốn hồi quy tuyến tính trong việc dự đoán và chẩn đoán các vấn đề về sức khỏe, đặc biệt là về xơ vữa động mạch. Chúng em hy vọng rằng thông qua nghiên cứu này, chúng em có thể đóng góp vào việc cải thiện quy trình chẩn đốn và điều trị các bệnh lý về mạch máu, mang lại lợi ích lớn cho cộng đồng y học và bệnh nhân.
Tuy rằng, năng lực còn hạn chế, kiến thức còn hạn hẹp với sự bỡ ngỡ do bước đầu đi vào thực tế, tìm hiểu và làm báo cáo nên không thể tránh khỏi nhiều thiếu sót. Song, chúng em cũng sẽ cố gắng và nỗ lực để hoàn thiện báo cáo một cách tốt nhất.
Cuối cùng, chúng em xin chân thành cảm ơn và cũng xin kính chúc các thầy cơ trong Khoa Cơng Nghệ Thông Tin luôn dồi dào sức khỏe, hạnh phúc, thành công trong sự nghiệp trồng người.
Trân trọng!
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">Thuật tốn hồi quy tuyến tính đóng vai trị quan trọng và khơng thể thiếu trong lĩnh vực học máy và thống kê. Được sử dụng rộng rãi trong các ứng dụng thực tế, thuật toán này giúp mơ hình hóa mối quan hệ tuyến tính giữa các biến, đặc biệt là giữa biến độc lập (thường được gọi là biến giải thích) và biến phụ thuộc (hay cịn gọi là biến được dự đốn). Mục tiêu chính của thuật tốn là tìm ra một đường thẳng (trong trường hợp đơn biến) hoặc một siêu phẳng (trong không gian nhiều chiều) sao cho sai số giữa các giá trị dự đoán và thực tế là nhỏ nhất.
Đường thẳng (hoặc siêu phẳng) này được tìm ra bằng cách điều chỉnh các hệ số của mơ hình, đại diện cho độ dốc và điểm chạm của đường thẳng (hoặc siêu phẳng) trên trục y khi biến độc lập thay đổi. Q trình này thường được thực hiện thơng qua tối ưu hóa một hàm mất mát, trong đó mục tiêu là tối thiểu hóa sai số giữa giá trị dự đốn và giá trị thực tế.
Với tính linh hoạt và khả năng áp dụng rộng rãi, thuật toán hồi quy tuyến tính khơng chỉ là một cơng cụ mạnh mẽ trong việc dự đốn và mơ hình hóa dữ liệu mà cịn là một cơng cụ quan trọng để hiểu sâu hơn về mối quan hệ giữa các biến trong các tập dữ liệu phức tạp. Điều này làm cho nó trở thành một phần khơng thể thiếu trong kho công cụ của các nhà nghiên cứu, nhà phân tích dữ liệu và các chuyên gia trong nhiều lĩnh vực khác nhau.
Thuật tốn hồi quy tuyến tính xây dựng một mơ hình dự đốn dựa trên việc ước lượng các hệ số của các biến độc lập. Trong trường hợp đơn giản nhất với một biến độc lập, mơ hình hồi quy tuyến tính có dạng đơn biến.Trong trường hợp này, chỉ có một biến độc lập được sử dụng để dự đoán một biến phụ thuộc. Cơng thức của mơ hình là:
y = β<small>0</small> + β<small>1</small>x + ε Trong đó:
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"> y là biến phụ thuộc (biến được dự đoán). x là biến độc lập (biến giải thích).
β<small>0</small> và β<small>1</small>là các hệ số của mơ hình. ε là sai số ngẫu nhiên.
Trong trường hợp có nhiều biến độc lập được sử dụng để dự đoán biến phụ thuộc, mơ hình được mở rộng thành dạng đa biến. Cơng thức tổng qt của mơ hình là:
y = β<small>0</small> + β<small>1</small>x<small>1</small> + β<small>2</small>x<small>2</small> + … + β<small>n</small>x<small>n</small> + ε
Hàm dự đoán: Đây là hàm được sử dụng để dự đoán giá trị của biến phụ thuộc dựa trên các giá trị của biến độc lập. Đối với mơ hình đơn biến, hàm dự đốn là:
^<i>y = β</i><small>0</small> + β<small>1</small>x Trong đó, ^<i>y là giá trị dự đốn của biến phụ thuộc.</i>
Hàm mất mát: Đây là hàm được sử dụng để đo lường sự chênh lệch giữa các giá trị dự đoán và giá trị thực tế. Trong hồi quy tuyến tính, hàm mất mát thường là hàm bình phương của sai số (RSS - Residual Sum of Squares):
Hàm mất mát được tối ưu hóa: Trong q trình huấn luyện mơ hình, mục tiêu là tối thiểu hóa hàm mất mát. Điều này thường được thực hiện bằng cách sử dụng phương pháp tối ưu hóa như gradient descent.
Đơn giản: Thuật tốn hồi quy tuyến tính dễ hiểu và thực hiện, đặc biệt là trong trường hợp có ít biến độc lập.
Khả năng diễn giải: Các hệ số của mơ hình hồi quy có thể được diễn giải một cách trực quan, giúp hiểu rõ mối quan hệ giữa biến độc lập và biến phụ thuộc.
Khả năng áp dụng rộng rãi: Hồi quy tuyến tính có thể được áp dụng trong nhiều lĩnh vực khác nhau, từ kinh tế, y học đến khoa học xã hội.
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">- Đơn giản và dễ hiểu.
- Có khả năng diễn giải các hệ số.
- Áp dụng rộng rãi trong các lĩnh vực khác nhau.
<b>1.4.2. Nhược điểm</b>
- Giả định về sự tuyến tính: Mơ hình chỉ phù hợp khi mối quan hệ giữa biến độc lập và biến phụ thuộc là tuyến tính.
- Nhạy cảm với dữ liệu nhiễu: Mơ hình có thể bị ảnh hưởng bởi dữ liệu nhiễu. - Không linh hoạt: Không thể mô hình các mối quan hệ phi tuyến tính một cách hiệu quả.
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><b>2.1. Tổng quan về chẩn đoán sơ vữa động mạch</b>
<i><b>Viết gì đó tùy bạn</b></i>
Dữ liệu được sử dụng cho nghiên cứu này được cung cấp bởi Viện Tim mạch của Bệnh viện Phẫu thuật Bạch Mai. Dữ liệu bao gồm 7 cột và 100 hồ sơ bệnh nhân. Hầu hết các nghiên cứu mới nhất về bệnh tim mạch đều tham chiếu đến bộ dữ liệu UCI có từ năm 1988. Việc có một bộ dữ liệu mới và chính xác như vậy tạo ra một cơ hội độc đáo để dự đoán bệnh xơ vữa động mạch dựa trên các phương pháp đã có sẵn và áp dụng các phương pháp mới, mở ra cánh cửa mới cho việc ứng dụng các thuật toán học máy trong y học.
Trong y sinh học, thường có rất nhiều yếu tố khác nhau dẫn đến một hiện tượng. Ví dụ như hiện tượng xơ vữa động mạch không chỉ do lượng cholesterol máu. Mà còn do nhiều yếu tố khác như di truyền, chủng tộc, tiền sử mắc bệnh tim mạch, tuổi, giới, BMI, tăng huyết áp, đái tháo đường,…
Trong bài viết này chúng ta không đề cập các yếu tố di truyền, chủng tộc, giới, mắc bệnh tim mạch… mà chỉ lưu ý đến các biến số như: tuổi, cholesterol, glucose, huyết áp tâm thu và BMI. Khi đó mơ hình hồi quy tuyến tính đa biến với 5 yếu tố ( x<small>1</small>=tuổi, x<small>2 </small>= cholesterol, x<small>3</small> = glucose, x<small>4 </small>= huyết áp, x<small>5</small> = BMI ) như sau:
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><b>Bề dày TM = w<small>0</small> + w<small>1</small>(tuổi)+ w<small>2</small>(cholesterol) + w<small>3</small>(glucose) + w<small>4</small>(huyết áp) + w<small>5</small>(BMI)</b>
Bộ dữ liệu gồm có 6 thuộc tính bao gồm: tuổi, chỉ số BMI, chỉ số huyết áp tối đa (mmHg), nồng độ glucose trong máu (mmol/l), nồng dộ cholesterol trong máu (mmol/l) và bề dày thành mạch (mm).
Bộ dữ liệu sẽ chia thành 2 phần trong đó 80% dữ liệu được làm bộ dữ liệu huấn luyện mơ hình, 20% cịn lại làm bộ dữ liệu thử nghiệm độ chính xác của mơ hình. Dữ liệu về độ dày thành mạch làm biến mục tiêu. Những bộ dữ liệu còn lại bao gồm (tuổi, BMI, nồng độ glucose máu, nồng độ cholesterol máu) làm biến giải thích.
<b>2.2. Ứng dụng thuật tốn vào chẩn đốn sơ vữa động mạch</b>
Trong nghiên cứu này, chúng tôi sử dụng ngơn ngữ lập trình Python phiên bản 3.11 cùng các thư viện liên quan. Hiện nay, Python là ngôn ngữ lập trình phổ biến nhất cho phân tích dữ liệu và học máy, cung cấp nhiều thư viện và giải pháp để giải quyết các vấn đề này. Python cung cấp nhiều tiện ích giúp giảm thời gian phát triển và mang lại kết quả hiệu quả cao. Dưới đây là các thư viện Python chúng tôi sử dụng trong nghiên cứu:
- pandas: thư viện cung cấp các hàm để tạo và thao tác với tập dữ liệu.
- numpy: cho phép thực hiện các phép tính phức tạp trên các mảng đa chiều hiệu suất cao và thao tác với chúng.
- matplotlib: cung cấp giao diện phần mềm để tạo các biểu đồ dữ liệu khác nhau. - sklearn: cung cấp các thuật toán học máy có sẵn được giám sát và khơng được giám sát, được xây dựng trên numpy, pandas và matplotlib.
Xét đến những hạn chế của nghiên cứu, có rất nhiều cơ hội rộng lớn để áp dụng các phương pháp đã đề cập vào dữ liệu lớn hơn, tuy nhiên điều này có thể dẫn đến nhiều thách thức kỹ thuật hơn như tiền xử lý dữ liệu phức tạp và điều chỉnh thuật tốn. Ngồi ra, có rất nhiều kiến trúc mạng nơ-ron khác cũng có thể được áp dụng cũng như các phương pháp học máy để đạt được kết quả tốt hơn. Mặc dù hiện nay chỉ có một số lượng rất hạn chế các tập dữ liệu có sẵn cho phân tích xơ vữa động mạch (điều này khiến lĩnh vực trở nên hấp dẫn đối với nhiều nhà nghiên cứu), nhưng có rất nhiều tích
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">hợp khả thi của các kỹ thuật được xem xét cùng với thị giác máy tính và các cơng nghệ khác có thể cải thiện việc chẩn đốn và điều trị xơ vữa động mạch.
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><b>CHƯƠNG 3: DEMO CHƯƠNG TRÌNH</b>
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13"><b>KẾT LUẬN</b>
Dựa trên những phân tích trong q trình nghiên cứu, chúng em nhận thấy rằng việc ứng dụng thuật toán hồi quy tuyến tính trong việc chẩn đốn xơ vữa động mạch là một phương pháp tiềm năng và hiệu quả.
Thuật toán hồi quy tuyến tính cung cấp một cách tiếp cận đơn giản và mạnh mẽ để mơ hình hóa mối quan hệ tuyến tính giữa các biến độc lập và biến phụ thuộc. Việc áp dụng thuật toán này trong việc chẩn đoán xơ vữa động mạch cho phép chúng em dự đoán và đánh giá mức độ nghiêm trọng của xơ vữa một cách hiệu quả.
Tính linh hoạt của thuật tốn hồi quy tuyến tính cũng cho phép chúng em điều chỉnh và tinh chỉnh mơ hình dự đốn dựa trên dữ liệu mới và thông tin cụ thể của từng trường hợp.
Tuy nhiên, để đạt được kết quả chính xác và đáng tin cậy, việc lựa chọn và phát triển các biến độc lập phù hợp, cùng với việc xây dựng một mơ hình hồi quy tuyến tính chính xác và có hiệu suất cao là điều quan trọng. Đồng thời, việc hiểu rõ về giới hạn và giả định của mơ hình là yếu tố khơng thể bỏ qua trong q trình ứng dụng thuật tốn hồi quy tuyến tính trong lĩnh vực chẩn đốn xơ vữa động mạch.
Vì thời gian triển khai có hạn, và việc tìm hiểu cơng nghệ mới cịn gặp nhiều khó khăn do khơng có nhiều tài liệu nên khơng tránh khỏi những sai sót. Chúng em rất mong nhận được sự đóng góp ý kiến và những hướng dẫn của thầy cơ để bài báo cáo thêm hồn chỉnh.
Chúng em xin chân thành cảm ơn!
<b>DANH MỤC THAM KHẢO</b>
[1] Đinh Mạnh Tưởng, Học máy các kỹ thuật cơ bản và nâng cao, NXB Đại học Quốc Gia Hà Nội, 2015.
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">[2] Christopher M. Bishop, Pattern Recognition and Machine Learning, Springer, 2006.
</div>