HỌC VIỆN NGÂN HÀNG
KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ
-----🙞🙞🙞🙞🙞-----
BÀI THI KẾT THÚC HỌC PHẦN
KHAI PHÁ DỮ LIỆU
Đề tài:
ỨNG DỤNG AI VÀ CÁC THUẬT TỐN
XÂY DỰNG MƠ HÌNH DỰ ĐỐN NGUY CƠ ĐAU TIM
Giảng viên hướng dẫn: Bùi Thị Hồng Nhung
Nhóm thực hiện: Nhóm 09
Thành viên nhóm:
Nguyễn Thị Nguyệt Hà 23A4040031
Đào Thị Thanh Mai 23A4040084
Đào Phương Chi 23A4040017
Hoàng Thu Trang 23A4040145
Nguyễn Thu Trang 23A4040148
Hà Nội, Tháng 12 Năm 2023
1
BẢNG MỨC ĐỘ ĐÓNG GÓP CỦA CÁC THÀNH VIÊN
Họ và tên Mã sinh viên Phân chia cơng việc % đóng góp
Nguyễn Thị Nguyệt Hà 23A4040031 - Thuật toán phân cụm 20%
- Trực quan hóa dữ liệu
Đào Thị Thanh Mai 23A4040084 - Tiền xử lý dữ liệu 20%
- Làm video
- Đặt vấn đề
Đào Phương Chi 23A4040017 - Thuật toán phân lớp 20%
Hoàng Thu Trang 23A4040145 - Nhận diện hình ảnh 20%
- Tổng hợp word
Nguyễn Thu Trang 23A4040148 - Luật kết hợp 20%
i
NHẬN XÉT CỦA GIẢNG VIÊN
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
ii
LỜI CAM ĐOAN
Nhóm em xin cam đoan bài nghiên cứu được thực hiện là do chính nhóm tự nghiên
cứu, tìm hiểu và xây dựng dưới sự dẫn dắt trực tiếp từ cô Bùi Thị Hồng Nhung. Trong
q trình nghiên cứu nhóm có tham khảo một số tài liệu, đã được liệt kê rõ ràng nguồn
và trích dẫn trong phần tài liệu tham khảo. Nhóm em xin chịu trách nhiệm và mọi hình
thức kỷ luật nếu có điều gì khơng đúng sự thật.
Nhóm 9
iii
LỜI CẢM ƠN
Trong quá trình học tập và tìm hiểu mơn Khai phá dữ liệu, nhóm chúng em đã được
tiếp nhận với nhiều kiến thức mới, học được nhiều điều và có thể áp dụng và hồn
thiện bài nghiên cứu của mình. Chúng em xin gửi lời cảm ơn tới cô Bùi Thị Hồng
Nhung – Giảng viên khoa Hệ thống thông tin Quản lý – Học viện ngân hàng đã trực
tiếp giảng dạy, hướng dẫn tận tình chúng em bộ mơn này. Cơ ln sẵn sàng giải đáp
những thắc mắc của nhóm trong suốt quá trình nghiên cứu bài tập lớn, một lời nữa
chúng em xin cảm ơn cô.
Do kinh nghiệm thực tế còn hạn chế nên một số nội dung trong bài báo cáo sẽ
khơng tránh khỏi những thiếu sót. Vì vậy, chúng em rất mong được có thể nhận được
những nhận xét và ý kiến đóng góp của thầy cơ, để bài báo cáo cuối kì của nhóm có
thể hoàn thiện hơn. Chúng em xin chân thành cảm ơn.
iv
MỤC LỤC
LỜI CAM ĐOAN..................................................................................................... iii
LỜI CẢM ƠN ...........................................................................................................iv
DANH MỤC HÌNH ẢNH........................................................................................vii
DANH MỤC BẢNG BIỂU ........................................................................................x
MỞ ĐẦU ....................................................................................................................1
CHƯƠNG 1: PHÁT BIỂU BÀI TOÁN ....................................................................2
1.1. Đặt vấn đề ........................................................................................................2
1.2. Tính cấp thiết của đề tài...................................................................................3
1.3. Một số kết quả nghiên cứu...............................................................................3
1.4. Đối tượng và phương pháp nghiên cứu ...........................................................4
1.5. Ý nghĩa đề tài ...................................................................................................4
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT..........................................................................6
2.1. Tổng quan về kỹ thuật khai phá dữ liệu ..........................................................6
2.1.1. Khái niệm khai phá dữ liệu.........................................................................6
2.1.2. Các giai đoạn khai phá dữ liệu...................................................................6
2.2. Bài toán phân lớp trong khai phá dữ liệu ........................................................7
2.2.1. Khái niệm phân lớp ....................................................................................7
2.2.2. Quá trình phân lớp dữ liệu .........................................................................8
2.2.3. Một số thuật toán phân lớp.........................................................................8
2.3. Bài toán phân cụm trong khai phá dữ liệu .................................................... 12
2.3.1. Khái niệm về phân cụm ............................................................................ 12
2.3. Một số thuật toán phân cụm ........................................................................ 13
2.4. Bài toán luật kết hợp trong khai phá dữ liệu ................................................. 16
2.4.1. Khái niệm về luật kết hợp ......................................................................... 16
2.4.2. Quá trình luật kết hợp dữ liệu...................................................................18
2.4.3. Một số thuật toán luật kết hợp .................................................................. 18
2.5. Bài tốn nhận diện hình ảnh ......................................................................... 21
2.5.1. Khái niệm về nhận diện hình ảnh.............................................................. 21
2.5.2. Giới thiệu tổng quan thuật toán sử dụng...................................................21
v
CHƯƠNG 3: XÂY DỰNG MƠ HÌNH DỰ BÁO ...................................................24
3.1. Cơ sở dữ liệu xây dựng mơ hình .................................................................... 24
3.1.1. Giới thiệu về dữ liệu ................................................................................. 24
3.1.2. Tiền xử lý dữ liệu......................................................................................27
3.1.3. Trực quan hoá dữ liệu .............................................................................. 34
3.2. Xây dựng mơ hình..........................................................................................42
3.2.1. Xây dựng mơ hình theo thuật tốn phân lớp ............................................. 42
3.2.1.1. Cây quyết định...................................................................................42
3.2.1.2. Hồi quy Logistic ................................................................................ 45
3.2.1.3. Rừng ngẫu nhiên (Random Forest) .................................................... 49
3.2.2. Xây dựng mơ hình theo thuật tốn phân cụm ............................................ 54
3.2.3. Xây dựng mơ hình theo thuật tốn luật kết hợp.........................................61
3.2.4. Xây dựng mơ hình nhận diện hình ảnh ..................................................... 69
CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ VÀ ĐỀ XUẤT ............................................80
4.1. Kết quả đạt được ............................................................................................ 80
4.2. Hạn chế của đề tài.......................................................................................... 80
4.3. Hướng phát triển của đề tài ........................................................................... 80
TÀI LIỆU THAM KHẢO ....................................................................................... 81
vi
DANH MỤC HÌNH ẢNH
Hình 1. Những nguyên nhân hàng đầu gây tử vong theo WHO (2000-2019)................2
Hình 2. Hình ảnh mơ tả hàm hồi quy tuyến tính và hồi quy Logistic ..........................10
Hình 3. Hình ảnh mơ tả mơ hình Rừng ngẫu nhiên ....................................................11
Hình 4. Sơ đồ thuật tốn ............................................................................................ 23
Hình 5. Mơ tả bộ dữ liệu ............................................................................................ 24
Hình 6. Khai báo thư viện .......................................................................................... 27
Hình 7. Tải lên dữ liệu ............................................................................................... 27
Hình 8. Đọc dữ liệu ................................................................................................... 28
Hình 9. In ra 10 dịng dữ liệu đầu tiên ........................................................................ 28
Hình 10. Tách cột Blood Pressure thành 2 cột Systolic và Diastolic...........................29
Hình 11. Loại bỏ cột Patient ID ................................................................................. 29
Hình 12. thơng tin kiểu dữ liệu .................................................................................. 30
Hình 13. In ra thơng tin thống kê đối với các dữ liệu định lượng................................31
Hình 14. Kiểm tra giá trị khuyết thiếu ........................................................................ 31
Hình 15. Tạo Dataframe mới ..................................................................................... 32
Hình 16. Tạo ma trận tương quan............................................................................... 32
Hình 17. Biểu đồ Heatmap.........................................................................................33
Hình 18. Xử lý giá trị ngoại lai .................................................................................. 34
Hình 19. Xử lý giá trị ngoại lai .................................................................................. 34
Hình 20. Phân tích dữ liệu với các biến số ................................................................. 37
Hình 21. Nguy cơ đau tim theo nhóm hoạt động thể chất ........................................... 40
Hình 22. Nguy cơ đau tim theo nhóm tuổi ................................................................. 41
Hình 23. Số lượng người tham gia khảo sát theo Châu lục và các quốc gia trên thế giới
.................................................................................................................................. 41
Hình 24. Khai báo thư viện ........................................................................................ 42
Hình 25. Tạo Dataframe mới ..................................................................................... 43
Hình 26. Xác định thuộc tính mơ tả và dự đốn ......................................................... 43
Hình 27. Chia bộ dữ liệu thành 2 tập dữ liệu train test................................................44
Hình 28. Khai báo mơ hình cây quyết định ................................................................ 44
vii
Hình 29. Thực thi và kiểm thử mơ hình .....................................................................45
Hình 30. Ma trận nhầm lẫn ........................................................................................ 45
Hình 31. Độ chính xác của mơ hình ........................................................................... 45
Hình 32. Khai báo thư viện ........................................................................................ 46
Hình 33. Tạo Dataframe mới ..................................................................................... 46
Hình 34. Xác định thuộc tính mơ tả và dự đốn ......................................................... 47
Hình 35. Chia bộ dữ liệu train test ............................................................................. 48
Hình 36. Khai báo và thực thi mơ hình ...................................................................... 48
Hình 37. Kiểm thử và đánh giá mơ hình.....................................................................49
Hình 38. Khai báo thư viện ........................................................................................ 50
Hình 39. Tạo Dataframe mới ..................................................................................... 50
Hình 40. Xác định thuộc tính mơ tả và dự đốn ......................................................... 51
Hình 41. Chia bộ dữ liệu thành 2 tập train test ........................................................... 51
Hình 42. Tạo cây quyết định, chọn mơ hình tốt nhất và đánh giá ............................... 52
Hình 43. Kết quả đánh giá ......................................................................................... 52
Hình 44. Một số kết quả khác .................................................................................... 53
Hình 45. Biến đổi dữ liệu để phân cụm ...................................................................... 54
Hình 46. Chia thuộc tính ‘Exercise Hours Per Week’ thành 3 nhóm ..........................55
Hình 47. Chia thuộc tính ‘Income’ thành 3 nhóm.......................................................55
Hình 48. Thay đổi thuộc tính ‘Blood Pressure’ .......................................................... 55
Hình 49. Chia bộ dữ liệu train test để huấn luyện.......................................................56
Hình 50. Chọn ra 25 thuộc tính quan trọng nhất bằng 2 phương pháp Prison và Anova
.................................................................................................................................. 57
Hình 51. Kết quả phân cụm ....................................................................................... 58
Hình 52. Biểu đồ thể hiện mối quan hệ giữa các cụm.................................................59
Hình 53. Phân cụm theo DBSCAN ............................................................................60
Hình 54. Cài đặt thư viện Apriori...............................................................................61
Hình 55. Tạo ra một dataframe mới ...........................................................................61
Hình 56. Bộ dữ liệu mới ............................................................................................ 65
Hình 57. Nhóm dữ liệu liên quan thành một cột mới..................................................65
viii
Hình 58. Xây dựng thuộc tính kết hợp ....................................................................... 66
Hình 59. Drive lưu trữ dữ liệu hình ảnh ..................................................................... 70
Hình 60. Tập ảnh Người bình thường (Normal) .........................................................71
Hình 61. Tập ảnh người có nguy cơ bị đau tim (Attack).............................................71
Hình 62. Sao chép đường dẫn đến tập dữ liệu ............................................................ 74
Hình 63. Tiền xử lý dữ liệu với ImageDataGenerator.................................................75
Hình 64. Đọc dữ liệu Train và Validation .................................................................. 75
Hình 65. Xây dựng mơ hình.......................................................................................76
Hình 66. Thiết lập tham số huấn luyện mơ hình ......................................................... 76
Hình 67. Huấn luyện mơ hình (1)............................................................................... 77
Hình 68. Huấn luyện mơ hình (2)............................................................................... 77
Hình 69. Sử dụng mơ hình ......................................................................................... 78
Hình 70. Kết quả sau khi sử dụng mơ hình.................................................................79
ix
DANH MỤC BẢNG BIỂU
Bảng 1. So sánh 3 thuật tốn phân cụm......................................................................16
Bảng 2. Mơ tả các thuộc tính của bảng.......................................................................27
Bảng 3. Bảng mơ hình cho thuật toán phân lớp .......................................................... 54
Bảng 4. Tham số để thực hiện Luật kết hợp ............................................................... 67
Bảng 5. Hiển thị từng luật kết hợp với độ hỗ trợ, độ tin cậy và lift rõ ràng ................. 69
x
MỞ ĐẦU
Theo các chuyên gia của Viện Tim mạch Quốc gia, bệnh tim mạch đã trở thành
nguyên nhân hàng đầu gây tử vong trên toàn thế giới, mỗi năm cướp đi 19,5 triệu sinh
mạng (theo báo cáo về gánh nặng bệnh tật toàn cầu năm 2022), chiếm khoảng 1/3 tử
vong do mọi nguyên nhân.
Một thực tế đáng lo ngại nữa là, tỷ lệ mắc và tử vong do bệnh tim mạch gia tăng
nhanh chóng ở các nước có thu nhập thấp và trung bình thấp (chiếm 75% tổng số tử
vong), trong đó có các quốc gia khu vực Đông Nam Á (ASEAN) và Việt Nam.
Do đó, phát hiện sớm để giảm thiểu các bệnh về tim mạch, đồng thời tăng tiếp cận
các liệu pháp điều trị phù hợp, tiên tiến là một giải pháp rất quan trọng. Với mục đích
giúp phát hiện sớm để cải thiện kết quả và sự sống còn của bệnh nhân khơng may mắc
bệnh tim mạch, Nhóm 9 đã lựa chọn đề tài: “Ứng dụng AI và các thuật toán xây
dựng mơ hình dự đốn nguy cơ đau tim”.
Bài báo cáo được xây dựng gồm: lời mở đầu, kết luận và 4 chương nội dung:
Chương 1: Phát biểu bài toán.
Chương 2: Cơ sở lý thuyết.
Chương 3: Xây dựng mô hình dự báo
Chương 4: Đánh giá kết quả và đề xuất
Nội dung bài sẽ khơng tránh khỏi thiếu sót vì thiếu các kinh nghiệm thực tế.
Nhóm 9 rất mong sẽ được nhận những lời đóng góp và ý kiến cơ để có thể hồn
thiện bài báo cáo của mình.
Chúng em xin cảm ơn.
1
CHƯƠNG 1: PHÁT BIỂU BÀI TOÁN
1.1. Đặt vấn đề
Bệnh tim mạch là một trong các nguyên nhân gây tử vong hàng đầu trên thế giới,
cũng như tại Việt Nam. Theo số liệu của Tổ chức Y tế Thế giới năm 2019, tử vong do
bệnh tim mạch chiếm tới 39,5%, trong đó: bệnh mạch máu não (55,4%), bệnh tim
thiếu máu cục bộ (32%), bệnh tim do tăng huyết áp (6,9%) và bệnh tim mạch khác
(5,7%).
Tại Việt Nam, xu hướng tử vong do bệnh tim mạch đang ngày càng tăng, trong đó
tử vong do bệnh mạch máu não chiếm tỷ lệ lớn nhất, với tỷ suất tử vong tăng từ
127,3/100.000 dân (năm 2000) lên 164,9/100.000 dân hiện nay.
Gánh nặng bệnh tật vẫn tiếp tục gia tăng, đặc biệt là gánh nặng về bệnh lý tim mạch
và xu hướng trẻ hóa ở những người trong độ tuổi lao động.
Hình 1. Những nguyên nhân hàng đầu gây tử vong theo WHO (2000-2019)
2
1.2. Tính cấp thiết của đề tài
Theo số liệu thống kê trong Báo cáo EvoHealth White Paper on ASCVD in
Vietnam, năm 2019 có 2,4 triệu người mắc các bệnh tim mạch trong đó 65% là bệnh
tim mạch do xơ vữa động mạch. Đây cũng là nguyên nhân hàng đầu dẫn tới tử vong
với tỉ lệ rất cao trên bệnh tim do thiếu máu cục bộ và đột quỵ nhồi máu não.
Tại Việt Nam, xu hướng tử vong do bệnh tim mạch đang ngày càng tăng, trong đó
tử vong do bệnh mạch máu não chiếm tỷ lệ lớn nhất, với tỷ suất tử vong tăng từ
127,3/100.000 dân (năm 2000) lên 164,9/100.000 dân hiện nay.
Chính vì vậy, nhóm em xin đề xuất các giải pháp phân tích dữ liệu nhằm dự đốn
khả năng mắc bệnh tim mạch của một cá nhân dựa trên các chỉ số y khoa bao gồm:
Cholesterol (Mỡ trong máu), Blood Pressure (Huyết áp), Heart Rate (Nhịp tim),
Diabetes (Bệnh đái tháo đường),...
1.3. Một số kết quả nghiên cứu
Đã có nhiều nghiên cứu phương pháp, thuật tốn để chẩn đoán khả năng mang
bệnh tim mạch của một cá nhân cụ thể.
"Prediction of Coronary Artery Disease Using Machine Learning: An
Experimental Study" (2018)
Tác giả: Rajesh Kumar Jampala, Harika Maddala, et al.
Nguồn: International Journal of Engineering and Technology (IJET)
Tóm tắt: Nghiên cứu này sử dụng các thuật toán máy học như Support Vector
Machine (SVM), Decision Tree, Random Forest, và Neural Network để dự đoán bệnh
mạch động mạch và so sánh hiệu suất của chúng.
● "Cardiovascular Disease Detection Using Deep Learning Algorithms and
Computed Tomography Angiography" (2019)
3
Tác giả: Saeed Anwar, Muhammad Majid, et al.
Nguồn: Computers, Materials & Continua
Tóm tắt: Nghiên cứu này tập trung vào việc sử dụng mơ hình Deep Learning, đặc
biệt là Convolutional Neural Networks (CNN), để phân loại ảnh CT angiography và
dự đoán bệnh tim mạch.
● "Prediction of Coronary Heart Disease Based on Logistic Regression
Algorithm" (2019)
Tác giả: Yifan Wang, Xing Li, et al.
Nguồn: Journal of Healthcare Engineering
Tóm tắt: Nghiên cứu này sử dụng mơ hình Logistic Regression để dự đoán bệnh
tim mạch dựa trên dữ liệu lâm sàng và yếu tố rủi ro.
1.4. Đối tượng và phương pháp nghiên cứu
- Đối tượng:
+ Đối tượng là bất kỳ ai, khơng giới hạn về độ tuổi, giới tính, ngành nghề, tình
trạng sức khỏe cơ thể vật lý.
- Phương pháp nghiên cứu: Bài toán ứng dụng 3 phương pháp phân tích dữ liệu:
+ Phương pháp phân lớp.
+ Phương pháp phân cụm.
+ Phương pháp luật kết hợp.
1.5. Ý nghĩa đề tài
Bài nghiên cứu nhằm mục đích đưa ra các phương pháp phân tích dự đốn phù
hợp, qua đó có thể ứng dụng thành các giải pháp thực tế phục vụ cho các cơ sở bệnh
4
viện để nâng cao khả năng chẩn đoán về triệu chứng đau tim, từ đó sẽ có các can thiệp
y tế kịp thời để làm giảm khả năng dẫn đến tử vong của bệnh nhân khi gặp phải tình
trạng này.
5
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1. Tổng quan về kỹ thuật khai phá dữ liệu
2.1.1. Khái niệm khai phá dữ liệu
Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối của
thập kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện và trích xuất các thơng
tin có giá trị tiềm tàng trong tập dữ liệu lớn (cơ sở dữ liệu, kho dữ liệu, ...). Bản chất,
khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để
tìm ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu.
Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn sử dụng một số thuật ngữ
khác như: khai phá tri thức từ cơ sở dữ liệu, trích lọc dữ liệu, phân tích dữ
liệu/mẫu,...Thực tế thì khơng phải vậy, khai phá dữ liệu chỉ là một bước thiết yếu trong
quá trình Phát hiện tri thức trong CSDL. Có thể nói, Khai phá dữ liệu là bước quan
trọng nhất trong tiến trình Phát hiện tri thức từ cơ sở dữ liệu, các tri thức này hỗ trợ
trong việc ra quyết định trong khoa học và kinh doanh.
2.1.2. Các giai đoạn khai phá dữ liệu
Bước 1. Làm sạch dữ liệu (data cleaning & preprocessing): Loại bỏ nhiễu và các dữ
liệu khơng cần thiết.
Bước 2. Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành những
kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data
cleaning & preprocessing).
Bước 3. Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu và
sau đó chuyển đổi về dạng thích hợp cho q trình khai thác tri thức. Q trình này
bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ
(incomplete data), .v.v.
6
Bước 4. Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho
quá trình xử lý
Bước 5. Khai phá dữ liệu (data mining): Là một trong các bước quan trọngnhất, trong
đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu.
2.2. Bài toán phân lớp trong khai phá dữ liệu
2.2.1. Khái niệm phân lớp
Có rất nhiều cách hiểu thế nào là phân lớp dữ liệu, dưới đây là một vài khái niệm về
phân lớp dữ liệu:
Theo Jiawei han, Micheline Kamber & Jian Pei (2011) phân lớp là q trình tìm
kiếm một mơ hình (hoặc chức năng) mô tả và phân biệt các lớp hoặc khái niệm dữ
liệu, nhằm mục đích có thể sử dụng mơ hình để dự đốn lớp của các đối tượng mà
chưa có nhãn.
Phân lớp dữ liệu là q trình học có giám sát trên một tập dữ liệu đầu vào nhằm xây
dựng một mơ hình để có thể dự đoán xu hướng cho các dữ liệu mới
Đầu vào: Tập các dữ liệu có dạng (x, y) = (x1, x2, ..., xn, y)
- x là biến độc lập (Independent variable) mô tả các thuộc tính của một đối tượng.
- y là biến phụ thuộc (Dependent variable) cần tìm hiểu, phân loại. y cịn gọi là
thuộc tính nhãn
Đầu ra: Một mơ hình có khả năng phân loại đúng cho tập dữ liệu đầu vào.
Trên thực tế, phân lớp dữ liệu ngày càng được ứng dụng nhiều trong các lĩnh vực
như học máy (machine learning), thống kê (statistics), .... Đa số các thuật toán ra đời
trước đều sử dụng cơ chế dữ liệu cư trú trong bộ nhớ, thường thao tác với bộ dữ liệu
bé. Một số thuật toán ra đời sau này đã sử dụng kỹ thuật cư trú trên đĩa, cải thiện đáng
kể khả năng mở rộng thuật toán với những tập dữ liệu lớn.
7
2.2.2. Q trình phân lớp dữ liệu
Gồm 2 bước chính:
- Bước học (bước huấn luyện): Xây dựng mơ hình
● Xác định tập dữ liệu huấn luyện gồm các mẫu đã được gán nhãn y.
● Chạy một thuật toán phân lớp trên tập dữ liệu huấn luyện.
● Mơ hình được biểu diễn dưới dạng các luật phân lớp, các cây quyết định
hoặc các công thức toán.
- Bước phân loại: Sử dụng mơ hình để gán nhãn thích hợp cho các dữ liệu chưa
được gán nhãn.
- Ước lượng độ chính xác của mơ hình:
● Xác định tập dữ liệu kiểm thử gồm các mẫu đã được gán nhãn y (dữ liệu
kiểm thử và dữ liệu huấn luyện phải khác nhau để tránh tình trạng quá
khớp - overfitting)
● Chạy mơ hình với tập dữ liệu kiểm thử thu được nhãn y’
● So sánh y và y’ để xác định độ chính xác của mơ hình.
- Nếu mơ hình chính xác, sử dụng nó để dự đốn nhãn cho các dữ liệu cần gán
nhãn.
2.2.3. Một số thuật toán phân lớp
a. Thuật toán ID3
ID3 là thuật toán cơ bản nhất trong lĩnh vực học cây quyết định, hầu hết các thuật toán
học cây quyết định cải tiến sau này đều dựa trên nó.
Nhiệm vụ của ID3 là học cây quyết định từ một tập các mẫu huấn luyện gồm:
8
- Đầu vào: Một tập hợp các mẫu, mỗi mẫu bao gồm các thuộc tính mơ tả một đối
tượng xác định và một thuộc tính nhãn phân lớp giá trị của nó.
- Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các mẫu trong tập dữ
liệu huấn luyện và hy vọng phân loại đúng cho cả các mẫu chưa gặp trong
tương lai
- Các bước thực hiện:
● Bước 1: Tạo nút gốc cho cây quyết định
● Bước 2: IF tất cả các mẫu huấn luyện đều có giá trị của nhãn C và P,
RETURN cây có một nút duy nhất là Nút_gốc với nhãn P.
● Bước 3: IF A rỗng, RETURN cây có một nút duy nhất là Nút_gốc với
nhãn là giá trị phổ biến nhất của C và D
● Bước 4:
4.1. Gọi X là thuộc tính của A phân lớp D tốt nhất
4.2. Gán nhãn cho nút gốc với tên thuộc tính X
4.3. Foreach giá trị v của X
● Bước 5: RETURN nút gốc.
b. Hàm hồi quy Logistic (logistic Regression)
Là một mơ hình thống kê được sử dụng để phân loại nhị phân (dự đốn đối tượng
vào 1 trong 2 nhóm. Làm việc dựa trên nguyên tắc hàm logarit. Mặc dù tên gọi chứa
“Regression” nhưng đây là thuật toán thuộc loại Classification (phân loại). Đây là một
trong những thuật toán học máy được sử dụng phổ biến nhất.
Là một thuật toán dựa vào thống kê đánh giá các input đầu vào (feature X) và trả về
kết quả (y). Với y = 1 thì sự kiện đó xảy ra và y = 0 thì ngược lại.
9