TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM
BÀI TIỂU LUẬN
KHOA HỌC DỮ LIỆU
Đề tài: PHÂN TÍCH DỮ LIỆU ĐỂ DỰ ĐỐN PHÊ
DUYỆT KHOẢN VAY TÀI CHÍNH BẰNG PHẦN
MỀM ORANGE
Mã lớp học phần: 23C1INF50905904
Giảng viên: Trương Việt Phương
Sinh viên làm bài:
1. Thiều Minh Khôi - 31201022337
2. Trương Thanh Phong - 31201022580
3. Phan Thị Kim Ngọc - 88224020319
4. Phạm Minh Trân - 31211025634
BẢNG PHÂN CÔNG NHIỆM VỤ
STT
Họ và Tên
MSSV
Nhiệm vụ
Đánh giá
1
Thiều Minh Khôi
31201022337
- Tiến hành phân cụm dữ liệu
trên phần mềm Orange.
- Phân tích và đánh giá kết
quả.
100%
2
Trương Thanh
Phong
31201022580
- Tiến hành phân lớp dữ liệu
trên phần mềm Orange.
- Tiến hành dự báo trên kết
quả phân lớp và kết luận.
100%
3
Phan Thị Kim
Ngọc
88224020319
- Tìm bộ dữ liệu.
- Tổng hợp và hoàn chỉnh nội
dung bài làm.
100%
4
Phạm Minh Trân
31211025634
- Tổng hợp các cơ sở lý
thuyết.
- Mô tả bộ dữ liệu, xử lí bộ dữ
liệu.
100%
MỤC LỤC
LỜI MỞ ĐẦU...................................................................................................................5
CHƯƠNG 1:...................................................................................................................... 6
TỔNG QUAN VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI NGHIÊN CỨU.....................6
1.1
Giới thiệu về Khoa học dữ liệu...........................................................................6
1.2
Giới thiệu về đề tài...............................................................................................7
1.2.1 Lý do chọn đề tài..............................................................................................7
1.2.2 Mục tiêu nghiên cứu........................................................................................7
CHƯƠNG 2: TỔNG QUAN VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI NGHIÊN CỨU
............................................................................................................................................ 9
CHƯƠNG 3: TỔNG QUAN LÝ THUYẾT CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU
.......................................................................................................................................... 14
3.1 Các mơ hình phân lớp dữ liệu trên phần mềm Orange......................................14
3.1.1 Khái niệm phân lớp dữ liệu...........................................................................14
3.2 Quy trình phân lớp dữ liệu...................................................................................14
3.2.1 Xây dựng mơ hình phân lớp..........................................................................14
3.2.2 Đánh giá mơ hình và phân lớp dữ liệu mới..................................................15
3.3 Các phương pháp phân lớp dữ liệu.....................................................................15
3.3.1 Hồi quy Logistic (Logistic Regression).........................................................15
3.3.2 Cây quyết định (Decision Tree).....................................................................16
3.3.3 SVM (Support Vector Machine)...................................................................16
3.3.4 Neural Network..............................................................................................17
3.4 Phương pháp đánh giá mô hình phân lớp...........................................................17
3.4.1 Ma trận nhầm lẫn (Confusion Matrix) và độ chính xác (Accuracy); ROC,
AUC, Precision/Recall, F1-score............................................................................17
3.4.2 Cross Validation: K-fold và Holdout............................................................19
3.5 Phân cụm dữ liệu..................................................................................................19
3.5.1 Phân cụm phân cấp........................................................................................19
3.5.2 Phân cụm phân hoạch....................................................................................20
3.6 Các phương pháp đánh giá phân cụm dữ liệu....................................................21
3.7 Ứng dụng của phân cụm:.....................................................................................22
CHƯƠNG 4: KẾT QUẢ THỰC HIỆN.........................................................................23
4.1 Mô tả bộ dữ liệu....................................................................................................23
4.2 Tiền xử lý dữ liệu:.................................................................................................25
LỜI MỞ ĐẦU
Trong bối cảnh nền kinh tế ngày càng phát triển, nhu cầu vay vốn tài chính
của các cá nhân và doanh nghiệp ngày càng tăng cao. Để đáp ứng nhu cầu
này, các tổ chức tín dụng cần xây dựng hệ thống thẩm định tín dụng hiệu
quả, giúp giảm thiểu rủi ro cho vay và tối đa hóa lợi nhuận.
Phân tích dữ liệu là một cơng cụ quan trọng giúp các tổ chức tín dụng nâng
cao hiệu quả thẩm định tín dụng. Bằng cách phân tích dữ liệu lịch sử vay
vốn, các tổ chức tín dụng có thể xác định các yếu tố ảnh hưởng đến khả
năng trả nợ của khách hàng, từ đó đưa ra quyết định phê duyệt khoản vay
chính xác hơn.
Trong bài tiểu luận này, chúng tơi sẽ sử dụng phần mềm Orange để phân
tích dữ liệu nhằm dự đoán khả năng phê duyệt khoản vay tài chính. Chúng
tơi sẽ sử dụng dữ liệu của một tổ chức tín dụng, được tổng hợp từ biểu mẫu
đăng ký trực tiếp của khách hàng, các chi tiết bao gồm: Giới tính, Tình
trạng hơn nhân, Trình độ học vấn, Số lượng người phụ thuộc, Thu nhập, Số
tiền vay, Lịch sử tín dụng và những chi tiết khác để xây dựng mơ hình dự
đốn.
CHƯƠNG 1:
TỔNG QUAN VỀ KHOA HỌC DỮ
LIỆU VÀ ĐỀ TÀI NGHIÊN CỨU
1.1 Giới thiệu về Khoa học dữ liệu
Khoa học dữ liệu là lĩnh vực quan trọng và ngày càng phát triển trong các doanh
nghiệp và các lĩnh vực khác. Nó áp dụng các kỹ thuật phân tích tiên tiến và ngun tắc
khoa học để trích xuất thơng tin có giá trị từ dữ liệu, từ đó giúp các tổ chức tăng hiệu
quả hoạt động, tìm ra cơ hội kinh doanh mới và cải thiện các chương trình tiếp thị và
bán hàng.
Khoa học dữ liệu kết hợp nhiều lĩnh vực khác nhau như kỹ thuật dữ liệu, chuẩn bị dữ
liệu, khai thác dữ liệu, phân tích dự đốn, học máy và trực quan hóa dữ liệu, cũng như
thống kê, tốn học và lập trình phần mềm. Nó đóng vai trị quan trọng trong hầu như
tất cả các khía cạnh của hoạt động và chiến lược kinh doanh.
Không chỉ trong lĩnh vực kinh doanh, khoa học dữ liệu cịn có ứng dụng rộng rãi trong
các lĩnh vực khác như chăm sóc sức khỏe, giáo dục, thể thao và chính sách cơng. Nó
giúp cải thiện chất lượng dịch vụ y tế, quản lý hoạt động giảng dạy, phân tích hiệu suất
thể thao và đưa ra quyết định chính sách hiệu quả.
Q trình khoa học dữ liệu bao gồm sáu bước chính: xác định giả thuyết, thu thập và
chuẩn bị dữ liệu, thử nghiệm với các mơ hình phân tích, chọn mơ hình tốt nhất, trình
bày kết quả và triển khai mơ hình để sử dụng liên tục với dữ liệu mới.
Khoa học dữ liệu là một lĩnh vực mới nhưng ngày càng khẳng định tầm quan trọng và
vị thế của mình. Nó kết hợp các nguyên tắc và phương pháp từ nhiều lĩnh vực khác
nhau để xử lý và phân tích dữ liệu, từ đó mang lại những hiểu biết và tri thức hành
động cho các tổ chức. Khoa học dữ liệu khơng chỉ là việc phân tích dữ liệu, mà cịn là
việc đánh giá tình hình hiện tại và dự đốn tương lai để điều hành doanh nghiệp một
cách hiệu quả.
1.2 Giới thiệu về đề tài
1.2.1 Lý do chọn đề tài
Trong thời đại số hóa ngày nay, dữ liệu đã trở thành một tài sản vơ cùng quan trọng và
có tiềm năng lớn để phát triển các dự đoán và chiến lược quản lý thông minh. Để đáp
ứng được nhu cầu xử lý một khối lượng lớn thông tin và ra các quyết định đúng đắn,
việc áp dụng phân tích dữ liệu bằng các thuật toán và phương pháp tiên tiến, chúng ta
có thể đánh giá rủi ro và xác định khả năng trả nợ của khách hàng một cách chính xác
hơn. Điều này giúp giảm thiểu rủi ro tín dụng và tăng cường hiệu suất hoạt động của
các tổ chức tài chính, tối ưu hóa quy trình phê duyệt và tăng cường hiệu quả, giúp tiết
kiệm thời gian và cơng sức, đồng thời đảm bảo tính nhất qn và công bằng trong
quyết định phê duyệt. Điều này nâng cao trải nghiệm khách hàng và hiệu suất của các
tổ chức tài chính.
Để tìm hiểu và nghiên cứu vấn đề này, nhóm đã tìm kiếm và lựa chọn bộ dữ liệu
Home Loan Approval Prediction Data để thực hiện. Mục tiêu của bộ dữ liệu là giúp
cơng ty tự động hóa quy trình thẩm định điều kiện vay dựa trên thơng tin khách hàng
cung cấp khi điền đơn đăng ký trực tuyến. Các chi tiết này bao gồm Giới tính, Tình
trạng hơn nhân, Trình độ học vấn, Số người phụ thuộc, Thu nhập, Số tiền vay, Lịch sử
tín dụng và các chi tiết khác. Để tự động hóa quy trình này, họ đã đưa ra vấn đề xác
định phân khúc khách hàng đủ điều kiện vay khoản tiền cụ thể để nhắm mục tiêu
những khách hàng này một cách cụ thể. Dưới đây họ đã cung cấp một tập dữ liệu một
phần, nhóm sẽ tiến hành làm rõ vấn đề ở các chương tiếp theo.
1.2.2 Mục tiêu nghiên cứu
- Xác định vấn đề: Xác định các phân khúc khách hàng đủ điều kiện vay khoản tiền cụ
thể.
- Hiểu dữ liệu: Dữ liệu bao gồm các thông tin khi khách hang đăng ký hồ sơ bao gồm
Giới tính, Tình trạng hơn nhân, Trình độ học vấn, Số người phụ thuộc, Thu nhập, Số
tiền vay, Lịch sử tín dụng và các chi tiết khác.
- Khai thác và xử lí dữ liệu.
- Phân cụm, phân lớp dữ liệu.
- Xây dựng mơ hình dự đốn khả năng phê duyệt khoản vay tài chính bằng phần mềm
Orange.
- Đánh giá hiệu quả của mơ hình dự đốn.
- Đưa ra các nhận xét để tối ưu hóa quy trình xét duyệt cho vay của tổ chức.
CHƯƠNG 2: TỔNG QUAN VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ
TÀI NGHIÊN CỨU
Orange là một bộ phần mềm học máy và
khai thác dữ liệu mã nguồn mở, được viết
bằng ngôn ngữ Python. Orange cung cấp
một giao diện trực quan, dễ sử dụng, giúp
người dùng có thể thực hiện các tác vụ khai
thác dữ liệu và học máy mà không cần có
kiến thức về mã hóa.
Với giao diện trực quan, dễ sử dụng Orange
giúp người dùng có thể dễ dàng kéo và thả
các thành phần để tạo ra các mơ hình học
máy, hỗ trợ nhiều loại dữ liệu bao gồm dữ
liệu số, văn bản, hình ảnh và âm thanh, cung
cấp nhiều thuật toán học máy bao gồm phân
loại, hồi quy, clustering và dimensionality
reduction. Tích hợp với các cơng cụ khác:
Orange có thể được tích hợp với các cơng cụ khác, chẳng hạn như Python, R và SQL.
Orange được ứng dụng trong nhiều lĩnh vực, bao gồm:
- Tin sinh học: phân tích dữ liệu sinh học, chẳng hạn như dữ liệu gen và protein.
- Tài chính: phân tích dữ liệu tài chính, chẳng hạn như dữ liệu thị trường chứng khoán
và dữ liệu khách hàng.
- Marketing: phân tích dữ liệu marketing, chẳng hạn như dữ liệu bán hàng và dữ liệu
khách hàng.
- Cơng nghiệp: phân tích dữ liệu cơng nghiệp, chẳng hạn như dữ liệu sản xuất và dữ
liệu chất lượng.
Orange cung cấp cho người dùng tập các toolbox tinh gọn nhất giúp người dùng bắt
tay ngay vào việc phân tích dữ liệu, bao gồm:
- Data: dùng để rút trích, biến đổi, và nạp dữ liệu (ETL process).
- Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn.
- Model: gồm các hàm machine learning phân lớp dữ liệu.
- Evaluate: các phương pháp đánh giá mơ hình máy học.
- Unsupervised: gồm các hàm machine learning gom nhóm dữ liệu.
Các chức năng cơ bản được cung cấp có thể kể đến như: đọc dữ liệu, hiển thị dữ
liệudạng bảng, so sánh các thuật toán máy học, trực quan hóa các phần tử dữ liệu, lựa
chọnthuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đốn, ,….Data: các
cơng cụ để nhập dữ liệu, lọc dữ liệu, lấy mẫu, quy nạp, thao tác tính năng và lựa chọn
tính năng Visualize: các cơng cụ để trực quan hóa thơng thường (biểu đồ hộp, biểu đồ,
biểu đồ phân tán) và trực quan hóa đa biến (hiển thị khảm, sơ đồ sàng).
Data: Dùng để rút trích,
biến đổi, và nạp dữ liệu
(ETL process).
Visualize: các cơng cụ để trực
quan hóa thơng thường (biểu đồ
hộp, biểu đồ, biểu đồ phân tán)
và
Model: các hàm máy học (marchine
learning) phân lớp dữ liệu với Tree,
Logictis,Regression, SVM,…
Evaluate: xác thực chéo, quy
trình dựa trên lấy mẫu, ước tính
độ tin cậy và tính điểm củacác
phương pháp dự đốn trực quan hóa đa biến (hiển thị khảm, sơ đồ sàng)
Unsupervised: các thuật tốn học tập
khơng giám sát để phân cụm (k-means,
phân cụmtheo cấp bậc) và kỹ thuật
chiếu dữ liệu (chia tỷ lệ đa chiều, phân
tích thành phần chính, phân tích tương
ứng).
Add ons: Giúp mở rộng các chức năng nâng cao như xử lý dữ liệu lớn (Big Data) với
Spark, xử lý ảnh với Deep learing, xử lý văn bản, phân tích mạng xã hội,.. Đây có lẽ là
điểm cộng của Orange so với các phần mềm khai phá dữ liệu khác.
CHƯƠNG 3: TỔNG QUAN LÝ THUYẾT CÁC MƠ HÌNH PHÂN
LỚP DỮ LIỆU
3.1 Các mơ hình phân lớp dữ liệu trên phần mềm Orange
3.1.1 Khái niệm phân lớp dữ liệu
Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ
một mơ hình phân lớp. Mơ hình này được xây dựng dựa trên một tập dữ liệu đã được gán
nhãn trước đó. Q trình gán nhãn cho đối tượng dữ liệu chính là quá trình phân lớp dữ
liệu.
3.2 Quy trình phân lớp dữ liệu
3.2.1 Xây dựng mơ hình phân lớp
Xây dựng mơ hình phân lớp là một quá trình khai thác dữ liệu để tìm ra các quy luật có
thể phân biệt được các phần tử dữ liệu thuộc các lớp khác nhau. Một mơ hình phân lớp có
thể được hiểu như một bộ phân loại, nhận vào một phần tử dữ liệu mới và đưa ra kết quả
là lớp mà nó thuộc về. Giai đoạn xây dựng mơ hình phân lớp cịn được gọi là giai đoạn
“học” hay giai đoạn “huấn luyện". Để xây dựng được một mơ hình phân lớp, cần có một
tập dữ liệu huấn luyện, bao gồm các phần tử dữ liệu đã biết trước lớp của chúng, từ đó sử
dụng các kỹ thuật khác nhau để rút trích ra các đặc trưng hay các tiêu chí quan trọng để
phân biệt các lớp. Đầu ra của quá trình này là các quy tắc phân lớp dưới dạng luật dạng ifthen, cây quyết định (Decision Tree), hồi quy logic (Logistic Regression), hay mạng
nơron (Neural Network), SVM (Support Vector Machine),… Mỗi kỹ thuật này sẽ cho ra
một mơ hình phân lớp khác nhau về cấu trúc và tính chất. Mục tiêu của việc xây dựng mơ
hình phân lớp là để tạo ra một bộ phân loại (trình phân lớp) có độ chính xác cao và có thể
áp dụng được cho các phần tử dữ liệu mới chưa biết trước lớp của chúng.
3.2.2 Đánh giá mơ hình và phân lớp dữ liệu mới
- Đánh giá mơ hình (kiểm tra tính đúng đắn của mơ hình):
Kiểm tra tính đúng đắn của mơ hình phân lớp là một bước quan trọng để đánh giá hiệu
quả và khả năng tổng qt của mơ hình. Đầu vào của quá trình này là một tập dữ liệu
kiểm tra, bao gồm các phần tử dữ liệu mới chưa được sử dụng trong q trình học mơ
hình, và đã được gán nhãn lớp nhưng bỏ qua thuộc tính đã được gán nhãn này để kiểm tra
độ chính xác của mơ hình phân lớp. Tập dữ liệu kiểm tra này phải được chọn ngẫu nhiên
và độc lập với tập dữ liệu huấn luyện, để tránh hiện tượng quá khớp hay thiếu khớp. Từ
tập dữ liệu kiểm tra, sử dụng mô hình phân lớp đã học để dự đốn lớp cho các phần tử dữ
liệu, và so sánh với nhãn lớp thực tế. Tỷ lệ phần trăm các phần tử dữ liệu được phân lớp
đúng chính là độ chính xác của mơ hình. Có nhiều kỹ thuật khác nhau để chia tập dữ liệu
ban đầu thành tập huấn luyện và tập kiểm tra, ví dụ như Holdout, K-fold cross-validation.
Mỗi kỹ thuật đều có ưu nhược điểm riêng và cần được lựa chọn phù hợp với bài toán và
dữ liệu cụ thể. Một mơ hình phân lớp có tính đúng đắn cao sẽ có khả năng áp dụng cho
các dữ liệu mới trong tương lai, hoặc các dữ liệu chưa biết nhãn lớp.
- Phân lớp dữ liệu mới:
Đầu vào của bước này là một tập dữ liệu mới, chưa biết trước nhãn lớp của các phần tử dữ
liệu. Mơ hình sẽ tự động gán nhãn cho các đối tượng dữ liệu này dựa vào những gì được
huấn luyện từ bộ dữ liệu huấn luyện trước đó. Bằng cách sử dụng mơ hình phân lớp, có
thể giải quyết các vấn đề ngồi thực tế như dự báo giá chứng khốn, xếp hạng tín dụng cá
nhân và tổ chức, đánh giá rủi ro tài chính, dự báo doanh thu, dự báo khách hàng trung
thành, dự báo khủng hoảng kinh tế, dự báo cung cầu,... Có thể thấy phân lớp dữ liệu được
ứng dụng rất nhiều trong kinh tế.
3.3 Các phương pháp phân lớp dữ liệu
3.3.1 Hồi quy Logistic (Logistic Regression)
Hồi quy logistic là một kỹ thuật phân tích dữ liệu để dự báo xác suất xảy ra của một sự
kiện rời rạc, dựa trên tập biến đầu vào. Thuật toán này sử các hàm được gọi là hàm logit,
được biểu diễn dưới dạng vector, bằng cách dự đoán xác suất hoặc cơ hội xảy ra giúp suy
ra mối quan hệ giữa biến phụ thuộc và các biến độc lập. Tùy thuộc vào số lượng và tính
chất của các lớp kết quả, hồi quy logistic có thể được chia thành ba loại chính:
Hồi quy logistic nhị phân: chỉ có hai lớp kết quả có thể xảy ra, ví dụ như bệnh hay khỏe,
trượt hay đỗ, mua hay không mua.
Hồi quy logistic đa thức: phức tạp hơn, khi có nhiều hơn hai lớp kết quả có thể xảy ra với
thứ tự ngẫu nhiên ví dụ như lồi hoa, màu sắc, chủng tộc.
Hồi quy logistic thông thường: tổng quát nhất, khi có nhiều hơn hai lớp kết quả có thể xảy
ra, và có thể có thứ tự xác định, ví dụ như mức độ hài lòng, điểm số, thu nhập
3.3.2 Cây quyết định (Decision Tree)
Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ
đi kèm và là một loại cấu trúc cây đặc biệt. Nó được dùng để lập kế hoạch nhằm đạt được
mục tiêu mong muốn cũng như hỗ trợ quá trình đưa ra quyết định.
Trong khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng
quát hóa tập dữ liệu cho trước, được coi là sự kết hợp hoàn hảo của 2 khía cạnh: kỹ thuật
tốn học và tính tốn. Một tập dữ liệu có thể được biểu diễn bởi nhiều cây quyết định
tương ứng. Trong đó, cây nào ngắn gọn nhất sẽ được chọn (theo nguyên lý Ockham’s
Razor).
Ưu điểm:
• Phương pháp cây quyết định có thể tạo ra các mơ hình dễ hiểu, trực quan và có ý nghĩa.
• Phương pháp cây quyết định có thể xử lý được các tập dữ liệu lớn trong một thời gian
ngắn, các tập dữ liệu bị nhiễu, thiếu giá trị hoặc có nhiều thuộc tính, do đó khơng địi hỏi
việc chuẩn hóa dữ liệu. Đồng thời cũng có thể xử lý trên nhiều kiểu dữ liệu khác nhau.
• Phương pháp cây quyết định có thể thực hiện được cả hai loại học có giám sát
(supervised learning) và học khơng có giám sát (unsupervised learning).
Nhược điểm:
• Cây quyết định khó giải quyết được trong tình huống dữ liệu phụ thuộc thời gian, tức là
dữ liệu có thể thay đổi theo thời gian và ảnh hưởng đến kết quả của mơ hình. Ví dụ, nếu
dữ liệu về thị trường chứng khoán được sử dụng để xây dựng cây quyết định, thì cây
quyết định có thể khơng phản ánh được sự biến động của thị trường trong tương lai.
• Cây quyết định có chi phí xây dựng mơ hình cao, tức là cần nhiều tài ngun tính toán
và thời gian để tạo ra cây quyết định từ tập dữ liệu.
3.3.3 SVM (Support Vector Machine)
SVM (Support Vector Machine) là một thuật tốn học có giám sát, được dùng để phân
loại dữ liệu vào các lớp khác nhau bằng cách tìm ra một siêu phẳng (hyperplane) trong
khơng gian nhiều chiều làm ranh giới giữa các lớp. SVM xem dữ liệu như những vector
trong không gian và xây dựng một siêu phẳng để phân cách các lớp dữ liệu. Để tối ưu kết
quả phân lớp thì phải tìm ra siêu phẳng có khoảng cách đến các điểm dữ liệu (margin) của
tất cả các lớp xa nhất có thể. SVM tối đa hóa giá trị margin này, từ đó tìm ra siêu phẳng
tốt nhất để phân 2 lớp dữ liệu. Nhờ vậy, SVM có thể hạn chế việc phân lớp sai
(misclassification) đối với điểm dữ liệu mới đưa vào. Các điểm dữ liệu nằm trên hoặc gần
biên của siêu phẳng được gọi là các support vector, vì chúng hỗ trợ việc xác định siêu
phẳng.
SVM có nhiều biến thể phù hợp với các bài tốn phân loại khác nhau. Một số biến thể
chính là: Hard Margin SVM, Soft Margin SVM, Multi class SVM, Kernel SVM.
3.3.4 Neural Network
Neural Network là một loại học máy dựa trên cấu trúc của não bộ con người, nơi các tế
bào thần kinh giao tiếp với nhau bằng các tín hiệu điện. Mạng Neural nhân tạo gồm nhiều
lớp nút, trong đó có một lớp nhận dữ liệu đầu vào, một lớp trả về kết quả đầu ra và một
hoặc nhiều lớp ở giữa gọi là lớp ẩn. Mỗi nút, hay còn gọi là nơ-ron nhân tạo, có một liên
kết với các nút khác và có một trọng số và ngưỡng xác định. Khi giá trị đầu ra của một
nút nào đó cao hơn ngưỡng đã định, nút đó sẽ kích hoạt và gửi dữ liệu cho lớp kế tiếp
trong mạng. Nếu khơng, nút đó sẽ khơng chuyển tiếp dữ liệu cho lớp kế tiếp.
3.4 Phương pháp đánh giá mơ hình phân lớp
3.4.1 Ma trận nhầm lẫn (Confusion Matrix) và độ chính xác (Accuracy); ROC,
AUC, Precision/Recall, F1-score
- Ma trận nhầm lẫn (Confusion Matrix):
Ma trận nhầm lẫn: là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc vào một lớp
cụ thể, và được dự đoán là rơi vào lớp nào. Confusion matrix là có kích thước k x k với k
là số lượng lớp của dữ liệu.
Ví dụ:
Bài tốn phát hiện gian lận thẻ tín dụng: lớp gian lận được gán nhãn là Positive và lớp
không gian lận được gán nhãn là Negative.
TP (True Positive): Số lượng giao dịch được phát hiện chính xác là gian lận. Là khi mơ
hình dự đốn đúng một giao dịch là gian lận.
TN (True Negative): Số lượng giao dịch được phát hiện chính xác là khơng gian lận. Là
khi mơ hình dự đoán đúng một giao dịch là hợp lệ, tức là việc khơng chọn trường hợp
gian lận là chính xác.
FP (False Positive - Type 1 Error): Số lượng các giao dịch bị nhầm lẫn là gian lận. Là khi
mơ hình dự đoán một giao dịch là gian lận nhưng thực tế là hợp lệ.
FN (False Negative - Type 2 Error): Số lượng các giao dịch bị bỏ sót là gian lận. Là khi
mơ hình dự đốn một giao dịch là hợp lệ nhưng thực tế là gian lận, tức là việc khơng chọn
trường hợp gian lận là sai.
- Độ chính xác (Accuracy):
Accuracy cho biết tỉ lệ số mẫu được dự đoán chính xác trên tổng số mẫu trong tập dữ liệu.
Tuy nhiên, Accuracy không phân biệt được các lớp khác nhau trong tập dữ liệu, khơng
cho biết mơ hình dự đốn đúng nhiều nhất ở lớp nào và mơ hình bị nhầm lẫn ở lớp nào.
Do đó, Accuracy chỉ là một phép đo tổng quát, không phản ánh được chi tiết hiệu năng
của mơ hình trên từng lớp. Accuracy càng cao thì mơ hình càng chính xác.
- Precision/Recall, F1-score:
Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao
nhiêu mẫu có đúng.
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛= 𝑇𝑃⁄((𝑇𝑃+𝐹𝑃))
Recall (độ phủ) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate)
𝑟𝑒𝑐𝑎𝑙𝑙=𝑇𝑃⁄((𝑇𝑃+𝐹𝑁))
F1-score: giá trị trung bình điều hịa (harmonic mean) của hai độ đo Precision và Recall.
𝐹1=2 ((𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ×𝑟𝑒𝑐𝑎𝑙𝑙))/((𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑟𝑒𝑐𝑎𝑙𝑙))
F1 có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall. F1 sẽ có giá trị
lớn nếu cả 2 giá trị Precision và Recall đều lớn.
- ROC và AUC:
ROC là một đồ thị được sử dụng khá phổ biến trong đánh giá các mơ hình phân loại nhị
phân. Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate
(TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau. Một mơ
hình hiệu quả khi có ROC càng tiệm cận với điểm (0;1) hay có TPR cao và FPR thấp thì
mơ hình càng phù hợp. Cịn AUC là phần diện tích nằm dưới đường cong ROC và có giá
trị là một số dương nhỏ hơn hoặc bằng 1. Giá trị này càng lớn thì độ chính xác của mơ
hình càng cao.
3.4.2 Cross Validation: K-fold và Holdout
Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo 1 tỷ lệ nhất
định.
Phương pháp K-fold phân chia dữ liệu thành k tập con có cùng kích thước (gọi là các
fold). Một trong các fold được sử dụng làm tập dữ liệu đánh giá và phần còn lại được sử
dụng làm tập huấn luyện. Quá trình lặp lại cho đến khi tất cả các fold đều đã được dùng
làm tập dữ liệu đánh giá.
3.5 Phân cụm dữ liệu
Phân cụm dữ liệu là một kỹ thuật phân tích dữ liệu để gom các dữ liệu có sự tương đồng
về một số tiêu chí nào đó vào các cụm tương ứng. Phân cụm dữ liệu thuộc loại học không
giám sát, tức là khơng cần có nhãn cho từng dữ liệu mà chỉ dựa vào các thuộc tính của
chúng để phân loại. Trong đó, các đối tượng trong cùng một cụm sẽ có những tính chất
tương tự nhau, cịn khác cụm sẽ có các tính chất khác nhau.
3.5.1 Phân cụm phân cấp
Phân cụm phân cấp là một phương pháp phân cụm dữ liệu dựa trên việc xây dựng một
cây phân cấp (hierarchical tree) cho các dữ liệu. Cây phân cấp thể hiện mối quan hệ giữa
các dữ liệu và các nhóm/cụm dữ liệu. Phương pháp này không cần xác định trước số cụm
nhưng cần xác định điều kiện dừng. Để thực hiện phân cụm phân cấp, ta cần có một ma
trận khoảng cách (distance matrix) giữa các dữ liệu hoặc các nhóm/cụm dữ liệu. Ma trận
khoảng cách có thể là ma trận tương đồng (similarity matrix) hoặc ma trận khác biệt
(dissimilarity matrix) tùy theo tiêu chí đo lường sự gần hay xa giữa các dữ
liệu/nhóm/cụm. Độ đo khoảng cách giữa các nhóm/cụm có thể là khoảng cách giữa hai
điểm gần nhất (single link), khoảng cách giữa hai điểm xa nhất (complete link), khoảng
cách trung bình (average link),... Các phương pháp điển hình của phân cụm phân cấp là
Diana và Agnes.
Ưu điểm của phương pháp này là là giải thuật đơn giản, kết quả dễ hiểu, không cần tham
số đầu vào. Nhược điểm không quay lui được, tốc độ chậm, khơng thích hợp trên dữ liệu
lớn, khơng xử lý được trên dữ liệu bị thiếu, nhạy cảm với nhiễu, hạn chế trên dữ liệu có
các cụm ln và có hình dáng không lồi,...
Agnes:
Theo chiến lược bottom up: Bắt đầu với những cụm chỉ là 1 phần tử. Ở mỗi bước, gom 2
cụm gần nhau thành 1 cụm. Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần
nhất từ hai cụm, hoặc khoảng cách trung bình. Quá trình này lặp lại cho đến khi tất cả các
phần tử cùng thuộc một cụm lớn. Kết quả quá trình phát là một dendrogram (cây phân
cấp).
Diana:
Theo chiến lược top down: Bắt đầu với 1 cụm gồm tất cả phần tử. Ở mỗi bước, chia cụm
ban đầu thành 2 cụm. Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ
hai cụm, hoặc khoảng cách trung bình. Thực hiện đệ quy trên các cụm mới được tách ra
và lặp lại cho đến khi mỗi phần tử là 1 cụm. Kết quả phát sinh cây phân cấp
(dendrogram).
3.5.2 Phân cụm phân hoạch
Phân cụm phân hoạch là một phương pháp phân cụm dữ liệu dựa trên việc chia dữ liệu
thành k nhóm/cụm (k<=n) sao cho mỗi dữ liệu chỉ thuộc một nhóm/cụm duy nhất.
Phương pháp này yêu cầu xác định trước số lượng nhóm/cụm k và một hàm độ đo tương
tự (similarity measure) để đánh giá mức độ gần gũi giữa các dữ liệu/nhóm/cụm. Mục tiêu
của phân cụm phân hoạch là tìm ra một cách chia sao cho tổng khoảng cách giữa các dữ
liệu trong cùng một nhóm/cụm là nhỏ nhất, và tổng khoảng cách giữa các nhóm/cụm là
lớn nhất. Các thuật tốn điển hình của phân cụm phân hoạch là K-means, K-medoids,
Fuzzy C-means.
K-means:
Xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số
lượng thuộc tính của đối tượng).
Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.