HỌC VIỆN NGÂN HÀNG
KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ
KHOÁ LUẬN
TỐT NGHIỆP ĐẠI HỌC
Đề tài: “NGHIÊN CỨU CÂY QUYẾT ĐỊNH
TRONG XẾP HẠNG TÍN DỤNG NỘI BỘ NGÂN HÀNG”
Giảng viên hƣớng dẫn : ThS. Lê Quý Tài
Sinh viên thực hiện: Nguyễn Thu Hƣơng
Lớp : HTTTA
Khoá : 11 (2008-2012)
Hệ : Chính quy
Hà Nội, tháng 6/2012
HỌC VIỆN NGÂN HÀNG
KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ
KHOÁ LUẬN
TỐT NGHIỆP ĐẠI HỌC
Đề tài: “NGHIÊN CỨU CÂY QUYẾT ĐỊNH
TRONG XẾP HẠNG TÍN DỤNG NỘI BỘ NGÂN HÀNG”
Giảng viên hƣớng dẫn : ThS. Lê Quý Tài
Sinh viên thực hiện: Nguyễn Thu Hƣơng
Lớp : HTTTA
Khoá : 11 (2008-2012)
Hệ : Chính quy
Hà Nội, tháng 6/2012
i
HỌC VIỆN NGÂN HÀNG
KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
TÓM TẮT ĐỀ TÀI KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC
Họ và tên sinh viên: Nguyễn Thu Hương
Lớp: HTTTA
Khoá: 11 (2008-2012)
Ngành đào tạo: Hệ thống thông tin quản lý Hệ đào tạo: Chính quy
1/ Tên khoá luận tốt nghiệp:
“Nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng”.
2/ Nội dung chính của khoá luận:
Nội dung chính của khóa luận gồm 4 chương :
1/ Chương 1. Tổng quan về khai phá dữ liệu trình bày về những vấn đề tổng quan
về khai phá dữ liệu, quy trình khai phá tri thức và các kĩ thuật thường được sử dụng
để khai phá dữ liệu.
2/ Chương 2. Cây quyết định trình bày những vấn đề về cây quyết định bao gồm
khái niệm, vai trò, các thuật toán xây dựng cây quyết định và ví dụ minh họa.
3/ Chương 3. Xếp hạng tín dụng nội bộ ngân hàng trình bày lý thuyết chung về xếp
hạng tín dụng nội bộ tại ngân hàng thương mại cổ phần và giới thiệu một ngân hàng
thương mại cổ phần tiêu biểu là ngân hàng thương mại cổ phần Quân Đội và quy
trình xếp hạng tín dụng nội bộ của ngân hàng này.
4/ Chương 4. Áp dụng cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng
trình bày về việc sử dụng thuật toán C4.5 và công cụ Rapid Miner để xây dựng cây
quyết định với cơ sở dữ liệu thực tế, từ đó hỗ trợ ra quyết định cho vay.
3/ Ngày nộp khoá luận: 06/06/2012
GIÁO VIÊN HƢỚNG DẪN
(Ký, ghi rõ họ tên)
CHỦ NHIỆM KHOA
(Ký, ghi rõ họ tên)
ii
LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong khóa luận là sản phẩm nghiên cứu, tìm
hiểu của cá nhân tôi. Trong toàn bộ nội dung của khóa luận, những điều được trình bày
hoặc là của cá nhân tôi, hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài
liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp
Tôi xin hoàn toàn chịu trách nhiện và chịu mọi hình thức kỉ luật theo quy định
cho lời cam đoan của mình
Hà Nội, tháng 6 năm 2012
Sinh viên
Nguyễn Thu Hương
iii
LỜI MỞ ĐẦU
1. Lý do chọn đề tài và mục đích nghiên cứu
Ngân hàng thương mại là một tổ chức tài chính có vị trí đặc biệt trong nền kinh
tế. Thu nhập của NHTM hiện nay chủ yếu là từ hoạt động tín dụng. Đây là một hoạt
động tiềm ẩn rất nhiều rủi ro đối với ngân hàng. Có nhiều giải pháp để khắc phục điều
này, một trong những giải pháp được áp dụng phổ biến và hiệu quả nhằm làm giảm rủi
ro tín dụng cho Ngân hàng là sử dụng hệ thống xếp hạng tín dụng nội bộ.
Trong thực tế, quy trình xếp hạng tín dụng là một nghiệp vụ gồm nhiều công
đoạn và tương đối phức tạp. Một chuyên viên quan hệ khách hàng hay chuyên gia
thẩm định sau khi thu thập thông tin, dữ liệu của khách hàng từ nhiều nguồn khác
nhau, qua quá trình tính toán, thống kê, tổng hợp, đánh giá, …. thì mới có được một
kết quả xếp hạng tín dụng của khách hàng đó. Do đó việc ứng dụng Công nghệ thông
tin vào trong các hoạt động của ngân hàng là một việc làm quan trọng và cần thiết giúp
đơn giản hóa các quy trình, nghiệp vụ phức tạp và giảm thiểu các yếu tố chủ quan của
con người.
Vì vậy, chúng tôi chọn đề tài “Nghiên cứu cây quyết định trong xếp hạng tín
dụng nội bộ ngân hàng” nhằm nghiên cứu những vấn đề tổng quan về khai phá dữ
liệu, nghiên cứu chi tiết về kĩ thuật cây quyết định, từ đó xây dựng lên được cây quyết
định nhằm hỗ trợ cho việc xếp hạng tín dụng nội bộ ngân hàng.
2. Tình hình nghiên cứu
Trên thế giới, có nhiều tác giả nghiên cứu các phương pháp ứng dụng trong xếp
hạng tín dụng như k – nearest neighbor (Henley và Hand, 1996), mạng neuron (Jensen,
1992), Support vector machines (Basens , 2003), cây quyết định (Frydman, 1985 và
Davis, 1992) [9].
Trong nước cũng nhiều tác giả nghiên cứu về thuật toán cây quyết định như
Nguyễn Thị Hạnh Đại học Sư phạm Hà Nội nghiên cứu khoa học về thuật toán cây
quyết định trong khai phá dữ liệu, Phạm Thùy Linh Đại học Công nghê - Đại học
Quốc gia nghiên cứu về các thuật toán phân lớp dữ liệu dựa trên cây quyết định, ….
Tuy nhiên nghiên cứu về cây quyết định trong lĩnh vực ngân hàng thì còn chưa phổ
biến.
3. Phạm vi nghiên cứu
Phạm vi nghiên cứu của đề tài là việc ứng dụng cây quyết định trong việc xếp
hạng tín dụng trong một ngân hàng. Khóa luận nghiên cứu về tổng quan khai phá dữ
liệu, kĩ thuật cây quyết đinh, lý thuyết về xếp hạng tín dụng và áp dụng cây quyết định
trong việc xếp hạng tín dụng.
iv
4. Phƣơng pháp nghiên cứu
Với phương pháp nghiên cứu lý thuyết kết hợp với thực nghiệm trong khóa luận
chúng tôi trình bày về phương pháp cây quyết định. Đây là hướng tiếp cận tiềm năng
và hiện vẫn đang được các chuyên gia trên thế giới phát triển.
5. Nội dung khóa luận
Nội dung khoá luận gồm 4 chương:
Chƣơng 1. Tổng quan về khai phá dữ liệu: Chương này trình bày về những vấn
đề tổng quan về khai phá dữ liệu, quy trình khai phá tri thức và các kĩ thuật thường
được sử dụng để khai phá dữ liệu.
Chƣơng 2. Cây quyết định: Chương này trình bày những vấn đề về Cây quyết
định bao gồm: khái niệm, vai trò, các thuật toán xây dựng cây quyết định và ví dụ
minh họa.
Chƣơng 3. Xếp hạng tín dụng nội bộ tại ngân hàng thương mại cổ phần:
Chương này trình bày lý thuyết chung về xếp hạng tín dụng nội bộ tại ngân hàng
thương mại cổ phần và giới thiệu một ngân hàng thương mại cổ phần tiêu biểu là ngân
hàng thương mại cổ phần Quân Đội và quy trình xếp hạng tín dụng nội bộ của ngân
hàng này.
Chƣơng 4. Áp dụng cây quyết định trong xếp hạng tín dụng nội bộ Ngân
Hàng: Chương này trình bày về việc sử dụng thuật toán C4.5 và công cụ Rapid Miner
để xây dựng cây quyết định với cơ sở dữ liệu thực tế, từ đó hỗ trợ ra quyết định cho
vay.
v
LỜI CẢM ƠN
Trước hết tôi xin gửi lời cảm ơn đặc biệt tới Ths Lê Quý Tài người đã định
hướng đề tài và tận tình hướng dẫn chỉ bảo tôi trong suốt quá trình thực hiện khóa luận
tốt nghiệp này.
Tôi xin chân thành cảm ơn các thầy cô trong trường Học viện ngân hàng, đã tận
tình giảng dạy và truyền đạt những kiến thức, những kinh nghiệm quý báu trong suốt 4
năm học đại học của tôi.
Bên cạnh đó tôi cũng muốn gửi lời cảm ơn chân thành tới anh Đỗ Quang Tiến
và các anh, chị tại phòng phát triển ứng dụng thuộc khối công nghệ thông tin của ngân
hàng thương mại cổ phần Quân Đội, đã tạo điều kiện và nhiệt tình giúp đỡ tôi trong
thời gian thực tập tại ngân hàng.
Cuối cùng tôi xin dành một cảm biết ơn sâu sắc tới gia đình và những người
thân đã luôn bên cạnh, động viên, chia sẻ cùng tôi trong suốt thời gian học đại học
cũng như quá trình làm khóa luận tốt nghiệp.
vi
NHẬN XÉT CỦA GIẢNG VIÊN HƢỚNG DẪN
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
vii
MỤC LỤC
LỜI CAM ĐOAN ii
LỜI MỞ ĐẦU iii
DANH MỤC CÁC CHỮ VIẾT TẮT ix
DANH MỤC CÁC HÌNH VẼ x
DANH MỤC CÁC BẢNG BIỂU xi
CHƢƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1
1.1 Khái niệm về khai phá dữ liệu 1
1.2 Quá trình phát hiện tri thức 1
1.3 Các kĩ thuật khai phá dữ liệu 3
1.3.1 Phân lớp dữ liệu 3
1.3.2 Phân cụm dữ liệu 4
1.3.3 Khai phá luật kết hợp 4
1.3.4 Hồi quy 5
1.3.5 Giải thuật di truyền 5
1.3.6 Mạng neuron 6
1.3.7 Cây quyết định 6
1.3.8 Mô hình học quan hệ 7
1.3.9 Khai phá dữ liệu văn bản (Text Mining) 7
1.3.10 Mô hình phụ thuộc dựa trên đồ thị xác suất 7
1.4 Ứng dụng của khai phá dữ liệu 8
1.5 Hƣớng phát triển của khai phá dữ liệu và một số khó khăn thách thức 8
CHƢƠNG 2 CÂY QUYẾT ĐỊNH 10
2.1 Khái niệm 10
2.1.2 Khái niệm cây quyết định 10
2.1.2 Những khái niệm liên quan 11
2.2 Vai trò của cây quyết định 12
2.2.1 Nén dữ liệu (Data Compression) 12
2.2.3 Dự đoán (Prediction) 13
2.3 Các thuật toán 14
2.3.1 Thuật toán xây dựng cây CLD 14
2.3.2 Thuật toán xây dựng cây ID3 14
2.3.3 Thuật toán xây dựng cây C4.5 16
2.4 Cắt tỉa cây 18
2.4.1 Tiền cắt tỉa 18
2.4.2 Hậu cắt tỉa 18
viii
2.4.3 Đánh giá cây quyết định 19
2.5 Ƣu, nhƣợc điểm của kỹ thuật cây quyết định 20
2.5.1 Ưu điểm 20
2.5.2 Nhược điểm 21
2.6 Ví dụ minh họa xây dựng cây quyết định 21
CHƢƠNG 3 XẾP HẠNG TÍN DỤNG NỘI BỘ NGÂN HÀNG 25
3.1 Tổng quan về xếp hạng tín dụng 25
3.1.1 Khái niệm về xếp hạng tín dụng 25
3.1.2 Đối tượng của xếp hạng tín dụng 25
3.1.3 Tầm quan trọng của xếp hạng tín dụng 25
3.1.4 Các nhân tố ảnh hưởng đến công tác xếp hạng tín dụng 26
3.1.5 Phương pháp xếp hạng tín dụng doanh nghiệp điển hình 27
3.2 Quy trình xếp hạng tín dụng ngân hàng thƣơng mại cổ phần Quân đội 31
3.2.1 Giới thiệu về ngân hàng thương mại cổ phần Quân Đội 31
3.2.2 Quy trình xếp hạng tín dụng tại ngân hàng thương mại cổ phần Quân đội 31
CHƢƠNG 4 ÁP DỤNG CÂY QUYẾT ĐỊNH TRONG XẾP HẠNG TÍN DỤNG NỘI BỘ
CỦA NGÂN HÀNG 35
4.1 Quy trình xây dựng cây quyết định với cơ sở dữ liệu chuẩn 35
4.1.1 Mô tả cơ sở dữ liệu mẫu chuẩn 35
4.1.2 Xây dựng cây quyết định dựa trên bộ dữ liệu mẫu trên 36
4.1.3 Tính toán thực nghiệm 37
4.2 Quy trình xây dựng cây quyết định với cơ sở dữ liệu ngân hàng MB 42
4.2.1 Mô tả cơ sở dữ liệu 42
4.2.2 Cây quyết định với cơ sở dữ liệu của ngân hàng Quân đội 43
4.2.3 Đánh giá kết quả thực nghiệm 44
4.3 Nhận xét 45
KẾT LUẬN CHUNG 46
DANH MỤC TÀI LIỆU THAM KHẢO 47
ix
DANH MỤC CÁC CHỮ VIẾT TẮT
BDT
CSDL
DT
DM
KDD
NHTM CP
NHNN
MPRA
MLP
SVM
SQL
Boosted Decision Tree
Cơ sở dữ liệu
Decision Tree
Data Mining
Knowledge Discovery in Database
Ngân hàng thương mại cổ phần
Ngân hàng nhà nước
Munich Personal RePEc Archive
Multilayer perception
Support Vector Machines
Structured Query Language
x
DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Quá trình phát hiện tri thức 2
Hình 1.2 Quá trình phân lớp dữ liệu - xây dựng mô hình phân lớp 3
Hình 1.3 Quá trình phân lớp dữ liệu - ước lượng độ chính xác của mô hình 4
Hình 2.1 Ví dụ về cây quyết định…………………………………………………… 10
Hình 2.2 Cây quyết định phân lớp mức lương 11
Hình 2.3 Cây quyết định được xây dựng dựa trên cơ sở dữ liệu ở bảng 2.1 13
Hình 2.4 Cây quyết định cho bài toán playgolf 13
Hình 2.5 Tỷ lệ thuật toán được người dùng bình chọn 20
Hình 2.6 Xây dựng cây quyết định cho bài toán Play Golf 23
Hình 2.7 Xây dựng cây quyết định cho bài toán Play Golf 23
Hình 2.8 Xây dựng cây quyết định cho bài toán Play Golf 24
Hình 4.1 Cây quyết định trong bài toán xếp hạng tín dụng nội bộ với bộ dữ liệu 37
Hình 4.2 Giao diện khi nhập cơ sở dữ liệu 38
Hình 4.3 Giao diện chọn kiểu cho các thuộc tính 38
Hình 4.4 Giao diện chọn tỷ lệ để training và test 39
Hình 4.5 Giao diện sau khi chia tỷ lệ traing/test = 0.7 39
Hình 4.6 Giao diện sau khi kéo Appy Model và Performance vào cửa số Test 40
Hình 4.7 Cây quyết định được tạo ra từ cơ sở dữ liệu của ngân hàng Đức 40
Hình 4.8 Mô hình đánh giá kết quả thực nghiệm trên 41
xi
DANH MỤC CÁC BẢNG BIỂU
Bảng 2. 1 Cơ sở dữ liệu minh họa 12
Bảng 2. 2 Play Golf Dataset 22
Bảng 4. 1 Kết quả đánh giá hiệu quả cây quyết định xây dựng trên CSDL bộ dữ liệu
chuẩn. 42
Bảng 4.2 Cơ sở dữ liệu của ngân hàng TMCP Quân đội 43
Bảng 4.3 Kết quả đánh giá hiệu quả cây quyết định xây dựng trên CSDL của NH
TMCP Quân đội 45
Bảng 4.4 Kết quả đánh giá hiệu quả của ba mô hình MLP, SVM, BDT 45
Khoá luận tốt nghiệp Nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 1 / 61
CHƢƠNG 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
Chương này sẽ trình bày những vấn đề tổng quan về khai phá dữ liệu, quá trình
phát hiện tri thức, các kĩ thuật và ứng dụng khai phá dữ liệu, cùng với một số vấn đề
gặp phải của khai phá dữ liệu và cuối cùng là hướng giải quyết các vấn đề đó.
1.1 Khái niệm về khai phá dữ liệu
Khai phá dữ liệu (data mining) là một khái niệm tương đối mới. Nó ra đời vào
khoảng những năm cuối của thập kỷ 1980. Hiện nay, có rất nhiều định nghĩa khác
nhau về khai phá dữ liệu. Giáo sư Tom Mitchell đã đưa ra định nghĩa của khai phá dữ
liệu như sau: “Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui
tắc và cải thiện những quyết định trong tương lai” [4]. Với một cách tiếp cận thực tế
hơn hơn, tiến sĩ Fayyad đã phát biểu: “Khai phá dữ liệu được xem là việc khám phá tri
thức trong các cơ sở dữ liệu, là một quá trình trích rút những thông tin ẩn mà trước đây
chưa biết nhưng hữu ích dưới dạng các quy luật, ràng buộc và qui tắc trong cơ sở dữ
liệu” [4]. Còn các nhà thống kê thì xem “khai phá dữ liệu như là một quá trình phân
tích để thăm dò một lượng rất lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp
và/hoặc các mối quan hệ mang tính hệ thống giữa các biến. Sau đó, hợp thức hoá các
kết quả tìm được bằng cách áp dụng các mẫu có được cho tập con mới của dữ liệu”
[4]. Như vậy, chúng ta có thể hiểu khai phá dữ liệu là quá trình trích rút các thông tin
có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ
liệu [4]. Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật
ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL, trích lọc dữ liệu, phân
tích dữ liệu, khảo cổ dữ liệu, nạo vét dữ liệu, …
Quá trình khai phá dữ liệu là quá trình phát hiện mẫu, trong đó giải thuật khai
phá dữ liệu sẽ tìm kiếm các mẫu theo dạng xác định như các luật, cây phân lớp, hồi
quy, phân nhóm, …
Khai phá dữ liệu là một trong 6 bước của quá trình phát hiện tri thức ( KDD –
Knowledge Discovery in Database ) [6].
1.2 Quá trình phát hiện tri thức
Khai phá dữ liệu là một bước quan trọng của quá trình phát hiện tri thức. Quá
trình phát hiện tri thức bao gồm có 6 bước [6]: Làm sạch dữ liệu (Data Cleaning), tích
hợp dữ liệu (Data Intergration), chọn lựa dữ liệu (Data Selection), biến đổi dữ liệu
(Data Transformation), khai phá dữ liệu (Data Mining), đánh giá mẫu
(Patten evaluation), biểu diễn tri thức (Knowledge Presentation). Quá trình này được
thực thi với các nguồn dữ liệu (Data Sources), kho dữ liệu (Data warehouse), dữ liệu
cụ thể sẽ được khai phá (Task- relevant data), mẫu kết quả (Patterns) và tri thức
(Knowledge).
Khoá luận tốt nghiệp Nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 2 / 61
Hình 1.1 Quá trình phát hiện tri thức
Bƣớc 1. Gom dữ liệu, tập hợp dữ liệu là bước đầu tiên trong khai phá dữ liệu.
Bước này lấy dữ liệu từ một cơ sở dữ liệu, một kho dữ liệu, thậm chí từ
internet.
Bƣớc 2. Trích chọn dữ liệu từ các kho dữ liệu và sau đó chuyển đổi về dạng
thích hợp cho quá trình khai thác tri thức. Quá trình này bao gồm cả việc xử lý
với dữ liệu nhiễu và dữ liệu không đầy đủ.
Bƣớc 3. Một số lỗi thường mắc phải trong quá trình gom dữ liệu là dữ liệu
không đầy đủ, không thống nhất, thiếu chặt chẽ hoặc vô nghĩa. Ví dụ sinh viên
có tuổi = 200. Những dữ liệu dạng này thường được xem là thông tin dư thừa,
không có giá trị. Chính vì vậy, chúng ta cần làm sạch và tiền xử lý dữ liệu.
Bƣớc 4. Chuyển đổi dữ liệu là quá trình chuyển đổi dữ liệu sang các dạng phù
hợp cho quá trình xử lý.
Bƣớc 5. Khai phá dữ liệu là một trong các bước quan trọng nhất, trong đó sử
dụng những phương pháp thông minh để chọn lọc ra những mẫu dữ liệu hữu
ích.
Bƣớc 6. Đánh giá kết quả mẫu là đưa ra những tiêu chuẩn đánh giá độ ưu tiên
cho các mẫu dữ liệu nhằm rút ra được những tri thức cần thiết.
Khoá luận tốt nghiệp Nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 3 / 61
1.3 Các kĩ thuật khai phá dữ liệu
Một số kỹ thuật phổ biến thường được sử dụng để khai phá dữ liệu hiện nay bao
gồm:
1.3.1 Phân lớp dữ liệu
Mục tiêu của phân lớp dữ liệu là gán nhãn cho các mẫu dữ liệu. Quá trình gồm
hai bước: Xây dựng mô hình và sử dụng mô hình để phân lớp dữ liệu (mỗi mẫu một
lớp) [15].
Bƣớc 1. Xây dựng mô hình là việc mô tả tập các lớp đã được định nghĩa. Mô
hình bao gồm tập huấn luyện là tập các mẫu đã được gán nhãn từ trước. Sau
đó, tập mẫu này được đưa vào mô hình để tìm luật phân lớp, cây quyết định
hoặc công thức toán mô tả lớp.
Bƣớc 2. Sử dụng mô hình là việc phân lớp các đối tượng chưa biết từ các luật
và cây quyết định. Từ đó, xác định độ chính xác của mô hình từ tập dữ liệu
kiểm tra.
Hình 1. 2 Quá trình phân lớp dữ liệu - xây dựng mô hình phân lớp
Khoá luận tốt nghiệp Nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 4 / 61
Hình 1. 3 Quá trình phân lớp dữ liệu - ước lượng độ chính xác của mô hình
1.3.2 Phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập
dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng. Không
giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi chúng ta phải gán nhãn
các mẫu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát
(learning by observation), trong khi phân loại dữ liệu là học bằng ví dụ (learning by
example). Trong phương pháp này, chúng ta không xác định được hiệu quả của quá
trình phân cụm. Vì vậy, thông thường cần có một chuyên gia về lĩnh vực đó để đánh
giá về hiệu quả của các kết quả phân cụm. Phân cụm dữ liệu được sử dụng nhiều trong
các ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại
trang web, … Ngoài phân cụm, dữ liệu còn có thể được sử dụng như một bước tiền xử
lý cho các thuật toán khai phá dữ liệu khác [15].
1.3.3 Khai phá luật kết hợp
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ
liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp
tìm được. Ta có thể lấy một số ví dụ đơn giản về luật kết hợp như sau: Sự kết hợp giữa
hai thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất
hiện của B trong cùng bản ghi đó: A B.
Cho một lược đồ R = {A
1
,…, A
p
} với các thuộc tính trong miền giá trị {0,1}, và
một quan hệ r trên R. Một tập luật kết hợp trên r được mô tả dưới dạng X B với X
R và B R\X. Về mặt trực giác, ta có thể phát biểu ý nghĩa của luật như sau: Nếu một
bản ghi của bảng r có giá trị 1 tại mỗi thuộc tính thuộc X thì giá trị của thuộc tính B
cũng là 1 trong cùng bản ghi đó. Ví dụ như: Ta có tập cơ sở dữ liệu về các mặt hàng
bán trong siêu thị, các dòng tương ứng với các ngày bán hàng, các cột tương ứng với
các mặt hàng thì giá trị 1 tại ô (20/10, bánh mì) xác định rằng bánh mì đã được bán
ngày hôm đó và cũng kéo theo sự xuất hiện giá trị 1 tại ô (20/10, bơ).
Khoá luận tốt nghiệp Nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 5 / 61
Cho W R, đặt s(W, r) là tần số xuất hiện của W trong r được tính bằng tỷ lệ
của các dòng trong r có giá trị 1 tại mỗi cột thuộc W. Tần số xuất hiện của luật X B
trong r được định nghĩa là s(X{B}, r) còn gọi là độ hỗ trợ của luật. Thêm nữa, độ tin
cậy của luật là s(X{B}, r)/s(X, r), ở đây X có thể gồm nhiều thuộc tính và B là giá trị
không cố định. Nhờ vậy, không thể xảy ra việc tạo các luật không mong muốn trước
khi quá trình tìm kiếm bắt đầu. Điều đó cũng cho thấy không gian tìm kiếm có kích
thước tăng theo hàm mũ của số lượng các thuộc tính ở đầu vào. Do vậy, cần phải chú ý
khi thiết kế dữ liệu cho việc tìm kiếm các luật kết hợp.
Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X B
sao cho tần số của luật không nhỏ hơn ngưỡng
cho trước và độ tin cậy của luật
không nhỏ hơn ngưỡng
cho trước. Từ một cơ sở dữ liệu ta có thể tìm được hàng
nghìn thậm chí hàng trăm nghìn các luật kết hợp.
Ta gọi một tập con X R là thường xuyên trong r nếu thoả mãn điều kiện s(X,
r)
. Nếu biết tất cả các tập thường xuyên trong r thì việc tìm kiếm các luật kết hợp
rất dễ dàng. Vì vậy, giải thuật tìm kiếm các luật kết hợp trước tiên đi tìm tất cả các tập
thường xuyên này. Sau đó, tạo dựng dần các luật kết hợp bằng cách ghép dần các tập
thuộc tính dựa trên mức độ thường xuyên.
Các luật kết hợp có thể là một cách hình thức hoá đơn giản. Chúng rất thích hợp
cho việc tạo ra các kết quả có dữ liệu dạng nhị phân. Giới hạn cơ bản của phương pháp
này là ở chỗ các quan hệ cần phải thưa nghĩa là không có tập thường xuyên nào chứa
nhiều hơn 15 thuộc tính. Giải thuật tìm kiếm các luật kết hợp tạo ra số luật ít nhất phải
bằng số các tập thường xuyên và nếu như một tập thường xuyên có kích thước k thì
phải có ít nhất là 2
k
luật kết hợp. Thông tin về các tập thường xuyên được sử dụng để
ước lượng độ tin cậy của các tập luật kết hợp [2].
1.3.4 Hồi quy
Phương pháp hồi quy tương tự như phân lớp dữ liệu. Nhưng khác ở chỗ nó
dùng để dự đoán các giá trị liên tục, còn phân lớp dữ liệu dùng để dự đoán các giá trị
rời rạc. Hồi quy được hiểu là một ánh xạ một mục dữ liệu vào một biến dự báo giá trị
thực. Hồi quy có nhiều ứng dụng trong thực tế như đánh giá xác xuất một bệnh nhân
sẽ chết dựa vào trên tập kết quả xét nghiệm chẩn đoán; dự báo nhu cầu của người tiêu
dùng đối với một sản phẩm mới dựa trên hoạt động quảng cáo tiêu dùng.
1.3.5 Giải thuật di truyền
Nói theo nghĩa rộng giải thuật di truyền là mô phỏng lại hệ thống tiến hoá trong
tự nhiên. Giải thuật chỉ ra tập các cá thể được hình thành, được ước lượng và biến đổi
như thế nào. Ví dụ như xác định xem làm thế nào để lựa chọn các cá thể lai ghép và
các cá thể nào bị loại bỏ. Giải thuật cũng mô phỏng lại yếu tố gen trong nhiễm sắc thể
sinh học trên máy tính để có thể giải quyết nhiều bài toán thực tế khác nhau.
Khoá luận tốt nghiệp Nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 6 / 61
Giải thuật di truyền là một giải thuật tối ưu hoá. Nó được sử dụng rất rộng rãi
trong việc tối ưu hoá các kỹ thuật khai phá dữ liệu, trong đó có kỹ thuật mạng neuron.
Sự liên hệ của nó đối với các giải thuật khai phá dữ liệu là ở chỗ việc tối ưu hoá cần
thiết cho các quá trình khai phá dữ liệu. Ví dụ như trong các kỹ thuật cây quyết định
và tạo luật như đã đề cập ở phần trước, các luật mô hình hoá dữ liệu chứa các tham số
được xác định bởi các giải thuật phát hiện tri thức. Giai đoạn tối ưu hoá là cần thiết để
xác định các giá trị tham số nào tạo ra các luật tốt nhất. Vì vậy mà giải thuật di truyền
đã được sử dụng trong các công cụ khai phá dữ liệu [2].
1.3.6 Mạng neuron
Mạng neuron là một tiếp cận tính toán mới liên quan đến việc phát triển các cấu
trúc toán học với khả năng lọc. Các phương pháp là kết quả của việc nghiên cứu mô
hình học của hệ thống thần kinh con người. Mạng neuron có thể đưa ra ý nghĩa từ các
dữ liệu phức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất các mẫu
và phát hiện ra các xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy
tính khác không thể phát hiện được.
Khi đề cập đến khai thác dữ liệu, người ta thường đề cập nhiều đến mạng
neuron. Tuy mạng neuron có một số hạn chế gây khó khăn trong việc áp dụng và triển
khai nhưng nó cũng có những ưu điểm đáng kể. Một trong số những ưu điểm phải kể
đến của mạng neuron là khả năng tạo ra các mô hình dự đoán có độ chính xác cao, có
thể áp dụng được cho rất nhiều loại bài toán khác nhau nhằm đáp ứng được các nhiệm
vụ đặt ra của khai phá dữ liệu.
Đặc điểm của mạng neuron là không cần gia công dữ liệu nhiều trước khi bắt
đầu quá trình học như các phương pháp khác. Tuy nhiên, để có thể sử dụng mạng
neuron hiệu quả cần phải xác định các yếu tố khi thiết kế mạng như:
Mô hình mạng là gì?
Mạng cần có bao nhiêu nút?
Khi nào thì việc học dừng để tránh bị “học quá”?
v.v.v…
Ngoài ra, còn có rất nhiều bước quan trọng cần phải làm để tiền xử lý dữ liệu
trước khi đưa vào mạng neuron để mạng có thể hiểu được (ví dụ như việc chuẩn hoá
dữ liệu, đưa tất cả các tiêu chuẩn dự đoán về dạng số).
Mạng neuron được đóng gói với những thông tin trợ giúp của các chuyên gia
đáng tin cậy và được các chuyên gia đảm bảo các mô hình này làm việc tốt. Sau khi
học, mạng có thể được coi là một chuyên gia trong lĩnh vực thông tin mà nó vừa được
học [9].
1.3.7 Cây quyết định
Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp và
dự báo. Các đối tượng dữ liệu được phân thành các lớp. Các giá trị của đối tượng dữ
Khoá luận tốt nghiệp Nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 7 / 61
liệu chưa biết sẽ được dự đoán, dự báo. Tri thức được rút ra trong kỹ thuật này thường
được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử dụng.
Cây quyết định bao gồm các nút và các nhánh. Mỗi nút thể hiện một thuộc tính,
mỗi nhánh thể hiện các giá trị của thuộc tính. Với một dữ liệu vào, xét từng thuộc tính
từ nút cha tới nút con, giá trị của thuộc tính thuộc nhánh nào thì rẽ xuống nhánh đó, cứ
thế đi xuống tới nút lá để nhận được kết quả “yes” hoặc “no”.
1.3.8 Mô hình học quan hệ
Trong khi mẫu chiết xuất được bằng các luật suy diễn và cây quyết định gắn chặt
với các mệnh đề logic (propositional logic), thì mô hình học quan hệ (còn được gọi là
lập trình logic quy nạp – Inductive logic programming) sử dụng ngôn ngữ mẫu theo
thứ tự trước (first-order logic) rất linh hoạt. Mô hình này có thể dễ dàng tìm ra công
thức: X = Y. Cho đến nay, hầu hết các nghiên cứu về các phương pháp đánh giá mô
hình này đều theo logic trong tự nhiên [2].
1.3.9 Khai phá dữ liệu văn bản (Text Mining)
Kỹ thuật này được ứng dụng trong một loạt các công cụ phần mềm thương mại.
Công cụ khai phá dữ liệu rất phù hợp với việc tìm kiếm, phân tích và phân lớp các dữ
liệu văn bản không định dạng. Các lĩnh vực ứng dụng như nghiên cứu thị trường, …
Khai phá dữ liệu dạng văn bản đã được sử dụng để phân tích câu trả lời cho các câu
hỏi mở trong khảo sát thị trường, tìm kiếm các tài liệu phức tạp [2].
1.3.10 Mô hình phụ thuộc dựa trên đồ thị xác suất
Các mô hình đồ thị xác định sự phụ thuộc xác suất giữa các sự kiện thông qua
các liên hệ trực tiếp theo các cung đồ thị (Pearl 1988; Whittaker, 1990). Ở dạng đơn
giản nhất, mô hình này xác định những biến nào phụ thuộc trực tiếp vào nhau. Những
mô hình này chủ yếu được sử dụng với các biến cố giá trị rời rạc hoặc phân loại. Tuy
nhiên, cũng được mở rộng cho một số trường hợp đặc biệt như mật độ Gaussian hoặc
cho các biến giá trị thực.
Trong trí tuệ nhân tạo và thống kê, các phương pháp này ban đầu được phát
triển trong khuôn khổ của các hệ chuyên gia. Cấu trúc của mô hình và các tham số
(xác suất có điều kiện được gắn với các đường nối của đồ thị) được suy ra từ các
chuyên gia. Ngày nay, các phương pháp này đã được phát triển, cả cấu trúc và các
tham số mô hình đồ thị đều có thể học trực tiếp từ cơ sở dữ liệu (Buntine; Heckerman).
Tiêu chuẩn đánh giá mô hình chủ yếu là ở dạng Bayesian. Việc đánh giá tham số là
một sự kết hợp các đánh giá dạng đóng (closed form estimate) và các phương pháp lặp
phụ thuộc vào việc biến được quan sát trực tiếp hay ở dạng ẩn. Việc tìm kiếm mô hình
dựa trên các phương pháp “leo đồi” trên nhiều cấu trúc đồ thị. Các tri thức trước đó, ví
dụ như việc sắp xếp một phần các biến dựa trên các mối quan hệ nhân quả, có thể rất
có ích trong việc làm giảm không gian tìm kiếm mô hình. Mặc dù, các phương pháp
này mới ở giai đoạn đầu của việc nghiên cứu nhưng nó đã cho thấy nhiều hứa hẹn vì
dạng đồ thị dễ hiểu hơn và biểu đạt được nhiều ý nghĩa hơn đối với con người [2].
Khoá luận tốt nghiệp Nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 8 / 61
1.4 Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu được vận dụng để giải quyết các vấn đề thuộc nhiều lĩnh vực
khác nhau. Chẳng hạn như giải quyết các bài toán phức tạp đòi hỏi kỹ thuật cao, như
tìm kiếm mỏ dầu, cảnh báo hỏng hóc trong các hệ thống sản xuất. Khai phá dữ liệu
được ứng dụng cho việc quy hoạch và phát triển các hệ thống quản lý và sản xuất
trong thực tế như dự đoán tải sử dụng điện, mức độ tiêu thụ sản phẩm, phân nhóm
khách hàng, áp dụng cho các vấn đề xã hội như phát hiện tội phạm, tăng cường an
ninh,…
Một số ứng dụng cụ thể như sau :
Khai phá dữ liệu được sử dụng để phân tích dữ liệu, hỗ trợ ra quyết định.
Trong sinh học: nó dùng để tìm kiếm, so sánh các hệ gen và thông tin di
truyền, tìm mối liên hệ giữa các hệ gen và chẩn đoán một số bệnh di truyền.
Trong y học: khai phá dữ liệu giúp tìm ra mối liên hệ giữa các triệu chứng,
chẩn đoán bệnh.
Tài chính và thị trường chứng khoán: khai phá dữ liệu để phân tích tình hình
tài chính, phân tích đầu tư, phân tích cổ phiếu.
Khai thác dữ liệu web.
Trong thông tin kỹ thuật: khai phá dữ liệu dùng để phân tích các sai hỏng,
điều khiển và lập lịch trình.
Trong thông tin thương mại: dùng để phân tích dữ liệu người dùng, phân tích
dữ liệu marketing, phân tích đầu tư, phát hiện các gian lận.
1.5 Hƣớng phát triển của khai phá dữ liệu và một số khó khăn thách thức
Sự phát triển của phát hiện tri thức và khai phá dữ liệu gặp phải một số thách
thức sau:
CSDL lớn (số lượng bản ghi, số bảng).
Số chiều lớn.
Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn
phù hợp nữa.
Dữ liệu bị thiếu hoặc bị nhiễu.
Quan hệ giữa các trường phức tạp.
Vấn đề giao tiếp với người sử dụng và kết hợp với các tri thức đã có.
Tích hợp với các hệ thống khác.
Hướng nghiên cứu và phát triển của khai phá tri thức và khai phá dữ liệu nhắm
vào giải quyết các vấn đề bất cập ở trên, bao gồm:
Chú trọng vào việc mở rộng ứng dụng để đáp ứng cho mọi lĩnh vực trong
đời sống xã hội.
Khoá luận tốt nghiệp Nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 9 / 61
Tăng tính hữu ích của việc khai phá dữ liệu trong những lĩnh vực đã có khai
phá dữ liệu.
Tạo ra các phương pháp khai phá dữ liệu linh động, uyển chuyển để xử lý số
lượng dữ liệu lớn một cách hiệu quả.
Tạo ra tương tác người sử dụng tốt, giúp người sử dụng tham gia điều khiển
quá trình khai phá dữ liệu, định hướng hệ thống khai phá dữ liệu trong việc
phát hiện các mẫu đáng quan tâm…
Tóm lại: Trong chương 1 đã trình bày được những kiến thức tổng quan về khai phá dữ
liệu, những khái niệm, vai trò, kĩ thuật phổ biến, định hướng phát triển và một số thách
thức của khai phá dữ liệu.
Khoá luận tốt nghiệp Nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 10 / 61
CHƢƠNG 2
CÂY QUYẾT ĐỊNH
Chương này trình bày chi tiết về kĩ thuật cây quyết định,các khái niệm liên quan,
vai trò, cấu trúc cây, các thuật toán xây dựng cây, cắt tỉa cây và đánh giá hiệu quả xây
dựng cây. Cuối cùng là ví dụ minh họa cho thuật toán xây dựng cây quyết định.
2.1 Khái niệm
2.1.2 Khái niệm cây quyết định
Có rất nhiều khái niệm được đưa ra để hiểu về cây quyết định (decision tree) như
sau:
Cây quyết định là một cây phân cấp có cấu trúc được dùng để phân lớp các đối
tượng dựa vào dãy các luật. Trong đó, cây phân cấp là một cây gồm có một đỉnh đặc
biệt gọi là đỉnh gốc, giữa các đỉnh trong cây có mối quan hệ phân cấp “cha-con” [15].
Cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh
xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự
vật/hiện tượng đó. Mỗi nút trong (internal node) tương ứng với một biến, đường nối
giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho
giá trị dự đoán của biến mục tiêu cho trước. Các giá trị dự đoán của các biến được biểu
diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định
được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết
định [4].
Cây quyết định là một biểu đồ có cấu trúc dạng cây như sau [3]:
Hình 2. 1 Ví dụ về cây quyết định
Khoá luận tốt nghiệp Nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 11 / 61
Trong cây quyết định :
Gốc: là nút trên cùng của cây.
Nút trong: biểu diễn một thuộc tính.
Nhánh: là một đường đi trên cây bắt đầu từ nút gốc đến nút lá.
Nút lá: biểu diễn tập giá trị cuối cùng của một nhánh.
Ví dụ minh họa về cây quyết định
Hình 2. 2 Cây quyết định phân lớp mức lương
Hình 2.2 là cây phân cấp mức lương ta thấy, thuộc tính được chọn làm nút gốc là
thuộc tính Age (giả sử chia thành 2 khoảng là lớn hơn 35 và nhỏ hơn hoặc bằng 35),
sau đó xét tiếp thuộc tính Salary. Tại nhánh ≤ 35 tuổi, nếu saraly ≤ 40 thì kết luận là
những người này có mức lương bad, còn nếu saraly > 40 thì kết luận là những người
có mức lương good. Tương tự như thế, tại nhánh bên > 35 tuổi, nếu saraly ≤ 50 thì kết
luận là những người này có mức lương bad, còn nếu saraly > 50 thì kết luận là mức
lương good.
2.1.2 Những khái niệm liên quan
Để xây dựng nên một cây quyết định thì ta cần có một bộ cơ sở dữ liệu mẫu ban
đầu. Trong một cơ sở dữ liệu có hai loại thuộc tính, đó là thuộc tính liên tục và thuộc
tính phân loại. Thêm đó, bộ cơ sở dữ liệu mẫu cũng được chia thành hai tập là tập
huấn luyện và tập kiểm tra [12]. Một số khái niệm liên quan đến cây quyết định được
định nghĩa như sau:
Tập huấn luyện (Training Set) là một tập con của tập mẫu ban đầu, được
sử dụng để xây dựng cây quyết định.
Tập kiểm tra (Test Set) là tập con của tập mẫu ban đầu được sử dụng để
kiểm tra hiệu quả của cây quyết định vừa được xây dựng ở trên.
Age?
≤ 35
salary
> 35
salary
≤ 40
>40
bad
good
≤50
>50
bad
good
Khoá luận tốt nghiệp Nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 12 / 61
Thuộc tính phân loại (Category attribute) là thuộc tính mà tập giá trị của
nó là hữu hạn.
Thuộc tính liên tục (Continous attribute) là thuộc tính mà tập giá trị của nó
là các dạng dải số.
2.2 Vai trò của cây quyết định
2.2.1 Nén dữ liệu (Data Compression)
Chức năng nén dữ liệu [12] của cây quyết định là giúp đơn giản cơ sở dữ liệu
phức tạp ban đầu với hàng nghìn bản ghi và rất nhiều trường thành một sơ đồ cây dễ
hiểu, mô tả tổng quan toàn bộ cơ sở dữ liệu.
Ví dụ với một cơ sở dữ liệu ban đầu là hàng nghìn bản ghi và hàng chục thuộc
tính như bảng 2.1, cây quyết định được tạo ra bởi cơ sở dữ liệu đó như một mô hình
mô phỏng lại dữ liệu một cách trực quan, lôgic và ngắn gọn như hình 2.3.
Bảng 2. 1 Cơ sở dữ liệu minh họa