Tải bản đầy đủ (.pdf) (60 trang)

Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng TMCP ngoại thương chi nhánh việt trì

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.53 MB, 60 trang )







TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2
KHOA CÔNG NGHỆ THÔNG TIN


NGUYỄN VIỆT DŨNG

ỨNG DỤNG CÂY QUYẾT ĐỊNH ĐỂ
PHÂN LOẠI KHÁCH HÀNG VAY VỐN CỦA
NGÂN HÀNG TMCP NGOẠI THƢƠNG
CHI NHÁNH VIỆT TRÌ


KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Khoa học máy tính
TS. LƯU THỊ BÍCH HƯƠNG





HÀ NỘI – 2015







TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2
KHOA CÔNG NGHỆ THÔNG TIN


NGUYỄN VIỆT DŨNG

ỨNG DỤNG CÂY QUYẾT ĐỊNH ĐỂ
PHÂN LOẠI KHÁCH HÀNG VAY VỐN CỦA
NGÂN HÀNG TMCP NGOẠI THƢƠNG
CHI NHÁNH VIỆT TRÌ

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Khoa học máy tính
TS. LƯU THỊ BÍCH HƯƠNG

Ngƣời hƣớng dẫn khoa học
TS. LƢU THỊ BÍCH HƢƠNG



HÀ NỘI – 2015

HÀ NỘI – 201HÀ NỘI – 2015
HÀ NỘI – 2015


LỜI CẢM ƠN


Để hoàn thành đƣợc khóa luận này, trƣớc hết em xin gửi lời cảm ơn
sâu sắc nhất tới TS. Lƣu Thị Bích Hƣơng đã tận tình hƣớng dẫn, chỉ bảo,
định hƣớng, đóng góp những ý kiến quý báu cho em trong suốt quá trình
thực hiện.
Em xin chân thành cảm ơn các thầy, cô giáo trong khoa Công nghệ
Thông tin, trƣờng Đại học Sƣ phạm Hà Nội 2 đã quan tâm giảng dạy và giúp
đỡ em trong suốt bốn năm học vừa qua cũng nhƣ trong thời gian em làm bài
khóa luận này. Là sinh viên khoa Công nghệ Thông tin, em rất tự hào về
khoa mình học, về thầy cô giáo của mình. Em xin kính chúc các thầy, các cô
luôn mạnh khỏe, hạnh phúc và thành công. Chúc khoa Công nghệ Thông tin
sẽ ngày một khang trang, vững mạnh, góp phần to lớn trong sự nghiệp đào
tạo chuyên nghiệp của trƣờng Đại học Sƣ phạm Hà Nội 2.
Lần đầu nghiên cứu khoa học, chắc chắn đề tài của em không tránh
khỏi những thiếu sót, hạn chế. Vì vậy, em rất mong sự đóng góp ý kiến của
các thầy cô giáo và các bạn để đề tài của em đƣợc hoàn thiện.

Hà Nội, tháng 05 năm 2015
Sinh viên


Nguyễn Việt Dũng



LỜI CAM ĐOAN
Tên em là: Nguyễn Việt Dũng
Sinh viên: K37A – CNTT, trƣờng Đại học Sƣ phạm Hà Nội 2.
Em xin cam đoan:
1. Đề tài “Ứng dụng cây quyết định để phân loại khách hàng vay vốn của
Ngân hàng thương mại cổ phần Ngoại thương, chi nhánh Việt Trì” là kết

quả tìm hiểu và nghiên cứu của riêng em, dƣới sự hƣớng dẫn của TS. Lƣu
Thị Bích Hƣơng.
2. Khóa luận hoàn toàn không sao chép từ các tài liệu có sẵn đã đƣợc công
bố khác.
3. Kết quả không trùng với các tác giả khác.
Nếu sai em xin hoàn toàn chịu trách nhiệm.

Hà Nội, tháng 05 năm 2015
Ngƣời cam đoan


Nguyễn Việt Dũng










MỤC LỤC
MỞ ĐẦU 1
CHƢƠNG 1: CƠ SỞ LÝ THUYẾT 5
1.1. Giới thiệu 5
1.2. Các kiểu cây quyết định 6
1.3. Ƣu điểm của cây quyết định 7
1.4. Ví dụ 9
1.5. Thuật toán cây quyết định 12

1.5.1. Xử lý dữ liệu 13
1.5.2. Tạo cây 13
1.5.3. Tiêu chuẩn tách 14
1.5.4. Tiêu chuẩn dừng 15
1.5.5. Tỉa cây 15
1.6. Phát biểu bài toán 16
CHƢƠNG 2: KHAI PHÁ DỮ LIỆU 19
2.1. Khám phá tri thức 19
2.1.1. Khai phá dữ liệu 20
2.2. Một số phƣơng pháp khai phá dữ liệu thông dụng 24
2.2.1. Phân lớp 24
2.2.2.Phân cụm 28
2.2.3. Luật kết hợp 32
2.3. Ứng dụng khai phá dữ liệu trong lĩnh vực ngân hàng 35
2.3.1. Marketing 35
2.3.2. Quản lý rủi ro 35


2.3.3. Phát hiện sai lệch 37
2.3.4. Quản trị quan hệ khách hàng 38
2.3.5. Phân tích dữ liệu tài chính (Financial Data Analysis) 40
CHƢƠNG 3: ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ PHÂN LOẠI KHÁCH
HÀNG 42
3.1. Quy trình tín dụng 42
3.1.1. Khái niệm quy trình tín dụng 42
3.1.2. Ý nghĩa của quy trình tín dụng 42
3.1.3. Quy trình tín dụng căn bản 42
3.1.4.Thử nghiệm dự đoán rủi ro tín dụng 43
3.2. Sử dụng cây quyết định để phân loại khách hàng 45
3.2.1. Tiêu chí chọn thuộc tính phân lớp 45

3.2.2. Thuật toán ID3 46
3.3. Thiết kế chƣơng trình 48
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 50
TÀI LIỆU THAM KHẢO 52









MỤC LỤC HÌNH ẢNH
Hình 1.1: Cây quyết định phân lớp mức lƣơng 6
Hình 1.2: Cây quyết định có chơi golf hay không 12
Hình 1.3: Mô tả cây quyết định 13
Hình 2.1: Kiến trúc điển hình của hệ thống khai phá dữ liệu 20
Hình 2.2: Kiến trúc điển hình của hệ thống khai phá dữ liệu 23
Hình 2.3: Ví dụ về phân cụm dữ liệu 29
Hình 2.4: Ví dụ phân cụm các ngôi nhà dựa trên khoảng cách 30
Hình 2.5: Ví dụ phân cụm các ngôi nhà dựa trên kích cỡ 31
Hình 2.6: Quản trị quan hệ khách hàng 39
Hình 3.2: Form giao diện chính 48
Hình 3.3: Form nạp dữ liệu 48
Hình 3.4: Form áp dụng thuật toán ID3 49
Hình 3.5: Form tạo cây quyết định 49
1

MỞ ĐẦU

1. Lý do chọn đề tài
Ứng dụng Công nghệ Thông tin vào các lĩnh vực của đời sống, kinh tế
xã hội ngày càng phổ biến. Điều này đồng nghĩa với việc dữ liệu đƣợc lƣu trữ
trong các cơ quan, xí nghiệp, trƣờng học,… ngày càng khổng lồ. Tuy nhiên
theo thống kê thì chỉ có một lƣợng nhỏ của những dữ liệu này (khoảng từ 5%
đến 10%) là luôn đƣợc phân tích, số còn lại họ không biết sẽ phải làm gì và có
thể làm gì với những dữ liệu này, nhƣng họ vẫn tiếp tục thu thập và lƣu trữ vì
hy vọng những dữ liệu này sẽ cung cấp cho họ những thông tin quý giá một
cách nhanh chóng để đƣa ra những quyết định kịp thời vào một lúc nào đó.
Chính vì vậy, các phƣơng pháp quản trị và khai thác cơ sở dữ liệu truyền
thống ngày càng không đáp ứng đƣợc thực tế. Từ đó đã làm phát triển một
khuynh hƣớng kỹ thuật mới đó là kỹ thuật phát hiện tri thức và khai phá dữ
liệu (KDD - Knowledge Discovery and Data Mining).
Cho đến nay, khai phá dữ liệu ngày càng đƣợc nghiên cứu, phát triển và
đã đạt đƣợc những thành tựu đáng kể trong các lĩnh vực: kinh doanh, y tế,
công nghệ sinh học, quân sự, bƣu chính viễn thông, xây dựng,… Rất nhiều tổ
chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các
hoạt động sản xuất kinh doanh của mình và thu đƣợc những lợi ích to lớn.
Ngành công nghiệp ngân hàng đã bắt đầu nhận ra sự cần thiết của các kỹ thuật
khai phá dữ liệu, các kỹ thuật đó có thể giúp họ cạnh tranh trên thị trƣờng.
Các ngân hàng đã và đang sử dụng các công cụ khai phá dữ liệu cho việc
phân khúc khách hàng và lợi nhuận, chấm điểm tín dụng, phê duyệt, quảng bá
và bán sản phẩm, phát hiện các giao dịch gian lận,…Việc sử dụng phƣơng
pháp khai phá tri thức từ dữ liệu để phân loại khách hàng vay vốn là một
phƣơng pháp mới nhằm giảm nguy cơ trong rủi ro tín dụng.
Với mong muốn nghiên cứu về việc ứng dụng cây quyết định để phân
loại khách hàng của ngân hàng thƣơng mại cổ phần Ngoại thƣơng, em đã
2

chọn đề tài “Ứng dụng cây quyết định để phân loại khách hàng vay vốn của

Ngân hàng thương mại cổ phần Ngoại thương, chi nhánh Việt Trì” làm
khóa luận tốt nghiệp.
2. Mục đích, nhiệm vụ nghiên cứu
 Tìm hiểu khai phá dữ liệu, các ứng dụng khai phá dữ liệu trong lĩnh vực
ngân hàng.
 Cây quyết định, thuật toán ID3.
 Xây dựng ứng dụng cây quyết định để phân loại khách hàng vay vốn
của ngân hàng thƣơng mại cổ phần Ngoại thƣơng, chi nhánh Việt Trì.
3. Đối tƣợngvà phạm vi nghiên cứu
Đối tƣợng nghiên cứu của khóa luận là cây quyết định, ứng dụng của
khai phá dữ liệu trong lĩnh vực ngân hàng (Marketing, quản lý rủi ro, phát
hiện sai lệch, xâm nhập, ).
Phạm vi nghiên cứu:
 Thuật toán ID3.
 Khách hàng vay vốn của ngân hàng thƣơng mại cổ phần Ngoại
thƣơng, chi nhánh Việt Trì.
4. Ý nghĩa khoa học và thực tiễn
Đóng góp vào hệ thống thông tin một ứng dụng hỗ trợ việc ra quyết
định. Đƣợc sử dụng để phân tích dữ liệu, đƣa ra cái nhìn tổng quan nhất cho
ngƣời quản lý và ƣớc lƣợng rủi ro dễ dàng hơn.
Phân loại khách hàng vay vốn giúp cho việc lựa chọn áp dụng các quy
định pháp luật phù hợp để giải quyết quyền lợi các bên trong tín dụng đƣợc
thuận lợi và nhanh chóng hơn, tiết kiệm thời gian và tiền bạc cho các bên.

3

5. Phƣơng pháp nghiên cứu
a. Phương pháp nghiên cứu lý luận
Nghiên cứu qua việc đọc sách, báo và các tài liệu liên quan nhằm xây
dựng cơ sở lý thuyết của khóa luận và các biện pháp cần thiết để giải quyết

các vấn đề của khóa luận.
Phân tích và tổng hợp các tài liệu về khai phá dữ liệu sử dụng thuật
toán về Decision Tree có thuật toán ID3, phân loại dữ liệu, mô hình dự báo.

b. Phương pháp chuyên gia
Tham khảo ý kiến của các chuyên gia để có thể thiết kế chƣơng trình
phù hợp với yêu cầu thực tiễn. Nội dung xử lý nhanh đáp ứng đƣợc yêu cầu
ngày càng cao của ngƣời sử dụng.
c. Phương pháp thực nghiệm
Thông qua quan sát thực tế, yêu cầu của cơ sở, những lý luận đƣợc
nghiên cứu và kết quả đạt đƣợc qua những phƣơng pháp trên.
Ứng dụng kết hợp kỹ thuật phân loại và mô hình cây quyết định để
phân loại khách hàng vay vốn của Ngân hàng thƣơng mại.
6. Cấu trúc khóa luận
Ngoài lời cảm ơn, mở đầu, kết luận và hƣớng phát triển, tài liệu tham
khảo, khóa luận có những nội dung sau:
Chương 1: Cơ sở lý thuyết - Chƣơng này nghiên cứu tổng quan về
thuật toán cây quyết định. Phát biểu bài toán xây dựng cây quyết định trong
việc phân loại khách hàng vay vốn của ngân hàng.
Chương 2: Khai phá dữ liệu - Tìm hiểu về khám phá tri thức, khai phá
dữ liệu và một số phƣơng pháp khai phá dữ liệu thông dụng. Chƣơng này đƣa
ra những ứng dụng cụ thể của khai phá dữ liệu trong ngân hàng.
4

Chương 3: Ứng dụng khai phá dữ liệu để phân loại khách hàng -
Chƣơng này tìm hiểu về thuật toán ID3 để xây dựng cây quyết định; nghiên
cứu tổng quan về quy trình tín dụng từ đó xây dựng chƣơng trình mô phỏng
cây quyết định trong việc phân loại khách hàng vay vốn.



5

CHƢƠNG 1: CƠ SỞ LÝ THUYẾT
1.1. Giới thiệu
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo
(predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện
tƣợng tới các kết luận về giá trị mục tiêu của sự vật/hiện tƣợng. Mỗi một nút
trong (internal node) tƣơng ứng với một biến; đƣờng nối giữa nó với nút con
của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút là đại diện cho giá trị
dự đoán của biến mục tiêu, cho trƣớc các giá trị của các biến đƣợc biểu diễn
bởi đƣờng đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết
định đƣợc gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là
cây quyết định.
Học bằng cây quyết định cũng là một phƣơng pháp thông dụng trong
khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các
lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc
tính dẫn tới phân loại đó. Một cây quyết định có thể đƣợc học bằng cách chia
tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính, quá
trình này đƣợc lặp lại một cách đệ qui cho mỗi tập con dẫn xuất. Quá trình đệ
qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách đƣợc nữa, hay
khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất.
Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết
định để có thể cải thiện tỉ lệ phân loại.
Cây quyết định cũng là một phƣơng tiện có tính mô tả dành cho việc
tính toán các xác suất có điều kiện. Cây quyết định có thể đƣợc mô tả nhƣ là
sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả,
phân loại và tổng quát hóa một tập dữ liệu cho trƣớc. Dữ liệu đƣợc cho dƣới
dạng các bản ghi có dạng:
(x, y) = (x
1

, x
2
, x
3,
, x
k
, y)
6

Biến phụ thuộc (dependant variable) y là biến cần tìm hiểu, phân loại
hay tổng quát hóa. x
1
, x
2
, x
3
, là các biến sẽ giúp thực hiện công việc phân
lớp dữ liệu.
Cây quyết định là một cấu trúc phân cấp của các nút và các nhánh
(mang giá trị của thuộc tính). Có3 loại nút trên cây:
 Nút gốc
 Nút nội bộ: mang tên thuộc tính của CSDL
 Nút lá: mang tên lớp C
i

Cây quyết định đƣợc sử dụng trong phân lớp bằng cách duyệt từ nút
gốc của cây cho đến khi đụng đến nút lá, từ đó rút ra lớp của đối tƣợng cần
xét.
Ví dụ: Cây quyết định phân lớp mức lƣơng.
Hình 1.1: Cây quyết định phân lớp mức lƣơng

1.2. Các kiểu cây quyết định
Cây quyết định còn có hai tên khác là cây hồi quy và cây phân loại.
+ Cây hồi quy (Regression tree) ƣớc lƣợng các hàm có giá trị là số
thực thay vì đƣợc sử dụng cho các nhiệm vụ phân loại, ví dụ: ƣớc tính giá một
ngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện.
Age?
≤ 35
salary
> 35
salary
≤ 40
>40
bad
good
≤5
0
>5
0
bad
good
7

+ Đây là một phƣơng pháp thống kê mà giá trị kỳ vọng của một hay
nhiều biến ngẫu nhiên đƣợc dự đoán dựa vào điều kiện của các biến ngẫu
nhiên (đã tính toán) khác. Cụ thể, có hồi qui tuyến tính, hồi qui lôgic, hồi qui
Poisson và học có giám sát. Phân tích hồi qui không chỉ là trùng khớp đƣờng
cong (lựa chọn một đƣờng cong mà vừa khớp nhất với một tậpđiểm dữ liệu);
nó còn phải trùng khớp với một mô hình, với các thành phần ngẫu nhiên và
xác định (deterministic and stochastic components). Thành phần xác định
đƣợc gọi là bộ dự đoán (predictor) và thành phần ngẫu nhiên đƣợc gọi là phần

sai số (error term).
+Phân loại (Classification): Là phƣơng pháp dự báo, cho phép phân
loại một đối tƣợng vào một hoặc một số lớp cho trƣớc. Phân loại bằng thống
kê là một thủ tục thống kê trong đó các cá thể riêng biệt sẽ đƣợc sắp vào từng
nhóm dựa trên số lƣợng thông tin về một hay nhiều tính chất kế thừa của cá
thể đó (đƣợc xem nhƣ là các điểm, các biến, các đặc điểm, ) và dựa vào
một tập huấn luyện của các cá thể đã đƣợc đánh nhãn sẵn.
+ Về mặt hình thức, bài toán có thể diễn giải nhƣ sau: cho sẵn một tập
huấn luyện {(x
1
,y), ,(x
n
,y)} cần tạo ra một phân loại h: X→ Y mà ánh xạ một
đối tƣợng x

X vào nhãn phân loại y

Y. Ví dụ, nếu bài toán là lọc spam,
thì x
i
là một biểu diễn nào nó cho một thƣ điện tử y hoặc là "Spam" hoặc
"Không Spam".
Các giải thuật phân loại bằng thống kê thƣờng đƣợc sử dụng trong các
hệ thống nhận dạng mẫu.
1.3. Ƣu điểm của cây quyết định
So với các phƣơng pháp khai phá dữ liệu khác, cây quyết định là
phƣơng pháp có một số ƣu điểm:
 Cây quyết định dễ hiểu. Ngƣời ta có thể hiểu mô hình cây quyết định
sau khi đƣợc giải thích ngắn gọn.
8


 Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần
thiết. Các kỹ thuật khác thƣờng đòi hỏi chuẩn hóa dữ liệu, cần tạo các biến
phụ (dummy variable) và loại bỏ các giá trị rỗng.
 Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có
giá trị là tên thể loại. Các kỹ thuật khác thƣờng chuyển để phân tích các bộ dữ
liệu chỉ gồm một loại biến. Chẳng hạn, các luật quan hệ chỉ có thể dùng cho
các biến tên, trong khi mạng nơ-ron chỉ có thể dùng cho các biến có giá trị
bằng số.
 Cây quyết định là một mô hình hộp trắng. Nếu có thể quan sát một tình
huống cho trƣớc trong một mô hình thì dễ dàng giải thích điều kiện đó bằng
logic Boolean. Mạng nơ-ron là một ví dụ về mô hình hộp đen, do lời giải
thích cho kết quả quá phức tạp để có thể hiểu đƣợc.
 Thẩm định một mô hình bằng các kiểm tra thống kê.
 Cây quyết định có thể xử lý tốt một lƣợng dữ liệu lớn trong thời gian
ngắn. Có thể dùng máy tính cá nhân để phân tích các lƣợng dữ liệu lớn trong
một thời gian đủ ngắn để cho phép các nhà chiến lƣợc đƣa ra quyết định dựa
trên phân tích của cây quyết định.
 Khả năng sinh ra các quy tắc hiểu đƣợc
Cây quyết định có khả năng sinh ra các quy tắc có thể chuyển đổi đƣợc
sang dạng tiếng Anh, hoặc các câu lệnh SQL. Đây là ƣu điểm nổi bật của kỹ
thuật này. Thậm chí với những tập dữ liệu lớn khiến cho hình dáng cây quyết
định lớn và phức tạp, việc đi theo bất cứ đƣờng nào trên cây là dễ dàng theo
nghĩa phổ biến và rõ ràng. Do vậy sự giải thích cho bất cứ một sự phân lớp
hay dự đoán nào đều tƣơng đối minh bạch.
 Khả năng thực thi trong những lĩnh vực hƣớng quy tắc
Điều này nghe có vẻ hiển nhiên, nhƣng quy tắc quy nạp nói chung và
cây quyết định nói riêng là lựa chọn hoàn hảo cho những lĩnh vực thực sự là
các quy tắc. Rất nhiều lĩnh vực từ di truyền tới các quá trình công nghiệp thực
sự chứa các quy tắc ẩn, không rõ ràng (underlying rules) do khá phức tạp và

9

tối nghĩa bởi những dữ liệu lỗi (noisy). Cây quyết định là một sự lựa chọn tự
nhiên khi nghi ngờ sự tồn tại của các quy tắc ẩn, không rõ ràng.
 Dễ dàng tính toán trong khi phân lớp
Cây quyết định có thể chứa nhiều định dạng, nhƣng trong thực tế, các
thuật toán sử dụng để tạo ra cây quyết định thƣờng tạo ra những cây với số
phân nhánh thấp và các test đơn giản tại từng nút. Những test điển hình là: so
sánh số, xem xét phần tử của một tập hợp và các phép nối đơn giản. Khi thực
thi trên máy tính, những test này chuyển thành các hàm logic và số nguyên là
những toán hạng thực thi nhanh và đơn giản. Đây là một ƣu điểm quan trọng
bởi trong môi trƣờng thƣơng mại, các mô hình dự đoán thƣờng đƣợc sử dụng
để phân lớp hàng triệu thậm trí hàng tỉ bản ghi.
 Khả năng xử lý với cả thuộc tính liên tục và thuộc tính rời rạc
Cây quyết định xử lý “tốt” nhƣ nhau với thuộc tính liên tục và thuộc
tính rời rạc. Tuy rằng với thuộc tính liên tục cần nhiều tài nguyên tính toán
hơn. Những thuộc tính rời rạc đã từng gây ra những vấn đề với mạng neural
và các kỹ thuật thống kê lại thực sự dễ dàng thao tác với các tiêu chuẩn phân
chia (splitting criteria) trên cây quyết định: mỗi nhánh tƣơng ứng với từng
phân tách tập dữ liệu theo giá trị của thuộc tính đƣợc chọn để phát triển tại nút
đó. Các thuộc tính liên tục cũng dễ dàng phân chia bằng việc chọn ra một số
gọi là ngƣỡng trong tập các giá trị đã sắp xếp của thuộc tính đó. Sau khi chọn
đƣợc ngƣỡng tốt nhất, tập dữ liệu phân chia theo test nhị phân của ngƣỡng đó.
 Thể hiện rõ ràng những thuộc tính tốt nhất
Các thuật toán xây dựng cây quyết định đƣa ra thuộc tính mà phân chia
tốt nhất tập dữ liệu đào tạo bắt đầu từ nút gốc của cây. Từ đó có thể thấy
những thuộc tính nào là quan trọng nhất cho việc dự đoán hay phân lớp.
1.4. Ví dụ
David là quản lý của một câu lạc bộ đánh golf nổi tiếng. Anh ta đang có
rắc rối chuyện các thành viên đến hay không đến. Có ngày ai cũng muốn chơi

10

golf nhƣng số nhân viên câu lạc bộ lại không đủ phục vụ. Có hôm, không hiểu
vì lý do gì mà chẳng ai đến chơi, và câu lạc bộ lại thừa nhân viên.
Mục tiêu của David là tối ƣu hóa số nhân viên phục vụ mỗi ngày bằng
cách dựa theo thông tin dự báo thời tiết để đoán xem khi nào ngƣời ta sẽ đến
chơi golf. Để thực hiện điều đó, anh cần hiểu đƣợc tại sao khách hàng quyết
định chơi và tìm hiểu xem có cách giải thích nào cho việc đó hay không.
Vậy là trong hai tuần, anh ta thu thập thông tin về: Trời (outlook) (nắng
(sunny), nhiều mây (overcast) hoặc mƣa (raining)). Nhiệt độ (temperature)
bằng độ F. Độ ẩm (humidity). Có gió mạnh (wind) hay không. Và tất nhiên là
số ngƣời đến chơi golf vào hôm đó.
David thu đƣợc một bộ dữ liệu gồm 14 dòng và 5 cột.


11

Bảng 1.1: Dữ liệu của sân chơi golf
Day
Outlook
Temp
Humidity
Wind
Play
1
Sunny
Hot
High
Weak
No

2
Sunny
Hot
High
Strong
No
3
Overcast
Hot
High
Weak
Yes
4
Rain
Mild
High
Weak
Yes
5
Rain
Cool
Normal
Weak
No
6
Rain
Cool
Normal
Strong
Yes

7
Overcast
Cool
Normal
Weak
No
8
Sunny
Mild
High
Weak
Yes
9
Sunny
Cold
Normal
Weak
Yes
10
Rain
Mild
Normal
Strong
Yes
11
Sunny
Mild
Normal
Strong
Yes

12
Overcast
Mild
High
Strong
Yes
13
Overcast
Hot
Normal
Weak
Yes
14
Rain
Mild
High
Strong
No





12

Đây là cây quyết định kiểm tra khi nào chơi golf, khi nào không chơi.














Hình 1.2: Cây quyết định có chơi golf hay không
1.5. Thuật toán cây quyết định
Cây quyết định có các tính chất sau:
 Mỗi nút trong (internal node) biểu diễn một thuộc tính cần kiểm
tra giá trị (anattribute to be tested) đối với các tập thuộc tính.
 Nút lá (leaf node) hay còn gọi là nút trả lời biểu thị cho một lớp
các trƣờng hợp mà nhãn của nó là tên của lớp, nó biểu diễn một lớp.
 Nút nhánh (branch) từ một nút sẽ tƣơng ứng với một giá trị có
thể của thuộc tính gắn với nút đó.
 Nhãn (lable) của nút này là tên của thuộc tính và có một nhánh
nối nút này đến các cây con ứng với mỗi kết quả có thể có phép thử. Nhãn của
nhánh này là các giá trị của thuộc tính đó. Nút trên cùng gọi là nút gốc.



Overcast
Rain
Humidity
Strong
Normal
Wind


Weak
Sunny
High
Outlook
No
Yes
No
Yes
Yes
13










Hình 1.3: Mô tả cây quyết định
1.5.1. Xử lý dữ liệu
Trong bƣớc này dữ liệu đƣợc thu nhập ở dạng thô (nguồn dữ liệu thu
thập có thể là từ các kho dữ liệu hay nguồn thông tin internet). Trong giai
đoạn này dữ liệu cũng đƣợc tiền xử lý để biến đổi và cải thiện chất lƣợng dữ
liệu cho phù hợp với phƣơng pháp khai phá dữ liệu đƣợc chọn lựa.
Công việc cụ thể của bƣớc tiền xử lý dữ liệu gồm các công việc:
 Lọc thuộc tính (Filtering Attributes): Điền giá trị thiếu, làm trơn
dữ liệu nhiễu, định danh hoặc xóa ngoại lai, và khử tính không nhất quán.

 Lọc các mẫu (Filtering samples).
 Lọc các mẫu (instances, patterns): Thu đƣợc trình bày thu gọn
về kích thƣớc những sản xuất cùng hoặc tƣơng tự kết quả phân tích.
 Chuyển đổi dữ liệu (Transformation).
 Rời rạc hóa dữ liệu (Discretization): Bộ phận của rút gọn dữ
liệu nhƣng có độ quan trọng riêng, đặc biệt với dữ liệu số.
1.5.2. Tạo cây
Tạo cây quyết định chính là quá trình phân tích cơ sở dữ liệu, phân lớp
và đƣa ra dự đoán. Cây quyết định đƣợc tạo thành bằng cách lần lƣợt chia (đệ
quy) một tập dữ liệu thành các tập dữ liệu con, mỗi tập con đƣợc tạo thành
Nút trong
Các nhánh
Nút trong
Nút gốc
Nút lá
Nút lá
14

chủ yếu từ các phần tử của cùng một lớp. Lựa chọn thuộc tính để tạo nhánh
thông qua Entropy và Gain.
Học bằng cây quyết định cũng là một phƣơng pháp thông dụng trong
khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các
lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc
tính dẫn tới phân loại đó.
Một cây quyết định có thể đƣợc học bằng cách chia tập hợp nguồn
thành các tập con dựa theo một kiểm tra giá trị thuộc tính. Quá trình này đƣợc
lặp lại một cách đệ qui cho mỗi tập con dẫn xuất. Quá trình đệ qui hoàn thành
khi không thể tiếp tục thực hiện việc chia tách đƣợc nữa, hay khi một phân
loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất.
1.5.3. Tiêu chuẩn tách

Việc tìm các tiêu chí để đánh giá tìm điểm chia là rất quan trọng, chúng
đƣợc xem là một tiêu chuẩn “heuristic” để phân chia dữ liệu. Ý tƣởng chính
trong việc đƣa ra các tiêu chí trên là làm sao cho các tập con đƣợc phân chia
càng trở nên “trong suốt” (tất cả các bộ thuộc về cùng một nhãn) càng tốt.
Chọn thuộc tính sao cho việc phân lớp tập mẫu là tốt nhất. Nhƣ vậy cần
phải có một tiêu chuẩn để đánh giá vấn đề này. Có rất nhiều tiêu chuẩn đƣợc
đánh giá đƣợc sử dụng đó là: Lƣợng thông tin thu thêm IG (Information
Gain), thuật toán ID3 của John Ross Quilan.
Tiêu chuẩn tách 1 chiều (Univariate Splitting Criteria):Nghĩa là tách chỉ
dựa trên 1 thuộc tính.
Xét theo cấu trúc của mẫu dữ liệu thì có 3 tiêu chuẩn:
 Impurity-base Criteria: Khi tất cả các mẫu dữ liệu thuộc về 1
phân lớp, ta gọi đó là Purity. Ngƣợc lại, khi các mẫu dữ liệu tạo ra nhiều phân
lớp thì đó gọi là Impurity.
 Binary criteria Dùng để tạo cây quyết định nhị phân. Các tiêu
chuẩn thƣờng đƣợc sử dụng đối với tiêu chuẩn này là:
- Twoing Criterion
15

- Orthogonal (ORT) Criterion
- Kolmogorov–Smirnov Criterion
- AUC–Splitting Criteria
 Normalized impurity based criteria: Dùng tiêu chuẩn này khi
thuộc tính có nhiều giá trị hiện hành (dĩ nhiên các giá trị này phải thuộc miền
giá trị, ví dụ với 100 mẫu tin có 80 giá trị khác nhau của thuộc tính khi sử
dụng phép chiếu lên thuộc tính).
Tiêu chuẩn tách đa chiều: Khác với tách 1 chiều nghĩa là tách theo 1
thuộc tính, tiêu chuẩn tách đa chiều sử dụng kết hợp nhiều thuộc tính cùng lúc
để phân tách. Tuy nhiên, điều này sẽ ảnh hƣởng tới performance nên ít đƣợc
sử dụng.

1.5.4. Tiêu chuẩn dừng
Tập trung một số tiêu chuẩn dừng chung nhất đƣợc sử dụng trong cây
quyết định. Tiêu chuẩn dừng truyền thống sử dụng các tập kiểm tra, có thể
thay ngƣỡng nhƣ là giảm nhiễu, số các mẫu trong một nút, tỉ lệ các mẫu trong
nút, hay chiều sâu của cây.
Dƣới đây là một số tiêu chuẩn dừng thƣờng đƣợc sử dụng:
 Từng thuộc tính đã đƣợc đƣa vào dọc theo con đƣờng trên cây.
 Các mẫu huấn luyện ứng với nút lá có cùng giá trị thuộc tính
đích (chẳng hạn, chúng có entropy bằng 0).
 Tất cả các mẫu dữ liệu E thuộc về cùng một lớp duy nhất.
 Tất cả các mẫu có cùng giá trị thuộc tính.
1.5.5. Tỉa cây
 Phƣơng pháp tỉa cây trƣớc.
Theo phƣơng pháp này, quá trình tỉa cây đƣợc thực hiện ngay trong khi
dựng cây. Quá trình chia nhỏ một tập dữ liệu sẽ bị dừng nếu việc phân chia
này không đem lại hiệu quả. Ðể xác định đƣợc điểm dừng, cần đánh giá việc
tách tập dữ liệu theo một tiêu chuẩn nào đó nhƣ giá trị thông tin (information
16

gain), khả năng giảm sai số, Nếu kết quả đánh giá nhỏ hơn một ngƣỡng cho
trƣớc thì dừng quá trình tách tập dữ liệu và cây cho tập dữ liệu này chỉ là một
lá.
 Phƣơng pháp tỉa cây sau.
Khác với phƣơng pháp trên, quá trình tỉa cây sau chỉ đƣợc thực hiện khi
đã có một cây quyết định hoàn chỉnh. Phƣơng pháp này sẽ loại bỏ một số
phần trên cây nhằm tối thiểu hoá sai số dự đoán. Tỉa cây sau tuy gây ra tốn
kém về mặt thời gian và bộ nhớ do tạo ra các nút dƣ thừa nhƣng cây thu đƣợc
sau khi tỉa thƣờng đạt đƣợc độ chính xác phân lớp cao. Vì những lí do trên,
quá trình thu gọn cây thƣờng đƣợc thực hiện bằng phƣơng pháp tỉa cây sau.
Giai đoạn tỉa cây nhằm mục đích đơn giản hóa và khái quát hóa từ đó

làm tăng độ chính xác của cây quyết định bằng cách loại bỏ sự phụ thuộc vào
mức độ lỗi (noise) của dữ liệu đào tạo mang tính chất thống kê, hay những sự
biến đổi mà có thể là đặc tính riêng biệt của dữ liệu đào tạo. Giai đoạn này chỉ
truy cập dữ liệu trên cây quyết định đã đƣợc phát triển trong giai đoạn trƣớc
và quá trình thực nghiệm cho thấy giai đoạn này không tốn nhiều tài nguyên
tính toán, nhƣ với phần lớn các thuật toán, giai đoạn này chiếm khoảng dƣới
1% tổng thời gian xây dựng mô hình phân lớp.
1.6. Phát biểu bài toán
Ngân hàng TMCP Ngoại thƣơng Việt Nam (Vietcombank), đƣợc thành
lập và chính thức đi vào hoạt động ngày 01/4/1963. Trải qua hơn 50 năm xây
dựng và phát triển, Vietcombank đã có những đóng góp quan trọng cho sự ổn
định và phát triển của kinh tế đất nƣớc, phát huy tốt vai trò của một ngân hàng
đối ngoại chủ lực, phục vụ hiệu quả cho phát triển kinh tế trong nƣớc, đồng
thời tạo những ảnh hƣởng quan trọng đối với cộng đồng tài chính khu vực và
toàn cầu.
Ngày 22/09/2011, đã khai trƣơng hoạt động chi nhánh Vietcombank
Việt Trì, tỉnh Phú Thọ. Đây là chi nhánh thứ 76 trong hệ thống và là chi
17

nhánh đầu tiên của Vietcombank trên quê hƣơng đất Tổ cũng nhƣ các tỉnh
trung du vùng núi phía Bắc.
Từ một ngân hàng chuyên doanh phục vụ kinh tế đối ngoại,
Vietcombank ngày nay đã trở thành một ngân hàng đa năng, hoạt động đa lĩnh
vực, cung cấp cho khách hàng đầy đủ các dịch vụ tài chính hàng đầu trong
lĩnh vực thƣơng mại quốc tế; trong các hoạt động truyền thống nhƣ kinh
doanh vốn, huy động vốn, tín dụng, tài trợ dự án… cũng nhƣ mảng dịch vụ
ngân hàng hiện đại, kinh doanh ngoại tệ, các công vụ phái sinh, dịch vụ thẻ,
ngân hàng điện tử…
Trong một vài năm gần đây nền kinh tế của các nƣớc cũng nhƣ ở Việt
Nam đang bị suy thoái, đặc biệt là ngành ngân hàng, khách hàng luôn luôn là

nhân tố quan trọng quyết định sự tồn tài và phát triển của họ. Dựa vào hệ
thống quản lý quan hệ khách hàng, ngân hàng có thể thu thập đƣợc các thông
tin của khách hàng nhƣ thông tin về tài khoản, nhu cầu, liên lạc và các vấn đề
khác. Quan hệ khách hàng không những là một công nghệ mà còn là một
chiến lƣợc kinh doanh, trong đó bao gồm cả quản lý phòng ngừa rủi ro tín
dụng.
Tại ngân hàng thƣơng mại cổ phần Ngoại thƣơng chi nhánh Việt Trì, có
bài toán đặt ra là: Để phòng ngừa rủi ro cho vay tín dụng, các chuyên gia ngân
hàng thu thập các thông tin của khách hàng vay vốn, phân tích và đánh giá
các thông tin này để quyết định xem khách hàng nào đƣợc vay vốn hay
không.
Bảng dƣới đây đƣa ra một số thông tin của khách hàng:



18

Bảng 1.2: Bảng các thuộc tính của tập dữ liệu Dulieunganhang





×