Tải bản đầy đủ (.pdf) (79 trang)

Nghiên cứu một số kỹ thuật khai phá dữ liệu cho bài toán dự đoán rủi ro tín dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (943.55 KB, 79 trang )


ðẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ðẠI HỌC CÔNG NGHỆ











NGUYỄN VĂN TOÀN






NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU
CHO BÀI TOÁN DỰ ðOÁN RỦI RO TÍN DỤNG












LUẬN VĂN THẠC SĨ













Hà Nội - 2008



2


ðẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ðẠI HỌC CÔNG NGHỆ












Nguyễn Văn Toàn






NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU
CHO BÀI TOÁN DỰ ðOÁN RỦI RO TÍN DỤNG


Ngành: Công nghệ thông tin
Mã số: 1.01.10





LUẬN VĂN THẠC SĨ




NGƯỜI HƯỚNG DẪN KHOA HỌC

TS. Nguyễn ðức Dũng









Hà nội - 2008



8

MỤC LỤC
MỞ ðẦU 5

CHƯƠNG 1 - TỔNG QUAN KHAI PHÁ TRI THỨC TỪ DỮ LIỆU VÀ KHAI PHÁ
DỮ LIỆU 12

1.1 Giới thiệu khai phá tri thức từ dữ liệu và khai phá dữ liệu 12
1.2 Nhiệm vụ(task) khai phá dữ liệu 15
1.3 ðánh giá mô hình dự ñoán 16
1.4 Ứng dụng KDD và Datamining 18
CHƯƠNG 2 - BÀI TOÁN DỰ ðOÁN RỦI RO TÍN DỤNG 21


2.1. Bài toán dự ñoán rủi ro tín dụng 21
2.2. Thông tin về một khoản vay 22
2.2.1. Thông tin về khách hàng vay vốn 22
2.2.2. Thông tin về phương án sản xuất kinh doanh 23
2.2.3. Thông tin liên quan ñến tài sản bảo ñảm (TSBD) 24
2.2.4. Thông tin khác 24
2.3. Dữ liệu sử dụng cho bài toán 24
CHƯƠNG 3 - XỬ LÝ DỮ LIỆU DỰ ðOÁN RỦI RO TÍN DỤNG 25

3.1. Tiền xử lý dữ liệu 25
3.1.1. Công việc tiền xử lý dữ liệu 25
3.1.2. Tiền xử lý dữ liệu dự ñoán rủi ro tín dụng 30
3.2. Phương pháp lấy mẫu dữ liệu (Data sampling) 35
3.2.1. Phương pháp lấy mẫu dữ liệu 35
3.2.2. Lấy mẫu lên (Oversampling) 35
3.2.3. Lấy mẫu xuống (undersampling) 36
3.2.4. Kết hợp hai chiến lược trên 36
3.3. Hợp nhất các lớp của tập dữ liệu (Data merged) 36
CHƯƠNG 4 - DỰ ðOÁN RỦI RO TÍN DỤNG SỬ DỤNG 38

CÂY QUYẾT ðỊNH (C4.5) 38

4.1. Giới thiệu cây quyết ñịnh 38
4.1.1. Khái niệm 38
4.1.2. Các loại cây quyết ñịnh 38
4.1.3. Ví dụ thực hành 39
4.1.4. Xây dựng cây quyết ñịnh 40
4.2. Thuật toán C4.5 và ñặc ñiểm cây quyết ñịnh 41
4.2.1. Thuật toán C4.5 [17] 41

4.2.2. So sánh C4.5 với các phiên bản khác 45
4.2.3. ðặc ñiểm cây quyết ñịnh 46
4.3. Dự ñoán rủi ro tín dụng sử dụng cây quyết ñịnh (C4.5) 46
4.4. ðánh giá kết quả dự ñoán rủi ro tín dụng sử dụng cây quyết ñịnh (C4.5) 52
CHƯƠNG 5 - DỰ ðOÁN RỦI RO TÍN DỤNG SỬ DỤNG PHƯƠNG PHÁP QUY
NẠP LUẬT 58

5.1. Giới thiệu 58
5.2. Thuật toán CBA 59
5.3. Dự ñoán rủi ro tín dụng bằng CBA 65
5.4. ðánh giá kết quả dự ñoán rủi ro tín dụng 67


9

CHƯƠNG 6 - DỰ ðOÁN RỦI RO TÍN DỤNG SỬ DỤNG SUPPORT VECTOR
MACHINE 71

6.1. Giới thiệu Support Vector Machine 71
6.2. ðặc ñiểm của Support Vector Machine 73
6.3. Dự ñoán rủi ro tín dụng bằng Support Vector Machine 75
6.3.1. Lựa chọn tham số 75
6.3.2. Thực nghiệm với tập dữ liệu D1 76
6.3.3. Thực nghiệm với tập dữ liệu ñược hợp nhất lớp (D2) 77
6.4. ðánh giá kết quả dự ñoán rủi ro tín dụng bằng SVM 78
CHƯƠNG 7 - ðÁNH GIÁ CÁC KỸ THUẬT ðỐI VỚI BÀI TOÁN DỰ ðOÁN RỦI
RO TÍN DỤNG…… ……………………………………………………………… 79

TÀI LIỆU THAM KHẢO…………………………………………………………….82






10
BẢNG CÁC TỪ VIẾT TẮT

Thuật ngữ

Ý nghĩa
CBA Classification Based on Association – Phân loại dựa vào sự kết
hợp
CSDL Cơ sở dữ liệu
DM Data mining (Khai phá dữ liệu)
D1 Tập dữ liệu sau khi tiền xử lý
D2 Tập dữ liệu hợp nhất lớp thành 02 lớp A_B và C_D_E từ tập D1
KDD Knowledge Discovery in Database

(Khai phá tri thức từ dữ liệu)

SVM Support Vector Machine (máy véc-tơ hỗ trợ)
TSBD Tài sản bảo ñảm



11
BẢNG CÁC THUẬT NGỮ ANH-VIỆT
Tiếng Anh Tiếng Việt
Association Kết hợp
Classification And Regression

Tree – CART
Cây phân lớp hồi quy
Classification Phân lớp
Clustering Phân cụm
Classification Based on
Association
Phân loại dựa vào sự kết hợp
Bucket

Khối

Data mining Khai phá dữ liệu
Data cleaning Làm sạch dữ liệu
Data integration Tích hợp dữ liệu
Data merged Hợp nhất dữ liệu
Data sampling Lẫy mẫu dữ liệu
Data selection Lựa chọn dữ liệu
Data transformation Biến ñổi dữ liệu
Data reduction Thu gọn dữ liệu
Data discretization Rời rạc hóa dữ liệu
Data warehouse Kho dữ liệu
Decision tree Cây quyết ñịnh
Description Mô tả
Estimation Ước lượng
Imbalanced/Unbalanced data Dữ liệu phân bố không ñều/không cân bằng
Knowledge Discovery in Data Khai phá tri thức từ dữ liệu
Knowledge representation Biểu diễn tri thức
Mean-squared error sai số bình phương trung bình
Mean absolute error sai số tuyệt ñối trung bình
Rule Induction Quy nạp luật

Oversampling Lấy mẫu lên
Pattern evaluation ðánh giá các mẫu
Prediction Dự ñoán
Prediction Model Mô hình dự báo
Random oversampling Lấy mẫu lên ngẫu nhiên
Relative absolute error sai số tương ñối tuyệt ñối
Relative squared error Sai số bình phương tương ñối
Root mean-squared error Căn bậc hai sai số bình phương trung bình
Root relative squared error căn bậc hai sai số bình phương tương ñối
Synthetic Minority Over-
sampling Technique - SMOTE
Kỹ thuật lấy mẫu lên lớp thiểu số nhân tạo
Undersampling Lấy mẫu dưới



12
Chương 1 - TỔNG QUAN KHAI PHÁ TRI THỨC TỪ DỮ LIỆU
VÀ KHAI PHÁ DỮ LIỆU
1.1 Giới thiệu khai phá tri thức từ dữ liệu và khai phá dữ liệu
Hiện nay có nhiều ñịnh nghĩa về khai phá dữ liệu: theo Witten [2] khai phá dữ
liệu là quá trình khai phá các mẫu trong dữ liệu. Quá trình phải là tự ñộng hoặc bán tự
ñộng. Các mẫu khám phá phải có ý nghĩa. Còn theo Dunham[3] thì khai phá dữ liệu là
quá trình tìm kiếm thông tin ẩn chứa trong dữ liệu. Hay ñịnh nghĩa của Roiger thì khai
phá dữ liệu là quá trình tận dụng một hay một số kỹ thuật học máy ñể tự ñộng phân
tích và trích chọn tri thức từ dữ liệu bên trong CSDL.
Tựu chung lại thì khai phá dữ liệu (DM) là phân tích tập dữ liệu quan sát lớn ñể
tìm ra các mối liên hệ hiển nhiên và tổng quát hóa dữ liệu theo các cách ñể hiểu ñược
và có ý nghĩa cho chính dữ liệu. DM là một quá trình khai phá các tri thức mới và các
tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu ñã có. DM chỉ là một bước của

quá trình khai phá tri thức từ dữ liệu (KDD - Knowledge Discovery in Data Process).
Quá trình KDD
Quá trình khai phá tri thức từ dữ liệu bao gồm một số bước từ các bộ dữ liệu
ñến tri thức mới. Quá trình này bao gồm các bước lặp như sau [4]:

Hình 1.1 – Quá trình KDD.
• Làm sạch dữ liệu (Data cleaning): giai ñoạn này thực hiện việc loại bỏ các dữ
liệu nhiễu, dữ liệu không phù hợp khỏi bộ dữ liệu ñược sử dụng ñể khai phá tri
thức.


13
• Tích hợp dữ liệu (Data integration): trong giai ñoạn này nhiều nguồn dữ liệu,
thường là hỗn hợp sẽ ñược tổng hợp vào một nguồn phổ biến.
• Lựa chọn dữ liệu (Data selection): trong bước này, dữ liệu không liên quan ñược
phân tích ñể quyết ñịnh giữ lại hay loại bỏ khỏi tập dữ liệu. Giai ñoạn này thực
hiện việc lựa chọn các trường của mỗi mẫu dữ liệu ñể thực hiện khai phá tri thức
thu ñược kết quả cao.
• Biến ñổi dữ liệu (Data transformation): có thể coi như hợp nhất dữ liệu, ñây là
giai ñoạn mà dữ liệu ñược lựa chọn ñược biến ñổi vào các mẫu thích hợp cho quá
trình khai phá.
• Khai phá dữ liệu (Data mining): ñây là giai ñoạn quyết ñịnh của quá trình khai
phá tri thức từ dữ liệu. Các kỹ thuật ñược sử dụng trong giai ñoạn này nhằm lấy ra
các mẫu hữu ích tiềm ẩn.
• ðánh giá các mẫu (Pattern evaluation): trong bước này, các mẫu biểu diễn tri
thức hấp dẫn ñược nhận biết dựa trên các ñộ ño ñược ñưa ra.
• Biểu diễn tri thức (Knowledge representation): là giai ñoạn cuối của quá trình
khai phá tri thức từ dữ liệu, nhằm biểu diễn trực quan tri thức cho người dùng.
Bước quan trọng này sử dụng các kỹ thuật trực quan ñể giúp người sử dụng hiểu và
biểu diễn các kết quả khai phá dữ liệu.

Thông thường một số bước ñược gộp lại với nhau. Ví dụ làm sạch dữ liệu (data
cleaning) và tích hợp dữ liệu có thể ñược gộp với nhau thành giai ñoạn tiền xử lý dữ
liệu (preprocessing) ñể sinh ra một kho dữ liệu (data warehouse). Lựa chọn dữ liệu
(data selection) và biến ñổi dữ liệu (data transformation) có thể ñược gộp lại thành giai
ñoạn hợp nhất dữ liệu, các dữ liệu ñược lựa chọn sẽ ñược biến ñổi ñể tạo thành tập dữ
liệu có ñịnh dạng thống nhất.
KDD là một quá trình lặp. Mỗi khi tri thức khai phá ñược biểu diễn cho người
dùng, các ñộ ño ñánh giá có thể ñược nâng cao, khai phá có thể ñược cải tiến trong
tương lai, dữ liệu mới có thể ñược chọn hoặc biến ñổi trong tương lai, hoặc các nguồn
dữ liệu mới có thể ñược tích hợp nhằm thu ñược các kết quả khác, thích hợp hơn.
Quá trình Data mining
Quá trình khai phá dữ liệu chỉ là một giai ñoạn của khai phá tri thức trong
CSDL. Quá trình này phải ñáng tin cậy và có thể dùng lại ñối với người dùng ít hiểu
biết về Data mining. Do ñó quy trình chuẩn công nghiệp Cross cho khai phá dữ liệu
(CRISP-DM: CRoss Industry Standard Process for Data mining) ñã ñược một số tổ
chức, công ty (SPSS/ISL, NCR, Daimler-Benz, OHRA) hợp tác phát triển và công bố


14
năm 1996. CRISP là một tiến trình chuẩn miễn phí, ñược sử dụng ñể xử lý vấn ñề khai
phá dữ liệu trong thương mại và nghiên cứu [5].
CRISP-DM là một vòng ñời bao gồm 6 giai ñoạn, ñược biểu diễn như hình sau:

Hình 1.2 – Quá trình CRISP-DM.
• Tìm hiểu nghiệp vụ (Business understanding): ñây là giai ñoạn ñầu tiên của quá
trình chuẩn CRISP-DM, cũng có thể ñược hiểu là giai ñoạn tìm hiểu nghiên cứu.
 Phát biểu các mục tiêu của dự án và các yêu cầu rõ ràng trong phạm vi yêu
cầu nghiệp vụ hoặc nghiên cứu.
 Biến ñổi các mục tiêu và các giới hạn vào các mẫu phát biểu ñịnh nghĩa vấn
ñề của data mining. Chuẩn bị ñưa ra các chiến lược ñể ñạt ñược những mục

tiêu.
• Tìm hiểu dữ liệu (Data understanding): giai ñoạn này gồm các công việc chính
là:
 Tập hợp dữ liệu.
 Sử dụng các phân tích dữ liệu mang tính thăm dò ñể hiểu dữ liệu và khai
phá sự hiểu biết ban ñầu
 ðánh giá chất lượng dữ liệu


15
 Nếu ñược ñề nghị thì lựa chọn các tập con hấp dẫn mà có thể gồm các mẫu
có thể hữu ích.
• Chuẩn bị dữ liệu (Data preparation): chuẩn bị dữ liệu từ những dòng ban ñầu
ñến tập dữ liệu cuối cùng ñược sử dụng trong các giai ñoạn sau. Giai ñoạn này lựa
chọn các tình huống và các biến mà ta muốn phân tích mà liên quan ñến phân tích
của chúng ta. Thực hiện các biến ñổi trên các biến chắc chắn, nếu cần thiết. Làm
sạch các dòng dữ liệu ñã sẵn sàng cho các công cụ mô hình hóa
• Mô hình hóa (Modeling): giai ñoạn này bao gồm các công việc chính là:
 Lựa chọn và sử dụng các kỹ thuật mô hình hóa phù hợp.
 Chỉnh sửa các thiết lập mô hình ñể tối ưu các kết quả.
 Nếu cần thiết, lặp lại giai ñoạn chuẩn bị dữ liệu (preparation) ñể lấy các mẫu
của dữ liệu vào các yêu cầu cụ thể của một kỹ thuật khai phá dữ liệu.
• ðánh giá (Evaluation): ðánh giá chất lượng và hiệu lực của một hoặc nhiều mô
hình ñược thực hiện trong giai ñoạn mô hình hóa trước khi triển khai chúng cho sử
dụng trong thực tế. Xác ñịnh mô hình thực tế ñã thu ñược tập mục tiêu ở giai ñoạn
ñầu tiên hay chưa. ðưa vào một số khía cạnh quan trọng của vấn ñề nghiệp vụ hoặc
nghiên cứu mà chưa thu ñược thích ñáng. ði ñến các quyết ñịnh sử dụng các kết
quả khai phá dữ liệu.
• Triển khai (Deployment): Sử dụng các mô hình ñã tạo: Tạo các mô hình không có
nghĩa là hoàn thành dự án. Thí ñiểm một triển khai ñơn giản: sinh ra báo cáo. Thí

ñiểm triển khai phức tạp hơn: thực hiện quá trì khai phá dữ liệu song song trong bộ
phận khác.
1.2 Nhiệm vụ(task) khai phá dữ liệu
Một số bài toán chính mà khai phá dữ liệu thường thực hiện là [6]:
• Mô tả (Description)
• Ước lượng (Estimation)
• Dự ñoán (Prediction)
• Phân lớp (Classification)
• Phân cụm (Clustering)
• Kết hợp (Association)
Bài toán thông dụng nhất trong KPDL là Phân lớp (Classification). Với một tập
các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân
loại sẽ học ra bộ phân loại (classifier) dùng ñể phân các dữ liệu mới vào một trong


16
những lớp (còn gọi là loại) ñã ñược xác ñịnh trước. Nhận dạng cũng là một bài toán
thuộc kiểu Phân loại.
Các giải thuật Tìm luật liên kết (Association Rule) tìm kiếm các mối liên kết
giữa các phần tử dữ liệu, ví dụ như nhóm các món hàng thường ñược mua kèm với
nhau trong siêu thị.
Các kỹ thuật Phân cụm (Clustering) sẽ nhóm các ñối tượng dữ liệu có tính chất
giống nhau vào cùng một nhóm. Mỗi cụm là một tập hợp các ñối tượng dữ liệu giống
nhau và khác với các ñối tượng cụm khác. Phân cụm khác với phân lớp ở chỗ không
có biến ñích cho phân cụm. Phân cụm không cố gắng phân lớp, ước lượng, dự ñoán
giá trị của một biến ñích. Thay vào ñó, các thuật toán phân cụm sẽ tìm các mảng dữ
liệu có quan hệ với nhau tạo thành các nhóm hoặc các cụm.
Mô tả dữ liệu (Description): ñôi khi các nhà nghiên cứu và phân tích thường tìm
các cách ñể mô tả các mẫu và xu hướng của dữ liệu. Các mô hình khai phá dữ liệu có
thể trong suốt. Vì vậy kết quả của mô hình khai phá dữ liệu phải mô tả các mẫu rõ ràng

như hình cây, các luật hay ñồ họa.
Ước lượng (Estimation): tương tự như phân lớp ngoại trừ biến ñích là số thay vì
chủ ñề như phân lớp. Các mô hình ñược xây dựng sử dụng các bản ghi ñầy ñủ, nó
cung cấp giá trị của biến ñích như dự ñoán. Sau ñó các quan sát mới, ñánh giá giá trị
của biến ñích ñược thực hiện, dựa vào các giá trị của dự ñoán. Ví dụ: ước lượng số
bệnh nhân huyết áp cao trong bệnh viện dựa vào ñộ tuổi, giới tính, … Quan hệ giữa
bệnh nhân huyết áp cao và các biến dự ñoán trong tập huấn luyện sẽ cung cấp cho ta
mô hình ước lượng. Chúng ta có thể sử dụng mô hình này cho các trường hợp mới.
Dự ñoán (Prediction): Tương tự như phân lớp và ước lượng. Tuy nhiên dự ñoán
ñưa ra kết quả là trong tương lai. Bài toán dự ñoán rủi ro tín dụng trong luận văn là
một ví dụ của dự ñoán. Bất kỳ phương pháp và kỹ thuật nào sử dụng cho phân lớp và
ước lượng ñều có thể sử dụng(thích hợp) cho dự ñoán.
1.3 ðánh giá mô hình dự ñoán
ðể ñánh giá một mô hình dự ñoán người ta thường sử dụng một số ñộ ño như
bảng sau [7]:







17
ðộ ño Công thức
mean-squared error
n
apap
nn
22
11

)( )( −++−

root mean-squared error
n
apap
nn
2
11
)( )( −++−

mean absolute error
n
apap
nn
22
11
|| || −++−

relative squared error

=
−++−
−++−
i
i
n
nn
a
n
a

aaaa
apap
1
,
|| ||
)( )(
22
1
22
11

relative absolute error
22
1
22
11
|| ||
)( )(
aaaa
apap
n
nn
−++−
−++−

root relative squared error
|| ||
|| ||
1
11

aaaa
apap
n
nn
−++−

+
+


correlatinon coeffcient
1
))((
,

−−
=

n
aapp
S
SS
S
i
ii
PA
AP
PA

1

)(
,
1
)(
22


=


=


n
aa
S
n
pp
S
i
i
A
i
i
P

Bảng 1.1
- Các
ñộ


ñ
o
ñ
ánh giá mô hình d


ñ
oán.
Trong
ñ
ó,
p
i
là các giá tr

d


ñ
oán c

a mô hình và
a
i
là các giá tr

th

c t
ế

trong
t

p d

li

u.




Mean squared error - sai s

bình ph
ươ
ng trung bình


Mean absolute error - sai s

tuy

t
ñố
i trung bình


Root mean squared error - c
ă

n b

c hai sai s

bình ph
ươ
ng trung bình


Relative absolute error - sai s

t
ươ
ng
ñố
i tuy

t
ñố
i


Root relative squared error - c
ă
n b

c hai sai s

bình ph
ươ

ng t
ươ
ng
ñố
i
D

a vào ma tr

n Confusion, m

t s


ñộ

ñ
o (measure)
ñượ
c
ñư
a ra nh

m
ñ
ánh
giá m

t mô hình data mining
ñ

ã xây d

ng nh
ư
sau:
Ma tr

n Confusion:
D


ñ
oán là m

u tích
c

c
D


ñ
oán là m

u không
tích c

c
M


u tích c

c th

c t
ế
M

u tích c

c
ñ
úng (TP) M

u không tích c

c sai
(FN)
M

u không tích c

c
th

c t
ế

M


u tích c

c sai (FP) M

u tích c

c
ñ
úng (TN)


18


T

l

m

u tích c

c(Positive)
ñ
úng: TPrate = TP/(TP + FN)


T

l


m

u không tích c

c (Negative)
ñ
úng: TNrate = TN/(TN + FP)


T

l

m

u tích c

c sai: FPrate = FP/(TN + FP)


T

l

m

u không tích c

c sai: FPrate = FN/(TP + FN)



Giá tr

d


ñ
oán m

u tích c

c: PPvalue = TP/(TP + FP)


Giá tr

d


ñ
oán m

u không tích c

c: NPvalue = TN/(TN + FN)
M

t s


các
ñộ

ñ
o khác là:


F-measure:
N
ế
u ch

các l

p tích c

c
ñượ
c xem xét thì hai
ñộ

ñ
o quan tr

ng là TPrate
và PPvalue. TPrate
ñượ
c
ñị
nh ngh

ĩ
a là recall (R): R = TPrate = TP/(TP + FN)
Giá tr

d


ñ
oán m

u tích c

c
ñượ
c
ñị
nh ngh
ĩ
a là precision (P): P =
PPvalue = TP/ (TP + FP). F-measure (F)
ñượ
c
ñề
xu

t
ñể
k
ế
t h


p hai
ñộ

ñ
o trên
thành m

t giá tr

trung bình: F-measure = 2RP/(R +P).
V

nguyên t

c, F-measure bi

u di

n m

t trung bình
ñ
i

u hòa gi

a recall
và precision: F-measure = 2/(1/R + 1/P)
M


t F-measure có giá tr

cao s

b

o
ñả
m c

hai giá tr

recall và precision
ñề
u cao.


ROC Area: di

n tích c

a vùng ROC (Receiver Operating Characteristic)
1.4 Ứng dụng KDD và Datamining
Khai phá d

li

u
ñượ

c

ng d

ng trong nhi

u l
ĩ
nh v

c khoa h

c khác nhau nh

m
khai thác ngu

n d

li

u phong phú
ñượ
c l
ư
u tr

trong các h

th


ng thông tin. Tùy theo
b

n ch

t c

a t

ng l
ĩ
nh v

c, vi

c v

n d

ng khai phá d

li

u có nh

ng cách ti
ế
p c


n
khác nhau. DM c
ũ
ng
ñượ
c v

n d

ng hi

u qu


ñể
gi

i quy
ế
t các bài toán ph

c t

p trong
các ngành
ñ
òi h

i k


thu

t cao [10], nh
ư
tìm ki
ế
m m

d

u t



nh vi

n thám, xác
ñị
nh
các vùng gãy trong

nh
ñị
a ch

t
ñể
d



ñ
oán thiên tai, c

nh báo h

ng hóc trong các h


th

ng s

n xu

t,… Các bài toán này
ñ
ã
ñượ
c gi

i quy
ế
t t

khá lâu b

ng các k

thu


t
nh

n d

ng hay xác su

t nh
ư
ng
ñượ
c gi

i quy
ế
t v

i yêu c

u cao h
ơ
n b

i các k

thu

t
c


a DM. Phân nhóm và d


ñ
oán là nh

ng công c

r

t c

n thi
ế
t cho vi

c qui ho

ch và
phát tri

n các h

th

ng qu

n lý và s

n xu


t trong th

c t
ế
. Các k

thu

t DM
ñ
ã
ñượ
c áp
d

ng thành công trong vi

c d


ñ
oán t

i s

d

ng
ñ

i

n n
ă
ng cho các công ty cung c

p
ñ
i

n, l
ư
u l
ượ
ng vi

n thông cho các công ty
ñ
i

n tho

i, m

c
ñộ
tiêu th

s


n ph

m cho
các nhà s

n xu

t, giá tr

c

a s

n ph

m trên th

tr
ườ
ng cho các công ty tài chính hay
phân nhóm các khách hàng ti

m n
ă
ng, [10] Ngoài ra, KPDL còn
ñượ
c áp d

ng cho



19
các v

n
ñề
xã h

i nh
ư
phát hi

n t

i ph

m hay t
ă
ng c
ườ
ng an ninh xã h

i. Vi

c v

n
d

ng thành công

ñ
ã mang l

i nh

ng hi

u qu

thi
ế
t th

c cho các ho

t
ñộ
ng di

n ra hàng
ngày trong
ñờ
i s

ng [11].
Trong l
ĩ
nh v

c tài chính ngân hàng, data mining

ñượ
c

ng d

ng cho các phân
tích r

i ro tín d

ng, phát hi

n gian l

n, ti
ế
p th

, quan h

khách hàng, d

báo t

giá
ngo

i t

, qu


n lý r

i ro tác nghi

p, làm s

ch d

li

u, ví d

[8, 12, 13]:


H

th

ng
ñ
ánh giá r

i ro tín d

ng Falcon c

a HNC inc., s


d

ng t

l

l

n
các ngân hàng bán l


ñể
xác
ñị
nh các giao d

ch nghi ng

th

tín d

ng.


H

th


ng Skicat c

a JDL, các nhà thiên v
ă
n h

c s

d

ng
ñể
xác
ñị
nh và
phân l

p các
ñố
i t
ượ
ng thiên v
ă
n.


H

th


ng FAIS c

a FINCEN(Financial Crimes Enforcement Network) xác
ñị
nh các giao d

ch tài chính mà có th

ch

ra r

ng là hành
ñộ
ng r

a ti

n…


Ngân hàng UBS
ñ
ã nghiên c

u s

d

ng data mining

ñể
phát tri

n các

ng
d

ng cho vi

c Marketing, r

i ro tín d

ng, qu

n lý r

i ro và làm s

ch d

li

u;


Công ty StatSoft
ñ
ã s


d

ng k

thu

t data mining
ñể
phát tri

n các công c


h

tr

trong ho

t
ñộ
ng tài chính và ngân hàng;


Ngân hàng Dexia s

d

ng data mining

ñể
t

o m

t mô hình cho vi

c bán
hàng chéo và nâng cao hi

u qu

c

a vi

c bán hàng;


Ngân hàng HSBC c

a M


ñ
ã s

d

ng các công c


SPSS(các công c

s


d

ng data mining) cho vi

c m

r

ng quan h

v

i khách hàng, gi

m chi phí
ti
ế
p th

, ti
ế
p th



ñế
n v

i khách hàng nhanh h
ơ
n,
Theo k
ế
t qu

th
ă
m dò c

a Kdnuggets, Data mining
ñượ
c

ng d

ng nhi

u nh

t
trong l
ĩ
nh v

c ngân hàng,

ñồ
ng th

i l
ĩ
nh v

c

ng d

ng Data mining thành công nh

t
c
ũ
ng là l
ĩ
nh v

c ngân hàng, C

th

nh
ư
sau:













20




Hình 1.3 -
Th
ă
m dò

ng d

ng Data mining, 08/2004 c

a Kdnuggets.


Hình 1.4 -
Th
ă
m dò


ng d

ng data mining thành công, 2005 c

a Kdnuggets.



21
Chương 2 - BÀI TOÁN DỰ ðOÁN RỦI RO TÍN DỤNG
2.1. Bài toán dự ñoán rủi ro tín dụng
R

i ro tín d

ng có th


ñượ
c hi

u là nguy c
ơ
m

t ng
ườ
i
ñ

i vay không th

tr


ñượ
c g

c và/ho

c lãi
ñ
úng th

i h

n quy
ñị
nh (v

n

). Hi

n nay, các ngân hàng th
ươ
ng
m

i s


d

ng khái ni

m nhóm n


ñể
phân lo

i m

c
ñộ
r

i ro và trích l

p d

phòng r

i
ro cho các kho

n vay.
Theo quy
ñị
nh phân lo


i n

hi

n hành c

a Ngân hàng Nhà N
ướ
c (NHNN): T


ch

c tín d

ng th

c hi

n phân lo

i n

theo n
ă
m (05) nhóm nh
ư
sau:
a)


Nhóm 1 (N


ñủ
tiêu chu

n) g

m:
-

Các kho

n n

trong h

n và t

ch

c tín d

ng
ñ
ánh giá là có kh

n
ă

ng
thu h

i
ñầ
y
ñủ
c

g

c và lãi
ñ
úng h

n;
-

Các kho

n n

quá h

n d
ướ
i 10 ngày và t

ch


c tín d

ng
ñ
ánh giá là
có kh

n
ă
ng thu h

i
ñầ
y
ñủ
g

c và lãi b

quá h

n và thu h

i
ñầ
y
ñủ

g


c và lãi
ñ
úng th

i h

n còn l

i;
b)

Nhóm 2 (N

c

n chú ý):
-

Các kho

n n

quá h

n t

10 ngày
ñế
n 90 ngày;
-


Các kho

n n


ñ
i

u ch

nh k

h

n tr

n

l

n
ñầ
u (
ñố
i v

i khách hàng là
doanh nghi


p, t

ch

c thì t

ch

c tín d

ng ph

i có h

s
ơ

ñ
ánh giá
khách hàng v

kh

n
ă
ng tr

n



ñầ
y
ñủ
n

g

c và lãi
ñ
úng k

h

n
ñượ
c
ñ
i

u ch

nh l

n
ñầ
u);
c)

Nhóm 3 (N


d
ướ
i tiêu chu

n):
-

Các kho

n n

quá h

n t

91 ngày
ñế
n 180 ngày;
-

Các kho

n n

c
ơ
c

u l


i th

i h

n tr

n

l

n
ñầ
u, tr

các kho

n n


ñ
i

u ch

nh k

h

n tr


n

l

n
ñầ
u phân lo

i vào nhóm 2 theo quy
ñị
nh
t

i ph

n b

trên;
-

Các kho

n n


ñượ
c mi

n ho


c gi

m lãi do khách hàng không
ñủ
kh


n
ă
ng tr

lãi
ñầ
y
ñủ
theo h

p
ñồ
ng tín d

ng;
d)

Nhóm 4 (N

nghi ng

):
-


Các kho

n n

quá h

n t

181 ngày
ñế
n 360 ngày;
-

Các kho

n n

c
ơ
c

u l

i th

i h

n tr


n

l

n
ñầ
u quá h

n d
ướ
i 90 ngày
theo th

i h

n tr

n


ñượ
c c
ơ
c

u l

i l

n

ñầ
u;
-

Các kho

n n

c
ơ
c

u l

i th

i h

n tr

n

l

n th

hai;


22

e)

Nhóm 5 (N

có kh

n
ă
ng m

t v

n):
-

Các kho

n n

quá h

n trên 360 ngày;
-

Các kho

n n

c
ơ

c

u l

i th

i h

n tr

n

l

n
ñầ
u quá h

n t

90 ngày
tr

lên theo th

i h

n tr

n



ñượ
c c
ơ
c

u l

i l

n
ñầ
u;
-

Các kho

n n

c
ơ
c

u l

i th

i h


n tr

n

l

n th

hai quá h

n theo th

i
h

n tr

n


ñượ
c c
ơ
c

u l

i l

n th


hai;
-

Các kho

n n

c
ơ
c

u l

i th

i h

n tr

n

l

n th

ba tr

lên, k


c

ch
ư
a
b

quá h

n ho

c
ñ
ã quá h

n;
-

Các kho

n n

khoanh, n

ch

x

lý;
Các nhóm n


1, 2, 3, 4 hay 5
ñ
ôi khi
ñượ
c ánh x

thành các nhóm n

A, B, C,
D hay E t
ươ
ng

ng [14].
Nh
ư
v

y, m

i kho

n vay sau ngày
ñ
áo h

n
ñề
u

ñượ
c phân lo

i vào m

t trong
n
ă
m nhóm n

trên. M

i nhóm n

bi

u di

n m

t m

c
ñộ
r

i ro c

a kho


n vay
ñ
ó. Vì
v

y trong lu

n v
ă
n này, tôi s

d

ng nhóm n

c

a kho

n vay
ñể
bi

u di

n m

c
ñộ
r


i ro
c

a kho

n vay
ñ
ó. Bài toán d


ñ
oán r

i ro tín d

ng là vi

c d


ñ
oán nhóm n


ñượ
c
phân lo

i sau ngày

ñ
áo h

n c

a các kho

n vay.
M

i kho

n vay bao g

m các thông tin liên quan
ñế
n khách hàng, tài s

n b

o
ñả
m c

a kho

n vay, ph
ươ
ng án s


n xu

t kinh doanh và các thông tin khác liên quan
ñế
n kho

n vay. M

c
ñ
ích c

a bài toán là d

a vào các thông tin
ñ
ó
ñể

ñư
a ra d


ñ
oán
nhóm n

(nhóm 1 hay nhóm A, nhóm 2 hay nhóm B, nhóm 3 hay nhóm C, nhóm 4
hay nhóm D, ho


c nhóm 5 hay nhóm E) mà kho

n vay
ñ
ó
ñượ
c phân lo

i sau ngày
ñ
áo
h

n.
2.2. Thông tin về một khoản vay
Trong lu

n v
ă
n này, tôi s

d

ng m

t t

p d

li


u c

a m

t l

p khách hàng là
doanh nghi

p và ch

ch

n các kho

n vay có tài s

n b

o
ñả
m c

a Ngân hàng cho m

c
ñ
ích nghiên c


u.
Thông tin chính c

a kho

n vay bao g

m thông tin v

khách hàng vay v

n,
thông tin v

tài s

n b

o
ñả
m và thông tin liên quan
ñế
n ph
ươ
ng án s

n xu

t kinh
doanh. Nh


ng thông tin này c

a m

t kho

n vay là r

t nhi

u. Tuy nhiên tôi ch

l

a ch

n
nh

ng thông có th



nh h
ưở
ng
ñế
n r


i ro c

a kho

n vay, còn nh

ng thông tin khác
ñượ
c l
ượ
c b

kh

i t

p d

li

u s

d

ng cho bài toán. Nh

ng thông tin liên quan
ñế
n
kho


n vay
ñượ
c s

d

ng cho bài toán bao g

m:
2.2.1. Thông tin về khách hàng vay vốn
Nh

ng thông tin liên quan
ñế
n khách hàng vay v

n bao g

m:


23


Lo

i hình doanh nghi

p c


a khách hàng: là doanh nghi

p(DN) nhà n
ướ
c trung
ươ
ng, DN nhà n
ướ
c
ñị
a ph
ươ
ng, DN t

p th

, DN t
ư
nhân, DN n
ướ
c ngoài,…

ðị
a ch

c

a khách hàng: là t


nh/thành ph

khách hàng, ví d

: thành ph

H

Chí
Minh, thành ph

Hà n

i, …


Thành ph

n kinh t
ế
: là thành ph

n kinh t
ế
c

a khách hàng, nh
ư
: Kinh t
ế

nhà
n
ướ
c trung
ươ
ng, Kinh t
ế
nhà n
ướ
c
ñị
a ph
ươ
ng,…


Ngành kinh t
ế
: là ngành kinh t
ế
c

a khách hàng, nh
ư
: v

n t

i, nhà hàng, …


ð
ánh giá khách hàng: là
ñ
ánh giá c

a Ngân hàng v

khách hàng, nh
ư
: Khách
hàng
ñặ
c bi

t, Khách hàng t

t, Khách hàng trung bình,…


Khách hàng chi
ế
n l
ượ
c c

a ngân hàng: là khách hàng chi
ế
n l
ượ
c c


a ngân hàng
hay không, nh
ư
“Yes” là khách hàng chi
ế
n l
ượ
c còn “No” là khách hàng không
ph

i là khách hàng chi
ế
n l
ượ
c.


Khách hàng có quan h

v

i nhi

u t

ch

c tín d


ng:
ñể
phân bi

t khách hàng có
quan h

v

i nhi

u t

ch

c tín d

ng (“Yes”) hay ch

có quan h

tín d

ng v

i
Ngân hàng (“No”).


Khách hàng v

ượ
t gi

i h

n tín d

ng: là thu

c tính
ñể
phân bi

t khách hàng
ñ
ã
v
ượ
t h

n m

c do Ngân hàng c

p phép ban
ñầ
u (“Yes”) hay còn n

m trong h


n
m

c cho phép c

a khách hàng (“No”).
2.2.2. Thông tin về phương án sản xuất kinh doanh
Thông tin v

ph
ươ
ng án s

n xu

t kinh doanh c

a m

i kho

n vay bao g

m:



S

n ph


m c

a kho

n vay: là s

n ph

m cho vay do Ngân hàng cung c

p cho
khách hàng nh
ư
: cho vay ph

c v

tiêu dùng, cho vay ph

c v

y t
ế
, cho vay
ñầ
u
t
ư
ch


ng khoán, cho vay
ñầ
u t
ư
b

t
ñộ
ng s

n,…


Th

i h

n c

a kho

n vay: là th

i h

n c

a kho


n vay và
ñế
n ngày cu

i cùng c

a
th

i h

n khách hàng ph

i tr


ñầ
y
ñủ
c

g

c và lãi. Ví d

: 3 tháng, 4 tháng, 5
tháng, ….


Lo


i
ñồ
ng ti

n c

a kho

n vay: là lo

i ti

n mà khách hàng nh

n vay t

Ngân
hàng, nh
ư
: VN
ð
, USD, EUR, …


S

ti

n xin vay: là s


ti

n khách hàng xin vay và
ñượ
c ngân hàng ch

p nh

n cho
vay. Ví d

: 1 t

VND, 2 t

VND, …


M

c
ñ
ích vay v

n: là m

c
ñ
ích vay v


n c

a khách hàng, nh
ư
chi phí ph

c v


s

n xu

t, tiêu dùng, kinh doanh, …


24


Kho

n vay tu

n hoàn: kho

n vay có ph

i là kho


n vay tu

n hoàn (“R”) hay
không (“N”).


Hình th

c b

o
ñả
m: kho

n vay
ñượ
c b

o
ñả
m m

t ph

n(“P”), hay toàn
ph

n(“S”).
2.2.3. Thông tin liên quan ñến tài sản bảo ñảm (TSBD)
Thông tin liên quan

ñế
n tài s

n b

o
ñả
m bao g

m:


Nhóm TSBD: là nhóm tài s

n
ñượ
c quy
ñị
nh trong h

th

ng Ngân hàng, nh
ư
:
nhóm máy móc dây chuy

n, nhóm tài s

n b


t
ñộ
ng s

n,…


Ph

n tr
ă
m b

o
ñả
m: là ph

n
ñượ
c tính trên giá tr

TSBD
ñể
tính s

ti

n b


o
ñả
m
cho kho

n vay nh
ư
: 50%, 70%, 100%.
2.2.4. Thông tin khác
Ngoài các thông tin trên, m

i kho

n vay còn có m

t s

thông tin khác có th



nh h
ưở
ng
ñế
n m

c
ñộ
r


i ro c

a kho

n vay là Chi nhánh cho vay: là chi nhánh c

a
ngân hàng th

c hi

n vi

c cho khách hàng vay v

n.
2.3. Dữ liệu sử dụng cho bài toán
Trong lu

n v
ă
n này, tôi l

y ng

u nhiên 32,393 kho

n vay
ñ

ã
ñượ
c phân lo

i sau
ngày
ñ
áo h

n trong d

li

u c

a Ngân hàng. T

p d

li

u này không ph

n ánh chính xác
toàn b

d

li


u c

a Ngân hàng, tuy nhiên s

phân b

gi

a các nhóm n

t
ươ
ng
ñố
i
gi

ng v

i s

phân b

c

a toàn b

d

li


u.
ðặ
c
ñ
i

m c

a d

li

u: T

l

n

x

u (n

nhóm 3, 4 và 5) c

a Ngân hàng công
th
ươ
ng Vi


t Nam luôn

m

c th

p, c

th

là cu

i n
ă
m 2007 t

l

n

x

u là 1.02 %
[15]. M

c dù d
ư
n

c


a t

ng kho

n vay là khác nhau, nh
ư
ng v

i
ñặ
c
ñ
i

m trên ta có
th

nh

n th

y r

ng s

kho

n vay có nhóm n


1 và 2 s

chi
ế
m ch

y
ế
u, còn s

kho

n
vay có nhóm n

3, 4 và 5 s

chi
ế
m t

l

r

t th

p. Vì v

y t


p d

li

u c

a bài toán s


d

li

u không cân b

ng (imbalanced data).
Bài toán d


ñ
oán r

i ro tín d

ng ph

i x

lý trên t


p d

li

u không cân b

ng.
Nên vi

c áp d

ng các k

thu

t khai phá d

li

u cho bài toán c

n xem xét
ñế
n khía c

nh
d

li


u không cân b

ng.



25
Chương 3 - XỬ LÝ DỮ LIỆU DỰ ðOÁN RỦI RO TÍN DỤNG
3.1. Tiền xử lý dữ liệu
D

li

u
ñượ
c s

d

ng
ñể
khai phá d

li

u th
ườ
ng
ñượ

c l

y t

nhi

u ngu

n khác
nhau;
ñượ
c l
ư
u tr

trong nhi

u n
ă
m, trên các thi
ế
t b

khác nhau;
ñị
nh d

ng d

li


u có
th

khác nhau.
ð
i

u
ñ
ó d

n
ñế
n d

li

u có th

không
ñầ
y
ñủ
, nhi

u ho

c mâu thu


n. Ví
d

d

li

u có th

g

m:


Các tr
ườ
ng d

li

u l

i th

i ho

c d
ư
th


a,


Các giá tr

thi
ế
u,


Outliers,


D

li

u trong m

t bi

u m

u không thích h

p cho các mô hình khai phá d

li

u,



Các giá tr

không phù h

p v

i chính sách ho

c ý ngh
ĩ
a thông th
ườ
ng.
Trong khi
ñ
ó, ch

t l
ượ
ng d

li

u là chìa khóa thành công c

a khai phá d

li


u.
Vì v

y
ñể
nâng cao
ñộ
chính xác c

a khai phá d

li

u, chúng ta ph

i th

c hi

n ti

n x


lý d

li

u nh


m t
ă
ng ch

t l
ượ
ng c

a d

li

u ph

c v

công vi

c khai phá. Dorian Pyle
ñ
ã
ñư
a ra
ñ
ánh giá r

ng ti

n x


lý d

li

u chi
ế
m kho

ng 60% trên t

ng th

i gian c

a c


quá trình khai phá d

li

u [16].
3.1.1. Công việc tiền xử lý dữ liệu
Quá trình ti

n x

lý d


li

u bao g

m 4 công vi

c chính là: làm s

ch d

li

u, tích
h

p và bi
ế
n
ñổ
i d

li

u, rút ng

n d

li

u và r


i r

c hóa d

li

u (Data discretization).

Hình 3.1 –
Mô ph

ng các công vi

c ti

n x

lý d

li

u.



26

Làm sạch dữ liệu
Trong th


c t
ế
, d

li

u th
ườ
ng không
ñầ
y
ñủ
nh
ư
giá tr

thi
ế
u, thu

c tính thi
ế
u,
ho

c ch

ch


a d

li

u k
ế
t h

p l

i; d

li

u nhi

u g

m l

i ho

c outlier; d

li

u mâu
thu

n nh

ư
s

không nh

t quán c

a cùng m

t tr
ườ
ng d

li

u. Vì v

y chúng ta c

n ph

i
làm s

ch d

li

u. Làm s


ch d

li

u bao g

m m

t s

các công vi

c nh
ư
sau:
Xử lý các giá trị thiếu
: có r

t nhi

u ph
ươ
ng pháp
ñể
x

lý các giá tr

thi
ế

u trong t

p
d

li

u nh
ư
:


S

d

ng giá tr

trung bình c

a thu

c tính


S

d

ng giá tr


trung bình c

a thu

c tính cho t

t c

các ví d

thu

c cùng m

t
l

p


S

d

ng giá tr

có th

x


y ra nh

t d

a trên d

li

u hi

n t

i (thông qua cây quy
ế
t
ñị
nh, Bayesian, …). Ví d

: giá tr

nào có th

x

y ra nh

t c

a thu


c tính l
ươ
ng
c

a ng
ườ
i có
ñộ
tu

i x và trình
ñộ
y d

a trên các d

li

u khác hi

n có?
Tìm ra dữ liệu nhiễu:


S

d


ng bi

u
ñồ
d

li

u (Histogram): phân tích s

phân b

d

li

u


Phân tích c

m: phân tích d

li

u
ñể
tìm ra nh

ng b


n ghi n

m ngoài m

t c

m
b

t k

c

a t

p d

li

u.


H

i quy: s

d

ng các hàm h


i quy
Làm phẳng dữ liệu nhiễu: (Smoothing Noisy Data)



Binning: s

p x
ế
p d

li

u vào trong các kh

i (Buckets)
Ví d

:

B
ướ
c 1: chia các giá tr


ñượ
c s

p x

ế
p vào 3 bin có kích th
ướ
c b

ng
nhau.

B
ướ
c 2: làm ph

ng b

ng các giá tr

trung bình/
ñườ
ng biên c

a bin

gi

m các giá tr

riêng bi

t và tránh outlier


4, 8, 15, 21, 21, 24, 25, 28, 34

Bin 1: 4, 8, 15

Bin 2: 21, 21, 24

Bin 3: 25, 28, 34


Làm ph

ng theo giá tr

trung bình c

a bin ta có:

Bin 1: 9, 9, 9


27

Bin 2: 22, 22, 22

Bin 3: 29, 29, 29


Làm ph

ng theo

ñườ
ng biên ta có:

Bin 1: 4, 4, 15

Bin 2: 21, 21, 24

Bin 3: 25, 25, 34


Concept Hierarchy: ví d

bi

u di

n các giá tr

s

c

a tr
ườ
ng tu

i là tr

, trung
niên và già.



Lo

i b

outlier: outlier là d

li

u n

m ngoài ph

m vi ho

c không nh

t quán v

i
d

li

u còn l

i.
ðể
th


c vi

c lo

i b

các outlier, ng
ườ
i ta th
ườ
ng s

d

ng các
ph
ươ
ng pháp:

S

d

ng bi

u
ñồ
d


li

u

Phân c

m d

li

u:
ñể
tìm ra các c

m và tìm ra các giá tr

n

m ngoài
các c

m. Nh
ư
hình v

mô ph

ng d
ướ
i

ñ
ây:

Hình 3.2 -
Minh h

a phân c

m d

li

u


H

i quy: tìm
ñườ
ng
ñ
i

u ch

nh t

t nh

t cho các

ñ
i

m d

li

u hi

n t

i.
Các
ñ
i

m d

li

u không kh

p v

i
ñườ
ng trên là outler.
Ví d

: y = x là

ñườ
ng
ñ
i

u ch

nh t

t nh

t cho d

li

u hi

n t

i, t


ñ
ó s

nh

n th

y 3

ñ
i

m là outlier. Nh
ư
trong hình v

sau:


28

Hình 3.3 -
Bi

u di

n tìm Outlier b

ng h

i quy

Xử lý dữ liệu mâu thuẫn
-

S

d


ng các ph

thu

c hàm
ñ
ã bi
ế
t: ví d

item# -> Item
-

Duy

t l

i tích h

p d

li

u, vì có th

m

t s

mâu thu


n v

n t

n t

i do tên khác
nhau c

a cùng thu

c tính


Tích h

p d

li

u
D

li

u
ñượ
c l


y t

nhi

u ngu

n khác nhau, nên có th

:
-

Cùng khái ni

m nh
ư
ng khác tên thu

c tính
-

Cùng giá tr

nh
ư
ng bi

u di

n khác nhau
-


L

p l

i trong các ngu

n khác nhau

D

n
ñế
n d

li

u mâu thu

n và d
ư
th

a
Vì v

y, c

n ph


i tích h

p d

li

u
ñể
h

p nh

t các ngu

n khác nhau vào m

t kho,
th
ườ
ng là data warehouse. Các ph
ươ
ng pháp th
ườ
ng
ñượ
c s

d

ng là:

-

S

d

ng metadata
-

Phân tích s

t
ươ
ng quan (
ñ
ánh giá s

áp
ñả
o c

a m

t thu

c tính v

i thu

c tính

khác)


Bi
ế
n
ñổ
i d

li

u
-

Ph

m v

các giá tr

c

a các thu

c tính (
ñặ
c tính) khác nhau, d

n
ñế

n m

t thu

c
tính có th

áp
ñả
o thu

c tính khác.
-

Gi

i pháp: chu

n hóa nh
ư
chia t

l

các giá tr

d

li


u trong m

t dãy nh
ư
[0
1], [-1 1] ng
ă
n c

n các thu

c có nhi

u giá tr

h
ơ
n v

i m

t ph

m vi l

n. ví d


“l
ươ

ng” có ph

m vi d

li

u l

n h
ơ
n nhi

u so v

i các thu

c tính nh
ư
“tu

i”. M

t
s

ph
ươ
ng pháp th
ườ
ng

ñượ
c s

d

ng là:
-

Co dãn giá tr

d

li

u vào m

t dãy b

ng vi

c s

d

ng m

t s

ph
ươ

ng pháp nh
ư
:
Min-Max, Z-Score và co dãn th

p phân.


29
Chu

n hóa d

li

u Min-Max: bi
ế
n
ñổ
i tuy
ế
n tính dãy
ñầ
u vào ban
ñầ
u vào trong
m

t dãy d


li

u ch


ñị
nh m

i (c

th

0-1).
min')min'(max'
min
max
min
'
+−


=
y
y
Giá tr

nh

nh


t c
ũ

ñượ
c ánh x

t

i giá tr

nh

nh

t m

i, min’; Giá tr

l

n nh

t
c
ũ

ñượ
c ánh x

t


i giá tr

l

n nh

t m

i, max’; y là giá tr

ban
ñầ
u và y’ là giá tr

m

i
Ví d

: gi

s

giá tr

c
ũ

ñượ

c s

p x
ế
p t

1-100, ta s

thu v

dãy giá tr

t
ươ
ng

ng
t

5
ñế
n 10 nh
ư
sau:
y’ = y/20 + 5
y=0 -> y’=5,…

-

Chu


n hóa d

li

u Z-Score: h

u ích khi min và max không bi
ế
t ho

c outlier tr

i
h
ơ
n giá tr

min-max. M

c
ñ
ích là h

u h
ế
t d

li


u s

l

ch v

i d

li

u c
ũ
v

i
ñộ

l

ch chu

n. N
ế
u ph

n l

n d

li


u n

m kho

ng 50
ñế
n 100, nh
ư
ng ta có m

t vài
ñ
i

m d

li

u ngoài dãy
ñ
ó, z-score s

nén h

u h
ế
t d

li


u vào dãy nh

h
ơ
n.
std
meany
y

='


-

Chu

n hóa d

li

u co dãn th

p phân: Chia giá tr

cho 10
n
, trong
ñ
ó n là s


ch


s

c

a giá tr

l

n nh

t
Y’=y/10
n

Ví d

: X=900 là giá tr

l

n nh

t -> n=3 => 900 co l

i thành 0.009



Rút ng

n d

li

u
-

V

i s

l
ượ
ng l

n d

li

u d

n
ñế
n gi

m hi


u qu

và phân tích khó.
-

Gi

i pháp: Rút g

n d

li

u
ñể
rút g

n t

p d

li

u l

n thành bi

u di

n nh


h
ơ
n
mà có th


ñư
a ra cùng phân tích.
ðể
t
ă
ng hi

u qu

, có th

rút g

n d

li

u l

n
thành bi

u di


n nh

h
ơ
n, m

t s

ph
ươ
ng pháp th
ườ
ng
ñượ
c s

d

ng là:

K
ế
t h

p d

li

u (cube d


li

u)

Rút g

n chi

u/thu

c tính


ñọ
ng d

li

u

R

i r

c hóa (Discretization)


Data discretization và concept hierarchy



30
-

Chuy

n d

li

u s

(liên t

c) thành các giá tr

rõ ràng
-

M

t s

thu

t toán data mining ch

ch

p nh


n các giá tr

rõ ràng
3.1.2. Tiền xử lý dữ liệu dự ñoán rủi ro tín dụng
Trong lu

n v
ă
n này, tôi s

d

ng ph

n m

m Weka 3.5.8
ñể
th

c hi

n vi

c x


d


li

u cho bài toán d


ñ
oán r

i ro tín d

ng.
T

p d

li

u c

a bài toán
ñượ
c l

y t

m

t ngu

n (m


t h

th

ng) và
ñ
ã
ñượ
c th

c
hi

n k
ế
t n

i t

nhi

u b

ng
ñể
thu
ñượ
c m


t b

ng d

li

u g

m 32,393 b

n ghi các
kho

n vay. M

i b

n ghi g

m 19 tr
ườ
ng, trong
ñ
ó tr
ườ
ng
chỉ báo nợ
là thu

c tính c


n
d


ñ
oán.
Thu

c tính th

i h

n kho

n vay có giá tr

là s

nh
ư
: 1 tháng, 2 tháng, 3 tháng,…
Nh
ư
v

y, thu

c tính s


ch

a r

t nhi

u giá tr

s

khác nhau.
ð
i

u này làm

nh h
ưở
ng
ñế
n ch

t l
ượ
ng d

li

u và k
ế

t qu

khai phá d

li

u.
ðể
không làm

nh h
ưở
ng
ñế
n k
ế
t
qu

khai phá d

li

u và không làm thay
ñổ
i b

n ch

t c


a d

li

u trong ho

t
ñộ
ng kinh
doanh c

a ngân hàng trong th

c t
ế
, tôi
ñ
ã chuy

n t

p giá tr

s

sang t

p giá tr


r

i r

c.
C

th

, thu

c tính th

i h

n kho

n vay thay vì là các giá tr

s

1, 2, 3, 4, … tháng, tôi
chuy

n thành các giá tr

là NH – ng

n h


n, TH – trung h

n và DH – dài h

n. Trong
ñ
ó,
NH là các kho

n vay có th

i h

n d
ướ
i ho

c b

ng 12 tháng; TH là các kho

n vay có
th

i h

n l

n h
ơ

n 12 tháng và nh

h
ơ
n 36 tháng; DH là các kho

n vay có th

i h

n l

n
h
ơ
n 36 tháng.
Thu

c tính Thành ph

n kinh t
ế
(TPKT) ch

a các giá tr

s

, có 30 giá tr


khác
nhau trong t

p d

li

u và s

b

n ghi thi
ế
u giá tr

là 7. Các b

n ghi thi
ế
u giá tr

thu

c
tính Thành ph

n kinh t
ế

ñề

u thu

c l

p A,
ñ
ây là l

p chi
ế
m
ñ
a s

trong t

p d

li

u. Vì
v

y tôi lo

i b

nh

ng b


n ghi thi
ế
u giá tr

thu

c tính này.

Hình 3.4 -
Giao di

n weka phân tích thu

c tính Thành ph

n kinh t
ế
(TPKT).

×