Tải bản đầy đủ (.pdf) (44 trang)

Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.55 MB, 44 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
________________________

ĐỖ THỊ TÂM

MỘT SỐ THUẬT TOÁN CỤM MỜ VÀ BÀI
TOÁN PHÂN TÍCH DỮ LIỆU KHÁCH HÀNG
NGÂN HÀNG

LUẬN VĂN THẠC SỸ KHOA HỌC
Chuyên ngành Quản trị Kinh doanh

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TSKH BÙI CÔNG CƯỜNG

HÀ NỘI - 2010


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Mục lục
Mục lục............................................................................................................................ 1
Mở đầu............................................................................................................................. 2
Chương 1 - Phân cụm mờ ................................................................................................ 4
1.1
Phân cụm mờ là gì ............................................................................................ 4
1.2
Thuật toán phân cụm mờ FCM (Fuzzy C -means) ............................................ 4
1.2.1
Thuật toán ................................................................................................. 5


1.2.2
Ưu điểm và nhược điểm của thuật toán FCM ........................................... 6
1.3
Thuật toán Độc lập Đường kính Dân số (PDI) .............................................. 7
1.3.1
Thuật toán ................................................................................................. 7
1.3.2
So sánh với thuật toán FCM ...................................................................... 8
1.4
Phân cụm hiệp phương sa i mờ (Fuzzy covariance clustering) ......................... 9
1.5
Phân cụm mờ c-Elliptotypes (Fuzzy c-Elliptotypes - FCE)............................ 11
1.6
Phân cụm đường bao ( She ll clustering) ......................................................... 11
Chương 2 - Xếp loại tín dụng khách hàng doanh nghiệp trong ngân hàng ................... 13
2.1
Xếp loại tín dụng ............................................................................................ 13
2.2
Mục đích của xếp loại tín dụng ...................................................................... 13
2.3
Các bước xếp loại tín dụng ............................................................................. 14
2.3.1
Thu thập thông tin ................................................................................... 14
2.3.2
Phân loại doanh nghiệp ........................................................................... 14
Chương 3 - Kết quả thực nghiệm .................................................................................. 26
3.1
Chuẩn bị dữ liệu.............................................................................................. 26
3.2
Đọc dữ liệu ..................................................................................................... 27

3.3
Lựa chọn chỉ tiêu ............................................................................................ 28
3.4
Cài đặt thuật toán phân cụm ........................................................................... 29
3.4.1
Thuật toán phân cụm mờ FCM ............................................................... 29
3.4.2
Xác định cụm .......................................................................................... 30
3.5
Phân cụm ngành nghề ..................................................................................... 31
3.6
Phân cụm Quy mô .......................................................................................... 34
3.7
Phân cụm doanh nghiệp.................................................................................. 38
Kết luận ......................................................................................................................... 42
Tài liệu tham khảo ......................................................................................................... 43

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
1


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Mở đầu
Hoạt động ngân hàng trong nền kinh tế thị tr ường là một trong những hoạt động
kinh tế chứa đầy rủi ro. Rủi ro trong hoạt động ngân hàng có thể gây ra tai họa cho
nền kinh tế hơn bất cử rủi ro của các loại hình hoạt động kinh tế khác, do tính chất
lây lan của nó có thể làm rung chuyển toàn bộ hệ thốn g kinh tế.
Hoạt động của ngân hàng thương mại gồm nhiều nghiệp vụ, nhưng chung quy
lại, đây là loại hình kinh doanh tiền tệ tín dụng của một trung gian tài chính dựa

trên cơ sở thu hút tiền của khách hàng với trách nhiệm hoàn trả và sử dụng số tiền
đó để cho vay và thực hiện các nghiệp vụ thanh toán. Như vậy, các ngân hàng
thương mại không chỉ kinh doanh nguồn vốn tự có mà còn kinh doanh nguồn vốn
huy động từ khách hàng. Do đó, nếu ngân hàng không thu hồi được số nợ mà họ đã
cho vay thì ngân hàng không ch ỉ mất vốn tự có mà còn có nguy cơ không hoàn trả
được số tiền đã huy động của khách hàng. Vì vậy, mỗi khi cho vay tiền, ngân hàng
luôn phải nhớ rằng vốn của họ là tiền gửi của khách hàng, vì vậy điều quan trọng là
họ phải cho vay ở những nơi mà rủi ro do k hông trả được nợ là thấp nhất.
Để tránh rủi ro trong hoạt động cho vay, nhiều ngân hàng hiện n ay đã sử dụng
kỹ thuật xếp loại tín dụng hay chấm điểm tín dụng để xếp hạng tín nhiệm các
khách hàng xin vay vốn, nhằm xác định các đối tượng khách hàng có t hể cho vay
được, không cho vay được, lãi suấ t cho vay, vấn đề thế chấp, ...
Có nhiều cách để xếp loại tín dụng như dự tính mức xác suất của rủi ro tín dụng
đối với một khoản tín dụng được cấp như các mô hình xác suất tuyến tính, mô hình
logit và mô hình probit, hay phân loại những người vay căn cứ vào mức độ rủi ro có
liên quan đến các chỉ tiêu phản ánh các đặc điểm tài chính và kinh doanh của họ như
mô hình phân biệt tuyến tính. Hay như cách phân cụm khách hàng thành các nhóm
tín dụng dựa vào các chỉ tiêu tài chính phản ánh đặc điểm tài chính và tình hình kinh
doanh của họ.
Trong luận văn này, em sẽ trình bày về một số thuật toán phân cụm mờ v à bài
toán phân tích dữ liệu khách hàng ngân hàng . Nội dung của luận văn gồm có một số
thuật toán phân cụm mờ, thực tế xếp loại tín dụng tại một số ngân hàng ở Việt Nam
Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
2


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

và kết quả cài đặt thuật toán phân cụm mờ xếp loại tín dụng cho các doanh nghiệp
được niêm yết trên sàn giao dịch chứng khoán thành phố Hồ Chí Minh.

Em xin chân thành cảm ơn thầy Bùi Công Cường đã rất tậ n tình hướng dẫn em
làm luận văn này!

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
3


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Chương 1 - Phân cụm mờ
1.1 Phân cụm mờ là gì
Phân cụm là phương pháp phân loại các đối tượng dữ liệu vào các nhóm (cụm)
khác nhau sao cho các đối tượng dữ liệu trong cùng một nhóm (cụm) là tương tự
nhau và trong các nhóm khác nhau l à không tương tự nhau.
Trong phân cụm rõ, mỗi đối tượng dữ liệu chỉ thuộc vào một cụm, do đó chỉ áp
dụng phù hợp trong trường hợp các cụm có mật độ cao và rời nhau. Tuy nhiên, trong
thực tế, các cụm dữ liệu lại chồng lên nhau, nghĩa là một số đối tượng dữ liệu có thể
thuộc về nhiều cụm khác nhau. Do đó, để giải quyết trường hợp này, người ta đã áp
dụng lý thuyết về tập mờ vào phân cụm dữ liệu.
Trong phân cụm mờ, mỗi cụm được xem như một tập mờ trong tập dữ liệu. Do
vậy, mỗi đối tượng dữ liệu sẽ gắn với mỗi cụm bởi một đại lượng gọi là độ thuộc có
giá trị trong đoạn [0, 1], thể hiện mức độ thuộc của đ ối tượng đó vào cụm.

1.2 Thuật toán phân cụm mờ FCM (Fuzzy C-means)
Thuật toán FCM có nhiều tên trước khi có tên là FCM. Đó là Fuzzy ISODATA
và Fuzzy k-Means. Ruspini (1969) giới thiệu khái niệm phân hoạch mờ để mô tả cấu
trúc cụm của tập dữ liệu và đề xuất một thuật toán để tính toán tối ưu phân hoạch
mờ. Dunn (1973) mở rộng phương pháp phân cụm và đã phát triển thuật toán phân
cụm mờ. ý tưởng của thuật toán là xây d ựng một phương pháp phân cụm mờ dựa
trên tối thiểu hóa hàm mục tiêu. Bezdek (1981) cải tiến và tổng quát hóa hàm mục

tiêu mờ bằng cách đưa ra trọng số mũ để xây dựng thuật toán phân cụm mờ và
chứng minh độ hội tụ của các thuật toán là cực tiểu cục bộ.
Thuật toán FCM đã được áp dụng thành công trong một số bài toán phân cụm dữ
liệu như trong nhận dạng mẫu (nhận dạ ng vân tay, ảnh), xử lý ảnh (phân tách các
cụm ảnh màu, cụm màu ), y học (phân loại bệnh, p hân loại triệu chứng), .... Tuy
nhiên, nhược điểm lớn nhấ t của thuật toán FCM là nhạy cảm với nhiễu và phần tử
ngoại lai. Để khắc phục nhược điểm này của FCM, đã có nhiều phương pháp được

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
4


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

đề xuất như: Phân cụm dựa trên xác suất (Keller, 1993), phân cụm nhiễu mờ (Dave,
1991), phân cụm dựa trên toán tử L p Norm (Kerten, 1999), và thuật toán
Insensitive Fuzzy C-means (FCM) và thuật toán FCM cải tiến.

1.2.1 Thuật toán
Thuật toán FCM có thể được phát biểu như sau: Xác định các biến P, U để t ối
c

N

J FCM P, U , X , c, m uik dik2 xk , pi

thiểu hóa

m


i 1 k 1

(1.1)
c

với ràng buộc:

u
i 1

ik

1

k 1 ... N ,

(1.2)

với X , c, m là các tham số đầu vào đã biết. Trong đó


X là tập các đối tượng



c là số cụm



m 1 là số mũ mờ hóa, nếu m 1 , thuật toán phân cụm mờ trở thành

thuật toán phân cụm rõ. Giá trị m càng lớn thì giải pháp này càng mờ.
Tuy nhiên, nhiều kết quả nghiên cứu chỉ ra rằng m 2 là tốt. Giá trị
này của m có một lợi thế là đơn giản hóa các phương trình cập nhật (sẽ
được trình bày ở phía sau) và do đó có thể tăng tốc độ máy tính.



uik là độ thuộc của vector đặc trưng xk với cụm được biểu diễn bởi tâm
cụm pi . U uik là ma trận phân hoạch mờ ( c N ) thỏa mãn ràng buộc
(1.2) ở trên.



N là tổng số vector đặc trưng.



d ik2 là khoảng cách giữa vector đặc trưng

xk và tâm cụm pi .

dik2 xk , pi xk pi



2
A

xk pi A xk pi
T


với A là ma trận xác định dương. Trong công thức khoảng cách
Euclidean, A là ma trận đơn vị.

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
5


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Người ta đã chứng minh rằ ng, giá trị P*, U * làm cực tiểu hóa J FCM P , U ở
phương trình (1.1) với ràng buộc (1.2) phải thỏa mãn các phương trình cập nhật sau:
N

p
*
i

u
k 1
N

u
k 1

uik*

m
ik


xk
(1.3)
m
ik

1
dik2
2

j 1 d jk
c





1
m 1

(1.4)

Thuật toán FCM là một dãy các phép lặp đi lặp lại các phương trình cập nhật
trên. Khi phép lặp này hội tụ, sẽ thu được ma trận phân cụm mờ và các tâm cụm.
Thuật toán:
Bước 1:
Cố định c , 2 c N .
Chọn công thức khoảng cách dik2 .
Cố định m , 1 m .
Khởi tạo ma trận độ thuộc mờ, U .
Bước 2:

Tìm c tâm cụm mờ (ma trận P ) theo phương trình (1.3).
Bước 3:
Cập nhật độ thuộc U theo phương trình (1.4).
Bước 4:
So sánh sự thay đổi giá trị độ thuộc bằng một chuẩn thích hợp. Nếu sự
thay đổi này là nhỏ thì dừng. Ngược lại, quay về bước 2.

1.2.2 Ưu điểm và nhược điểm của thuật toán FCM
Ưu điểm:
Thuật toán này không phức tạp để lập trình.

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
6


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Thuật toán sử dụng hàm mục tiêu trực quan và dễ hiểu
Với các tập dữ liệu tạo thành các cụm tách rời nhau và có dạng siêu cầu
thì FCM tìm ra các cụm này khá chính xác.
FCM dựa trên cơ sở mờ, nên nó rất mạnh: nó luôn hội tụ đến một giải
pháp, và nó cung cấp các giá trị độ thuộc thích hợp. Ràng buộc ở phương
trình (1.2) là điều kiện cần thiết để chứng minh tính hội tụ tới giá trị cực
tiểu địa phương của thuật toán FCM.
Nhược điểm:
FCM yêu cầu số cụm là một tiên nghiệm (priori).
FCM tìm các cụm có cùng hình dạng (các cụm siêu cầu nếu sử dụng
metric Euclidean); các hình dáng cụm khác sẽ không được trộn vào.
Hàm mục tiêu của FCM không phải là một tiêu chuẩn phân cụm tốt khi
các cụm gần với một cụm khác nhưng không bằng nhau về kích thước

hoặc số phần tử.
Độ chính xác của FCM nhạy cảm với các điểm nhiễu và các phần tử ngoại
lai, nghĩa là các tâm cụm có thể nằm xa so với tâm thực của cụm. Do đó,
các cụm dữ liệu được khám phá có thể rất lệch so với các cụm trong thực
tế. Việc khử nhiễu và phần tử ngoại lai là một vấn đề cần được giải quyết.

1.3 Thuật toán Độc lập Đường kính Dân số (PDI)
1.3.1 Thuật toán
Xác định các biến U , P , và để tối thiểu hóa hàm mụ c tiêu:

1 N
J PDI P , U , , X , c, m, r r uik
i 1 i k 1
c



m

d ik2 xk , pi



(1.5)

với các ràng buộc:
c

u


1

(1.6)

1

(1.7)

i 1

ik

c

i 1

i

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
7


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

với i là phần tử chuẩn hóa cụm i.






Bộ giá trị P* , U * , * làm tối thiểu hóa hàm mục tiêu (1.5) thỏa mãn các ràng
buộc (1.6) và (1.7) thỏa mãn các phương trình cập nhật sau:
1

ir m 1
2
d
*
uik ik 1
c
ir m 1

2
i 1 d ik

(1.8)

N

p
*
i

u
k 1
N

m
ik


u
k 1

xk
(1.9)
m
ik

1

N
m 2 r 1
u


ik dik
*

i k 1
1
c
N
m 2 r 1

uik dik
i 1 k 1


(1.10)


r thường được chọn r 1 .

1.3.2 So sánh với thuật toán FCM
Chúng ta hãy xem xét hàm mục tiêu (OF) của FCM:
c

Tối thiểu hóa

N

J FCM P, U , X , c, m uik dik2 xk , pi
m

i 1 k 1

c

với ràng buộc (constraint)

u
i 1

ik

1

k 1 ... N .

Đây là hàm dựa trên khoảng cách, tích lũy các khoảng cách có trọng số giữa các
nguyên mẫu và các điểm dữ liệu. Cụm lớn (theo nghĩa đường kính) sẽ đóng góp vào

OF nhiều hơn cụm nhỏ bởi vì khoảng cách của nó lớn hơn. Do vậy, khoảng cách
tương đối giữa các cụm đóng vai trò trong v iệc xác định sự đóng góp của mỗi cụm
tới OF. Nói chung, cụm lớn đóng góp nhiều hơn cụm nhỏ.
Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
8


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

uik*

1
dik2
2

j 1 d jk
c





k 1,..., N , i 1,..., c .

1
m 1

Những điểm nằm rất gần một nguyên mẫu (prototype) có độ thuộc hầu như bằng
0 với tất cả các nguyên mẫu khác. Tuy nhiên, các điểm nằm ở giữa hai nguyên mẫu
sẽ có độ thuộc xấp xỉ 0.5. Trong phương pháp này, chúng đóng góp cho OF của cả

hai nguyên mẫu. Do đó, ta có thể kết luận sơ bộ rằng miễn là sự tách biệt giữa các
cụm cao, FCM sẽ không có vấn đề gì khi phân cụm . Mỗi khi một trong số các cụm
mở rộng vào khu vực giữa hai tâm cụm, FCM sẽ sinh ra các kết quả rất xấu.Tỷ lệ
dân số của các cụm giữ một vai trò trong các cấu hình đường kính này và làm cho
các lỗi nghiêm trọng hơn. Các cụm với dân số lớn hơn và đường kính lớn hơn chiếm
ưu thế trong giải pháp của FCM.
Do FCM không có khả năng phân cụm một cách chính xác khi tập dữ liệu chứa
một cụm có dân số cao hơn rất nhiều cụm kia hoặc có đường kính lớn hơn (trong
trường hợp hai cụm). ý tưởng chính của thuật toán PDI là chuẩn hóa sự đóng góp
của các cụm vào hàm mục tiêu FCM bằng cách, trong hàm mục tiêu PDI, ta chia sự
đóng góp (FCM) của mỗi cụm cho một số biểu diễn mức độ đóng góp. Kết quả của
phép chia sẽ cho sự đóng góp mới (PDI) của cá c cụm.

1.4 Phân cụm hiệp phương sai mờ (Fuzzy covariance clustering)
Gustafson và Kessel giới thiệu một thay đổi mới trong hàm FCM được cho bởi
phương trình 1.1 như phương trình 1.11 dưới đây. Điều này cho phép tìm các cụm có
sạng siêu elipxoit (hyperellipsoid ) thay vì chỉ tìm thấy các cụm siêu cầu
(hypershere) như FCM.
N

c

J P, U , ; X , c, m u ik x k p i
k 1 i 1

m

c

u ik

A

2

i

i 1

m

x p A x p
T

k

i

i

k

i

(1.11)
Trong đó Ai là ma trận đối xứng xác định dương, và ngoài ràng buộc ở phương
trình (1.2) còn thêm ràng buộc:

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
9



Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Ai i constant

(1.12)

Tuy nhiên, khác với FCM, không có sự chứng minh tính hội tụ của thuật toán
này. Và thuật toán này cũng rất nhạy cảm khi khởi tạo.
Thuật toán:
Bước 1:
Cố định c, m .
Khởi tạo tất cả pi , Ai .
Bước 2:

1

Tính ma trận phân hoạch mờ U bởi uik

dik

j 1
jk
c

d

2
m 1


Bước 3:
N

Cập nhật các nguyên mẫu P bởi pi

u
k 1
N

m
ik

u
k 1

xk
m
ik

Bước 4:

1
C
i i

Tính Ai1

1
p



Ci trong đó Ci là ma trận hiệp phương sai mờ,

N

được cho bởi công thức Ci

u x
k 1

m

ik

k

pi xk pi

T

N

u
k 1

m

ik

Bước 5:

Nếu điều kiện dừng không thỏa mãn, quay lại Bước 2.

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
10


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

1.5 Phân cụm mờ c-Elliptotypes (Fuzzy c-Elliptotypes - FCE)
Thuật toán này được đưa ra bởi Bezdek để tìm các cụm có dạng đường thẳng
hoặc mặt phẳng. ý tưởng chính của nó là giảm khoảng cách Euclidean của các điểm
nằm dọc theo các hướng vector đặc trưng của một cụm (giống như là nằm trên một
đường thẳng) trong khi lấy đủ khoảng cách E uclidean của các điểm khác. Bằng cách
sử dụng khoảng cách là sự kết hợp có trọng số của hai khoảng cách:
2
2
d ik2 xk , pi dVik
1 d Eik

(1.13)

2
2
ở đây d Eik
là khoảng cách Euclidean và dVik
được định nghĩa như s au:
2
dVik
xi pi xk pi .eij
2


r

(1.14)

j 1

Trong đó r 1, p và eij là vectơ đặc trưng thứ j của ma trận hiệp phương sai

Ci của cụm i (dấu . ký hiệu phép nhân của hai vector).
nhận giá trị từ 0 đến 1 và cận được xác định tiên nghiệm. r 1 được dùng để
tìm ra các đường thẳng và r 2 để tìm các mặt phẳng.
Các phương trình cập nhật của thuật toán này giống với các phương trình cập
nhật của phân cụm hiệp phương sai mờ .

1.6 Phân cụm đường bao ( Shell clustering)
ứng dụng chính của thuật toán này là trong xử lý ảnh. ảnh được tiền xử lý để
tìm cạnh và các pixel cạnh sau đó được đưa vào các thuật toán này để tìm đường
biên. Cái sáng tạo quan trọng nhất trong các thuật toán này là độ đo khoảng cách nó
sử dụng. Có nhiều biến thể của thuật toán này, trong thuật toá n phân cụm đường bao
mờ của Dave, nguyên mẫu của một cụm đường bao tròn được mô tả bởi tâm và bán
kính của nó, lần lượt là pi và ri . Độ đo khoảng cách là:

d 2 xk , pi , ri xk pi ri

2

(1.15)

Trong thuật toán phân cụm đường bao mờ c -spherical, độ đo khoảng cách được

sử dụng là:

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
11


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng



d 2 xk , pi , ri xk pi ri 2
2



2

(1.16)

Trong thuật toán đường bao mờ thích nghi (adaptive fuzzy), các đường bao có
dạng elip được tìm thấy bằng cách sử dụng độ đo khoảng cách:

d xk , pi , A

2

x k pi

T


A xk pi 1


2

(1.17)

Trong đó A là ma trận xác định dương chứa các trục và hướng của elip.
Các thuật toán phân cụm đường bao có chi phí tính toán đắt bởi vì các phương
trình cập nhật của chúng yêu cầu giải một hệ các phương trình phi tuyến, các
phương trình này lại yêu cầu vòng lặp. Do vậy, bên trong mỗi vòng lặp phân cụm, có
nhiều vòng lặp được thực hiện. Kích thước của dữ liệu lớn hơn 2 chiều hoặc dữ liệu
lên tới hàng nghìn là không thể thực hiện được.

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
12


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Chương 2 - Xếp loại tín dụng khách hàng doanh nghiệp trong
ngân hàng
2.1 Xếp loại tín dụng
Ngày nay, khái niệm xếp loại tín dụng hay xếp hạng tín dụng ha y xếp hạng tín
nhiệm chưa có được sự nhận thức thống nhất. Theo định nghĩa của công ty chứng
khoán Merrill Lynch, xếp hạng tín nhiệm là đánh giá hiện thời của công ty xếp hạng
tín nhiệm về chất lượng tín dụng của một nhà phát hành chứng khoán nợ, về một
khoản nợ nhất định. Nói cách khác đi, đó là đánh giá hiện thời về chất lượng tín
dụng được xem xét trong hoàn cảnh hướng về tương lai, phản ánh sự sẵn sàng và khả
năng nhà phát hành có thể thanh toán gốc và lãi đúng hạn. Trong kết quả xếp hạng

tín nhiệm chứa đựng cả ý kiến chủ quan củ a chuyên gia xếp hạng tín nhiệm.
Theo công ty Moodys, xếp hạng tín nhiệm là ý kiến về khả năng và sự sẵn sàng
của một nhà phát hành trong việc thanh toán đúng hạn cho một khoản nợ nhất định
trong suốt thời gian tồn tại của khoản nợ.[4]

2.2 Mục đích của xếp loại tín dụng
Mục đích của xếp loại tín dụng là dựa trên cơ sở các số liệu kiểm tra, phân tích
dữ kiện từ các hồ sơ lưu trữ, báo cáo tài chính và báo cáo kiểm toán của doanh
nghiệp để nhận xét đánh giá tình hình hoạt động, khả năng sinh lời, khả năng thanh
toán hiện tại và trong tương lai của doanh nghiệp nhằm xác định khả năng thu hồi
vốn của ngân hàng cho vay.
Việc xếp loại tín dụng được thực hiện nhằm hỗ trợ ngân hàng cho vay trong
việc:[4]
-

Ra quyết định cấp tín dụng: xác định h ạn mức tín dụng của một khách
hàng, số tiền cho vay/ bảo lãnh, thời hạn, mức lãi suất/phí, biện pháp đảm
bảo cho khoản tín dụng.

-

Giám sát và đánh giá khách hàng tín dụng khi khoản tín dụng đang còn
dư nợ; Hạng khách hàng cho phép ngân hàng cho vay lường tr ước những

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
13


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng


dấu hiệu xấu về chất lượng khoản cho vay và có những biện pháp đối phó
kịp thời.
-

Phát triển chiến lược marketing nhằm hướng tới các khách hàng có ít rủi
ro hơn.

-

Ước lượng mức vốn đã cho vay sẽ không thu hồi được để trích lập dự
phòng rủi ro tín dụng.

Tóm lại, mục đích của việc xếp loại tín dụng là giúp lường trước được các rủi ro
có thể xảy ra trong kinh doanh để từ đó có thể tránh được các rủi ro này.

2.3 Các bước xếp loại tín dụng
Theo Quyết định của Thống đốc Ngân hàng Nhà Nước Việt Nam, ban hành n gày
24/01/2002 về việc Triển khai thí điểm đề án phân tích, xếp loại tín dụng doanh
nghiệp và theo thực tế quy trình xếp loại tín dụng khách hàng doanh nghiệp tại các
ngân hàng, việc xếp loại tín dụng các doanh nghiệp có thể thực hiện theo các bước
sau:

2.3.1 Thu thập thông tin
Các chỉ tiêu thông tin thu thập để sử dụng trong quá trình phân tích báo cáo gồm:
Bảng cân đối kế toán;
Bảng kết quả hoạt động kinh doanh;
Tình hình dư nợ ngân hàng;
Các thông tin phi tài chính khác.

2.3.2 Phân loại doanh nghiệp

2.3.2.1 Theo ngành kinh tế
Hiện tại các ngân hàng Căn cứ vào ngành nghề/ lĩnh vực sản xuất kinh doanh
chính đăng ký trên Giấy chứng nhận đăng ký kinh doanh của doanh nghiệp, để xác
định ngành nghề/ lĩnh vực sản xuất kinh doanh của doanh nghiệp, bao gồm:
Nông, lâm và ngư nghiệp
Thương mại và dịch vụ
Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
14


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Xây dựng
Công nghiệp
Trường hợp doanh nghiệp hoạt động đa ngành nghề thì căn cứ vào ngành nghề/
lĩnh vực nào đem lại tỷ trọng doanh thu lớn nhất cho doanh nghiệp.
Ngân hàng Công Thương Việt Nam phân loại doanh nghiệp vào một trong bốn
ngành nghề trên như bảng sau:
Nông, lâm và - Chăn nuôi
ngư nghiệp

- Trồng trọt: cây lương thực, hoa màu, cây ăn quả, cây công
nghiệp,
- Trồng rừng
- Khai thác lâm sản
- Đánh bắt, nuôi trồng thủy hải sản
- Làm muối

Thương


mại - Cảng sông, biển

và dịch vụ

- Khách sạn, nhà hàng, giải trí, du lịch
- Siêu thị, đại lý phân phối, kinh doanh bán buôn, bản lẻ các loại
nông sản, lâm sản, thủy hải sản, thực phẩm, rượu bia, nước giải
khát, thuốc lá, dược phẩm, thiết bị y tế, mỹ phẩm, văn hóa phẩm,
vật liệu xây dựng, hàng điện tử, máy móc, phương tiện giao thông
vận tải, hóa chất (bao gồm cả phân bón, thuốc trừ sâu), hàng tiêu
dùng, hàng mỹ thuật, mỹ nghệ, điện, khí đốt.
- In ấn, xuất bản sách, báo chí
- Sửa chữa nhà cửa, các loại máy móc, phương tiện giao thông
- Chăm sóc sức khỏe, làm đẹp
- Tư vấn, môi giới
- Thiết kế thời trang, gia công may mặc
- Bưu chính viễn thông
- Vận tải đường bộ, đường sông, đường biển, đường sắt, hàng
không
- Vệ sinh môi trường, văn phòng,

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
15


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Xây dựng

- Hạ tầng giao thông, khu công nghiệp

- Hạ tầng đô thị và nhà ở
- Xây lắp (xây dựng cơ bản)

Công nghiệp

- Chế biến các loại nông sản, lâm sản, thủy hải sản, thực phẩm,
rượu bia, nước giải khát
- Sản xuất thuốc lá, dược phẩm, thiết bị y tế, mỹ phẩm, văn hóa
phẩm, vật liệu xây dựng, hóa chất (bao gồm cả phân bón, thuốc
trừ sâu), hàng tiêu dùng, hàng mỹ thuật, mỹ nghệ, nguyên vật liệu
cho các ngành khác.
- Sản xuất, lắp ráp hàng điện tử, máy móc, phương tiện giao thông
vận tải
- Sản xuất điện, khí đốt
- Khai thác khoáng sản
- Khai thác than, vật liệu xây dựng (cát, đá, ), dầu khí

Ngân hàng Ngoại Thương Việt Nam phân doanh nghiệp vào một trong bốn
ngành nghề theo như trong bảng sau:
Sản phẩm, lĩnh vực hoạt động chính của doanh nghiệp

Được xếp vào
ngành/lĩnh
vực

Nông nghiệp và các dịch vụ có liên q uan:
Trồng trọt
Lâm nghiệp và các dịch vụ liên quan:
Trồng rừng, cây phân tán; nuôi rừng, chăm sóc tự nhiên;
khai thác và chế biến gỗ lâm sản tại rừng

Khai thác gỗ
Thu nhặt các sản phẩm hoang dã khác

Nông, lâm và ngư nghiệp

Chăn nuôi

Vận chuyển gỗ trong rừng
Ngư nghiệp:

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
16


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Đánh bắt thủy sản
Ươm, nuôi trồng thủy sản
Các dịch vụ liên quan
Bán, bảo dưỡng và sửa chữa xe có động cơ và mô tô xe máy
Bán buôn và bán đại lý:
Nông lâm sản, nguyên liệu, động vật tươi sống
Đồ dùng cá nhân và gia đình
Bán buôn nguyên vật liệu phi nông nghiệp, phế liệu, phế
Bán lẻ, sửa chữa đồ dùng cá nhân và gia đình
Khách sạn, nhà hàng
Các hoạt động kinh tế khác: vận tải, kho bãi và thông tin
liên lạc; vận tải đường bộ, đường sông; vận tải đường thủy;

Thương mại, dịch vụ


thải

vận tải đường không; các hoạt động phụ trợ cho vận tải,
hoạt động của các tổ chức du lịch; Dịch vụ bưu chính viễn
thông; kinh doanh tài sản và dịch vụ tư vấn; cho thuê máy
móc thiết bị; các hoạt động có liên quan đến máy tính; các
hoạt động kinh doanh khác
Xây dựng:
Chuẩn bị mặt bằng
Xây dựng công trình hoặc hạng mục công trình
Hoàn thiện công trình xây dựng
Cho thuê thiết bị xây dựng hoặc thiết bị phá dỡ có kèm

Xây dựng

Lắp đặt trang thiết bị cho các công trình xây dựng

người điều khiển
Sản xuất vật liệu xây dựng

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
17


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Công nghiệp khai thác mỏ:
Khai thác than các loại
Khai thác dầu thô, khí tự nhiên và các dịch vụ khai thác

dầu, khí
Khai thác các loại quặng khác
Khai thác đá
Sản xuất thực phẩm và đồ uống:
Sản xuất, chế biến và bảo quản thịt và sản phẩm từ thịt,
thủy sản, rau quả, dầu mỡ
Xay xát, sản xuất bột và sản xuất thức ăn gia súc
Sản xuất thực phẩm khác
Sản xuất đồ uống
Sản xuất khác:
Sản xuất sợi, dệt vải
Sản xuất hàng dệt khác

Công nghiệp

Sản xuất các sản phẩm thuốc lá

Sản xuất trang phục, thuộ c và nhuộm da, lông vũ
Sản xuất giày dép
Chế biến gỗ và sản xuất sản phẩm từ gỗ, tre nứa
Sản xuất giấy và các sản phẩm từ giấy
Xuất bản, in và sao bản chi tiết các loại
Sản xuất than cốc, sản phẩm từ dầu mỏ
Sản xuất hóa chất và các sản phẩm hóa chất
Sản xuất các sản phẩm từ cao su và plastic
Sản xuất các sản phẩm từ chất khoáng phi kim loại khác
Sản xuất sản phẩm từ kim loại
Sản xuất máy móc thiết bị
Sản xuất radio, tivi, thiết bị truyền thông


Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
18


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Sản xuất dịch vụ y tế, dụng cụ chính xác, dụng cụ quang
học và đồng hồ các loại
Sản xuất xe có động cơ, rơ moóc
Sản xuất các phương tiện vận tải khác
Sản xuất giường, bàn, tủ, ghế
Tái chế phế liệu, chất thải
Sản xuất và phân phối điện, khí đốt
Khai thác, lọc và phân phối nước
2.3.2.2 Theo quy mô của doanh nghiệp
Các tiêu chí sử dụng để chấm điểm và xác định quy mô doanh nghiệp gồm:
nguồn vốn kinh doanh, lao động, doanh thu thuần và giá trị nộp N gân sách Nhà
nước.
Dưới đây là bảng hướng dẫn chấm điểm Quy mô doanh nghiệp tại Sở giao dịch I
- Ngân hàng Công Thương Việt Nam.
STT Tiêu chí

Trị số

Điểm

1

Từ 50 tỷ đồng trở lên


30

2

3

Nguồn vốn kinh doanh

(Nguồn vốn TK 400 Từ 40 tỷ đồng đến dưới 50 tỷ đồng

25

CDKT)

Từ 30 tỷ đồng đến dưới 40 tỷ đồng

20

Từ 20 tỷ đồng đến dưới 30 tỷ đồng

15

Từ 10 tỷ đồng đến dưới 20 tỷ đồng

10

Dưới 10 tỷ đồng

5


Từ 1500 người trở lên

15

Lao động

(Là số lao động thực tế Từ 1000 người đến dưới 1500 người

12

sử dụng (được nêu tại Từ 500 người đến dưới 1000 người

9

thuyết minh báo cáo tài Từ 100 người đến dưới 500 người

6

chính) tính bình quân Từ 50 người đến dưới 100 người

3

trong 3 năm gần nhất)

Dưới 50 người

1

Doanh thu thuần


Từ 200 tỷ đồng trở lên

40

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
19


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

(Doanh thu thuần từ bán Từ 100 tỷ đồng đến dưới 200 tỷ đồng

30

hàng và dịch vụ TK 10 Từ 50 tỷ đồng đến dưới 100 tỷ đồng

20

- KQKD)

4

Từ 20 tỷ đồng đến dưới 50 tỷ đồng

10

Từ 5 tỷ đồng đến dưới 20 tỷ đồng

5


Dưới 5 tỷ đồng

2

Nộp ngân sách TK Từ 10 tỷ đồng trở lên
Từ 7 tỷ đồng đến 10 tỷ đồng

314- CĐKT

15
12

9
(Lấy theo số thực nộp Từ 5 tỷ đồng đến 7 tỷ đồng
vào NSNN phát sinh Từ 3 tỷ đồng đến 5 tỷ đồng
6
trong kỳ (không kể số
3
thiếu của kỳ trước nộp Từ 1 tỷ đồng đến 3 tỷ đồng
kỳ này) bao gồm các Dưới 1 tỷ đồng
1
loại thuế và các khoản
nộp khác theo quy định
của Nhà nước trong năm
báo cáo)
Căn cứ vào thang điểm trên, các doanh nghiệp được xếp loại thành: Quy mô lớn,
vừa và nhỏ:
Điểm

Quy mô


Từ 70 100 điểm Lớn
Từ 30 69 điểm

Vừa

Dưới 30 điểm

Nhỏ

2.3.2.3 Theo các chỉ tiêu phân tích tài chính cơ bản
Các doanh nghiệp sau khi đã được phân vào các ngành n ghề kinh doanh và các
quy mô lớn nhỏ theo các bước thực hiện ở trên sẽ được tiến hành chấm điểm các chỉ
tiêu tài chính để xếp loại doanh nghiệp. Các chỉ tiêu tài chính được dùng để chấm
điểm như bảng dưới đây.
STT Chỉ tiêu
I

Chỉ tiêu thanh khoản: được sử dụng để xem doanh nghiệp có khả năng thanh toán
các nghĩa vụ phải trả ngắn hạn hay không.
Hệ số thanh toán ngắn hạn (Đơn vị tính: lần)
Thể hiện khả năng đáp ứng các nghĩa vụ thanh toán trong thời gian ngắn của
Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
20


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

doanh nghiệp. Nếu doanh nghiệp có trục tr ặc về vấn đề tài chính, doanh nghiệp
có thể không có khả năng thanh toán đúng hạn các khoản phải trả trong thời

gian ngắn, kết quả nợ ngắn hạn sẽ tăng nhanh hơn tài sản ngắn hạn và hệ số
thanh toán ngắn hạn sẽ giảm xuống. Còn nếu tỷ lệ này quá cao, thì có thể là một
dấu hiệu cho thấy việc đầu tư vào các tài sản lưu động còn thiếu hiệu quả. Có
thể so sánh chỉ tiêu này trong các doanh nghiệp cùng ngành để đánh giá hiệu
quả tương đối của các doanh nghiệp. Tuy nhiên, để có cái nhìn đầy đủ về sự
phát triển của doanh nghiệp thì ta nên theo dõi chỉ tiêu này trong một khoảng
thời gian đủ dài. Trong những điều kiện thông thường tỷ lệ này bằng 1 là tốt
nhất.
= Tài sản ngắn hạn / Nợ ngắn hạn
Tài sản ngắn hạn : bảng CĐKT 100
Nợ ngắn hạn : bảng CĐKT 310
Hệ số thanh toán nhanh (Đơn vị tính: lần)
Thể hiện khả năng dùng tiền hoặc các tài sản có thể chuyển đổi thành tiền để trả
nợ ngay khi đến hạn và quá hạn, đồng thời nói lên tình trạng tài chính ngắn hạn
của công ty là tốt hay xấu. Nếu chỉ số này nhỏ hơn 1, doanh nghiệp không có
khả năng thanh toán ngay lập tức các khoản nợ ngắn hạn, do đó cần phải thận
trọng khi đầu tư vào doanh nghiệp này. Hàng tồn kho và các chi phí trả trước
không được đưa vào công thức này vì khó có thể chuyển thành tiền mặt ngay.
= (Tiền và các khoản tương đương tiền + Các khoản thu ngắn hạn + Các khoản
đầu tư tài chính ngắn hạn + tài sản ngắn hạn khác) / nợ ngắn hạn
Tiền và các khoản tương đương tiền : CĐKT 110.
Các khoản phải thu ngắn hạn: CĐKT 130.
Các khoản đầu tư ngắn hạn : CĐKT 120.
Tài sản ngắn hạn khác: CĐKT 150.
Nợ ngắn hạn: CĐKT 310.
II

Chỉ tiêu hoạt động: Cho thấy doanh nghiệp đã sử dụng tài sản hiệu quả như thế
nào.
Doanh thu thuần về bán hàng và cung cấp dịch vụ / Tổng tài sản (Đơn vị tính: lần)


Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
21


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Cho biết nếu bỏ ra một đồng tài sản thì doanh nghiệp thu được bao nhiêu đồng
doanh thu bán hàng và cung cấp dịch vụ.
= Doanh thu thuần về bán hàng và cung cấp dịch vụ / Tổng tài sản bình quân
đầu và cuối kỳ.
Doanh thu thuần về bán hàng và cung cấp dịch vụ: KQHĐKD 10.
Tổng tài sản: CĐKT 270
Vòng quay hàng tồn kho (Đơn vị tính: lần)
Thể hiện khả năng quản lý hàng tồn kho như thế nào. Chỉ số này càng cao cho
thấy doanh nghiệp bán hàng nhanh, hàng không bị ứ đọng nhiều trong kho. Tuy
nhiên, nếu chỉ số này quá cao thì lượng hàng dự trữ trong kho cũng không
nhiều. Nếu nhu cầu thị trường tăng đột ngột thì doanh nghiệp có thể không có
đủ hàng để đáp ứng dẫn đến mất khách hàng.
= Giá vốn hàng bán / Hàng tồn kho bình quân đầu kỳ và cuối kỳ
Giá vốn hàng bán: KQHĐKD 11.
Hàng tồn kho: CĐKT 140.
Kỳ thu tiền bình quân (Đơn vị tính: ngày)
Cho thấy khoảng thời gian trung bình cần thiết để doanh nghiệp thu hồi các
khoản nợ từ khách hàng.
= (Các khoản phải thu ngắn hạn bình quân / Doanh thu thuần) * 365
Doanh thu thuần về bán hàng và cung cấp dịch vụ: KQHĐKD 10.
Các khoản phải thu ngắn hạn: CĐKT 130.
III Chỉ tiêu cân nợ: phản ánh tình hình nợ của doanh nghiệp
Nợ phải trả / Tổng tài sản (Đơn vị tính: %)

Cho biết trong tài sản của doanh nghiệp có bao nhiêu phần trăm là nợ. Nếu tỷ lệ
này lớn hơn 50% thì tài sản của doanh nghiệp chủ yếu là từ các khoản nợ.
= Nợ phải trả / Tổng tài sản
Nợ phải trả: CĐKT 300.
Tổng tài sản: CĐKT 270.
Nợ phải trả / Nguồn vốn chủ sở hữu (Đơn vị tính: %)
Cho biết tài sản của doanh nghiệp được hình thành chủ yếu từ nguồn nào, nợ
Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
22


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

phải trả hay nguồn vốn chủ sở hữu. Nếu chỉ số này lớn hơn 1 nghĩa là tài sản
của doanh nghiệp được tài trợ chủ yếu từ các khoản nợ, ngược lại, tài sản của
doanh nghiệp được tài trợ chủ yếu từ nguồn vốn chủ sở hữu.
= Nợ phải trả / Nguồn vốn chủ sở hữu
Nợ phải trả: CĐKT 300.
Vốn chủ sở hữu: CĐKT 400
Nợ phải trả / Tổng dư nợ ngân hàng (Đơn vị tính: %)
= Nợ phải trả / Tổng dư nợ ngân hàng
Nợ phải trả: CĐKT 300.
Tổng dư nợ ngân hàng: Thuyết minh BCTC
IV Chỉ tiêu thu nhập: cho biết khả năng sinh lợi của công ty như thế nào.
Lợi nhuận trước thuế / Doanh thu thuần (Đơn vị tính: %)
Phản ánh kết quả tiêu thụ được một đồng doanh thu thì có được bao nhiêu đồng
lợi nhuận.
= Tổng lợi nhuận trước thuế / Doanh thu thuần về bán hàng và cung cấp dịch vụ.
Tổng lợi nhuận trước thuế: KQHĐKD 50.
Doanh thu thuần về bán hàng và cung cấp dịch vụ: KQHĐKD 10.

Tổng lợi nhuận trước thuế / Tổng tài sản (Đơn vị tính: %)
Phản ánh nếu doanh nghiệp có một đồng tài sản thì thu được bao nhiêu đồng lợi
nhuận
= Tổng lợi nhuận trước thuế / Tổng cộng tài sản
Tổng lợi nhuận trước thuế: KQHĐKD 50.
Tổng tài sản: CĐKT 270.
Tổng lợi nhuận trước thuế / Nguồn vốn chủ sở hữu (Đơn vị tính: %)
Phản ánh một đồng vốn chủ sở hữu bỏ ra thì thu được bao nhiêu đồng lợi nhuận.
Tổng lợi nhuận trước thuế / Nguồn vốn chủ sở hữu
Tổng lợi nhuận trước thuế: KQHĐKD 50.
Vốn chủ sở hữu: CĐKT 400.

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
23


Một số thuật toán phân cụm mờ và bài toán phân tích dữ liệu khách hàng ngân hàng

Tiêu chuẩn đánh giá các chỉ tiêu t ài chính của doanh nghiệp ngành Thương mại,
dịch vụ theo ngân hàng Ngoại Thương Việt Nam như sau:

Đỗ Thị Tâm - Đảm bảo Toán học cho máy tính và hệ thống tính toán , 2008 2010
24


×