Tải bản đầy đủ (.pdf) (30 trang)

Nghiên Cứu Khoa Học Đề Tài Mô Hình Ứng Dụng Toán Phân Loại Trong Ngân Hàng Để Đánh Giá Khả Năng Trả Nợ Vay Của Khách Hàng Ngân Hàng Vietcombank.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.41 MB, 30 trang )

PHẦN MỞ ĐẦU
1. Tổng quan tình hình nghiên cứu thuộc lĩnh vực của đề tài ở trong và ngoài
nước
1.1 Ngoài nước
Bài toán phân loại lần đầu tiên được đưa ra bởi Fisher (1936) giải quyết cho trường
hợp hai tổng thể với hàm phân biệt tuyến tính Fisher. Hàm phân biệt này chỉ được thiết lập
khi ma trận hiệp phương sai của hai tổng thể bằng nhau. Năm 1948, Rao đã mở rộng cho
trường hợp nhiều hơn hai tổng thể, nhưng cũng trên cơ sở giả thiết ma trận hiệp phương
sai các tổng thể bằng nhau. Một phương pháp khác, đó là phương pháp thống kê tuần tự do
Kendall (1973) đề nghị. Nhưng đây chỉ là phương pháp mang tính chất thủ công, rất phức
tạp mà thực tế gần như không thể thực hiện được. Mặc dù được đề xuất muộn nhất và chỉ
phân loại cho hai tổng thể nhưng phương pháp hồi quy logistic được sử dụng rất phổ biến
hiện nay.
Trong những năm gần đây, phương pháp phân loại sử dụng bộ phân loại vector hỗ
trợ SVM được sự quan tâm và sử dụng nhiều trong lĩnh vực phân loại và nhận dạng. Thuật
toán SVM đầu tiên được xây dựng bởi Vladimir Vapink và hình thức chuẩn hiện nay là lề
mềm được đề nghị bởi Corinna Cortes và Vladimir Vapnik. SVM dạng chuẩn lấy một tập
hợp các dữ liệu đầu vào và dự báo mỗi dữ liệu đầu vào ứng với một lớp trong số hai lớp
mà dữ liệu ấy có khả năng rơi vào.
Một phương pháp phân loại khác được các nhà thống kê hiện nay đặc biệt quan tâm
đó là phương pháp Bayes. Phương pháp này có thể phân loại được cho hai hay nhiều hơn
hai tổng thể và không bị ràng buộc bởi các giả thiết phân phối chuẩn, phương sai bằng nhau
của các tổng thể nên có xác suất sai lầm trong phân loại nhỏ hơn phương pháp Fisher. Các
kết quả nghiên cứu mới trong những năm gần đây về bài toán phân loại chủ yếu tập trung
xung quanh phương pháp Bayes. Rất nhiều cơng trình nghiên cứu về phương pháp này đã
được xuất bản, trong đó phải kể đến các cơng trình của Fukunaga (1990), McLachlan
(1992), Webb (2002), T.Pham-Gia, Turkan (2006,2008),.. . Tuy nhiên trong phương pháp


này vấn đề tính tốn cho các bài tốn ứng dụng thực tế với mẫu lớn còn gặp rất nhiều khó
khăn.


[1] Martinez, W.L. and Martinez, A.R., Computational statistics handbook with
Matlab, Chapman & Hall/CRC, Boca Raton, 2008.
[2] Pham–Gia,T. and Turkkan, N., Baysian analysis in the L1– norm of the mixing
proportion using discriminant analysis, Metrika, 64(1),2006, 1–22.
[3] Pham–Gia, T., Turkkan, N. and Bekker, A., Bounds

for the Bayes error in

clssification: A Bayesian approach using discriminant analysis, Statistical Methods and
Applications,16, 2006, 7 - 26.
[4] Pham–Gia, T. Turkkan, N. and Tai, Vovan.,The maximum function in statistical
discrimination analysis",Commun.in Stat–Simulation computation,37(2), 2008, 320 – 336.
[5] Scott, David W. , Mutivariate density estimation:Theory,practice and
visualization visualization, John Wiley&Son, New York, 1992.
[6] Webb, A., Statistical pattern recognition, John Wiley & Sons, New York, 2000.
1.2 Trong nước
Trong nước chúng tôi chưa tìm thấy đóng góp nào về mặt lý thuyết cho bài toán phân
loại, tuy nhiên vấn đề ứng dụng cho bài toán này đã được quan tâm nhiều, nhất là trong
lĩnh vực kinh tế. Vương Qưân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu (2008) đã áp dụng
bài toán phân loại trong kinh tế. Một số tác giả khác cũng đã áp dụng bài toán phân loại
trong y học với việc xem xét bệnh viêm não Nhật Bản, nguy cơ gãy xương,…. Tuy nhiên
các ứng dụng trong nước hầu như chỉ sử dụng phương pháp phân loại Logistic mà chưa
xem xét kết hợp với các phương pháp khác để có được mơ hình phân loại tối ưu.
[1] Vương Qn Hồng, Đào Gia Hưng, Nguyễn Văn Hữu (2008), Phương pháp
thống kê xây dựng mơ hình định mức tín nhiệm khách hàng thế nhân, Tạp chí ứng dụng
tốn học 4(2), tr 1-16.
[2] Võ Văn Tài, Phạm Gia Thụ, Tô Anh Dũng (2008), Sai số Bayes và khoảng
cách giữa hai hàm mật độ xác suất trong phân loại hai tổng thể, Tạp chí phát triển khoa
học công nghệ, Đại học Quốc gia TPHCM, 11(6), tr 23 – 37.



[3] Tơ Cẩm Tú, Nguyễn Huy Hồng (2003), Phân tích số liệu nhiều chiều, NXB
Khoa học và Kỹ thuật, Hà Nội.
2. Lý do chọn đề tài
Trong các hoạt động của ngân hàng, cung cấp tín dụng có thể nói là hoạt động quan
trọng nhất. Nếu quá khắc khe trong việc cho vay, ngân hàng có thể để mất những khách
hàng tiềm năng, ngược lại có thể phải đương đầu với vấn đề nợ xấu. Hiện tại ở nước ta,
tình hình nợ xấu ở các ngân hàng rất nghiêm trọng đến mức ngân hàng nhà nước đã đưa ra
nhiệm vụ trọng tâm của năm 2013, 2014, 2015 là việc giảm tỷ lệ nợ xấu. Đảm bảo sự hợp
lý trong việc cung cấp tín dụng ln là bài tốn khó, có tính chiến lược mà các ngân hàng
phải đương đầu và kịp thời giải quyết nếu muốn phát triển. Phân loại là việc gán một phần
tử cụ thể vào một trong các tổng thể đã biết trước một cách hợp lý nhất dựa vào các biến
quan sát của nó đã trở thành một cơng cụ định lượng trong cung cấp tín dụng.Trên thế giới
đã có rất nhiều cơng trình vận dụng bài toán phân loại để đánh giá khả năng trả được nợ
vay của những khách hàng cụ thể. Ở nước ta cũng có những cơng trình nghiên cứu việc
đánh giá khả năng trả được nợ vay của khách hàng từ hồ sơ tín dụng. Đó là là các cơng
trình trên đối tượng khách hàng của các ngân hàng BIDV, TechcomBank, …Tuy nhiên qua
tìm hiểu, chúng tơi thấy các nghiên cứu chỉ dựa vào mơ hình hồi qui logistic mà khơng có
sự so sánh với các phương pháp khác. Theo chủ quan của chúng tơi, vấn đề tính tốn phức
tạp của các phương pháp phân loại khác như Fisher, SVM, Bayes là trở ngạy chính trong
việc vận dụng số liệu lớn của thực tế. Do khơng có sự so sánh với các phương pháp khác,
nên mơ hình đánh giá khả năng trả được nợ vay của khách hàng chưa thể là tối ưu. Hiện
tại bài tốn phân loại có nhiều cải tiến về mặt lý thuyết và cơng cụ tính tốn để cho những
kết quả hợp lý. Những kết quả mới này chưa được vận dụng ở nước ta. Cập nhật những kết
quả lý thuyết mới, giải quyết vấn đề tính tốn của các phương pháp phân loại từ số liệu rời
rạc, để tìm mơ hình tối ưu trong đánh giá khả năng trả được nợ vay của khách hàng là vấn
đề đang được đặt ra của thực tế ở nước ta.
3. Mục tiêu đề tài
Giải quyết vấn đề tính tốn của các phương pháp phân loại với số liệu lớn, nhiều
chiều để tìm mơ hình tối ưu trong đánh giá khả năng trả được nợ vay của khách hàng.



4. Phương pháp nghiên cứu
- Tổng hợp tài liệu về các phương pháp phân loại, phân tích, vận dụng giải quyết
vấn đề của thực tế với số liệu lớn.
- Sử dụng phần mềm thống kê R, phần mềm thống kê SPSS, phần mềm Weka và
phần mềm Matlab thực hiện việc xử lý số liệu và tính tốn.
- Sử dụng tiêu chuẩn xác suất sai lầm trong phân loại để lựa chọn mơ hình phù hợp
nhất.
5. Đối tượng và phạm vi nghiên cứu
a/ Đối tượng nghiên cứu: Các phương pháp phân loại, vấn đề tính tốn và áp dụng
trong ngân hàng.
b/ Phạm vi nghiên cứu: Sử dụng các phương pháp phân loại Fisher, Logistic, SVM
và Bayes với số liệu thứ cấp thu thập được về khả năng vay trả nợ của khách hàng
Vietcombank.
6. Kết quả của đề tài
6.1 Kết quả trong báo cáo phân tích
Các kết quả được trình bày gồm những nội dung sau:
- Các phương pháp phân loại và tiêu chuẩn để lựa chọn các mơ hình tối ưu.
- Xây dựng ba chương trình phân loại theo phương pháp Bayes từ số liệu rời rạc (ước
lượng hàm mật độ xác suất, phân loại một phần tử mới, tính sai số Bayes).
- Tìm được mơ hình phân loại khả năng trả nợ vay của ngân hàng Vietcombank tốt
nhất trong các mơ hình được xây dựng qua các phương pháp phân loại Fisher, logistic,
SVM và Bayes.
- Một số nhận xét liên quan đến khả năng trả nợ vay của khách hàng ngân hàng
Vietcombank.
6.2 Kết quả đào tạo
Hỗ trợ một luận văn đại học, bảo vệ thành công.
6.3 Hiệu quả của nghiên cứu



Kết quả đề tài là một hướng nghiên cứu triển vọng của các ứng dụng thống kê trong
kinh tế, đặt biệt là các phương pháp phân loại. Và có thể mở rộng ra các lĩnh vực khác như:
giáo dục, y học, nông nghiệp, các vấn đề trong xã hội,…
Đề tài thực hiện là một trong những cách hiểu quả nhất để có thể vận dụng kiến thức
thống kê đã học vận dụng vào thực tế trên các lĩnh vực khách nhau của địa phương và đất
nước sau này.
Đề tài cũng là tài liệu tham khảo hữu ích trong đào tạo và hướng nghiên cứu khoa
học cho sinh viên ngành Toán ứng dụng của trường Đại học Cần Thơ.


CHƯƠNG 3
ĐÁNH GIÁ KHẢ NĂNG TRẢ NỢ VAY CỦA KHÁCH HÀNG
NGÂN HÀNG VIETCOMBANK
3.1 GIỚI THIỆU
3.1.1 Mơ hình ứng dụng bài toán phân loại trong ngân hàng

Bài toán phân loại đã và đang được áp dụng cho nhiều lĩnh vực khác nhau, đặc biệt
trong ngân hàng. Khi khách hàng (cá nhân, doanh nghiệp,…) đến vay vốn, nếu cán bộ tín
dụng khơng có khả năng đánh giá thơng tin sẽ có cái nhìn lệch lạc về khách hàng dẫn đến
sai lầm trong cấp tín dụng: cho vay khách hàng có rủi ro nhưng lại từ chối khách hàng tốt,
hoặc cấp tín dụng vượt nhu cầu thật sự tạo điều kiện cho khách hàng sử dụng vốn sai mục
đích, bị khách hàng lừa đảo. Trong những năm qua, hệ thống ngân hàng Việt Nam phát
triển mạnh nhưng nợ xấu cũng tăng nhanh chóng, gây rủi ro lớn cho hoạt động của ngân
hàng. Nhu cầu đánh giá khả năng trả nợ của khách hàng để cho vay trở thành một nhiệm
vụ quan trọng đối với các ngân hàng hiện nay. Mỗi khách hàng đến vay vốn tại các ngân
hàng sẽ được xác định bởi một bộ thông tin (do khách hàng cung cấp, kết hợp với sự điều
tra từ cán bộ tín dụng). Thơng tin của khách hàng là một véc tơ n chiều gồm các biến định
tính và định lượng. Với n biến này, cán bộ tín dụng cần phân loại khách hàng thuộc nhóm
nào, từ đó quyết định cho khách hàng vay hay khơng với mức sai lầm thấp nhất.

3.1.2 Bài tốn áp dụng

Trong phần này chúng tôi áp dụng các phương pháp phân loại đã trình bày trong
chương 2, chương 3 và chương 4 để thực hiện cho một áp dụng cụ thể của thực tế. Đó là
việc đánh giá khả năng trả nợ vay của các khách hàng ngân hàng Vietcombank.
3.2 TỔNG QUAN VIỆC THỰC HIỆN
3.2.1 Số liệu

Số liệu thứ cấp là thông tin cá nhân khách hàng của ngân hàng Vietcombank Cần
Thơ. Số liệu được trích dẫn từ một luận văn cao học thuộc lĩnh vực tài chính ngân hàng
năm 2014 (Phụ lục).


Số liệu là thông tin của 165 doanh nghiệp hoạt động trong các lĩnh vực quan trọng:
Nông nghiệp, công nghiệp, thương mại. Trong đó có 24 doanh nghiệp có nợ q hạn (Y =
1) và 141 doanh nghiệp khơng có nợ quá hạn (Y = 0). Theo ý kiến ban đầu của các chuyên
gia ngân hàng, mỗi doanh nghiệp được đánh giá bởi 9 biến. Các biến này lần lượt giải thích
như sau:
i) Y: Tình trạng nợ của doanh nghiệp
Y = 0: Khách hàng khơng có nợ.
Y = 1: Khách hàng có nợ.
Theo trung tâm thơng tin tín dụng tình trạng nợ của khách hàng được chia thành 5
nhóm:
Nhóm 1: Dư nợ đủ tiêu chuẩn, các khoản nợ có khả năng thu hồi cả gốc lẫn lãi đúng
thời hạn hoặc q hạn khơng q 10 ngày.
Nhóm 2: Dư nợ cần chú ý, các khoản nợ quá hạn từ 10 ngày đến 90 ngày.
Nhóm 3: Dư nợ dưới tiêu chuẩn, các khoản nợ q hạn khơng trả được.
Nhóm 4: Dư nợ có nghi ngờ, các khoản nợ quá hạn khó trả được.
Nhóm 5: Dư nợ có khả năng mất vốn, các khoản nợ quá hạn không trả được.
Các khách hàng ở nhóm 1 và nhóm 2 có giá trị Y = 0, các khách hàng ở nhóm 3, nhóm

4 và nhóm 5 có giá trị Y = 1.
ii) X1: Quy mơ của doanh nghiệp
X1 = 0: Doanh nghiệp siêu nhỏ, nhỏ hoặc vừa.
X1 = 1: Doanh nghiệp lớn.
Các tiêu chí để phân loại doanh nghiệp là lĩnh vực kinh doanh (nông lâm nghiệp và
thủy sản, công nghiệp và xây dựng, thương mại và dịch vụ), số lao động, tổng nguồn vốn.
iii) X2: Ngành hàng của doanh nghiệp.
X2 = 0: Các ngành khác.
X2 = 1: Lương thực, thủy sản.
iv) X3: Kinh nghiệm quản lý. Đợn vị tính là năm.
v) X4: Tỷ suất sinh lời của chủ sỡ hữu (ROE – Return On Equity)


ROE =

Lợi nhuận sau thuế
× 100%
Vốn chủ sở hữu

ROE có giá trị dương khi doanh nghiệp kinh doanh có lãi, khi doanh nghiệp bị lỗ
REO có giá trị âm, hoạt động kinh doanh của doanh nghiệp càng tốt thì ROE càng lớn.
vi) X5: Địn bẫy tài chính (FL – Financial Leverage)
FL =

Tốc độ thay đổi của lợi nhuận ròng
Tốc độ thay đổi của EBIT

FL đo lường sự thay đổi của lợi nhuận ròng (lợi nhuận sau thuế) trước sự thay đổi
của thu nhập trước thuế và lãi vay (EBIT – Earnings Before Interst and Tax). FL phụ thuộc
vào đòn cân nợ (RD) tức tỷ lệ nợ chiếm trên tổng tài sản. FL còn được xem là tỷ lệ thay đổi

của tỷ suất lợi nhuận sau thuế trên vốn chủ sở hữu phát sinh do sự thay đổi của lợi nhuận
trước thuế và lãi vay.
vii) X6: Vòng quay tài sản (Total Assets Turnover Ratio)
Vòng quay tài sản (R A ) =

Doanh thu thuần
Tổng tài sản bình qn

Vịng quay tổng tài sản giúp đánh giá hiệu quả sử dụng tài sản, tỷ lệ này phản ánh giá
trị của một đồng tài sản khi tham gia vào quá trình kinh doanh sẽ tạo ra bao nhiêu đồng
doanh thu. Hiệu quả sử dụng tài sản càng lớn thì chỉ số này càng lớn và ngược lại.
viii) X7: Thanh toán hiện hành (Current Ratio)
Tỷ số thanh toán hiện hành (R C ) =

Giá trị tài sản ngắn hạn (lưu động)
Giá trị nợ ngắn hạn

Tài sản ngắn hạn (còn gọi là tải sản lưu động) là một loại tài sản trong bảng cân đối,
trong đó dự kiến sẽ được bán hoặc sử dụng hết trong tương lai gần, thường là trong vòng
một năm hoặc một chu kỳ kinh doanh tùy cái nào dài hơn. Tỷ số thanh toán hiện hành cho
biết: Cứ mỗi đồng nợ ngắn hạn mà doanh nghiệp đang giữ thì có bao nhiêu đồng tài sản
ngắn hạn có thể sử dụng để thanh tốn. Khi tỷ số này nhỏ hơn 1 có nghĩa là doanh nghiệp
khơng đủ tài sản có thể sử dụng ngay để thanh toán khoản nợ ngắn hạn sặp đáo hạn. Độ
lớn của tỷ số này thường phụ thuộc vào ngành nghề kinh doanh.
ix) X8: Thanh toán nhanh (Quick Ratio)


Tỷ số thanh toán nhanh (R Q ) =

Tiền và các khoản tương đương tiền

Giá trị nợ quá hạn và giá trị nợ tới hạn

Tỷ số thanh toán nhanh phản ánh khả năng trả nợ ngay của doanh nghiệp, thông
thường độ lớn của tỷ số này phụ thuộc vào ngành nghề kinh doanh.
x) X9: Thời gian quan hệ tín dụng. Đơn vị là năm.
3.2.2 Thống kê mô tả dữ liệu

Một số thống kê theo nhóm có nợ (Y = 1)
Bảng 3.1 Một số thống kê theo nhóm có nợ (Y = 1)
Descriptive Statistics
N

Mean

Std. Deviation

X1

24

.58

.504

X2

24

.50


.511

X3

24

7.79

4.809

X4

24

-.032263

.3091944

X5

24

7.138750

16.6789371

X6

24


1.095833

.8735033

X7

24

1.198333

1.6063208

X8

24

.639167

1.1234106

X9

24

6.04

3.805

Valid N (listwise)


24

Thống kê mô tả theo nhóm khơng có nợ (Y = 0)
Bảng 3.2 Một số thống kê theo nhóm khơng có nợ (Y = 0)
Descriptive Statistics
N

Mean

Std. Deviation

X1

141

.50

.502

X2

141

.30

.462

X3

141


11.22

6.290

X4

141

.135348

.3150944

X5

141

2.800426

6.4963286

X6

141

3.857660

6.0162646

X7


141

1.776312

2.2289820

X8

141

2.590142

19.0265347

X9

141

6.40

4.931

Valid N (listwise)

141


Nhận xét: Nhìn vào kết quả của hai bảng 3.1 và bảng 3.2 ta thấy kinh nghiệm quản
lý (biến X3) của nhóm Y = 0 cao hơn nhóm Y = 1, và vịng quay tài sản (biến X6) của nhóm

Y = 0 cũng cao hơn nhóm Y = 1.
Kiểm định trung bình giữa hai nhóm:

Bảng 3.3 Các bảng kiểm định trung bình hai nhóm
Ranks
Y
X1

X2

X3

X4

X5

X6

X7

X8

X9

N

Mean Rank

Sum of Ranks


0

141

81.96

11556.00

1

24

89.13

2139.00

Total

165

0

141

80.66

11373.00

1


24

96.75

2322.00

Total

165

0

141

87.06

12275.00

1

24

59.17

1420.00

Total

165


0

141

87.80

12379.50

1

24

54.81

1315.50

Total

165

0

141

80.76

11387.50

1


24

96.15

2307.50

Total

165

0

141

89.85

12669.50

1

24

42.73

1025.50

Total

165


0

141

88.63

12496.50

1

24

49.94

1198.50

Total

165

0

141

87.90

12394.00

1


24

54.21

1301.00

Total

165

0

141

82.86

11683.00

1

24

83.83

2012.00

Total

165



Test Statisticsa
X1
Mann-Whitney U
Wilcoxon W
Z

X2

X3

X4

X5

X6

X7

X8

X9

1545.0

1362.0

1120.0

1015.5


1376.5

725.5

898.5

1001.0

1672.0

11556.0

11373.0

1420.0

1315.5

11387.5

1025.5

1198.5

1301.0

11683.0

-.785


-1.868

-2.719

-3.128

-1.458

-4.467

-3.668

-3.194

-.093

.433

.062

.007

.002

.145

.000

.000


.001

.926

Asymp. Sig. (2tailed)
a. Grouping Variable: Y

Nhận xét: Với giả thuyết đặt ra là trung bình của hai nhóm với các biến là như nhau.
Ta thấy biến X3, X4, X6, X7 và X8 đều có giá trị Sig nhỏ hơn 0.05 nên ta bác bỏ giả
thuyết nghĩa là có sự khác nhau của hai nhóm ở những biến này. Cụ thể ta nhìn ở bảng
Ranks, xem cột Mean Ranks thì trung bình hạn của nhóm Y = 0 cao hơn nhóm Y = 1 ở
những biến có giá trị Sig nhỏ hơn 0.05.
3.2.3 Chia dữ liệu

Bộ dữ liệu (165 thông tin khách hàng) được chia ngẫu nhiên thành tập huấn luận và
tập kiểm tra với tỷ lệ lần lượt là 80% và 30% (132 thông tin khách hàng cho tập huấn luận
và 33 cho tập kiểm tra).
Bảng 3.4 Bảng chia dữ liệu
Dữ liệu gốc

Tập huấn luyện

Tập kiểm tra

Tổng số

165

132


33

Y=1

24

19

5

Y=0

141

113

28

3.2.4 Phương pháp thực hiện

Từ số liệu đã có chúng tơi chia dữ liệu thành hai phần: Tập phân tích (80% bảng dữ
liệu, 132 quan sát) để xây dựng các mơ hình phân loại, và tập kiểm tra (20% bảng dữ liệu,
33 quan sát) để kiểm tra tính phân loại của mơ hình tối ưu từng phương pháp; với mục đích
tìm kiếm mơ hình phân loại tối ưu, đề tài thực hiện các bước sau:
i) Kiểm tra hiện tượng đa cộng tuyến của các biến độc lập, nếu có thì tiến hành khắc
phục.


ii) Lựa chọn biến độc lập có ý nghĩa thống kê đưa vào mơ hình phân loại.

iii) Sử dụng các biến có ý nghĩa thống kê trên, kiểm tra sự khác nhau giữa hai nhóm
phân loại bằng phương pháp Hotelling.
iv) Tìm mơ hình phân loại tối ưu theo từng phương pháp: Logistic, Fisher, SVM và
Bayes. Thực hiện một số phân tích cho mơ hình phân loại tối ưu đã chọn của mỗi trường
hợp.
v) Tổng hợp các mơ hình phân loại tối ưu của mỗi trường hợp, rút ra một số nhận xét,
đánh giá về khả năng ứng dụng thực tế của các mơ hình phân loại xây dựng được.
3.2.5 Vấn đề tính tốn

i) Đối với phương pháp Hotelling đề tài sẽ tiến hành tính tốn trên phần mềm R dựa
vào lý thuyết và cơng thức được trình bày ở mục 1.4 để đưa ra kết luận.
ii) Đối với phương pháp Fisher và phương pháp logistic sử dụng phần mềm SPSS
version 20 để thực hiện. Các câu lệnh đã được lần lượt trình bày ở chương 2.
iii) Đối với phương pháp SVM, dùng thư viện Libsvm trên phần mềm Weka để thực
hiện bài toán.
iv) Đối với phương pháp Bayes, từ số liệu rời rạc đề tài tiến hành ước lượng hàm mật
độ xác suất theo phương pháp hàm hạt nhân theo chương trình 1 và 2 việc tính sai số Bayes
được thực hiện theo chương trình 4 và 5. Đối với trường hợp xác định xác suất tiên nghiệm
theo thuật toán FCM được thực hiện theo chương trình 3. Tất cả được xây dựng trên phần
mềm Matlab.
3.3 KẾT QUẢ THỰC HIỆN TRÊN TẬP HUẤN LUYỆN
3.3.1 Kiểm tra hiện tượng đa cộng tuyến

Tính hệ số tương quan cặp giữa các biến định lượng ta có bảng tổng hợp kết quả sau:


Bảng 3.5 Hệ số tương quan Spearson giữa các biến.
Correlations
X1
X1


Pearson Correlation

X2
1

Sig. (2-tailed)
N
X2

Pearson Correlation
Sig. (2-tailed)
N

X3

X4

X5

X7

-.041

.000

.000

132


132

.447

1

.000

X6

.644

X7

X8

X9

.063

-.216

*

-.116

.439**

.007


.471

.013

.187

.000

132

132

132

132

132

132

.149

-.091

**

.109

-.204


*

-.094

.410**

.087

.300

.000

.215

.019

.285

.000

.358

**

.235

.308

132


132

132

132

132

132

132

132

.149

1

.098

.074

.179*

-.120

-.138

.200*


Sig. (2-tailed)

.000

.087

.262

.396

.040

.172

.116

.021

N

132

132

132

132

132


132

132

132

1

*

.194

.122

.043

.031

-.105

.026

.164

.624

.727

.230


132

132

132

132

132

1

*

**

-.113

.135

.005

.196

.123

Pearson Correlation

132


-.041

-.091

.098

Sig. (2-tailed)

.644

.300

.262

N

132

132

132

132

**

**

.074


*

.194

.000

.396

.026

Pearson Correlation

.235

.007

.308

.216

.013

-.243

N

132

132


132

132

132

132

132

132

132

Pearson Correlation

.063

.109

.179*

.122

.216*

1

-.040


-.010

-.053

Sig. (2-tailed)

.471

.215

.040

.164

.013

.650

.913

.548

N

132

132

132


132

132

132

132

132

*

-.216

*

-.204

-.120

.043

**

-.040

1

**


-.210*

.013

.019

.172

.624

.005

.650

.000

.016

Pearson Correlation

N
Pearson Correlation
Sig. (2-tailed)
N
X9

.447

X5


132

Sig. (2-tailed)

X8

**

X4
**

.358**

Pearson Correlation

Sig. (2-tailed)

X6

132

X3
**

-.243

132

.645


132

132

132

132

132

132

132

132

132

-.116

-.094

-.138

.031

-.113

-.010


.645**

1

-.171*

.187

.285

.116

.727

.196

.913

.000

.050

132

132

132

132


132

132

132

132

132

.439**

.410**

.200*

-.105

.135

-.053

-.210*

-.171*

1

Sig. (2-tailed)


.000

.000

.021

.230

.123

.548

.016

.050

N

132

132

132

132

132

132


132

132

Pearson Correlation

132

**. Correlation is significant at the 0.01 level (2-tailed).
*. Correlation is significant at the 0.05 level (2-tailed).

Từ bảng 3.5. Cho ta thấy 2 biến X7 và X8 có tương quan tương đối chặc với nhau (hệ
số tương quan bằng 0.645). Điều này cho thấy nếu đưa cùng 2 biến này vào mơ hình thì sẽ
xảy ra hiện tượng đa cộng tuyến. Vì vậy, chúng ta tiến hành loại bỏ biến trước khi dự báo.
Trường hợp 1: Loại biến X7
Kết quả phân loại khi bỏ biến này được cho bởi bảng sau:


Bảng 3.6 Độ chính xác của mơ hình khi loại X7
Classification Tablea
Predicted
Observed

Y
0

Step 1

Percentage
Correct


1

0

110

3

97.3

1

12

7

36.8

Y
Overall Percentage

88.6

a. The cut value is .500

Trường hợp 2: Loại bỏ biến X8
Kết quả phân loại khi bỏ biến này được cho bởi bảng sau:
Bảng 3.7 Độ chính xác của mơ hình khi loại X8
Classification Tablea

Predicted
Observed

Y
0

Percentage
Correct

1

0

110

3

97.3

1

13

6

31.6

Y
Step 1


Overall Percentage

87.9

Nhận xét: Khi ta loại bỏ biến X7 thì xác suất phân loại đúng của mơ hình là 88.6%,
loại bỏ biến X8 xác suất phân loại đúng là 87.9%. Vì vậy ta loại bỏ biến X8 ra khỏi mơ
hình. Như thế đề tài chỉ còn lại 8 biến độc lập.
3.3.2 Phương pháp hotelling

Thống kê Hotelling để kiểm tra sự khác biệt giữa hai doanh nghiệp có nợ và doanh
nghiệp khơng có nợ.
> bank<-na.omit(read.csv("D:/nckh/ppc.csv",header=T)[, -c(11:12)])
> library(Hotelling)
> print(hotelling.test(.~Y,data=bank[,-7]))
Test stat:

3.9061

Numerator df:
Denominator df:

8
123


P-value:

0.0003869

Giá trị p-value = 0.0003869 < 0.05. Vậy theo kiểm định Hotelling chúng ta kết luận

có sự khác biệt giữa hai tổng thể.
3.3.3 Phương pháp hồi qui logistic

a) Lựa chọn biến có ý nghĩa thống kê
Sử dụng tất cả biến độc lập để tiến hành phân tích hồi qui logistic trên SPSS, ta thu
được kết quả trong bảng sau:
Bảng 3.8 Lựa chọn biến có ý nghĩa thống kê bằng phương pháp hồi qui Logistic
Variables in the Equation

Step 1a

B

S.E.

Wald

df

Sig.

Exp(B)

X1

-.367

.825

.197


1

.657

.693

X2

1.724

.866

3.968

1

.046

5.609

X3

-.218

.100

4.699

1


.030

.804

X4

-.864

3.375

.066

1

.798

.421

X5

.425

.274

2.411

1

.121


1.530

X6

-1.473

.442

11.087

1

.001

.229

X8

-.125

.225

.307

1

.579

.883


X9

-.040

.073

.303

1

.582

.960

Constant

1.439

1.078

1.782

1

.182

4.217

Bảng trên cho ta biến X2, X3 và X6 có giá trị Sig nhỏ hơn 𝛼 = 0.05. Các biến còn lại

gồm X1, X4, X5, X8 và X9 đều có giá trị Sig lớn hơn mức ý nghĩa 5% hay 10%. Điều này
cho thấy các biến này khơng đóng vai trị quan trọng đối với khả năng trả nợ của khách
hàng đang được khảo sát. Chính vì vậy những phương pháp phía sau đề tài cũng chỉ sử
dụng 3 biến X2, X3 và X6 để thực hiện bài toán phân loại.
b) Khảo sát khả năng phân loại đúng
Thực hiện phân tích trên phần mềm SPSS với 3 biến X2, X3 và X6 cho ta kết quả
tổng hợp các trường hợp như sau:


Bảng 3.9 Bảng tổng hợp tất cả các trường hợp phân loại bằng phương pháp Logistic
Trường
hợp

1 biến

2 biến

3 biến

Chi –

-2 Log

Sig.

Khả năng phân

Square

likelihood


(Model)

loại đúng (%)

X2

2.960

105.822

0.850

85.6

X3

9.191

99.590

0.002

85.6

X6

19.762

89.019


0.000

84.8

X2,X3

15.135

93.647

0.001

85.6

X2,X6

25.454

83.328

0.000

87.9

X3,X6

26.025

82.756


0.000

86.4

X2,X3,X6

33.468

75.313

0.000

88.6

Biến

Nhận xét: Bảng 3.9 Cho ta những cụ thể như sau:
Khả năng phân loại đúng của trường hợp ba biến là lớn nhất 88.6%. Ta thấy trường
hợp mơ hình biến X2 có giá trị Sig = 0.85 > 5% nên mơ hình xây dựng khơng có ý nghĩa
thống kê. Các mơ hình cịn lại đều có Sig < 5% nên có ý nghĩa thống kê.
Giá trị -2Log likelihood của trường hợp ba biến X2, X3 và X6 là nhỏ nhất và giá trị
Chi-Square lớn nhất do đó mơ hình hồi qui Logistic với 3 biến được xem là phù hợp nhất.
c) Khảo sát trường hợp tối ưu
Tiến hành phân tích cụ thể phương pháp hồi quy Logistic cho trường hợp 3 biến X2,
X3 và X6 bằng phần mềm SPSS ta có các bảng kết quả sau:
Bảng 3.10 Các bảng phân tích hồi quy Logistic cho ba biến X2, X3 và X6.
Omnibus Tests of Model Coefficients
Chi-square


Step 1

df

Sig.

Step

33.468

3

.000

Block

33.468

3

.000

Model

33.468

3

.000



Model Summary
Step

-2 Log likelihood

Cox & Snell R

Nagelkerke R

Square

Square

75.313a

1

.224

.399

a. Estimation terminated at iteration number 7 because
parameter estimates changed by less than .001.

Classification Tablea
Predicted
Observed

Y


Percentage

0
Step 1

Correct

1

0

110

3

97.3

1

12

7

36.8

Y
Overall Percentage

88.6


a. The cut value is .500

Variables in the Equation
B

S.E.

Wald

df

Sig.

Exp(B)

95% C.I.for EXP(B)
Lower

Step 1a

Upper

X2

1.643

.622

6.983


1

.008

5.169

1.529

17.482

X3

-.226

.104

4.730

1

.030

.798

.651

.978

X6


-1.340

.403

11.046

1

.001

.262

.119

.577

1.429

.937

2.326

1

.127

4.174

Constant


a. Variable(s) entered on step 1: X2, X3, X6.

Từ các Bảng 3.10 ta có các nhận xét sau:
Mơ hình hồi quy logistic được thiết lập là:

 p 
y  ln 
  1.643 X 2  0.226 X 3  1.340 X 6  1.429
1

p




Kiểm định Chi bình phương cho giá trị quan sát 33.468: Mơ hình có ít nhất một biến
độc lập tồn tại mối liên hệ tuyến tính với khả năng trả nợ của khách hàng với mức ý nghĩa
5%.
Với giá trị -2 Log likehood = 75.313 một lần nữa cho thấy có tồn tại mối tương quan
giữa các biến độc lập và xác suất trả nợ của khách hàng ở mức tương đối có thể chấp nhận
được.
Dựa vào chỉ số Classification Tabel cho thấy mức độ chính xác của tồn bộ mơ hình
là 88.6%. Trong đó, với 19 trường hợp doanh nghiệp có nợ mơ hình đã dự đốn đúng 7
trường hợp, và tỷ lệ đúng là 36.8%. Còn 113 trường hợp doanh nghiệp khơng có nợ mơ
hình dự đốn đúng 110 trường hợp, và tỷ lệ đúng là 97.3%.
Kiểm định Wald về ý nghĩa của các hệ số hồi quy tổng thể của các biến X2, X3 và
X6 có ý nghĩa với mức 5% nên ta bác bỏ giả thuyết H, có nghĩa là các hệ số hồi quy này
có ý nghĩa và mơ hình sử dụng tốt.
Khi các yếu tố khác khơng đổi, biến X2 có tương quan tỷ lệ thuận với khả năng trả

nợ của khách hàng với mức ý nghĩa 1%. Với Exp(B) = 5.169 cho thấy là doanh nghiệp có
qui mơ lớn thì khả năng trả nợ của khách hàng tăng lên 5.169 lần.
Khi các yếu tố khác khơng đổi, biến X3 có tương quan tỷ lệ nghịch với khả năng trả
nợ của khách hàng với mức ý nghĩa 5%. Với Exp(B) = 0.798 khi biến X3 là các ngành
lương thực, thủy sản thì khả năng trả nợ của khách hàng giảm 0.798 lần.
Khi các yếu tố khác khơng đổi, biến X6 có tương quan nghịch với khả năng trả nợ
của khách hàng với mức ý nghĩa 1%. Với Exp(B) = 0.262 khi biến X6 tăng lên 01 đơn vị
thì khả năng trả nợ của khách hàng sẽ giảm 0.262 lần.
Có một cách khác để đánh giá khả năng dự báo của mơ hình thơng qua đồ thị phân
phối xác suất, cụ thể qua đồ thị sau:


Step number: 1
Observed Groups and Predicted Probabilities
40 +

+

I

I

I

I

F

I0


I

R

30 +0

+

E

I0

I

Q

I0

I

U

I0

I

E

20 +0


+

N

I0

I

C

I0

I

Y

I0 0

I

10 +0 0

+

I000

I

I000000


0 0

I0000000

000010

0

I
0 1 0

0

01

1

0

I

Predicted ---------+---------+---------+---------+---------+---------+---------+---------+---------+---------Prob:

0

Group:

0000000000000000000000000000000000000000000000000011111111111111111111111111111111111111111111111111

.1


.2

.3

.4

.5

.6

.7

.8

.9

1

Predicted Probability is of Membership for 1
The Cut Value is .50
Symbols: 0 - 0
1 - 1
Each Symbol Represents 2.5 Cases.

Hình 3.1 Đồ thị phân phối xác suất.
Theo đồ thị trên, trục hoành biểu diễn xác suất các doanh nghiệp có nợ hay khơng có
nợ nhận từ giá trị 0 (khơng có nợ) đến 1 (có nợ). Trục tung cho thấy tần số của các trường
hợp. Đồ thị có phân bố lý tưởng nhất là xác suất doanh nghiệp khơng có nợ (hoặc có nợ)
được tụ lại bên trái (hoặc phải) của trục hồnh vì theo lý thuyết một mơ hình có xác suất

dự báo gần với 0 hoặc 1 sẽ cho kết quả dự báo tốt hơn trường hợp xác suất tập trung quanh
điểm phân cách 0.5. Từ 0 đến 0.5 là những trường hợp doanh nghiệp khơng có nợ và ngược
lại từ 0.5 đến 1 là có nợ. Trong phạm vi đồ thị phía trên cho thấy những trường hợp dự báo
sai khi số 1 xuất hiện phía bên trái điểm phân cách (doanh nghiệp có nợ nhưng cuối cùng
dự báo là khơng có nợ) và ngược lại khi số 0 xuất hiện bên phải điểm phân cách (doanh
nghiệp khơng có nợ nhưng cuối cùng dự báo là có nợ). Kết quả nghiên cứu này, thành cơng
của mơ hình được thể hiện ở chỗ xác suất dự báo cho trường hợp doanh nghiệp khơng có
nợ và doanh nghiệp có nợ là trên 80%.


Tóm lại: Mơ hình trên có thể sử dụng để đánh giá khả năng trả nợ của doanh nghiệp
có nợ và khơng có nợ ở mức độ tốt. Ba biến X2, X3 và X6 tác động nhiều nhất đến khả
năng này.
3.3.4 Phương pháp Fisher

a) Khảo sát mơ hình phân loại
Thực hiện trên phần mềm SPSS ta được bảng tóm tắt sau:
Bảng 3.11 Bảng tổng hợp tất cả các trường hợp phân loại bằng phương pháp Fisher
Trường
hợp

Biến

X2

1 biến

X3

X6


X2,X3

2 biến

X2,X6

X3,X6

3 biến

X2,X3,X6

Hàm phân biệt
D0(x0)=1.415X2 – 0.919
D1(x0)=2.338X2 – 1.308
D0(x0)=0.318X3 – 2.501
D1(x0)=0.211X3 – 1.488
D0(x0)=1.154X6 – 1.993
D1(x0)=0.486X6 – 0.924
D0(x0)=0.678X2 + 0.308X3 – 2.551
D1(x0)=1.902X2 + 0.182X3 – 1.880
D0(x0)=0.872X2 + 1.105X6 – 2.076
D1(x0)=2.159X2 + 0.363X6 – 1.434
D0(x0)=0.291X3 + 1.007X6 – 3.476
D1(x0)=0.200X3 + 0.384X6 – 1.630
D0(x0)=0.239X2 + 0.287X3 + 0.995X6 – 3.842
D1(x0)=1.771X2 + 0.176X3 + 0.296X6 – 1.962

Khả năng phân

loại đúng (%)
65.9

50

63.6

76.5

72

65.9

75

Nhận xét: Ta thấy mơ hình hai biến X2, X3 có xác suất phân loại cao nhất (76.5%)
trong các mơ hình trong bảng 3.11. Vì vậy ta chọn mơ hình này để phân tích chi tiết.


b)Khảo sát trường hợp tối ưu
Tiến hành phân tích chi tiết cho trường hợp 2 biến X2 và X3 trên SPSS ta có kết quả
như sau:
Bảng 3.12 Các bảng phân tích bằng phương pháp Fisher cho hai biến X2 và X3.
Group Statistics
Valid N (listwise)
Y
0

1


Total

Mean

Std. Deviation

Unweighted

Weighted

X2

.32

.468

113

113.000

X3

11.35

6.275

113

113.000


X2

.53

.513

19

19.000

X3

7.53

3.533

19

19.000

X2

.35

.478

132

132.000


X3

10.80

6.099

132

132.000

Covariance Matricesa
Y

X2

0

1

Total

X3

X2

.219

.458

X3


.458

39.374

X2

.263

1.041

X3

1.041

12.485

X2

.229

.436

X3

.436

37.198

a. The total covariance matrix has 131

degrees of freedom.

Pooled Within-Groups Matricesa
X2

X3

X2

.225

.538

X3

.538

35.651

X2

1.000

.190

X3

.190

1.000


Covariance

Correlation
a. The covariance matrix has 130 degrees of
freedom.


Prior Probabilities for Groups
Cases Used in Analysis
Y

Prior

Unweighted

Weighted

0

.500

113

113.000

1

.500


19

19.000

1.000

132

132.000

Total

Classification Function Coefficients
Y
0

1

X2

.678

1.902

X3

.308

.182


-2.551

-1.880

(Constant)

Fisher's linear discriminant functions

Classification Resultsa
Predicted Group Membership
Y
Original

Count

%

0

1

Total

0

85

28

113


1

3

16

19

0

75.2

24.8

100.0

1

15.8

84.2

100.0

a. 76.5% of original grouped cases correctly classified.

Từ các bảng 3.12 ta có các nhận xét sau đây:
Bảng Group Statistics: Cho ta biết các trung bình và độ lệch chuẩn của từng tổng
thể. Theo trên, ta có:


0.468
0.513
0.32 
0.17 
1  
; 2  
; 1  
; 2  




6.275
3.533
11.35
0.54 


Bảng Covariance matrices: Cho biết ma trận hiệp phương sai trùng với các phương
sai. Theo trên, ta có:
0.129 0.458 
0.263 1.041 
; S2   22  
S1   12  


 0.458 39.374
1.041 12.485


Bảng Pooled within-Group matrices: Cho ta biết hiệp phương sai gộp:
S

113S1  19S2 0.225 0.538 


132  2
0.538 35.651

Bảng Classification Function Coefficents: Cho ta biết các hệ số của các hàm phân
biệt Fisher. Theo trên, ta có:
Hàm phân biệt của tổng thể w0 là d0  x0   0.678 X 2  0.308X3  2.551
Hàm phân biệt của tổng thể w1 là d1  x0   1.902 X 2  0.182 X 3  1.880
Bảng Prior Probabilities for Groups: Cho ta biết xác suất tiên nghiệm được chọn
cho từng nhóm. Ở đây, ta có q1 = q2 = 0.5.
Bảng Classification Results: Cho ta xác suất phân loại đúng của từng phần tử:
Có 113 quan sát thuộc tổng thể w0 thì mơ hình phân loại đúng 85 quan sát, chiếm
75.2%. Có 19 quan sát thuộc tổng thể w1 thì mơ hình phân loại đúng 16 quan sát, chiếm
84.2 %. Như vậy ta có xác suất phân loại đúng của mơ hình là ((85+16)/132)*100 =76.5%.
Ngồi ra ta có hình dưới đây:

Hình 3.2 Bộ số liệu với các kết quả phân tích Fisher được lưu lại.


Trong đó
Cột Dis_1 (Predicted Group): Kết quả phân loại,
Cột Dis1_1 (Discriminant Scores): Điểm phân biệt,
Cột Dis1_2 (Probabilities of Members in Group 0): Xác suất phân loại các quan sát
vào nhóm “Doanh nghiệp khơng có nợ”,
Cột Dis2_2 (Probabilities of Members in Group 1): Xác suất phân loại các quan sát

vào nhóm “Doanh nghiệp có nợ”.
Chẳng hạn xét quan sát số 1 thì xác suất để rơi vào nhóm 0 là 0,86364 và rơi vào
nhóm 1 là 0.13636. Vậy quan sát số 1 được tiên đốn vào nhóm “Doanh nghiệp khơng có
nợ”.
1
Giả sử một khách hàng có 𝑥0 = [ ] thì doanh nghiệp này thuộc nhóm nào? Sử dụng
10
hàm phân biệt ta có:
d0(x0) = 0.678 + 3.08 – 2.551 = 1.207
d1(x0) = 1.902 + 1.82 – 1.880 = 1.842
Vì d0(x0) < d1(x0) nên quan sát này xếp vào nhóm “Doanh nghiệp có nợ”.
3.3.5 Phương pháp SVM

a) Khảo sát mơ hình phân loại
Thực hiện trên phần mềm Weka ta được bảng tóm tắt sau:
Bảng 3.13 Bảng tổng hợp tất cả các trường hợp phân loại bằng phương pháp SVM
Trường
hợp
1 biến

2 biến

Xác suất phân loại

Biến

MAE

RMSE


X2

0.1439

0.3794

85.61

X3

0.1439

0.3794

85.61

X6

0.1439

0.3794

85.61

X2, X3

0.1439

0.3794


85.61

X2, X6

0.1439

0.3794

85.61

X3, X6

0.1439

0.3794

85.61

đúng (%)


3 biến

X2, X3, X6

0.1439

0.3794

85.61


Nhận xét: Bảng 3.13 cho ta những cụ thể như sau:
Khả năng phân loại đúng của tất cả các trường hợp đều như nhau .Vì vậy ta sẽ chọn
mơ hình 3 biến X2, X3 và X6 để phân loại là tốt nhất.
b) Khảo sát trường hợp tối ưu
Tiến hành phân tích cụ thể phương pháp SVM cho trường hợp 3 biến X2, X3 và X6
bằng phần mềm Weka ta có kết quả sau:
=== Run information ===

Scheme:

weka.classifiers.functions.LibSVM -S 0 -K 0 -D 3 -G 0.0 -R 0.0 -N 0.5 -M 40.0

-C 1.0 -E 0.001 -P 0.1 -model D:\Weka\Weka-3-8 -seed 1
Relation:

caohuyetap-weka.filters.unsupervised.attribute.Remove-R1,4-5,7-8-

weka.filters.unsupervised.attribute.NumericToNominal-R1,4
Instances:

132

Attributes: 4
x2
x3
x6
phanloai
Test mode:


10-fold cross-validation

=== Classifier model (full training set) ===

LibSVM wrapper, original code by Yasser EL-Manzalawy (= WLSVM)

Time taken to build model: 0.14 seconds

=== Stratified cross-validation ===
=== Summary ===


×