Tải bản đầy đủ (.pdf) (11 trang)

ÁP DỤNG KỸ THUẬT TRÍ TUỆ NHÂN TẠO TRONG XÂY DỰNG MÔ HÌNH CHẤM ĐIỂM TÍN DỤNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (581.27 KB, 11 trang )

ÁP DỤNG KỸ THUẬT TRÍ TUỆ NHÂN TẠO TRONG XÂY DỰNG MÔ HÌNH
CHẤM ĐIỂM TÍN DỤNG
Ths. Trần Thị Huế – Học viện Ngân hàng
Ths. Nguyễn Thanh Thụy - Học viện Ngân hàng
Tóm tắt: Rủi ro tín dụng luôn là một thách thức rất lớn đối với ngành tài chính ngân
hàng, và thường được đánh giá thông qua điểm tín dụng. Đây là việc phân tích trên bộ dữ
liệu lớn để tìm ra đặc điểm tín dụng của khách hàng. Các mô hình chấm điểm tín dụng có
sử dụng kỹ thuật xử lý trong lĩnh vực trí tuệ nhân tạo đã có độ chính xác ngày càng cao.
Trong bài báo này chúng ta xem xét một phương pháp được xây dựng dựa trên sự kết hợp
của nhiều kỹ thuật đã và đang được sử dụng. Máy học hỗ trợ vector (Support Vector
Machine –SVM), mạng thần kinh (Neron Network – NN) và cây quyết định (Decision
Tree – DT) là những kỹ thuật cơ sở được dùng để so sánh với độ chính xác của phương
pháp mới. Vì ngay cả một cải tiến nhỏ cũng có thể giảm thiệt hại đáng kể mà các ngân
hàng có thể gặp phải. Kết quả cho thấy mô hình kết hợp này có tỷ lệ chính xác khá tốt so
với mô hình được xây dựng bởi các phương pháp khác.
I. Giới thiệu
Ngân hàng là một ngành đặc biệt, tạo lợi nhuận từ việc giao dịch tiền tệ. Sự thành công
của các ngân hàng bị ảnh hưởng trực tiếp bởi việc quản lý và kiểm soát các rủi ro liên
quan. Các ngân hàng luôn đối mặt với nhiều loại rủi ro nhưng có thể nói rủi ro nguy hiểm
nhất chính là rủi ro tín dụng. Cuộc khủng hoảng tài chính trong những năm gần đây đã
khiến các tổ chức tài chính, ngân hàng chú trọng rất nhiều vào việc đánh giá rủi ro tín
dụng. Rủi ro tín dụng là một vấn đề được nghiên cứu rất nhiều từ trước tới nay, nó có ảnh
hưởng tới quyết định cho vay và lợi nhuận của ngân hàng. Đối với tất cả các ngân hàng,
tín dụng mang lại nguồn lợi lớn nhất cho họ nhưng lại là hoạt động mang lại rủi ro rất
lớn, và những rủi ro đó rất khó khăn để bù đắp. Rủi ro tín dụng có nghĩa là việc khách
hàng không thể tuân thủ những cam kết tài chính của họ trong tương lai như việc họ trả
tiền chậm hoặc không thể trả tiền cho ngân hàng [1]. Việc áp dụng các kỹ thuật thống kê
và trí tuệ nhân tạo trong việc đánh giá rủi ro tín dụng và phá sản đã được nghiên cứu từ
những năm 70 của thế kỷ trước. Thông thường, các phương pháp tiếp cận được dựa trên



những số liệu về khả năng trả nợ (có hoặc không) và những đặc điểm tài chính của khách
hàng [2]. Điểm tín dụng đã trở thành một công cụ hữu hiệu để các tổ chức tài chính đánh
giá rủi ro trong tương lai. Mục tiêu của việc chấm điểm tín dụng là phân loại khách hàng
thành hai nhóm: nhóm tín dụng tốt và nhóm tín dụng xấu. Các khách hàng thuộc nhóm
tốt hoàn toàn có khả năng thực hiện nghĩa vụ tài chính của mình, trong khi, khách hàng
thuộc nhóm xấu thì sẽ có khả năng không trả được nợ. Quá trình chấm điểm tín dụng là
một quá trình đánh giá độc lập. Những khách hàng có điểm tín dụng cao hơn có nghĩa là
khi chấp nhận cấp tín dụng cho họ thì khả năng gặp rủi ro của ngân hàng cũng thấp hơn.
Điểm tín dụng còn được sử dụng bởi các nhà đầu tư trái phiếu, tổ chức phát hành nợ và
các viên chức chính phủ như một thước đo năng lực tài chính của các công ty mà họ đang
xem xét đầu tư hoặc đánh giá. Việc tính điểm tín dụng chính xác là rất quan trọng đối với
lợi nhuận của các tổ chức tài chính và ngân hàng. Chỉ cần độ chính xác tăng thêm 1% thì
đã tránh được một lượng tổn thất rất lớn cho các ngân hàng. Các mô hình chấm điểm tín
dụng xác định các chỉ tiêu tài chính có sức mạnh giải thích mang tính thống kê trong việc
phân loại các khách hàng từ tổng thể chung. Những lợi ích thu được từ một hệ thống tính
điểm đáng tin cậy bao gồm [4]:
-

Giảm chi phí phân tích tín dụng;

-

Cho phép ra quyết định nhanh hơn;

-

Giảm thiểu các nguy cơ có thể xảy ra.

Điểm tín dụng ban đầu được đánh giá một cách chủ quan theo kinh nghiệm cá nhân và
sau đó nó được dựa trên năm tiêu chuẩn: đặc điểm tiêu dùng, vốn, tài sản thế chấp, năng

lực và điều kiện kinh tế. Nhưng với sự gia tăng mạnh mẽ về số lượng các khách hàng,
việc chấm điểm tín dụng không thể tiến hành thủ công được nữa. Nhiều tổ chức tín dụng
đang phát triển mô hình chấm điểm mới để hỗ trợ các quyết định tín dụng của mình, nếu
nhiều khách hàng xứng đáng được cấp tín dụng hơn cũng đồng nghĩa lợi nhuận của họ
cũng tăng lên. Mô hình chấm điểm tín dụng đầu tiên được xây dựng bởi Alman, từ năm
1968 [5]. Các mô hình chấm điểm tín dụng có thể được chia ra làm hai loại: mô hình
truyền thống và hiện đại. Các mô hình truyền thống được xây dựng dựa trên các kỹ thuật
phổ biến như phân tích phân biệt và hồi quy Logistic [6, 7, 8]. Điểm yếu của phương
pháp phân tích phân biệt là giả định về mối quan hệ tuyến tính giữa các biến, nhưng trong


thực tế các biến thường có mối quan hệ phi tuyến. Phương pháp hồi quy Logistic dự đoán
mối quan hệ tuyền tính giữa các biến dưới dạng hàm mũ. Bởi vì sự thiếu hụt mối quan hệ
phi tuyến giữa các biến nên cả hai phương pháp phân tích phân biệt và hồi quy Logistic
được ghi nhận có sự thiếu chính xác [9]. Gần đây , những phương pháp tiếp cận mới đã
được áp dụng để phát triển các hệ thống chấm điểm hiệu quả hơn. Các nghiên cứu gần
đây đã chỉ ra rằng các kỹ thuật trong lĩnh vực trí tuệ nhân tạo như cây quyết định
(Decision Tree – DT), máy hỗ trợ vector (SVM), thuật toán di truyền (GA) và mạng thần
kinh (Neuron Network –NN) rất thuận lợi cho các mô hình thống kê và tối ưu hóa để
đánh giá rủi ro tín dụng. Không giống như các kỹ thuật thống kê, các kỹ thuật trí tuệ nhân
tạo không giả định dữ liệu phải tuân theo một phân phối nhất định nào đó. Những kỹ
thuật này tự động lấy kiến thức từ mẫu huấn luyện. Theo các nghiên cứu trước đây,
phương pháp sử dụng các kỹ thuật trí tuệ nhân tạo tốt hơn các kỹ thuật thống kê trong
việc đánh giá rủi ro tín dụng của doanh nghiệp, đặc biệt đối với các mô hình phi tuyến.
Ứng dụng của các kỹ thuật nói trên đã được điều tra trong một số nghiên cứu [10, 12, 13].
Baesens et al [10] đã tiến hành một nghiên cứu xây dựng mô hình chấm điểm tín dụng từ
17 kỹ thuật phân loại khác nhau trên tám bộ dữ liệu thực tế, kết quả cho thấy SVM có thứ
hạng cao nhất về tỷ lệ chính xác. Ngoài ra, trong một nghiên cứu của Abdou et al [14, 15]
đã chỉ ra rằng mô hình được xây dựng từ kỹ thuật NN cũng cho một tỷ lệ chính xác khá
cao khi nhóm nghiên cứu của họ tiến hành những nghiên cứu ở Ý và Ai Cập. Mặc dù gần

như tất cả các kỹ thuật có thể được sử dụng để đánh giá rủi ro tín dụng, tuy nhiên một số
phương pháp được xây dựng dựa trên sự kết hợp giữa các kỹ thuật đã cho kết quả cao
hơn khi chúng ta chỉ sử dụng duy nhất một kỹ thuật để tính toán. Trong học máy, các
phương pháp kết hợp đã tạo ra một lĩnh vực nghiên cứu nhằm cải thiện hoạt động phân
loại hoặc dự đoán hiệu suất qua phương pháp học duy nhất. Có thể lấy ví dụ như một mô
hình phân loại được cấu thành từ một máy học không có giám sát để tiền xử lý dữ liệu
đào tạo và một máy học có giám sát để tìm hiểu các kết quả phân nhóm. Trong [16],
Huang et al đã xây dựng một mô hình kết hợp giữa SVM và NN, tương tự trong [17],
một mô hình kết hợp giữa SVM và giải thuật di truyền đã được xây dựng.
Bài viết này muốn giới thiệu phương pháp học tập hợp (ensemble learning) được kết hợp
từ các kỹ thuật SVM, NN và DT. Phần còn lại của bài viết sẽ được tổ chức như sau: Phần


II giới thiệu tổng quan về phương pháp học tập hợp, Phần III giới thiệu chi tiết về kết cấu
của các thí nghiệm được sử dụng, Phần IV trình bày kết quả thực nghiệm khi áp dụng
phương pháp này, Phần V sẽ trình bày những kết luận chung.
II. Tổng quan về phương pháp học tập hợp (ENSEMBLE LEARNING)
Học tập hợp là một phương pháp học máy sử dụng nhiều nhóm học để giải quyết cùng
một vấn đề. Ngược với cách tiếp cận của các phương pháp học thông thường là cố gắng
tìm hiểu một giả thuyết từ dữ liệu huấn luyện, phương pháp học tập hợp xây dựng một
tập các giả thuyết và kết hợp chúng để sử dụng [18]. Phương pháp này dùng để cải thiện
hiệu xuất và độ chính xác của việc phân loại. Hệ thống phân loại được chia làm nhiều lớp
dựa trên sự kết hợp của một tập các phân loại và sự hợp nhất của chúng để đạt được hiệu
suất cao hơn. Ý tưởng chính của hầu hết các phương pháp học tập hợp là sẽ sửa đổi các
tập dữ liệu huấn luyện , xây dựng n tập đào tạo mới. Trong các mô hình học tập hợp các
lỗi và sai lệch của một bộ phận được bù đắp bởi các thành viên khác trong toàn tập hợp.
Khả năng tổng quát hóa của phương pháp tập hợp thường mạnh hơn nhiều so với một
phân loại đơn. Dietterich [19] đã đưa ra ba lý do bằng cách xem bản chất của máy học
như tìm kiếm một không gian cho giả thuyết chính xác nhất. Lý do đầu tiên là dữ liệu
huấn luyện có thể không cung cấp đủ thông tin lựa chọn một bộ phân loại tốt nhất. Lý do

thứ hai là các quá trình tìm kiếm của các thuật toán phân lớp có thể là không hoàn hảo.
Lý do thứ ba là không gian giả thuyết đang được tìm kiếm có thể không chứa hàm đích
thực. Như vậy tập hợp các phương pháp có thể bù đắp cho những điều không hoàn hảo
trong quá trình tìm kiếm quy luật.
III. Thiết kế phương pháp
Không có kỹ thuật nào trong lĩnh vực trí tuệ nhân tạo được cho là tốt nhất khi xây dựng
mô hình chấm điểm tín dụng, mà những gì tốt nhất phụ thuộc vào chi tiết của vấn đề, các
cấu trúc dữ liệu, các đặc điểm sử dụng, mức độ mà nó có thể tách riêng các lớp học bằng
cách sử dụng đặc điểm và mục tiêu của việc phân loại. Trong bài viết trình bày mô hình
sử dụng hai kỹ thuật học: kỹ thuật phân cụm (clustering) và kỹ thuật phân lớp
(classification). Kỹ thuật phân cụm sử dụng phương pháp C – trung bình mờ (fuzzy CMean – FCM), còn kỹ thuật phân lớp sử dụng 3 phương pháp phân loại phổ biến: SVM,


NN, và DT. Toàn bộ quá trình bao gồm phân cụm C- trung bình mờ , chuẩn hóa, xây
dựng các nhánh phân loại và cuối cùng xác định một phương pháp kết hợp các kết quả
được tạo bởi mỗi nhánh. Trong bài viết này, 10 lớp phân loại được sử dụng như thành
viên của tập hợp. Mục tiêu của mô hình đề xuất là sử dụng đầy đủ các kiến thức và trí tuệ
của các lớp trong nhóm để thực hiện một quyết định hợp lý trên một tập tiền xác định của
các tiêu chí. Mỗi phần của mô hình chấm điểm kết hợp được mô tả ngắn gọn trong các
mục nhỏ dưới đây.

Hình 1: Mô hình đề xuất
A. Phân cụm (Clustering)
Giai đoạn đầu tiên của mô hình là phân cụm mờ tập dữ liệu, giai đoạn này như một quá
trình trước khi xây dựng các nhánh phân lớp có tính năng tương tự. Quá trình tiền xử lý
này sẽ dẫn đến các nhánh có tính huấn luyện tốt hơn và kết quả là, một mô hình phân loại
tốt hơn được thực hiện và xác suất của sai sót được giảm xuống so với việc sử dụng tập
dữ liệu ban đầu. Đôi khi, ngay cả với một mô hình phân loại chính xác, nhưng với một
trường hợp mới cũng bị hạn chế và những hạn chế như vậy thường phát sinh từ dữ liệu
huấn luyện. Do đó nếu dữ liệu huấn luyện có chất lượng cao hơn thì các nhánh phân loại

cũng sẽ chính xác hơn. Mô hình sử dụng phân cụm mờ C – trung bình để tạo ra 10 cụm
tương ứng với 10 nhánh phân loại. Phân cụm mờ C- trung bình là một phương pháp cho
phép một bộ phần dữ liệu thuộc về hai hay nhiều cụm. Phương pháp này thường được sử
dụng trong nhận dạng mẫu. Nó là kết quả tối thiểu hóa hàm mục tiêu sau:


Trong đó m là một số thực bất kỳ lớn hơn 1, uij là bậc thành viên của xi trong lớp j, xi là
dữ liệu được đo trong chiều thứ i trong d chiều, ci là tâm d chiều của cụm và ||*|| là một
chuẩn bất tương đương giữa việc đo dữ liệu và tâm. Việc phân chia các tập mờ được
thực hiện thông qua việc tối ưu hóa lặp đi lặp lại hàm mục tiêu m, với các bản cập nhật
của thành viên uij và cụm c j bởi:

Vòng lặp này sẽ dừng khi

Thuật toán bao gồm các bước sau đây:
1. Khởi tạo ma trận U  uij  , ta có U (0)
2. Tại bước thứ k : Tính toán vector trung tâm C (k)  [c j ] theo U ( k )
3. Cập nhật U ( k ) , U ( k 1) theo công thức uij 

1
 xi  c j


 xi  ck
k 1

c

2


 m 1




4. Nếu U (k 1)  U (k)   thì dừng, ngược lại quay lại bước 2
B. Chuẩn hóa
Dữ liệu cần được chuẩn hóa để đưa vào các nhánh. Các biến kiểu số đại diện cho các
thuộc tính định lượng có giá trị nằm trong một khoảng biến động rất lớn, và ở giai đoạn
chuẩn hóa này giá trị các biến sẽ được đưa về nằm trong khoảng [0,1]. Điều này được
thực hiện như sau: Chúng ta sẽ tìm giá trị lớn nhất của các biến rồi thực hiện việc chia giá
trị của các biến đó trong mỗi quan sát cho giá trị lớn nhất đó. Đây là một bước chuẩn hóa
bình thường nhưng hiệu quả.
C. Phân lớp


Như đã đề cập, ba kỹ thuật phân lớp được sử dụng và so sánh trong bài viết này bao gồm
SVM, NN và DT được trình bày cụ thể phía dưới
C1. Máy hỗ trợ Vector (SVM)
SVM là một kỹ thuật phân lớp trong lĩnh vực trí tuệ nhân tạo, và tính hiệu quả của kỹ
thuật này cũng được chứng minh trong nhiều nghiên cứu như phân loại văn bản, rủi ro tín
dụng và dự báo phá sản. SVM dựa trên ý tưởng của cấu trúc giảm thiểu rủi ro để xây
dựng. SVM sử dụng một mô hình tuyến tính để thực hiện ranh giới lớp phi tuyến thông
qua các bản đồ phi tuyến để vạch ra một ranh giới tuyến tính của các vector đầu vào
thành một không gian đặc trưng có số chiều lớn. Trong không gian nhiều chiều này, yếu
tố lợi nhuận được đặt lên hàng đầu. Hỗ trợ vector được định nghĩa là các ví dụ huấn
luyện gần gũi nhất với các tính toán lợi nhuận. SMV là một kỹ thuật tối ưu hóa trong đó
lỗi dự báo và độ phức tạp của mô hình đồng thời được giảm thiểu.
C2. Mạng thần kinh (NN)
Mạng thần kinh ( Neuron Network – NN) được định nghĩa là bộ vi xử lý song song lớn,

có xu hướng bảo tổn các kiến thức thực nghiệm và cho phép tiếp tục sử dụng. NN mô
phỏng bộ não con người với mục đích thu thập các bằng chứng thực nghiệm trong quá
trình học tập, ngoài ra các kết nối liên thần kinh (sysnapse) được sử dụng để lưu trữ các
tri thức. Một tính năng quan trọng khác của NN đó là ngoài khả năng học tập, NN còn có
khả năng khái quát hóa các kiến thức đã học. Hiện nay, có khá nhiều cấu trúc và thuật
toán học của NN. Trong lĩnh vực kinh tế, NN được sử dụng chủ yếu trong trường hợp các
biến có mối quan hệ phi tuyến. Một mạng thần kinh bao gồm các nút thần kinh liên kết
với các nút trọng số. Mỗi nút có thể mô tả một tế bào thần kinh. Các mạng thần kinh phổ
biến bao gồm ba lớp: lớp đầu vào, lớp ẩn và lớp đầu ra. Ba lớp này được kết nối với nhau
tạo thành một hệ thần kinh bền vững.
C3. Cây quyết định (Decision Tree –DT)
Một cây quyết định (DT) là một mô hình của bộ dữ liệu được phân về các nhánh. Gốc
của cây quyết định không chứa bất kì một cạnh vào nào cả, mỗi nút khác có đúng một
cạnh vào và hữu hạn cạnh ra, nếu một nút không có cạnh ra nào được gọi là nút lá, các
nút còn lại được gọi là các nút nội bộ. Mỗi nút lá được gán nhãn tương ứng với một lớp,
mỗi nút nội bộ được gán nhãn với một thuộc tính, được gọi là thuộc tính chia tách. Bạn


có thể thực hiện quá trình phân lớp bằng việc sử dụng các thuộc tính phân tách cho tới
khi bạn gặp các nút lá, hoặc một thiết bị đầu ra. Tập hợp các luật đường đi từ nút gốc tới
nút lá sẽ xác định cho chúng ta các luật quyết định mà hàm mục tiêu trả về giá trị là mức
độ rủi ro tương ứng với khách hàng. Một DT cũng có thể được chuyển đổi thành những
quy tắc được sử dụng cho nhiệm vụ dự đoán sức mạnh tài chính hoặc khả năng phá sản.
D. Nhánh tổng hợp
Biểu quyết đại đa số là phương pháp được sử dụng phổ biến nhất để kết hợp kết quả của
các nhánh thành viên trong mô hình tập hợp. Ưu điểm của phương pháp này cho phép kết
hợp được sự chính xác của các thành viên nên kết quả phân loại cũng tốt hơn. Mỗi một
nhánh thành viên sẽ được đánh một trọng số.
IV. Phân tích thực nghiệm
Để kiểm tra hiệu năng của mô hình trong bài báo này, các số liệu thực tế của UCI được

sử dụng và kết quả sẽ được trình phần ở những mục nhỏ phía sau:
A. Tập dữ liệu thực tế
Bỗ dữ liệu được lấy từ kho dữ liệu học máy UCI. Bộ dữ liệu chứa 1000 quan sát, trong đó
có 700 trường hợp được cấp tín dụng, 300 trường hợp bị từ chối. Mỗi quan sát được đặc
trưng bởi 20 thuộc tính, trong đó có 7 thuộc tính định lượng và 13 thuộc tính định tính.
B. Kết quả thực nghiệm
Các tiêu chí dùng để đánh giá sự chính xác của mô hình bao gồm độ chính xác loại I, loại
II và tổng thể được tính toán theo công thức sau:
Độ chính xác loại I =

𝑆ố 𝑙ượ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑠á𝑡 đượ𝑐 𝑝ℎâ𝑛 𝑣à𝑜 𝑙ớ𝑝 𝑥ấ𝑢

Độ chính xác loại II =

𝑆ố 𝑙ượ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑠á𝑡 𝑙à 𝑥ấ𝑢 𝑡ℎậ𝑡 𝑠ự
𝑆ố 𝑙ượ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑠á𝑡 đượ𝑐 𝑝ℎâ𝑛 𝑣à𝑜 𝑙ớ𝑝 𝑡ố𝑡

Độ chính xác tổng thể =

𝑆ố 𝑙ượ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑠á𝑡 𝑙à 𝑡ố𝑡 𝑡ℎậ𝑡 𝑠ự
𝑆ố 𝑙ượ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑠á𝑡 đượ𝑐 𝑝ℎâ𝑛 𝑙ớ𝑝 đú𝑛𝑔

Kết quả thu được như sau:

𝑆ố 𝑙ượ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑠á𝑡 𝑡ổ𝑛𝑔 𝑡ℎể


Bảng 2: So sánh độ chính xác của các phương pháp
Khi so sánh độ chính xác của mô hình được xây dựng, chúng ta có thể thấy mô hình được
trình bày trong bài viết cũng có kết quả rất lạc quan so với những mô hình được xây dựng

bằng các kỹ thuật khác.
V. Kết luận
Trong bài báo này, một mô hình kết hợp đã được trình bày theo phương pháp học tập
hợp. Mô hình đã sử dụng sự kết hợp giữa ba kỹ thuật cơ sở trong lĩnh vực trí tuệ nhân
tạo: Phân cụm mờ C – trung bình, SVM, NN và DT. Đây là những kỹ thuật phổ biến
được sử dụng để xây dựng mô hình chấm điểm. Và sự kết hợp chúng với nhau cũng tạo
ra mô hình có kết quả khá tốt khi so sánh với các mô hình chỉ sử dụng một kỹ thuật đơn
lẻ để xây dựng.
Tài liệu tham khảo
[1] P. Ya-qiong, “ A study on evaluation of consumer credit's risks of commercial
banks,” Proc. International Conference on Wireless Communications (WiCom 2007),
IEEE, pp. 4531-4534, Sept. 2007, doi: 10.1109/WICOM.2007.1115.


[2] L. Yu, S. A. Wang, and K. K. Lai, “Credit risk assessment with a multistage neural
network ensemble learning approach,”Expert systems with applications, vol. 34, pp.
1434-1444, Feb. 2008, doi: 10.1016/j.eswa.2007.01.009.
[3] L. Yu, S. Wang, and K. K. Lai,“An intelligent-agent-based fuzzy group decision
making model for financial multicriteria decision support: the case of credit scoring,”
European journal of operational research, vol. 195, pp. 942-959, June. 2009, doi:
10.1016/j.ejor.2007.11.025.
[4] C.-f. Tsai, and J.-w. Wu, “ Using neural network ensembles for bankruptcy
prediction and credit scoring,” Expert systems with applications, vol. 34, pp. 2639-2649,
May. 2008, doi: 10.1016/j.eswa.2007.05.019.
[5] I. E. Altman, “ Financial ratios,discriminant analysis and the prediction of corporate
banlruptcy,” The journal of finance, vol. 23, pp. 589-611, 1968.
[6] B. Baesens, R. Setiono, C. Mues, and J. Vanthienen, “Using neural network rule
extraction and decision tables for credit-risk evaluation,” Management science, vol. 49,
pp. 312-329, March. 2003, doi: 10.1287/mnsc.49.3.312.12739.
[7] Lee, T. S., and I. F. Chen, “A two-stage hybrid credit scoring model using artificial

neural networks and multivariate adaptive regression splines” Expert sysytems with
application, vol. 28, pp. 743-752, May. 2005, doi: 10.1016/j.eswa.2004.12.031.
[8] D. West, “ Neural network credit scoring models,” Computers and operations
research, vol. 27, pp. 1131-1152, Oct. 2000, doi: 10.1016/S0305-0548(99)00149-5.
[9] M. Sustersic, D. Mramor, and J. Zupan,” Consumer credit scoring models with
limited data,” Expert system with application, vol. 36, pp. 4736-4744, April. 2009, doi:
10.1016/j.eswa.2008.06.016.
[10] B. Baesens, T. Van Gestel, S. Viaene, M. Stepanova, J. Suykens, and J.
Vanthienen,” Benchmarking state-of-art classification algorithm for credit scoring,”
Journal of operational research society, vol. 54, June. 2003, pp. 627-635, doi:
10.1057/palgrave.jors.2601545.
[11] K. B. Schebesch, and R. Stecking,” Support vector machine for classifying and
describing credit applicants: Detecting typical and critical regions,” Journal of the
operational research society, vol. 56, Sep. 205, pp. 1082-1088, doi:
10.1057/palgrave.jors.2602023.
[12] K. S. Shin, T. S. Lee, and H. Kim,” An application of support vector machines in
bankruptcy prediction model” Exper systems with pplications, vol. 28, Jan. 2005, pp.
127-135, doi: 10.1016/j.eswa.2004.08.009.
[13] T. V. Gestel, B. Baesens, J. A. Suykens, D. Van den Poel, D.-E. Baestaens, and B.
Willekens,” Bayesian kernel based classification for financial distress detection,”
European journal of operational research, vol. 172, Aug. 2006, pp. 979-1003, doi:
10.1016/j.ejor.2004.11.009.


[14] H. Abdou, J. Pointon, and A. Elmasry,” Neural Nets Versus Conventional
Techniques in Credit Scoring in Egyptian Banking,” J. Expert systems with applications,
vol.
35,
no.
3,

pp.
1275-1292,
Oct.
2008,
doi:
/>[15] E. Angelini, G. D. Tollo, and A. Roil,” A Neural Network Approach for Credit Risk
Evaluation,” The quarterly review of economics and finance, vol. 48, no. 4, pp. 733-755,
Nov. 2008, doi: 10.1016/j.qref.2007.04.001.
[16] C. L. Huang, M. C. Chen, and C. J. Wang,” Credit scoring with a data mining
approach based on support vector machines,” Expert systems with applications, vol. 33,
Nov. 2007, pp. 847-856, 10.1016/j.eswa.2006.07.007.
[17] D. Zhang, M. Hifi, Q. Chen, and W. Y,” A hybrid credit scoring model based on
genetic programming and support vector machines,” Proc. The fourth international
conference on natural computation, (ICNC 2008), IEEE, Oct. 2008, pp. 8-12, doi:
10.1109/ICNC.2008.205
[18] G. Wang, J. Hao, J. Ma, and H. Jiang,” A comparative assessment of ensemble
learning for credit scoring,” Expert systems with applications, vol. 38, Jan. 2011, pp. 223230, doi: 10.1016/j.eswa.2010.06.048.
[19] T. G. Dietterich, “Machine learning research: Four current directions,” AI
Magazine, vol. 18, no.4, pp. 97–136. [34] J. C. Bezdek,,” Pattern recognition with fuzzy
objective function algorithm,” Newyork: Plenum press.



×