Tải bản đầy đủ (.doc) (25 trang)

Ứng dụng khai phá tri thức xây dựng hệ thống thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình (TT)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (297.43 KB, 25 trang )

1
MỞ ĐẦU
1. Giới thiệu và lý do chọn đề tài
Sự phát triển của công nghệ thông tin đã mang lại cho nhân
loại nhiều tiện lợi và giúp giải quyết những công việc tưởng chừng
như con người không thể giải quyết được. Trong đó, khai phá tri thức
trong cơ sở dữ liệu đang là một xu hướng quan trọng của nền Công
nghệ thông tin thế giới. Nó có khả năng ứng dụng vào rất nhiều lớp
bài toán thực tế khác nhau. Bước quan trong nhất của quá trình này
là khai phá tri thức từ dữ liệu, giúp con người thu được những tri
thức hữu ích từ những cơ sở dữ liệu hoặc các nguồn dữ liệu khổng lồ
khác. Một số ít ngân hàng thương mại, doanh nghiệp và tổ chức trên
thế giới đã ứng dụng kỹ thuật khai phá tri thức từ dữ liệu vào các
hoạt động tín dụng để phát triển sản xuất và kinh doanh, đã và đang
thu được những lợi ích to lớn.
Hiện nay, việc ứng dụng công nghệ thông tin trong nhiều lĩnh
vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng
nghĩa với lượng dữ liệu đã được các cơ quan, các tổ chức tín dụng
thu thập và lưu trữ ngày một tích luỹ nhiều lên. Người ta lưu trữ các
dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào
đó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ
liệu này (khoảng từ 20% đến 25%) là luôn được phân tích, số còn lại
người ta không biết sẽ phải làm gì hoặc có thể làm gì với chúng
nhưng vẫn phải tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ
có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó. Mặt
khác, trong môi trường cạnh tranh khốc liệt như hiện nay và sự xuất
hiện nhiều nhiều ngân hàng thương mại và nền kinh tế đang có
chuyển biến xấu và đầy phức tạp, nhân viên ngân hàng ngày càng
cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết
định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải
2


trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Việc ứng
dụng công nghệ thông tin trong ngân hàng đang rất cần thiết, đặc biệt
là ứng dụng khai phá tri thức từ dữ liệu.
Xuất phát từ thực tế và nhu cầu nắm bắt, trang bị hạ tầng về
công nghệ thông tin của cơ quan, tổ chức để hiện đại hoá công việc,
giúp giải quyết nhanh chóng, nâng cao hiệu quả và dự báo chính xác
trong công việc nhất là trong lĩnh vực kinh doanh, thương mại điện
tử trong vấn đề trợ giúp thẩm định vay vốn tại ngân hàng. Từ lý do
đó, tôi chọn đề tài: Ứng dụng khai phá tri thức xây dựng hệ thống
thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình.
Để nghiên cứu làm luận văn tốt nghiệp cao học ngành Khoa
học máy tính. Trong đó, tập trung vào nghiên cứu kỹ thuật mạng Nơ-
ron, áp dụng trong việc khai phá tri thức từ dữ liệu để giải quyết bài
toán.
2. Mục tiêu và nhiệm vụ
Mục tiêu của đề tài tìm hiểu các khai phá tri thức trong lĩnh
vực hoạt động thẩm định vay vốn tại ngân hàng, đặc biệt là vấn đề ra
quyết định trong hoạt động thẩm định tín dụng đạt kết quả ra sao.
Nhiệm vụ cơ bản của nghiên cứu: (1) Thu thập và phân tích dữ
liệu tri trức về tình hình khách hàng được thẩm định; (2) Tìm hiểu
bài toán thực tế: Thẩm định hoạt động vay vốn ngân hàng; (3) Tìm
hiểu tổng tổng quan về các kỷ thuật khai phá tri thức; (4) Tìm hiểu
cơ sở lý thuyết khai phá luật kết hợp, kỷ thuật mạng Nơ-ron; (5) Xây
dựng mô hình và phân tích thiết kế hệ thống trợ giúp dự báo thẩm
định vay vốn trong ngân hàng.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng chủ yếu để nghiên cứu luật kết hợp và kỹ thuật
mạng Nơ-ron, các thuật toán học của mạng Nơ-ron, đặc biệt là thuật
3
toán lan truyền ngược (Back propagation algorithm). Ngoài ra, cũng

cần phải nắm được các kỹ thuật lập trình cơ bản trên nền Window.
4. Phương pháp nghiên cứu
Thu thập, phân tích các tài liệu và thông tin liên quan đến đề
tài; Xem xét, lựa chọn phương hướng giải quyết vấn đề; Xây dựng
mô hình theo lý thuyết; Triển khai xây dựng chương trình ứng dụng
trên máy tính; Kiểm tra, thử nghiệm và đánh giá kết quả.
5. Ý nghĩa khoa học và thực tiễn của đề tài
Ý nghĩa khoa học của đề tài là nghiên cứu và phát triển một
mô hình khai phá dữ liệu nhằm dự báo độ rủi ro trong việc phê duyệt
đơn vay tín dụng của ngân hàng, dựa trên kỹ thuật mạng Nơ-ron.
Việc dự báo các kết quả sẽ hỗ trợ, trợ giúp cho nhà quản lý trong
việc ra các quyết định tối ưu.
6. Bố cục của luận văn
Luận văn bao gồm các phần như sau:
Mở đầu
Chương 1:
Nêu tổng quan về khai phá tri thức từ dữ liệu. Các kỹ thuật
mạng Nơ-ron trong khai phá dữ liệu, các thuật toán trong mạng Nơ-
ron, cũng như các lĩnh vực ứng dụng.
Chương 2:
Phân tích bài toán. Giới thiệu bài toán, nêu lên bài toán cụ thể
và xây dựng mô hình tổng quát cho bài toán, giải pháp giải quyết bài
toán.
Chương 3:
Xây dựng hệ thống trợ giúp thẩm định vay vốn ngân hàng. Tạo
bộ dữ liệu mẫu về dữ liệu đầu vào, dữ liệu của tập huấn luyện, tập
kiểm thử, vận hành mạng và cho ra kết quả thử nghiệm. Trên cơ sở
đó đưa ra các đánh giá về giải pháp của đề tài trong việc ứng dụng
4
thực tiễn của vấn đề cũng như có những so sánh với các giải pháp

khác. Kết luận của đề tài về các mặt làm được, khả năng ứng dụng,
những ưu và nhược điểm và hướng phát triển trong tương lai.
CHƯƠNG 1
CƠ SỞ LÝ THUYẾT
1.1. GIỚI THIỆU VỀ KHAI PHÁ TRI THỨC
Phát hiện tri thức là khái niệm ra đời vào những năm cuối của
thập kỷ 80 và đã trở thành một lĩnh vực được nguyên cứu rộng rãi
trên toàn cầu. Sự ra đời của phát hiện tri thức là sự kết hợp kết quả
nguyên cứu của nhiều ngành khoa học khác lại với nhau như: Quản
trị cơ sở dữ liệu, học máy, thống kê …
1.2. ĐỊNH NGHĨA KHAI PHÁ TRI THỨC
Thực chất đó là quá trình tìm kiếm những thông tin có trong
cơ sở dữ liệu nhưng bị che giấu trong các khối dữ liệu.
Tri thức ở đây có thể được hiểu là một biểu thức trong một
ngôn ngữ. Các ngôn ngữ thường dùng để diễn tả tri thức trong việc
biểu diễn tri thức trong quá trình phát hiện tri thức từ cơ sở dư liệu là
các khung (frames), các cây và đồ thị, các luật, các công thức trong
logic mệnh đề hoặc logic tân từ cấp một
Việc khai phá tri thức thường được áp dụng để giải quyết một
loạt những yều cầu phục vụ những mục đích nhất định. Vì vậy, quá
trình phát hiện tri thức là một hoạt động tương tác giữa một người sử
dụng hoặc một chuyên gia phân tích với các công cụ tin học.
1.3. CÁC GIAI ĐOẠN QUÁ TRÌNH KHAI PHÁ TRI THỨC
Quá trình khai phá tri thức, từ những cơ sở dữ liệu thực tế sau
một hoặc một số bước của quá trình sẽ rút ra được những tri thức
mới. Các bước trong quá trình này có thể lặp đi lặp lại nhiều lần và
được mô tả theo hình sau:
5
Hình 1.1 Sơ đồ mô tả quá trình khai phá tri thức
1.4. MÔ HÌNH KHAI PHÁ TRI THỨC

Hình 1.2 Mô hình khai phá tri thức
Hình thành và
xác định vấn đề
Khai phá dữ liệu,
rút ra các tri thức
Thu thập và tiền
xử lý dữ liệu
Giải thích kết
quả và đánh giá
Sử dụng các tri
thức phát hiện
được
1
2
3
4
5
6
1.5. KHO DỮ LIỆU (DATA WAREHOUSE)
Là các cơ sở dữ liệu tích hợp, hướng theo các chủ đề nhất
định, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định, mà
mỗi đơn vị dữ liệu liên quan đến một khoảng thời gian cụ thể.
Kho dữ liệu thường có dung lượng rất lớn, thường là hàng
Gigabytes hay có khi tới hàng Terabytes. Kho dữ liệu được xây dựng
để tiện lợi cho việc truy cập từ nhiều nguồn, nhiều kiểu dữ liệu khác
nhau sao cho có thể kết hợp được cả những ứng dụng của các công
nghệ hiện đại và vừa có thể kế thừa được từ các hệ thống đã có từ
trước. Dữ liệu được phát sinh từ các hoạt động hàng ngày và được
thu thập xử lý để phục vụ công việc nghiệp vụ cụ thể của một tổ
chức, vì vậy thường được gọi là dữ liệu tác nghiệp và hoạt động xử

lý dữ liệu này gọi là xử lý giao dịch trực tuyến (OLPT - On Line
Transaction Processing).
1.6. LUẬT KẾT HỢP
Nhằm phát hiện ra các Luật kết hợp giữa các thành phần dữ
liệu trong cơ sở dữ liệu. Các luật kết hợp có thể là một cách hình
thức hóa đơn giản. Chúng rất thích hợp cho việc tạo ra các kết quả có
dữ liệu dạng nhị phân. Giới hạn cơ bản của phương pháp này là ở
chỗ các quan hệ cần phải thưa theo nghĩa không có tập thường xuyên
nào chứa nhiều hơn 15 thuộc tính. Giải thuật tìm kiếm các luật kết
hợp tạo ra số luật ít nhất phải bằng với số các tập phổ biến và nếu
như một tập phổ biến có kích thước K thì phải có ít nhất là 2K tập
phổ biến. Thông tin về các tập phổ biến được sử dụng để ước lượng
độ tin cậy của các tập luật kết hợp.
1.6.1. Lý thuyết về luật kết hợp
1.6.2. Định nghĩa luật kết hợp
Mà các luật đều phải thoả mãn một ngưỡng hỗ trợ và tin cậy
cụ thể. Thực vậy, cho một tập các giao dịch D, bài toán phát hiện luật
7
kết hợp là sinh ra tất cả các luật kết hợp mà có độ tin cậy conf lớn
hơn độ tin cậy tối thiểu mincon và độ hỗ trợ sup lớn hơn độ hỗ trợ tối
thiểu minsup tương ứng do người dùng xác định. Khai phá luật kết
hợp được phân thành hai bài toán.
1.6.3. Một số tính chất liên quan đến các hạng mục phổ
biến (frequent itemset)
Tính chất 1: Độ hỗ trợ (support) cho tất cả các tập con
(subset).
Tính chất 2: Nếu một mục trong A không có độ hỗ trợ tối
thiểu trên D nghĩa là support(A)< minsup thì một tập con B của A sẽ
không phải là một tập phổ biến vì support(B) ≤ support(A) <
minsup.

Tính chất 3: Nếu mục B là mục phổ biến trên D, nghĩa là
support(B) ≥ minsup thì mọi tập con A của B là tập phổ biến trên D
vì support(A) ≥ support(B) > minsup.
1.6.4. Một số hướng tiếp cận trong khai phá luật kết hợp
Luật kết hợp nhị phân (binary association rule hoặc boolean
association rule); Luật kết hợp có thuộc tính số và thuộc tính hạng
mục (quantitative and categorial association rule); Luật kết hợp tiếp
cận theo hướng tập thô (mining association rules base on rough set):
Tìm kiếm luật kết hợp dựa trên lý thuyết tập thô
1.6.5. Phát biểu bài toán phát hiện luật kết hợp
Xét ví dụ đối tượng trong giao dịch cho vay khách hàng tại
đơn vị . Tập các giao dịch (ở đây coi là tập các mục) I = {khá, tốt,
trung bình, xấu} và số các đối tượng cho vay là 4 giao dịch (|T| = 4),
trong đó T = {1, 2, 3, 4} – ký hiệu các giao dịch TID.
1.6.6. Phát hiện luật kết hợp dựa trên hệ thông tin nhị
phân
8
Hệ thông tin nhị phân; Tập chỉ báo phổ biến nhị phân; Các luật
kết hợp phổ biến nhị phân và hệ số tin cậy; Các vectơ chỉ báo nhị;
phân và các phép toán; Tích vectơ chỉ báo nhị phân; Độ hỗ trợ các
vectơ chỉ báo nhị phân
1.6.7. Thuật toán phát hiện tập chỉ báo và luật kết hợp nhị
phân
Thuật toán Apriori-Tid có hai pha
1.6.8. Khai phá luật kết hợp trên hệ thông tin mờ
1.7. MẠNG NEURON
Kỹ thuật mạng Nơ-ron là kỹ thuật mới liên quan đến việc phát
triển các cấu trúc toán học với khả năng học. Mạng Nơ-ron có thể
đưa ra ý nghĩa từ dữ liệu phức tạp nhiều chiều và phát hiện xu hướng
của dữ liệu mà các kỹ thuật khác không thể thực hiện được. Mạng

Nơ-ron có khả năng mô hình hoá những dữ liệu phức tạp và nhiều
chiều. Khi dữ liệu tăng lên, các kỹ thuật truyền thống khác có thể
không giải quyết được, nhưng mạng Nơ-ron có khả năng giải quyết
tốt.
1.7.1. Khái niệm mạng Nơ-ron
1.7.2. Mạng Nơ-ron truyền thẳng
Cấu trúc của mạng Nơ-ron gồm các nút, mỗi nút đều có các
trọng số và được bố trí trên các tầng như: Tầng vào; Tầng ẩn;Tầng
ra.

.
.
.
.
.
.
.
.
Tầng vào Các tầng
ẩn
Tầng ra

.
.
Kết quảDữ liệu
vào
9
Hình 1.3: Cầu trúc mạng Nơ-ron truyền thẳng.
1.7.3. Mạng Nơ-ron phản hồi
Tùy sơ đồ kết nối mà mạng có thể là mạng truyền thẳng (feed

forward) hoặc phản hồi (recurrent) các đường kết nối là đối xứng
hoặc không đối xứng. Mạng phản hồi có đường nối phản hồi hoặc có
chu trình giữa các nút. Sau đây là cấu trúc của một mạng phản hồi:
Hình 1.4 Cấu trúc mạng Nơ-ron phản hồi
1.7.4. Giải pháp kỹ thuật của mạng Nơ-ron
Mạng Nơ-ron được hiểu theo có hai khía cạnh: tính toán và
học. Phần tính toán được thực hiện theo thứ tự. Phần học thì được
thực hiện ngược lại: với số liệu tính toán đầu ra không khớp với mục
tiêu, sai số này sẽ làm cơ sở để thay đổi các trọng số nút xuất, sau đó
được lan truyền để thay đổi trọng số các nút ẩn. Quá trình này được
thực hiện nhiều lần cho đến khi kết xuất của mạng tiến gần đến mục
tiêu đề ra.
1.8. QUÁ TRÌNH TÍNH TOÁN CỦA MẠNG NƠ-RON
1.8.1. Hàm truyền
Về mặt hình học, hàm truyền có dạng chữ S nên nó được gọi
là hàm dạng S.
1.8.2. Tính toán của mạng
Mạng Nơ-ron là một công cụ tính toán, theo nghĩa nào đó thì
mạng Nơ-ron làm việc với tư cách là một bảng tra mà không biết phụ
Tầng vào
Tầng ẩn
Tầng ra
10
thuộc hàm tường minh giữa x và y. Việc tính toán của mạng Nơ-ron
số nút có trong mạng.
Mạng một nút nhập, một nút xuất
Mạng hai nút nhập
Mạng nhiều nút nhập
Lan truyền tiến
Khi luyện mạng, lan truyền tiến được sử dụng lặp đi lặp lại từ

mẫu này đến mẫu khác cho đến khi các trọng số đạt được giá trị thích
hợp. Khi sử dụng, lan truyền tiến được sử dụng một lần cho từng
trường hợp nhập vào.
1.8.3. Sự chuẩn bị và học dữ liệu
Học là một trong những đặc tính quan trọng nhất của mạng.
Nó chỉ ra cách điều chỉnh trọng số trong quá trình học. Trong quá
trình học, ta cần biết mức tích cực thực tế so sánh với mức tích cực
mong muốn để tính sai số. Sai số này sử dụng để điều chỉnh trọng số
của mạng.
Trong mô hình mạng Nơ-ron thì việc xác định sai số ít nhất là
rất khó. Phương pháp giảm gradient thường được sử dụng trong các
trường hợp này. Phương pháp xem E là một mặt lỗi và xác định các
trọng số qua các bước chính như sau: (1) Chọn một điểm ngẫu nhiên
x
0
trong không gian trọng số; (2) Tính độ dốc của mặt lỗi tại x
0;
(3)
Cập nhật các trọng số theo hướng dốc nhất của mặt lỗi; (4) Xem
điểm này như điểm x
0
mới; (5) Lặp đi lặp lại quá trình từ (2) đến (4)
thì đến một lúc nào đó các giá trị của bộ trọng số sẽ tiếp cận đến
điểm thấp nhất trong mặt lỗi.
Trọng số nút xuất
Trọng số nút ẩn
1.9. MỘT SỐ THUẬT TOÁN ÁP DỤNG TRONG VIỆC HỌC
CỦA MẠNG NƠ-RON
11
1.9.1. Lý thuyết thống kê học

1.9.2. Cực tiểu rủi ro kinh nghiệm
1.9.3. Generalization
Theo cách nhìn của việc Học mạng Nơ-ron, được gọi là lỗi
tổng quát.
1.9.5 Mạng Nơ-ron truyền thẳng (Feed-Foward Neural
Networks)
a. Perceptron và luật Delta
b. Tri thức đa lớp và Lan truyền ngược
c. Radial Basic Fuction Networks
Một kiến trúc mạng Nơ-ron phổ biến khác đang được sử dụng
Kiểu mạng này được gọi là mạng radial basic function (RBF).
d. Mạng véc tơ hỗ trợ cho phân lớp
* Trường hợp phân tuyến dữ liệu
* Trường hợp không phân tuyến dữ liệu
* Phần thủ thuật (kernel trick)
* Chọn lựa của các tham số kernel
* Mạng véc tơ hỗ trợ cho việc học có ưu tiên
* Vấn đề học có ưu tiên
* Công thức của vấn đề
* Mô hình tiện ích ẩn
* Mô hình tuyến tính của tiện ích ẩn
* Mô hình phi tuyến tính của tiện ích ẩn
* Ứng dụng kinh tế
1.10. SỰ KẾT HỢP CỦA CÁC KỸ THUẬT
Các kỹ thuật khai phá dữ liệu đều có những ưu và nhược điểm
của riêng nó, chẳng hạn mạng Nơ-ron rất hiệu quả trong việc áp
dụng khai phá dữ liệu dự đoán cho kết quả tốt mà các kỹ thuật khác
không thể làm được. Tuy nhiên, việc học của mạng dữ liệu này là rất
12
tốn thời gian, do đó, cần có sự kết hợp giữa các kỹ thuật này với

nhau. Sự kết hợp này được thể hiện như hình dưới đây:
Hình 1.6: Kết hợp các kỹ thuật để đưa ra giải pháp mới.
Kết luận chương 1
Như vậy, nhìn vào các phương pháp giới thiệu ở trên, chúng ta
thấy có rất nhiều các phương pháp khai phá dữ liệu. Mỗi phương
pháp có những đặc điểm riêng phù hợp với một lớp các bài toán với
các dạng dữ liệu và miền dữ liệu nhất định.
Tổng kết sơ bộ về khai phá dữ liệu, nguồn gốc và ứng dụng
của khai phá dữ liệu. Để tìm hiểu rõ hơn về kỹ thuật khai phá dữ liệu,
Sau khi giới thiệu các nét cơ bản của lý thuyết thống kê học, chúng ta
đã tìm hiểu về định nghĩa mạng Nơ-ron, các kiểu mạng Nơ-ron. Đã
tìm hiểu các nguyên lý cơ bản của việc học trong mạng Nơ-ron.
Chương này cũng đã đề cập đến các thuật toán học thường
dùng. Đó là: học có tri thức (Perceptron Learning), học lan truyền
ngược (Backpropagation Lear) và học với hàm bán kính cơ bản
(Radial Basis Function Learning). Qua đó ta thấy mạng nơ-ron có
tính chất sau: Là hệ phi tuyến; Là hệ xử lý song song; Là hệ nhiều
biến, có nhiều đầu vào/ra rất tiện dùng khi điều khiển đối tượng có
nhiều biến số có khả năng học và làm xấp xỉ các hàm toán học bất kỳ
với độ chính xác tuỳ ý
Tập mẫu
Trường hợp mới
Kỹ thuật 1
Kỹ thuật 2
Đáp ứng yêu cầu
Giải pháp
13
14
CHƯƠNG 2
PHÂN TÍCH BÀI TOÁN

2.1 GIỚI THIỆU
Ngân hàng Ngân hàng Ngoại thương Quảng Bình và chính
thức đi vào hoạt động từ 20/11/2006.
Về phát triển tín dụng Vietcombank Quảng Bình áp dụng nhiều
biện pháp để vừa tăng trưởng tín dụng, xong còn nhiều rủi ro và
phức tạp trong thẩm định khách hàng và doanh nghiệp, để đáp ứng
được nhu cầu tín dụng của khách hàng, góp phần đẩy mạnh phát
triển kinh tế - xã hội trên địa bàn vừa đảm bảo nâng cao chất lượng
tín dụng và hiệu quả. Vietcombank Quảng Bình cần có công cụ hỗ
trợ bên cạnh nghiệp vụ như sử dụng kinh nghiệm thì cần phải có sự
trợ giúp của máy tính. Từ đó khâu cho vay và khâu trả nợ vay cho
ngân hàng đầy đủ và đúng thời hạn (Dựa trên số liệu hiện có).
Bên cạnh đó chất lượng cán bộ tín dụng đang giảm sút do
thiếu thông tin, thiếu tri thức, đó là nhận định của nhiều người kinh
doanh hoạt động trong các tổ chức tín dụng (Nợ xấu, mất khả năng
thanh toán, đối tượng cho vay không đúng ). Bên cạnh thời đại
bùng nổ thông tin hiện nay. Hàng ngày, cán bộ tín dụng tiếp nhận
nhiều thông tin từ nhiều nguồn khác nhau (Từ giao tiếp, văn bản,
thông tin truyền thông, và kho dữ liệu đơn vị). Kho dữ liệu chứa các
thông tin của các doanh nghiệp ngày càng lớn dần. Trong khi đó,
việc khai thác tri thức từ những kho dữ liệu đó chưa được quan tâm
đúng mức.
Chính vì vậy kho dữ liệu phần lớn chỉ được sử dụng để xây
dựng các báo cáo mang tính thống kê. Được xem như một cách tiếp
cận mới trong việc tìm kiếm tri thức từ dữ liệu. Từ những tập dữ liệu
khổng lồ và hỗn tạp, có thể tìm ra những quy luật chưa được biết đến
15
để giải thích hỗ trợ cho những hiện tượng thực tế trong việc thẩm
định vay vốn.
Sử dụng phương pháp khai phá tri thức từ dữ liệu để dự đoán

trong hoạt động thẩm định vay vốn là một phương pháp mới nhằm
nâng cao chất lượng thẩm định tín dụng của ngân hàng.
2.2. THỐNG KÊ TÌNH HÌNH VAY VỐN THEO NGHÀNH
KINH TẾ TRONG 3 NĂM QUA TẠI NGÂN HÀNG THƯƠNG
MẠI CỔ PHẦN NGOẠI THƯƠNG QUẢNG BÌNH.
Dựa trên số liệu tình hình vay vốn của ngân hàng thương mại
cổ phần ngoại thương Việt Nam – chi nhánh Quảng Bình, trong ba
năm qua ta thấy sự biến đổi phức tạp cho vay của các thành phần
kinh tế có sự thay đổi rỏ rệt. Đó là sự gia tăng hoặc giảm xuống của
các thành phần kinh tế trong hoạt động tín dụng có chiều hướng tăng
mạnh, hoặc tăng trưởng tín dụng rất thấp hay không tăng.
2.3. BÀI TOÁN
Ngân hàng TMCP là một tổ chức tín dụng, thực hiên các hoạt
động kinh doanh hằng ngày. Trong đó có hoạt động cho vay, thực
hiện xem xét, kiểm tra xem xét các hồ sơ khách hàng như thế nào, dự
đoán khả năng hoàn trả vay hay không về các khoản tín dụng. Để
thực hiện vấn đề này, ngân hàng tiến hành thu thập thông tin về n
thuộc tín khách hàng (Tuổi tác, nơi cư trú, thu nhập, tài sản…). Để
giải quyết bài toán này là ngân hàng xác định đơn vay, khách hàng
nào được vay, hay ngược lại, khách hàng, đơn vay nào không được
duyệt vay.
Như vậy, giải quyết bài toán này, dữ liệu thu nhập đầu vào là
các thông tin liên quan đến cá nhân hoặc tổ chức, công ty đứng đơn
vay tín dụng, kết quả bài toán là quyết định cho vay hoặc không cho
vay; thông tin cần xử lý là các thông về cá nhân, về sở hữu tài sản thế
chấp, phương án kinh doanh…
16
2.4. PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN
2.4.1. Phương pháp thủ công
Ngân hàng cử cán bộ tín dụng thẩm định khách hàng.

Cán bộ tín dụng sẻ kiểm tra về tài sản, khi vay có thế chấp,
hay phương án kinh doanh, hoặc độ tin cậy khi vay tín chấp bằng các
thông tin (thông tin các khoản vay tổ chức khác, cơ quan công tác,
cách sống và uy tín tại địa phương nơi cư trú, tuổi tác…)
Việc kiểm tra thông được cán bộ tín dụng dựa trên các thông
tin người vay điền vào mẫu có sẵn do ngân hàng phát hành (Bao gồm
các thông tin: Nghề nghiệp, chức vụ, hệ số lương, năm công tác, tuổi
tác, giới tính, sức khỏe…).
Trên cơ sở các thông tin cụ thể cán bộ tín dụng, cán bộ tín dụng đề
xuất biệ pháp cụ thể cho mỗi đơn vay.
2.4.2. Phương pháp thủ công và tin học
Đơn vay sau khi được xét duyệt cho vay, cán bộ tín dụng sẽ
chuyển toàn bộ hồ sơ đầy đủ khi đã được thẩm định, đến phòng
Quản lý nợ. Cán bộ quản lý nợ sẽ ứng dụng một phần mềm tin học
được áp dụng tại hệ thống Ngân hàng TMCP Ngoại Thương Việt
Nam.
Đối với khách hàng đã có thông tin trên hệ thống tin học thì
bước đầu tiên là cán bộ quản lý nợ khai báo mã vay, lãi suất, thông
tin ngày trả, trên chương trình cho vay của ngân hàng, bao gồm các
bước: B1: Khai báo mã vay; B2: Khai số hợp đồng; B3: Khai báo
thời gian trả gốc và lãi, ngày tất toán; B4: Sau khi khai báo xong như
trên Kiểm soát viên/ Trưởng/Phó phòng kiểm tra duyệt, từ nhân viên
quản lý nợ đã khai báo chuyển qua; B5: Sau khi khai báo xong như
trên/kiểm tra như trên, một nhân viên quả lý nợ tiếp tục sử dụng một
chương trình hạch toán tiền cho khách hàng vào tài khoản hoặc nhân
17
tiền mặt. Quy trình tất toán, trả nợ, và trả lại cũng sử dung chương
trình này.
Như vậy, việc ứng dụng công nghệ thông tin cũng góp phần
giải quyết một lương lớn công việc ngân hàng. Tuy nhiên, nó chưa

mang tính toàn vẹn, chỉ giúp một vài bộ phận nghiệp vụ trong ngân
hàng tăng hiệu suât làm việc lên một mức nào đó, chưa hỗ trợ được
cho lãnh đạo trong việc ra quyết định. Một khi lượng dữ liệu tăng lên
nhiều thì các biện pháp này sẽ để lộ ra một vài nhược điểm mà
những nhược điểm đó, một kỹ thuật khác có thể giải quyết hết sức
nhanh chóng và hiệu quả. Đó là kỹ thuật mạng Nơ-ron.
2.4.3. Phương pháp sử dụng Kỹ thuật mạng Nơ-ron
Việc sử dụng các biện pháp thủ công hay các phương pháp
truyền thống sẽ tốn kém nhiều thời gian và công sức để kinh doanh
tiền tệ nhưng hiệu quả không cao, có thể không đạt như mong muốn.
Từ các kỹ thuật, công nghệ mới trong tin học và truyền thông,
các nhà khoa học đã nghiên cứu, mô phỏng hoạt động và cấu trúc.
Việc mô phỏng hoạt động của hàng tỉ Nơ-ron trong bộ não người,
hoạt động song song đã tăng hiệu quả của việc xử lý lên gấp hàng
triệu lần. Có như vậy, mới giải quyết hiệu quả được bài toán, đáp ứng
sự phát triển ngày một lớn mạnh của hệ thống ngân hàng.
2.5. SỰ CẦN THIẾT PHẢI SỬ DỤNG KỸ THUẬT MẠNG NƠ
-RON
Các phương pháp máy tính truyền thống trước đây sử dụng cơ
chế tuần tự, phép toán này xử lý xong mới đến phép toán khác.
Kỹ thuật mạng Nơ-ron mô phỏng tính năng và cấu trúc của hệ
thống thần kinh và não người. Mạng Nơ-ron có thể giải quyết lượng
dữ liệu lớn, xử lý song song và cho ra kết quả chính xác giống như
kết quả xử lý của não người.
18
Ngân hàng TMCP Ngoại Thương Việt Nam có trụ sở chính tại
Hà Nội, có khoảng 77 chi nhánh cấp I ở 64 tỉnh, thành phố trên cả
nước và ở mỗi chi nhánh cấp I lại có các phòng giao dịch ở địa bàn
quận, huyện.
Mỗi ngày, trung bình một chi nhánh nhận được 50 đơn vay

vốn của các cá nhân, hộ gia đình, công ty,
Một cán bộ tín dụng có công suất giải quyết tối đa là 4
đơn/1ngày.
Như vậy, số lượng cán bộ tín dụng của hệ thống ngân hàng đó
trên cả nước sẽ là: (2.500 * 50) / 4 = 31.250 cán bộ.
Rõ ràng rằng, với bộ máy cồng kềnh như vậy, chưa kể các bộ
phận phòng ban khác thì hiệu quả kinh doanh sẽ giảm rõ rệt. Từ đó dẫn
đến sức cạnh tranh kém, khó khăn trong việc điều hành và phát triển.
Ở đây chưa đề cập đến rủi ro xảy ra khi cán bộ tín dụng, nếu
thiếu các kinh nghiệm thẩm định mà chấp nhận đơn vay một cách dễ
dàng thì xác suất rủi ro của việc cho vay không thu hồi được vốn sẽ
tăng lên.
Đối mặt với khối lượng công việc ngày càng lớn, đứng trước
sự cạnh tranh khốc liệt giữa các ngân hàng và việc lôi cuốn, giữ chân
khách hàng bằng chất lượng dịch vụ và marketting của mình, không
còn cách nào khác là các ngân hàng phải tự vươn lên, tìm mọi biện
pháp để nâng cao chất lượng dịch vụ. Trong đó, sự làm hài lòng
khách hàng và đảm bảo yếu tố thành công trong kinh doanh và giảm
thiểu các rủi ro là những vấn đề then chót, quan tâm hàng đầu của
các cấp lãnh đạo.
Việc áp dụng các kỹ thuật và công nghệ máy tính nhằm tăng
năng suất làm việc, tăng độ bảo mật thông tin khách hàng Do đó,
việc áp dụng các ứng dụng để dự báo thẩm định vay vốn của các
19
ngân hàng tại Việt Nam hoàn toàn có tính khả thi. Điều này sẽ có
nhiều mặt lợi:
Tăng hiệu suất công , Thống nhất về công nghệ. Liên doanh,
liên kết để giảm chi phí đầu tư, tăng khả năng cạnh tranh đối với các
doanh nghiệp, tập đoàn nước ngoài.
Vì vậy, áp dụng kỹ thuật mạng Nơ-ron trong dự báo thẩm định

vay vốn ngân hàng sẽ chứa đựng một tiềm năng to lớn về hiệu quả
ứng dụng của nó. Giúp tăng cường khả năng dự báo, hỗ trợ đắc lực
cho các cấp lãnh đạo ngân hàng ra quyết định trong công tác điều
hành công việc.
Trong các chương tiếp theo, chúng ta sẽ cùng xem xét các khái
niệm, kiến thức chung về khai phá dữ liệu, các kỹ thuật áp dụng
trong khai phá dữ liệu và tìm hiểu cặn kẻ về kỹ thuật mạng Nơ-ron,
các thuật toán học, hàm truyền của kỹ thuật này cũng như việc cài
đặt ứng dụng cụ thể minh họa cho phần kiến thức đã nghiên cứu.
Kết luận chương 2
Việc xác định các yêu cầu đặt ra của bài toán, ta tiến hành
phân tích và đưa ra các giải pháp để giải quyết các yêu cầu của bài
toán. Từ đó chúng ta chọn ra một phương pháp tối ưu là dựa vào kỹ
thuật mạng nơron để giải quyết bài toán và xác định các vấn đề cần
nghiên cứu được chỉ ra.
CHƯƠNG 3
XÂY DỰNG HỆ THỐNG TRỢ GIÚP THẨM ĐỊNH VAY VỐN
TẠI NGÂN HÀNG
Trên cơ sở tìm hiểu kỹ thuật mạng Nơ-ron như đã trình bày,
trong phần này, chúng ta sẽ trình bày giải pháp để xây dựng mạng
Nơ-ron nhằm giải quyết bài toán đã đặt ra: Trợ giúp thẩm định đơn
vay vốn ngân hàng.
20
Dựa vào cơ sở thuật toán lan truyền ngược (Back propagation
algorithm), chúng tôi cải tiến thêm một vài bước nhằm đạt được các
yêu cầu như dưới đây:
• Sử dụng thuật toán Lan truyền ngược có cải tiến, kết hợp
thêm các yếu tố:
– Sử dụng hàm học logic g(u)
– Hàm kernel: mở rộng cho các hàm quyết định phi

tuyến, tăng số lớp ẩn lên > 1
• Giảm thời gian học (huấn luyện) của mạng
• Tốc độ hội tụ của mạng nhanh hơn
* Các bước tổng quát để cài đặt một mạng Nơ-ron:
(1) Chọn kiến trúc mạng. Với bước chọn kiến trúc mạng nào
sẽ quyết định thuật toán học nào đi kèm theo.
(2) Chọn số lớp ẩn. Số lớp ẩn có thể là 0, 1, 2, 3, 4.
(3) Với mỗi lớp ra và mỗi lớp ẩn, chọn thuật toán học.
Lưu ý: Trong một số trường hợp, số lượng lớp ẩn có thể bị
ràng buộc bởi việc chọn thuật toán học. Việc chọn số lớp ẩn thể hiện
bằng đường nét rời. Với thuật toán này thì số lớp ẩn chỉ duy nhất là
một lớp.
(4) Tất cả các tham số khác là độc lập và có thể được cung cấp
vào bất kỳ lúc nào. Các tham số có thể phụ thuộc vào việc chọn thuật
toán học nào cho mạng.
Để xây dựng một ứng dụng, các bước sau là cần thiết:
Trước tiên, ta chọn kiến trúc mạng, sau đó chọn kiểu xử lý các
phần tử trong mạng. Kiến trúc mạng sẽ quyết định cách thức xử lý
các phần tử được kết nối như thế nào. Kết quả của đầu ra sẽ được
điều chỉnh bởi việc chọn trọng số trong quá trình kết nối. Các bước
chọn lựa trên có thể tóm lược lại như sau:
21
(1) Xác định nhiệm vụ cần thực hiện của mạng Nơ-ron trong
ứng dụng; (2) Phân tích dữ liệu phù hợp cho ứng dụng; (3) Chọn các
đầu vào của ứng dụng; (4) Xử lý dữ liệu một cách thích hợp trước
khi đưa vào mạng; (5) Chọn các yêu cầu đầu ra của mạng, bao gồm
cả việc bổ sung các xử lý của các đầu ra sử dụng trong ứng dụng; (6)
Chọn phương pháp học và thuật toán học sử dụng cho quá trình huấn
luyện; (7) Xác lập các tham số đi theo với mạng được chọn, bao gồm
cả số phần từ xử lý trong mỗi lớp, kiểu xử lý các phần tử và các tham

số học; (8) Huấn luyện mạng Nơ-ron trong tập dữ liệu huấn luyện;
(9) Kiểm tra việc huấn luyện của mạng trên tập Kiểm thử ; (10) Phân
tích kết quả và việc huấn luyện lại của mạng hoặc cài đặt lại các
tham số, các bước tiền xử lý; (11) Tích hợp việc huấn luyện mạng
vào ứng dụng.
3.1. CHỌN MÔI TRƯỜNG CÔNG CỤ
Dựa vào cơ sở lý thuyết của chương 1 và bài toán trong
chương 2 tôi xây dựng chương trình hệ thống trợ giúp thẩm định vay
vốn tại Ngân hàng TMCP Ngoại Thương Quảng Bình.
Chương trình xây dựng trên nền tảng Dot.net và cơ sở dữ liệu
được thu thập tại Ngân hàng TMCP Ngoại Thương Quảng Bình.
3.2. TẠO DỮ LIỆU MẪU CHO ỨNG DỤNG
Tất cả các thông tin về khách hàng vay được lưu trữ trong hệ
thống tập tin (Trong CSDL SQL, Fox) trong hệ chương trình giao
dịch của Ngân hàng TMCP Ngoại Thương Quảng Bình.
Tuy nhiên tất cả các thông tin này phải được lam sạch loại bỏ
nhưng thông tin dư thừa cho việc kha phá dữ liệu, dữ liệu sẽ được tổ
chức lại và khai phá theo qusy và năm từ đó áp dụng kỷ thuật mạng
nơron xây dựng hệ thống trợ giúp dự báo độ rủi ro hoàn trả nợ của
đơn vay tín dụng.
22
Những thông tin sau là cần thiết cho việc khai phá dữ liệu:
Tuổi, hôn nhân, gia đình, nghề nghiệp, thời gian làm việc, tài khoản,
sở hữu nhà, tình trạng tài khoản
Dữ liệu bao gồm khoảng 450 – 500 bản ghi. Các bản ghi bao
gồm các thuộc tính đầu vào như: Tuổi, giới tính, tình trạng hôn nhân,
nghề nghiệp, tài khoản, sở hữu tài sản, các lần vay tín dụng trước,
khả năng chi trả và thuộc tính đầu ra: Độ rủi ro của đơn vay.
Trong trường hợp thử nghiệm này, chúng tôi sử dụng bộ dữ
liệu của ứng dụng gồm (300 ban ghi): Tập dữ liệu đầu vào (300 bản

ghi); Tập dữ liệu Huấn luyện (180 bản ghi); Tập dữ liệu Kiểm thử
(55 bản ghi);Tập dữ liệu kết quả
Trong đó VLD: bản ghi được huấn luyện qua mạng; TRN: bản
ghi thuộc tập mẫu huấn luyện; TST: bản ghi thuộc tập mẫu kiểm thử
Các bản ghi ở đây hoàn toàn có thể thay đổi tính chất từ TRN
sang TST hoặc là bản ghi của dữ liệu đầu vào.
Các giá trị ở đây có thể thay đổi tùy theo bài toán. Số lượng
mẫu trong tập huấn luyện và kiểm thử có thể thay đổi bất kỳ lúc nào.
3.3. CÀI ĐẶT THUẬT TOÁN
Mục tiêu là xác định độ rủi ro của việc cho vay của một đơn
vay tín dụng. Việc xác định độ rủi ro này dựa trên các thông tin được
cung cấp kèm theo với đơn vay.
Việc cho vay một khoản tiền hay toàn bộ số tiền của một đơn
vay nào đó chính là việc phân lớp của ứng dụng mạng Nơ-ron. Để
giải quyết vấn đề này, một mạng Nơ-ron sẽ được huấn luyện để thực
hiện việc phân lớp một cách chính xác các đơn vay. Sau khi mạng
Nơ-ron đã được huấn luyện, nó có thể được sử dụng để hỗ trợ việc ra
quyết định cho vay toàn bộ hoặc một phần hay từ chối một đơn vay
theo kết quả mà mạng Nơ-ron đã được huấn luyện chỉ ra.
23
Dữ liệu được lấy từ một cơ sở dữ liệu và chứa các thông tin
chọn lọc từ mẫu đơn vay vốn.
Trong ứng dụng này, thuật toán Lan truyền ngược
(Backpropagation algorithm) được sử dụng để cài đặt.
Quá trình giải quyết một bài toán tối ưu được gọi là lan truyền
ngược, nó bao hàm cả việc tính toán lỗi của mạng Nơ-ron và lan
truyền ngược lỗi ấy thông qua mạng để cập nhật lại các trọng số. Quá
trình ấy bao gồm các bước sau:
Thuật toán huấn luyện cho một mẫu trong tập dữ liệu huấn
luyện; Thuật toán huấn luyện cho tất cả các mẫu trong tập dữ liệu

huấn luyện; Thuật toán tính trọng số cho lớp ra; Thuật toán tính trọng
số cho lớp ẩn; Thuật toán cập nhật trọng số.
3.3.1 Xử lý mẫu
Thuật toán Lan truyền ngược (Trường hợp cho một mẫu trong tập
dữ liệu huấn luyện)
3.3.2 Cài đặt thuật toán lan truyền ngược xử lý tập huấn
luyện
3.3.3 Cập nhật các trọng số
Mô tả trong thuật toán của lan truyền ngượcn, sau khi các trọng
số được cập nhật, các mẫu tiếp theo được sử dụng để tính toán đầu
ra, tính toán các lỗi, tính toán cập nhật của các trọng số. Và sau đó,
mỗi trọng số được cập. Quá trình huấn luyện kết thúc khi lỗi (hoặc
lỗi bình phương tổng quát hoặc lỗi trong tập các giá trị cơ bản) hạ
đến mức đủ thấp, hay đạt được các tham số tiền định của mạng.
3.4. HUẤN LUYỆN, KIỂM THỬ VÀ KẾT QUẢ
Dữ liệu cho các tập huấn luyện và kiểm thử đã được trình bày.
Sau khi chạy thử cho chương trình huấn luyện mạng. Kết quả ta có
tập dữ liệu kết quả.
24
Trong thử nghiệm này, các thông tin về dữ liệu như sau: Dữ
liệu vào: 300 bản ghi; Dữ liệu trong tập mẫu huấn luyện: 180 bản
ghi; Dữ liệu trong tập mẫu kiểm thử: 65 bản ghi; Dữ liệu được huấn
luyện: 55 bản ghi
Kết quả huấn luyện mạng cho ra ở đây chính là trường
RuiRoTD. Trường này có hai khả năng là rủi ro CAO hay THẤP.
3.5. ĐÁNH GIÁ VỀ GIẢI PHÁP
Như vậy, trên cơ sở thuật toán lan truyền ngược, chúng tôi đề
xuất cải tiến thuật toán bằng cách sử dụng hàm logic và hàm kernel
nhằm đạt được các mục tiêu như sau: Giảm thời gian học của mạng.
Tăng tốc độ hội tụ của mạng Hơn nữa, việc gia tăng số lượng lớp ẩn

sẽ tăng độ tin cậy của kết quả dự báo.
Kết luận chương 3
Trong chương này, chúng ta đã tìm hiểu các bước cần thiết để
xây dựng một ứng dụng mạng Nơ-ron. Theo đó, ta phải chọn kiến
trúc mạng, thuật toán học phù hợp với yêu cầu của bài toán. Tiếp
theo là chọn số lớp ẩn của mạng (điều này phụ thuộc vào việc ta
chọn thuật toán học nào). Bên cạnh đó, ta cũng sẽ xác định hàm
truyền cho mạng cũng như các tham số cần thiết khác.
Chương 3 cũng trình bày quá trình xây dựng một ứng dụng.
Ứng dụng này được xây dựng trên cơ sở cải tiến thuật toán lan truyền
ngược nhằm rút ngắn thời gian học của mạng, tăng tốc độ hội tụ của
mạng cũng như mở rộng phạm vi áp dụng cho các hàm phi tuyến.
Bằng kỹ thuật lập trình Dot.net trên nền tảng Windows, chạy ở
máy đơn, khai thác cơ sở dữ liệu quan hệ ở mức độ vừa phải trên hệ
quản trị (Sql Server, Fpxpro). Mục tiêu của ứng dụng là nhằm thể
nghiệm các kiến thức đã tìm hiểu trong phần lý thuyết. Qua đó xem
xét khả năng mở rộng của ứng dụng sau này.
25
Ứng dụng đã thể hiện cụ thể các nguyên tắc lý thuyết để triển
khai một mạng Nơ-ron cho công việc cụ thể, đó là tìm ra các đơn vay
tín dụng có thể cho vay hoặc không cho vay nhằm hỗ trợ lãnh đạo
trong việc ra quyết định.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Luận văn đã trình bày tổng quan và các nét đặc trưng nhất
trong lĩnh vực khai phá tri thức dữ liệu bao gồm các vấn đề cần khám
phá tri thức, các hướng tiếp cận và nghiên cứu tiêu biểu.
Các kỹ thuật khai phá tri thức dữ liệu sử dụng trong luận văn
được tham khảo từ nhiều nguồn tài liệu khác nhau. Tuy nhiên, chúng
có nét tương đồng với nhau, thể hiện ở việc các kỹ thuật đều cần tập
các trọng số phù hợp kỹ thuật mạng Nơ-ron.

* Kết quả nghiên cứu của luận văn cho phép rút ra những
kết luận sau đây:
Việc ứng dụng kỹ thuật mạng Nơ-ron trong khai phá dữ liệu
đã nâng cao được hiệu năng của mô hình, giảm được chi phí trao đổi
trong hệ thống. Các thuật toán của mạng Nơ-ron có thể áp dụng cho
nhiều lĩnh vực kinh tế, kỹ thuật, văn hoá khác nhau, tùy theo yêu cầu,
mức độ của mỗi lĩnh vực mà áp dụng các thuật toán, phương pháp
khác nhau cho phù hợp. Như vậy, sẽ giúp mang lại hiệu quả công
việc cao hơn.
Về mặt cài đặt thử nghiệm, luận văn giới thiệu kỹ thuật khai
phá tri thức từ dữ liệu theo thuật toán lan truyền ngược để áp dụng
vào bài toán trợ giúp thẩm định vay vốn ngân hàng.
* Hướng phát triển: Nghiên cứu sâu các thuật toán khai phá
dữ liệu; Xây dựng các thuật toán khác của kỹ thuật mạng Nơ-ron để
tăng mức độ và phạm vi ứng dụng của chương trình; Xây dựng các
phương pháp, thuật toán khác nhau theo hướng mô đun thành phần
và tích hợp vào ứng dụng.

×