Tải bản đầy đủ (.pdf) (75 trang)

Xây dựng hệ thống dự đoán nhóm khách hàng tại công ty cho thuê tài chính – Agribanke thương mại (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.62 MB, 75 trang )

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
--------------------------------

THÁI QUỐC CƢỜNG

XÂY DỰNG HỆ THỐNG
DỰ ĐOÁN NHÓM KHÁCH HÀNG TẠI
CÔNG TY CHO THUÊ TÀI CHÍNH - AGRIBANK

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hƣớng ứng dụng)

TP HỒ CHÍ MINH - 2018


HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
--------------------------------

THÁI QUỐC CƢỜNG

XÂY DỰNG HỆ THỐNG
DỰ ĐOÁN NHÓM KHÁCH HÀNG TẠI
CÔNG TY CHO THUÊ TÀI CHÍNH - AGRIBANK

Chuyên ngành:
Mã số:

HỆ THỐNG THÔNG TIN
8480104

LUẬN VĂN THẠC SĨ KỸ THUẬT


(Theo định hƣớng ứng dụng)

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. TÂN HẠNH

TP HỒ CHÍ MINH - 2018


i

LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất kì tài liệu nào khác.

Tp. Hồ Chí Minh, ngày 08 tháng 05 năm 2018
Học viên thực hiện luận văn

Thái Quốc Cƣờng


ii

LỜI CẢM ƠN

Được sự đồng ý của Học Viện Công Nghệ Bưu Chính Viễn Thông tại cơ sở
Thành phố Hồ Chí Minh và giảng viên hướng dẫn khoa học: TS Tân Hạnh, tôi đã
thực hiện luận văn: “Xây dựng hệ thống dự đoán nhóm khách hàng tại Công ty cho
thuê tài chính - Agribank”.
Để hoàn thành luận văn này, tôi xin chân thành cảm ơn đến các Thầy Cô
giảng viên trong khoa Đào tạo sau Đại Học của Học Viện Công Nghệ Bưu Chính

Viễn Thông tại cơ sở Thành Phố Hồ Chí Minh đã tận tình giảng dạy, hướng dẫn tôi
trong suốt quá trình học tập và nghiên cứu ở Học Viện.
Xin chân thành cảm ơn Thầy TS Tân Hạnh, người đã trực tiếp hướng dẫn
nghiên cứu khoa học cho tôi. Trong quá trình thực hiện luận văn, Thầy đã chỉ bảo
và truyền đạt những kiến thức khoa học quý báu, đồng thời cũng đưa những góp ý
thiết thực giúp tôi hoàn thành luận văn này.

Tp. Hồ Chí Minh, ngày 08 tháng 05 năm 2018
Học viên thực hiện luận văn

Thái Quốc Cƣờng


iii

MỤC LỤC

LỜI CAM ĐOAN ........................................................................................................... i
LỜI CẢM ƠN ................................................................................................................ ii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT............................................. vi
DANH SÁCH BẢNG .................................................................................................. vii
DANH SÁCH HÌNH VẼ ............................................................................................ viii
MỞ ĐẦU ........................................................................................................................ 1
1. Lý do chọn đề tài ..................................................................................................... 1
2. Tổng quan về tình hình nghiên cứu đề tài ............................................................... 1
3. Mục đích nghiên cứu ............................................................................................... 4
3.1.Mục tiêu chung ................................................................................................. 4
3.2. Mục tiêu cụ thể ................................................................................................ 4
3.3. Kết quả đạt được.............................................................................................. 4
4. Đối tượng và phạm vi nghiên cứu ........................................................................... 5

4.1 Đối tượng nghiên cứu ....................................................................................... 5
4.2 Phạm vi nghiên cứu: ......................................................................................... 5
5. Phương pháp nghiên cứu......................................................................................... 5
6. Cấu trúc của luận văn .............................................................................................. 5
Chƣơng 1. TỔNG QUAN DỰ ĐOÁN DỰA TRÊN KHAI PHÁ DỮ LIỆU ............ 7
1.1. Một số kiến thức về kỹ thuật Khai phá dữ liệu .................................................... 7
1.1.1. Khái niệm ..................................................................................................... 7
1.1.2. Các công cụ khai phá dữ liệu ....................................................................... 7
1.2. Ứng dụng của khai phá dữ liệu trong lĩnh vực tài chính, ngân hàng ................... 8
1.3. Tổng quan về Naive Bayes ................................................................................ 11


iv

1.3.1. Giới thiệu chung ......................................................................................... 11
1.3.2. Ví dụ minh họa ........................................................................................... 13
1.3.3. Ưu điểm Naive Bayes................................................................................. 20
1.3.4. Nhược điểm Naive Bayes ........................................................................... 20
1.4. Tổng kết chương 1 ............................................................................................. 21
Chƣơng 2. GIẢI PHÁP XÂY DỰNG HỆ THỐNG DỰ ĐOÁN NHÓM
KHÁCH HÀNG ........................................................................................................... 22
2.1. Quy trình cho thuê .............................................................................................. 22
2.1.1. Khái niệm cho thuê tài chính ...................................................................... 22
2.1.2. Lợi thế của cho thuê tài chính .................................................................... 22
2.1.3. Quy trình cho thuê tài chính ....................................................................... 23
2.2. Vấn đề đặt ra ...................................................................................................... 29
2.3. Giải pháp xây dựng hệ thống dự đoán nhóm khách hàng .................................. 30
2.4. Phân tích hệ thống .............................................................................................. 30
2.5. Sơ đồ tổng quát hệ thống.................................................................................... 32
2.5.1. Xác định vấn đề .......................................................................................... 32

2.5.2. Lấy và chỉnh sửa dữ liệu ............................................................................ 32
2.5.3. Khảo sát dữ liệu .......................................................................................... 33
2.5.4. Xây dựng mô hình ...................................................................................... 33
2.5.5. Triển khai áp dụng ...................................................................................... 33
2.6. Tổng kết chương 2 ............................................................................................. 33
Chƣơng 3. XÂY DỰNG VÀ THỬ NGHIỆM ỨNG DỤNG .................................... 34
3.1. Xây dựng ứng dụng ............................................................................................ 34
3.1.1. Chức năng hệ thống .................................................................................... 35
3.1.2. Kiến trúc tổng thể của hệ thống.................................................................. 37


v

3.1.3. Đặc tả chi tiết các thành phần ..................................................................... 38
3.2. Thử nghiệm ứng dụng ........................................................................................ 39
3.3. Nhận xét và đánh giá kết quả ............................................................................. 61
3.4. Tổng kết chương 3 ............................................................................................. 61
KẾT LUẬN .................................................................................................................. 62
1. Kết quả đạt được ................................................................................................... 62
1.1. Về mặt lý thuyết ............................................................................................ 62
1.2. Về mặt thực tiễn ............................................................................................ 62
2. Hạn chế .................................................................................................................. 62
3. Hướng phát triển ................................................................................................... 63


vi

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

Viết tắt


Tiếng Anh

Tiếng Việt



Product

Tích đại số.

{xi}

The set whose elements are

Tập gồm các phần tử là xi

xi
|X|

The cardinality of the set X

Số lượng phần tử của tập hợp X

#X

The cardinality of the set X

Số lượng phần tử của tập hợp X


ALC

Agribank Leasing Company Công ty cho thuê tài chính Agibank

CSDL

Database

Cơ sở dữ liệu

NHNN VN

State Bank of Viet Nam

Ngân hàng nhà nước Việt Nam

NHNN&PTNTVN Vietnam Bank for
Agriculture and Rural
Development

Ngân hàng nông nghiệp và phát
triển nông thôn Việt Nam


vii

DANH SÁCH BẢNG

Bảng 1.1: Thông tin nhóm nợ khách hàng tại ALC


13

Bảng 2.1: Tập dữ liệu huấn luyện

31

Bảng 3.1: Bảng thông tin dữ liệu huấn luyện

38

Bảng 3.2: Dữ liệu thử nghiệm 1

40

Bảng 3.3: Dữ liệu thử nghiệm 2

50


viii

DANH SÁCH HÌNH VẼ

Hình 1.1: Mối tương quan của khai phá dữ liệu với các ngành khác

7

Hình 2.1: Quy trình cho thuê tài chính 03 bên.

25


Hình 2.2: Sơ đồ tổng quát xây dựng hệ thống

32

Hình 3.1: Quy trình đánh giá khách hàng cho thuê

35

Hình 3.2: Kiến trúc tổng thể của hệ thống

37

Hình 3.3: Mẫu danh sách những khách hàng cần dự đoán

39

Hình 3.4: Kết quả huấn luyện Naive Bayes của R Studio trên thử

41

nghiệm 1 khi chưa áp dụng hệ số Laplace.
Hình 3.5: Kết quả huấn luyện thử nghiệm 1 trên R studio khi áp dụng

42

hệ số Laplace = 1.
Hình 3.6: Màn hình dữ liệu thử nghiệm 1 không có hệ số Laplace

44


Hình 3.7: Kết quả thử nghiệm 1 không có hệ số Laplace

45

Hình 3.8 : Kết quả xác suất thử nghiệm 1 của phân lớp PLAY= YES

47

Hình 3.9: Kết quả xác suất thử nghiệm 1 của phân lớp PLAY= NO

47

Hình 3.10: Màn hình dữ liệu thử nghiệm 1 với hệ số Laplace = 1

48

Hình 3.11: Kết quả thử nghiệm 1 với hệ số Laplace = 1

49

Hình 3.12: Kết quả xác suất thử nghiệm 1 với hệ số Laplace =1 của

49

phân lớp PLAY=YES
Hình 3.13: Kết quả xác suất thử nghiệm 1 với hệ số Laplace =1 của
phân lớp PLAY=NO

50



ix

Hình 3.14: Kết quả huấn luyện thử nghiệm 2 trên ứng dụng R Studio

51

Hình 3.15: Màn hình dữ liệu thử nghiệm 2 không có hệ số Laplace

52

Hình 3.16: Kết quả thử nghiệm 2 không có hệ số Laplace

53

Hình 3.17: Kết quả tính xác suất thử nghiệm 2 của hệ thống với phân

55

lớp BUY=YES
Hình 3.18: Kết quả tính xác suất thử nghiệm 2 của hệ thống với phân

55

lớp BUY=NO
Hình 3.19: Màn hình lấy dữ liệu khách hàng từ Oracle ERP

56


Hình 3.20: Màn hình dữ liệu thử nghiệm 3 không có hệ số Laplace

57

Hình 3.21: Kết quả thử nghiệm 3 không có hệ số Laplace

58

Hình 3.22: Thiết lập hệ số Laplace = 1 cho thử nghiệm 3.

59

Hình 3.23. Kết quả huấn luyện với hệ số laplace = 1 với thử nghiệm 3.

60

Hình 3.24: Kết quả dự đoán thử nghiệm 3.

61


1

MỞ ĐẦU
1. Lý do chọn đề tài
Hiện nay các Ngân hàng nói chung và Ngân hàng nông nghiệp và phát triển
nông thôn Việt Nam (NHNN&PTNTVN) nói riêng, việc tìm kiếm và phát triển dư
nợ khách hàng luôn là một trong những vấn đề cốt lõi cho việc phát triển doanh
nghiệp, bên cạnh đó việc đánh giá khách hàng như thế nào để mang lại lợi nhuận
kinh tế cao nhất cho doanh nghiệp cũng không kém quan trọng.

Hiện nay có nhiều ngân hàng đã ra đời, bên cạnh đó các công ty cho thuê tài
chính trực thuộc ngân hàng hoặc có vốn đầu tư nước ngoài cũng mọc lên đáng kể.
Chính vì thế nên việc tìm kiếm khách hàng để thực hiện cho vay hoặc cho thuê cũng
cạnh tranh gay gắt. Bên cạnh phát triển về số lượng khách hàng, thì các ngân hàng
cũng như các công ty cho thuê tài chính cũng cần phát triển về chất lượng khách
hàng, đòi hỏi nhân viên kinh doanh cần có sự nghiêm túc trong việc đánh giá phân
loại khách hàng tiềm năng theo các tiêu chí về mục đích thuê hoặc vay, ngành nghề
kinh doanh của cá nhân hay doanh nghiệp, thành phần kinh tế doanh nghiệp, loại tài
sản thuê, quy mô doanh nghiệp, v.v.... Vì vậy mà việc đánh giá khách hàng một
cách chính xác sẽ mang lại hiệu quả lớn, tránh tình trạng khi đã thực hiện cho
vay/thuê nhưng không thu hồi được vốn, dẫn tới nợ xấu kéo dài.
Trước những khó khăn đó, việc mong muốn có một công cụ hỗ trợ đắc lực
trong việc lựa chọn khách hàng, đưa ra quyết định giải ngân một cách đúng đắn là
rất cần thiết. Do đó, tôi lựa chọn đề tài “Xây dựng hệ thống dự đoán nhóm khách
hàng tại Công ty cho thuê tài chính - Agribank” để làm đề tài luận văn tốt nghiệp
thạc sĩ của mình.

2. Tổng quan về tình hình nghiên cứu đề tài
Với sự phát triển của công nghệ thông tin và ứng dụng khoa học kỹ thuật đã
đáp ứng được trong nhiều lĩnh vực của đời sống xã hội, vì thế lượng dữ liệu được
thu thập và lưu trữ ngày một tăng. Những thông tin này sẽ rất hữu ích nếu chúng ta
biết khai phá, giúp chúng ta đưa ra những quyết định nhanh chóng và khách quan.


2

Chính vì vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu (CSDL) truyền
thống ngày càng không đáp ứng được thực tế, đã làm phát triển một khuynh hướng
kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD –
Knowledge Discovery and Data Mining).

Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu
ứng dụng trong nhiều lĩnh vực khác nhau trên thế giới nói chung và ở Việt Nam nói
riêng , đặc biệt là trong lĩnh vực ngân hàng, chứng khoán, dự báo thời tiết., v..v.
 Tình hình nghiên cứu trong nƣớc
 Luận văn "Ứng dụng cây quyết định để phân loại khách hàng vay vốn của
ngân hàng thương mại - Nguyễn Dương Hùng, Học viện công nghệ bưu
chính viễn thông, năm 2013". Luận văn đã nêu rõ khái quát về quy trình vay
vốn của ngân hàng thương mại, tính cấp thiết của đề tài, cũng như khái niệm
về data mining. Đặc biệt nêu rõ thuật toán ID3, áp dụng và xây dựng thành
công hệ thống sử dụng cây quyết định trong việc phân loại khách hàng. Mặc
dù thuật toán dễ hiểu, ít tốn nhiều công sức trong khâu chuẩn hóa dữ liệu,
cho kết quả nhanh nhưng lại dễ bị lỗi khi có quá nhiều lớp chi phí tính toán
khi dữ liệu có nhiều thuộc tính, từ đó khó có thể tạo ra mô hình cây quyết
định.
 Luận văn "Ứng dụng khai phá dữ liệu tìm hiểu thông tin khách hàng viễn
thông - Nguyễn Lê Phương, Học viện công nghệ bưu chính viễn thông, năm
2012". Luận văn này khái quát được các bước trong quá trình khai phá tri
thức cũng như khai phá dữ liệu, nêu được tính cấp thiết của đề tài. Luận văn
cũng nêu rõ thuật toán xây dựng cây quyết định: ID3, C4.5 và cách áp dụng
2 thuật toán này trong công cụ miễn phí: Weka. Tuy nhiên luận văn chưa xây
dựng được hệ thống riêng, trực quan hóa để phục vụ cho cơ quan nơi công
tác. Bên cạnh đó còn có những hạn chế trong việc áp dụng thuật toán cây
quyết định khi có nhiều trường dữ liệu.
 Luận văn "Một số kỹ thuật phân cụm dữ liệu và ứng dụng phân loại khách
hàng sử dụng dịch vụ viễn thông - Nguyễn Đông Huy, trường Đại học Thái


3

Nguyên, năm 2014 ". Luận văn nêu khái quát nhiều thuật toán phân cụm

trong khai phá dữ liệu: k-means, PAM, CLARA, EM, COBWEB,STING,
phân cụm dữ liệu mờ.v.v... và áp dụng các thuật toán này trong công cụ
Weka và Matlab để phân loại khách hàng sử dụng dịch vụ viễn thông.
 Tình hình nghiên cứu ngoài nƣớc
Bên cạnh các công trình nghiên cứu trong nước, thì ở ngoài nước cũng đã có
những bài báo nói về ứng dụng của Data mining trong lĩnh vực ngân hàng, tài
chính:
 "Classify the Data of Bank Customers Using Data Mining and Clustering
Techniques - Majid Sharahi, Mansoureh Aligholi - đại học Islamic Azad
University, Iran, đăng ngày 11-02-2015". Bài báo này nêu rõ thuật toán Kmean, đây là một phương pháp máy học không giám sát và cách áp dụng Kmean để phân loại và đánh giá khách hàng tiềm năng. Thuật toán K-Means
có ưu điểm là đơn giản, dễ hiểu và cài đặt. Tuy nhiên, hiệu quả của thuật
toán phụ thuộc vào việc chọn số nhóm K (phải xác định trước) và chi phí cho
việc thực hiện vòng lặp tính toán là vô cùng lớn khi số cụm K và dữ liệu
phân cụm lớn.
 "Data mining application in banking sector with clustering and classification
- Asli Calis (Gazi University), Ahmet Boyaci (Hitit University), Kasım
Baynal (Kocaeli University), Thỗ Nhĩ Kỳ, đăng ngày 05-03-2015”. Bài báo
nêu chi tiết các thuật toán gôm cụm và phân lớp: K-mean và cây quyết định.
Từ đó hỗ trợ trong việc ngân hàng đưa ra quyết định giải ngân, giảm thiểu rủi
ro cho vay với khách hàng cá nhân.
Đút kết từ những công trình nghiên cứu trên, luận văn này sẽ ứng dụng khai
phá dữ liệu trong lĩnh vực cho thuê tài chính, cụ thể là thuật toán Naive Bayes - sử
dụng phương pháp máy học có giám sát.


4

3. Mục đích nghiên cứu
3.1.Mục tiêu chung
Xây dựng hệ thống dự đoán nhóm khách hàng dựa trên thuật toán phân lớp

Naive Bayes.

3.2. Mục tiêu cụ thể
Ứng dụng cho phép:
 Dự đoán rủi ro thông qua nhóm nợ về khách hàng cho thuê. Từ đó hỗ trợ
trong việc ra quyết định cho thuê.
 Lưu trữ và giám sát quá trình giải ngân hợp đồng, người đề xuất, người phê
duyệt hợp đồng.

3.3. Kết quả đạt đƣợc
Về mặt lý luận
Tìm hiểu được các kiến thức cơ bản về khai phá dữ liệu, cụ thể là thuật toán
phân lớp.
Luận văn đã tìm hiểu được quy trình đánh giá khách hàng trong việc cho
thuê tài chính.
Nắm vững được phương pháp Naive Bayes, áp dụng để giải quyết các bài
toán dự đoán khả năng xảy ra trong các lĩnh vực khác nói chung và trong ngành
ngân hàng nói riêng.
Nghiên cứu và vận dụng thuật toán phân lớp Naive Bayes trong việc xây
dựng hệ thống dự đoán nhóm nợ khách hàng.
Về mặt thực tiễn
Luận văn đã nêu được giải pháp kỹ thuật để xây dựng hệ thống nhằm hỗ trợ
dự đoán đánh giá tiềm năng khách hàng cho thuê thông qua nhóm nợ.
Xây dựng ứng dụng phân tích được dữ liệu khách hàng của công ty, đáp ứng
được nhu cầu tương lai của công ty.
Hệ thống giúp cho ra kết quả một cách khoa học, tránh được các tình huống
đánh giá theo cảm tính, hạn chế các trường hợp rủi ro và tăng cường lợi nhuận của
công ty.



5

4. Đối tƣợng và phạm vi nghiên cứu
4.1 Đối tƣợng nghiên cứu
- Kỹ thuật phát hiện tri thức và khai phá dữ liệu.
- Kỹ thuật phân lớp bằng học máy.
- Giải pháp hạn chế rủi ro cho thuê tại công ty cho thuê tài chính - Agribank
(ALC).

4.2 Phạm vi nghiên cứu:
- Dữ liệu khách hàng tại ALC khu vực thành phố Hồ Chí Minh.
- Phương pháp máy học có giám sát, thuật toán phân lớp Naive Bayes.
- Quá trình trả nợ của khách hàng tại ALC.

5. Phƣơng pháp nghiên cứu
- Nghiên cứu lý luận: tập trung nghiên cứu các vấn đề cơ bản về khai phá dữ
liệu, tổng hợp tài liệu, phân tích và xử lý dữ liệu.
- Phương pháp phân tích: phân tích và tổng hợp các tài liệu về khai phá dữ
liệu sử dụng thuật toán phân lớp Naive Bayes, phân loại dữ liệu, dự báo kết quả.
- Nghiên cứu thực tiễn: phân tích yêu cầu thực tế của bài toán và xây dựng
các bước phân tích hệ thống để hỗ trợ việc xây dựng ứng dụng.

6. Cấu trúc của luận văn
Toàn bộ nội dung luận văn được chia thành 3 chương:
Chƣơng 1: Tổng quan dự đoán dựa trên khai phá dữ liệu: Chương này
trình bày các khái niệm cơ bản về khai phá dữ liệu. Sau đó, chương này sẽ trình
bày tổng quan về thuật toán Naive Bayes và sử dụng Naive Bayes trong khai phá
dữ liệu.
Chƣơng 2: Giải pháp xây dựng hệ thống dự đoán nhóm khách hàng:
Chương này trình bày tìm hiểu về quy trình cho thuê tài chính tại ALC và tình hình

cho thuê tài chính hiện nay. Từ tình hình đó đưa ra vấn đề cần giải quyết, và việc
phân tích xây dựng hệ thống.


6

Chƣơng 3: Xây dựng và thử nghiệm ứng dụng: Chương cuối này sẽ trình
bày quá trình phân tích chức năng và tổ chức tổng thể hệ thống. Qua đó, đặc tả việc
xây dựng hệ thống và thử nghiệm hệ thống.


7

Chƣơng 1. TỔNG QUAN DỰ ĐOÁN DỰA TRÊN
KHAI PHÁ DỮ LIỆU
Trong chương này, luận văn sẽ trình bày các cơ sở lý thuyết làm nền tảng để
xây dựng ứng dụng, bao gồm những nội dung sau:
- Giới thiệu tổng quan về kỹ thuật khai phá dữ liệu.
- Ứng dụng của khai phá dữ liệu trong lĩnh vực tài chính, ngân hàng.
- Trình bày tổng quan về thuật toán Naive Bayes và sử dụng Naive Bayes
trong dự đoán nhóm nợ khách hàng.

1.1. Một số kiến thức về kỹ thuật Khai phá dữ liệu
1.1.1. Khái niệm
Khai phá dữ liệu (Data mining) là quá trình tìm kiếm các mẫu mới, những
thông tin tiềm ẩn mang tính dự đoán trong các khối dữ liệu lớn.
Khai phá dữ liệu là một lĩnh vực liên ngành, nơi hội tụ của nhiều học thuyết
và công nghệ.

Hình 1.1: Mối tƣơng quan của khai phát dữ liệu với các ngành


1.1.2. Các công cụ khai phá dữ liệu
Có hai nhóm công cụ khai phá dữ liệu: Các công cụ mã nguồn mở (opensource tools) và nhóm công cụ thương mại.


8

- Các công cụ mã nguồn mở (open-source) như: R studio (www.rproject.org), Weka, v..v...
- Các công cụ thương mại: hỗ trợ từ Intelligent Miner (IBM), từ Microsoft
data mining tools (MS SQL Server 2000/2005/2008), từ Oracle Data Mining, từ
Enterprise Miner (SAS Institute).

1.2. Ứng dụng của khai phá dữ liệu trong lĩnh vực tài chính, ngân hàng
 Marketing
Trong thời đại cạnh tranh khốc liệt ngày nay nói chung, đặc biệt là
trong ngành ngân hàng, khách hàng luôn luôn là nhân tố quan trọng quyết
định sự tồn tại và phát triển của họ. Khai phá dữ liệu rất hữu ích trong tất cả
ba giai đoạn trong một chu kỳ mối quan hệ khách hàng: Tìm kiếm khách
hàng, tăng giá trị của khách hàng và duy trì khách hàng.
Dữ liệu ngân hàng được ví như “mỏ thông tin” quan trọng và giá trị.
Với số lượng và dung lượng lớn, thể loại dữ liệu đa dạng và hàm chứa nhiều
nội dung hữu ích… điều đó đặt ra vấn đề khai phá và chuyển hóa dữ liệu để
ứng dụng và phục vụ cho hoạt động kinh doanh.
Một trong những lĩnh vực được ứng dụng rộng rãi nhất cho ngành
ngân hàng của kỹ thuật khai phá dữ liệu đó là lĩnh vực quảng bá sản phẩm.
Bộ phận tiếp thị và bán hàng của các Ngân hàng có thể sử dụng kỹ thuật khai
phá dữ liệu để phân tích CSDL về khách hàng. Khai phá dữ liệu thực hiện
các phân tích khác nhau trên bộ dữ liệu thu thập được để xác định hành vi
của người tiêu dùng với sự tham khảo sản phẩm, giá và kênh phân phối. Với
sự phản hồi của khách hàng đối với các sản phẩm hiện có và các sản phẩm

mới, các ngân hàng sẽ có các chiến lược quảng bá sản phẩm, nâng cao chất
lượng sản phẩm và dịch vụ và đạt được lợi thế cạnh tranh. Phân tích ngân
hàng cũng có thể phân tích các xu hướng trong quá khứ, xác định nhu cầu
hiện tại và dự báo hành vi khách hàng các sản phẩm và dịch vụ khác nhau để
thu các cơ hội kinh doanh hơn và dự đoán mô hình hành vi. Kỹ thuật khai
thác dữ liệu cũng giúp xác định khách hàng nào sẽ mang lại lợi nhuận và


9

khách hàng nào không mang lại lợi nhuận. Các kỹ thuật khai phá dữ liệu có
thể được sử dụng để xác định phản ánh của khách hàng như thế nào khi ngân
hàng thực hiện điều chỉnh lãi suất [15].
 Quản lý rủi ro
Khai phá dữ liệu được sử dụng rộng rãi để quản lý rủi ro trong ngành
công nghiệp ngân hàng. Giám đốc điều hành ngân hàng cần phải biết rằng
các khách hàng mà họ đang có liệu đáng tin cậy hay không. Khi cung cấp thẻ
tín dụng mới cho khách hàng, mở rộng số lượng khách hàng hiện tại của tín
dụng và phê duyệt các khoản vay, họ có thể ra các mang lại sự quyết định rủi
ro cho các ngân hàng nếu họ không biết bất cứ điều gì về khách hàng của họ.
Ngân hàng tiến hành quá trình cho các khách hàng của mình vay vốn
bằng cách kiểm tra các chi tiết khác nhau liên quan đến việc cho vay như số
tiền vay, lãi suất cho vay, kỳ hạn trả nợ, loại tài sản thế chấp,tình hình nhân
sự, thu nhập và lịch sử tín dụng của họ. Khách hàng dài hạn với ngân hàng,
với các nhóm thu nhập cao có thể nhận được các khoản vay rất dễ dàng. Mặc
dù, các ngân hàng đã thận trọng trong khi cung cấp vốn vay cho khách hàng,
nhưng vẫn có những khoản nợ mặc định của khách hàng. Kỹ thuật khai phá
dữ liệu giúp phân biệt người trả nợ kịp thời với những người không có khả
năng trả nợ kịp thời.
Trên thực tế điểm tín dụng là một trong những công cụ quản lý rủi ro

tài chính đầu tiên được phát triển. Điểm tín dụng có thể có giá trị cho người
cho vay trong ngành ngân hàng khi đưa ra những quyết định cho vay. Khai
phá dữ liệu cũng có thể tìm ra được hành vi tín dụng của từng khách hàng cá
nhân với các khoản vay trả góp, thế chấp, tín dụng, bằng việc sử dụng các
đặc điểm như lịch sử tín dụng, thời gian làm việc và thời gian cư trú, như vậy
đã cho phép một người cho vay đánh giá khách hàng và quyết định khách
hàng đó có là một ứng cử viên tốt cho một khoản vay, hoặc nếu có nguy rủi
ro nào tiềm ẩn. Khi biết được những gì là cơ hội sẵn có của một khách hàng,


10

tức là khi đó các ngân hàng đang ở trong một vị trí tốt hơn để giảm thiểu rủi
ro [15].
 Phát hiện gian lận
Một lĩnh vực khác trong khai phá dữ liệu có thể được sử dụng trong
ngành công nghiệp ngân hàng là việc phát hiện gian lận. Có thể phát hiện các
hành động gian lận là một mối quan tâm ngày càng tăng cho nhiều doanh
nghiệp, và với sự giúp đỡ của kỹ thuật khai phá dữ liệu các hành động gian
lận ngày càng được phát hiện nhiều hơn. Có hai phương pháp tiếp cận phổ
biến đã được phát triển bởi tổ chức tài chính để phát hiện các mô hình gian
lận. Phương pháp tiếp cận thứ nhất, một ngân hàng cần phải sử dụng đến kho
dữ liệu của bên thứ ba và sử dụng các kỹ thuật khai phá dữ liệu để xác định
mô hình gian lận. Sau đó, các ngân hàng có thể tham chiếu chéo những mẫu
với CSDL riêng của mình. Phương pháp thứ hai, gian lận được nhận dạng
mẫu dựa trên các mẫu thong tin nội bộ riêng của mình mà không phải nhờ
vào bên thứ ba. Tuy nhiên, trên thực tế hầu hết các ngân hàng đang sử dụng
kết hợp cả hai phương pháp tiếp cận trên [15].
 Quản trị quan hệ khách hàng
Trong thời đại cạnh tranh khốc liệt ngày nay nói chung, đặc biệt là

trong ngành ngân hàng thì khách hàng được coi là thượng đế. Khai phá dữ
liệu là rất hữu ích trong tất cả ba giai đoạn trong một chu kỳ mối quan hệ
khách hàng: Tìm kiếm khách hàng, tăng giá trị của khách hàng và duy trì
khách hàng. Tìm kiếm khách hàng, chăm sóc và duy trì những khách hàng đã
có là mối quan tâm rất quan trọng đối với một lĩnh vực kinh doanh nào, đặc
biệt là lĩnh vực ngân hàng.
Ngày nay, khách hàng có nhiều sự lựa chon bởi nhiều loại sản phẩm
và dịch vụ được cung cấp bởi các ngân hàng khác nhau. Do đó, các ngân
hàng phải đáp ứng nhu cầu của khách hàng bằng cách cung cấp các sản phẩm
và dịch vụ mà họ ưa thích. Điều này sẽ dẫn đến sự trung của khách hàng và
khả năng giữ khách hàng của các ngân hàng. Kỹ thuật khai phá dữ liệu giúp


11

ngân hàng phân tích và nhận định được đâu là các khách hàng trung thành và
đâu là các khách hàng có xu hương chuyển sang ngân hàng khác với mong
muốn dịch vụ tốt hơn. Nếu khách hàng chuyển từ ngân hàng của mình sang
ngân hàng khác, lý do cho việc chuyển như vậy và giao dịch cuối cùng được
thực hiện trước khi chuyển có thể được biết đó sẽ giúp các ngân hàng hoạt
động tốt hơn và giữ chân khách hàng của mình [15].

1.3. Tổng quan về Naive Bayes
1.3.1. Giới thiệu chung
Đây là hướng tiếp cận phân lớp theo mô hình xác suất. Dự đoán xác suất một
đối tượng mới thuộc về thành viên của lớp đang xét dựa vào định lý Bayes [10].
Cho X, C là các biến bất kỳ (rời rạc, liên tục). Mục tiêu của ta là dự đoán C
từ X. Từ mô hình Bayes [16] ta có thể ước lượng các tham số của P(X|C), P(C) trực
tiếp từ tập huấn luyện. Sau đó, ta sử dụng định lý Bayes [10] để tính P(C|X=x).
Độc lập điều kiện (conditional independence): X độc lập điều kiện với Y

khi cho Z nếu phân bố xác suất trên X độc lập với các giá trị của Y khi cho các giá
trị của Z. Ta thường viết P(X|Y,Z) = P(X|Z).
Ví dụ: P(Sấm sét|Mưa,Chớp) = P(Sấm sét|Chớp). Tức Sấm sét chỉ liên quan tới
Chớp, và độc lập với Mưa.
Naive Bayes
Giả sử D là tập huấn luyện gồm các mẫu biểu diễn dưới dạng X= x2,...,xn>. Ci,D là tập các mẫu của D thuộc lớp Ci = (i = {1,...,m}). Các thuộc
tính x1,...,xn độc lập điều kiện đôi một với nhau khi cho lớp C. Khi đó ta cần xác
định xác suất P(Ci|X) lớn nhất.
Theo định lý Bayes:
(1.1)
Theo tính chất độc lập điều kiện, ta có công thức tính (1.2):


12

(1.2)

Thuật toán
Bƣớc 1: Huấn luyện Naive Bayes trên tập dữ liệu huấn luyện. Lượng giá P(Ci) và
P(Xk | Ci).
Bƣớc 2: X_new được gán vào lớp cho giá trị công thức (1.3) lớn nhất:
(1.3)
Vì dữ liệu của luận văn là dữ liệu rời rạc nên ở đây dữ liệu X ta xét là giá trị
rời rạc.
Giả sử X= <x1, x2,...,xn>. Trong đó, xi nhận các giá trị rời rạc. Khi đó, lượng
giá P(Ci) và P(Xk | Ci) theo công thức (1.4):
(1.4)
Để tránh trường hợp giá trị P(Xk |Ci ) = 0 do không có mẫu nào trong dữ liệu
huấn luyện thỏa mãn tử số, ta làm trơn bằng cách thêm một số mẫu ảo. Ta áp dụng

công thức làm trơn Laplace (1.5) để thay cho công thức (1.4):
(1.5)

với m là số lớp, r là số giá trị rời rạc của thuộc tính, n là hệ số Laplace.
Để nhanh hơn trong quá trình tính toán, ta thường chỉ cần thêm công thức
làm trơn (1.5) ở P(Xk |Ci ) mà không cần thêm vào P(Ci), bởi vì thuộc tính phân lớp
là luôn luôn tồn tại ( tức > 0). Nên công thức làm trơn lúc này sẽ là:
(1.6)


13

1.3.2. Ví dụ minh họa
Giả sử ta có dữ liệu thông tin nhóm nợ 14 khách hàng tại ALC như Bảng 1.1:
Bảng 1.1: Thông tin nhóm nợ khách hàng tại ALC

Trong đó:
 Trường Ngành nghề TT21 có các thuộc tính: Hoạt động dịch vụ
khác, Xây dựng, vận tải kho bãi.
 Trường Ngành nghề 337 có các thuộc tính: Hoạt động dịch vụ, vận
tải đường thủy, vận tải đường sắt - đường bộ - đường ống.
 Trường Loại tài sản có các thuộc tính: Dây chuyền sản xuất, vận tải
đường sông, vận tải đường thủy, vận tải đường bộ, tài sản khác.
 Trường Nhóm thành phần kinh tế: Doanh nghiệp.
 Trường Loại khách hàng có các thuộc tính: Nội ngành, ngoại ngành.
 Trường Quy mô doanh nghiệp có các thuộc tính: Vừa và nhỏ, khác.
 Trường Khách hàng thuộc khu công nghiệp, sản xuất có các thuộc
tính: True (1), false (0).
 Trường Loại hình doanh nghiệp có các thuộc tính: Doanh nghiệp tư
nhân, Công ty trách nhiệm hữu hạn, Công ty cổ phần khác, Công ty

nhà nước.


14

 Trường Nhóm nợ có các thuộc tính: Nhóm 1 (N1), Nhóm 2 (N2),
Nhóm 3 (N3), Nhóm 4 (N4), Nhóm 5 (N5).

Đây là trường có các

tính phân lớp ta cần dự đoán nhóm nợ khách hàng.
+ Ở dòng đầu tiên ta có: Ngành nghề TT21 = Hoạt động dịch vụ khác,
Ngành nghề 337 = Hoạt động dịch vụ, Loại tài sản = Dây chuyền sản xuất,
Nhóm thành phần kinh tế = Doanh nghiệp , Loại khách hàng = ngoại
ngành, Quy mô doanh nghiệp = Vừa và nhỏ, Khách hàng thuộc khu công
nghiệp, sản xuất = False (0), Loại hình doanh nghiệp = Doanh nghiệp tư
nhân thì sẽ rơi vào nhóm 5 (N5).
+......
+ Tương tự dòng thứ 14 ta có: Ngành nghề TT21 = Vận tải kho bài, Ngành
nghề 337 = Vận tải đường sắt - đường bộ - đường ống, Loại tài sản = Vận
tải đường bộ, Nhóm thành phần kinh tế = Doanh nghiệp , Loại khách
hàng = ngoại ngành, Quy mô doanh nghiệp = Vừa và nhỏ, Khách hàng
thuộc khu công nghiệp, sản xuất = False (0), Loại hình doanh nghiệp =
Công ty TNHH khác, thì sẽ rơi vào nhóm 3 (N3).
Trường hợp thông tin khách hàng mới như sau: Ngành nghề TT21 =
Xây dựng, Ngành nghề 337 = Vận tải đường sắt - đường bộ - đường ống,
Loại tài sản = Vận tải đường bộ, Nhóm thành phần kinh tế = Doanh
nghiệp , Loại khách hàng = ngoại ngành, Quy mô doanh nghiệp = Vừa
và nhỏ, Khách hàng thuộc khu công nghiệp, sản xuất = False (0), Loại
hình doanh nghiệp = Công ty trách nhiệm hữu hạn khác, thì sẽ rơi vào

nhóm nào?
Ta sẽ áp dụng thuật toán Naive Bayes để tính xác suất và dự đoán
xem thử với thông tin khách hàng như trên thì liệu sẽ rơi vào nhóm nợ nào,
từ đó lãnh đạo công ty rẽ ra quyết định cho thuê với khách hàng này hay
không?


×