Tải bản đầy đủ (.pdf) (107 trang)

Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.12 MB, 107 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

PHẠM ĐÌNH BÔN

NGHIÊN CỨU CÂY QUYẾT ĐỊNH
VÀ ỨNG DỤNG ĐỂ PHÂN LOẠI
KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG
VIETINBANK CHI NHÁNH KON TUM

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng - Năm 2017


BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

PHẠM ĐÌNH BÔN

NGHIÊN CỨU CÂY QUYẾT ĐỊNH
VÀ ỨNG DỤNG ĐỂ PHÂN LOẠI
KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG
VIETINBANK CHI NHÁNH KON TUM

Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Ngƣời hƣớng dẫn khoa học: TS. Phạm Anh Phƣơng



Đà Nẵng - Năm 2017


i

LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được
ai công bố trong bất kỳ cơng trình nào khác.

Tác giả luận văn

Phạm Đình Bơn


ii

MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .............................. v
DANH MỤC CÁC BẢNG ............................................................................. vi
DANH MỤC CÁC HÌNH ............................................................................ vii
MỞ ĐẦU .......................................................................................................... 1
1. Tính cấp thiết của đề tài ........................................................................ 1
2. Mục tiêu nghiên cứu ............................................................................. 2
3. Đối tƣợng và phạm vi nghiên cứu......................................................... 2
4. Phƣơng pháp nghiên cứu ...................................................................... 2
5. Cấu trúc luận văn .................................................................................. 2
CHƢƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .............................. 4
1.1. GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU ................................................... 4

1.1.1. Khám phá tri thức ........................................................................... 4
1.1.2. Khai phá dữ liệu .............................................................................. 5
1.2. ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU................................................ 6
1.3. CÁC PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU THÔNG DỤNG ............. 9
1.3.1. Phân lớp (Classification) ................................................................. 9
1.3.2. Phân cụm (Clustering) .................................................................. 13
1.3.3. Luật kết hợp (Association Rules) ................................................. 14
1.4. ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG LĨNH VỰC NGÂN
HÀNG ............................................................................................................. 17
1.4.1. Marketing ...................................................................................... 18
1.4.2. Quản lý rủi ro ................................................................................ 19
1.4.3. Phát hiện gian lận .......................................................................... 20
1.4.4. Quản trị quan hệ khách hàng ........................................................ 20
1.5. KẾT LUẬN .............................................................................................. 21


iii
CHƢƠNG 2 CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU ........ 22
2.1. TỔNG QUAN VỀ PHƢƠNG PHÁP HỌC THEO CÂY QUYẾT ĐỊNH22
2.1.1. Giới thiệu chung ............................................................................ 22
2.1.2. Các kiểu cây quyết định ................................................................ 23
2.1.3. Ƣu điểm cây quyết định ................................................................ 23
2.2. CÁC THUẬT TỐN ............................................................................... 25
2.2.1. Thuật tốn CLS ............................................................................. 25
2.2.2. Thuật toán ID3 .............................................................................. 26
2.2.3. Thuật toán C4.5 ............................................................................. 26
2.2.4. Thuật toán SLIQ[5] ....................................................................... 31
2.3. KẾT CHƢƠNG ........................................................................................ 35
CHƢƠNG 3 ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG PHÂN LOẠI
KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG VIETINBANK CHI

NHÁNH KON TUM .................................................................................... 37
3.1. GIỚI THIỆU QUY TRÌNH TÍN DỤNG TẠI NGÂN HÀNG
VIETINBANK CHI NHÁNH KON TUM ..................................................... 37
3.1.1. Tổng quan về quy trình tín dụng: .................................................. 37
3.1.2. Quy trình tín dụng của ngân hàng công thƣơng Việt Nam –
Vietinbank ............................................................................................... 39
3.2. THUẬT TỐN ID3 ................................................................................. 44
3.2.1. Giới thiệu về thuật tốn ID3 ......................................................... 44
3.2.2. Giải thuật ID3 xây dựng cây quyết định từ trên xuống ................ 48
3.2.3. Thuộc tính dùng để phân loại cây quyết định ............................... 50
3.3. . ỨNG DỤNG ID3 ĐỂ PHÂN LỚP ĐỐI TƢỢNG KHÁCH HÀNG VAY
VỐN ................................................................................................................ 57
3.3.1. Quy trình thực nghiệm .................................................................. 57
3.3.2. Giới thiệu bài tốn ......................................................................... 58


iv
3.3.3. Đặc tả dữ liệu ................................................................................ 59
3.3.4. Cài đặt thuật toán .......................................................................... 60
3.4. KẾT CHƢƠNG ........................................................................................ 66
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................... 67
DANH MỤC TÀI LIỆU THAM KHẢO
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (bản sao)
PHỤ LỤC


v

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Từ viết tắt


Nội dung

Diễn giải

KDD

Knowledge Discovery and Data
Mining

Kỹ thuật phát hiện tri thức
và khai phá dữ liệu

CSDL

Cơ sở dữ liệu

Cơ sở dữ liệu

Customer relationship

Quản trị mối quan hệ

management

khách hàng

WWW

World wide web


Mạng lƣới toàn cầu



Quyết định

Quyết định

CRM


vi

DANH MỤC CÁC BẢNG
Số hiệu
bảng

Tên bảng/ hình vẽ

Trang

3.1

Bảng dữ liệu quyết định cho vay vốn

45

3.2


Bảng thuộc tính tập dữ liệu ngân hàng

59


vii

DANH MỤC CÁC HÌNH
Số hiệu

Tên bảng/ hình vẽ

bảng

Trang

1.1

Q trình phát hiện tri thức trong CSDL

5

1.2

Kiến trúc điển hình của hệ thống khai phá dữ liệu

6

1.3


1.4
1.5

Quá trình phân lớp dữ liệu - (a) Bƣớc xây dựng mơ
hình phân lớp
Q trình phân lớp dữ liệu - (b1)Ƣớc lƣợng độ chính xác
của mơ hình
Quá trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu mới

11

12
12

1.6

Phân loại kỹ thuật phân cụm

14

3.1

Cây quyết định biểu diễn thuộc tính quyết định cho vay

47

3.2

Giá trị của S


52

3.3

Khả năng biểu diễn của cây

54

3.4

Hình cây quyết định cho vay vốn

55

3.5

Quy trình thực nghiệm của quy trình quyết định cho
vay vốn

57

3.6

Giao diện nạp dữ liệu vào hệ thống

60

3.7

Thực hiện nạp dữ liệu vào hệ thống


61

3.8

Chuẩn hóa dữ liệu đầu vào

61

3.9

Cập nhật dữ liệu vào hệ thống

62

3.10

Khởi tạo dữ liệu để sinh luật với ID3

62

3.11

Kết quả các luật đƣợc sinh ra với thuật toán ID3

63

3.12

Kết quả cây ID3 với bộ dữ liệu Dulieuvayvon.xlsx


63

3.13

Ứng dụng cho vay vốn với ID3

64

3.14

Chọn dữ liệu khách hàng mới để thực hiện quyết định

64


viii

cho vay
3.15

Kết quả sau khi thực hiện quyết định có cho khách hàng
mới vay hay không

65

3.16

Cây quyết định ứng với thuật toán ID3


65

3.17

Một số luật của cây quyết định ID3

66


1

MỞ ĐẦU
1. Tính cấp thiết của đề tài
Trong gần hai thập kỷ qua, các hệ thống cơ sở dữ liệu đã đem lại những
lợi ích vơ cùng to lớn cho nhân loại. Cùng với sự phát triển của Công nghệ
Thông tin và ứng dụng của nó trong đời sống - kinh tế - xã hội, lƣợng dữ liệu
thu thập đƣợc ngày càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều
các hệ thống cơ sở dữ liệu có kích thƣớc lớn. Ngƣời ta lƣu trữ những dữ liệu
này vì cho rằng nó ẩn chứa những giá trị nhất định nào đó. Tuy nhiên theo
thống kê thi chỉ có một lƣợng nhỏ của những dữ liệu này (khoảng dƣới10%)
là luôn đƣợc phân tích, số cịn lại họ khơng biết sẽ phải làm gì và có thể làm
gì với những dữ liệu này, nhƣng họ vẫn tiếp tục thu thập và lƣu trữ vì hy vọng
những dữ liệu này sẽ cung cấp cho họ những thông tin quý giá một cách
nhanh chóng để đƣa ra những quyết định kịp thời vào một lúc nào đó. Chính
vì vậy, các phƣơng pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày
càng không đáp ứng đƣợc thực tế đã làm phát triển một khuynh hƣớng kỹ
thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD Knowledge Discovery and Data Mining).
Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang đƣợc nghiên
cứu, ứng dụng trong nhiều lĩnh vực khác nhau trên thế giới, tại Việt Nam kỹ
thuật này còn tƣơng đối mới mẻ tuy nhiên cũng đang đƣợc nghiên cứu và bắt

đầu đƣa vào một số ứng dụng thực tế. Vì vậy, hiện nay ở nƣớc ta vấn đề phát
hiện tri thức và khai phá dữ liệu đang thu hút đƣợc sự quan tâm của nhiều
ngƣời và nhiều công ty phát triển ứng dụng Công nghệ Thông tin. Đƣợc đánh
giá sẽ tạo ra cuộc cách mạng trong thế kỷ 21, khai phá dữ liệu sẽ ngày càng
đƣợc ứng dụng phổ biến trong các lĩnh vực kinh tế, xã hội: ngân hàng, truyền
thông, quảng cáo…


2

Có nhiều phƣơng pháp phân lớp đƣợc đề xuất, tuy nhiên khơng có
phƣơng pháp tiếp cận phân loại nào là tối ƣu và chính xác hơn hẳn những
phƣơng pháp khác. Dù sao với mỗi phƣơng pháp có một lợi thế và bất lợi
riêng khi sử dụng. Một trong những công cụ khai phá tri thức hiệu quả hiện
nay là sử dụng cây quyết định để tìm ra các luật phân lớp. Với mong muốn
nghiên cứu về việc ứng dụng cây quyết định để phân loại khách hàng của
Ngân hàng thƣơng mại, tôi đã chọn đề tài “Nghiên cứu cây quyết định và
ứng dụng để phân loại khách hàng vay vốn tại ngân hàng Vietinbank chi
nhánh Kon Tum”.
2. Mục tiêu nghiên cứu
- Nghiên cứu các thuật toán xây dựng cây quyết định ID3.
- Áp dụng mơ hình cây quyết định (ID3: Decision Tree) vào việc
phân loại khách hàng vay vốn tại ngân hàng Vietinbank chi nhánh
Kon Tum.
3. Đối tƣợng và phạm vi nghiên cứu
 Đối tượng nghiên cứu
- Bài toán phân lớp dữ liệu trong khai phá dữ liệu;
- Cây quyết định;
 Phạm vi nghiên cứu
- Nghiên cứu về thuật toán ID3;

- Phân lớp dữ liệu khách hàng, cụ thể: khách hàng vay vốn tại ngân
hàng Vietinbank chi nhánh Kon Tum.
4. Phƣơng pháp nghiên cứu
- Đọc hiểu tài liệu.
- Cài đặt ứng dụng chạy trên hệ điều hành Window
5. Cấu trúc luận văn
Báo cáo luận văn gồm các phần chính nhƣ sau:


3

MỞ ĐẦU
CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
Chƣơng này trình bày sơ lƣợc về khai phá dữ liệu, ứng dụng của khai
phá dữ liệu, các phƣơng pháp khai phá dữ liệu thông dụng và ứng dụng của
khai phá dữ liệu trong lĩnh vực tài chính ngân hàng.
CHƢƠNG 2. CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU
Hiện nay có nhiều kỹ thuật phân lớp dữ liệu, trong đó phân lớp bằng
cây quyết định là một phƣơng pháp phổ biến. Cây quyết định (decision tree)
là một phƣơng pháp khai phá dữ liệu rất mạnh và phổ biến trong nhiệm vụ
phân loại và dự báo. Tạo cây quyết định là quá trình phân tích cơ sở dữ liệu,
phân lớp và đƣa ra dự đoán cho nhà quản lý, kinh doanh ra quyết định để thực
hiện chiến lƣợt kinh doanh cũng nhƣ quản lý của mình một cách có hiệu quả.
CHƢƠNG 3. ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG PHÂN LOẠI
KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG VIETINBANK CHI
NHÁNH KON TUM
Trong chƣơng này đã phát biểu bài toán để kiểm chứng các thuật toán
xây dựng cây quyết định ở chƣơng 2 trên bộ dữ liệu mẫu Dulieuvayvon.xlsx.
Đồng thời cài đặt chƣơng trình hỗ trợ cán bộ tín dụng ra quyết định vay vốn.
Dựa vào mơ hình cây quyết định (các luật quyết định) đã đƣợc xây dựng,

phân lớp các mẫu dữ liệu khách hàng mới.
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN.


4

CHƯƠNG 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
Chƣơng này trình bày sơ lƣợc về khai phá dữ liệu, ứng dụng của khai
phá dữ liệu, các phƣơng pháp khai phá dữ liệu thông dụng và ứng dụng của
khai phá dữ liệu trong lĩnh vực tài chính ngân hàng.
1.1. GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU
1.1.1. Khám phá tri thức
Quá trình khám phá dữ liệu gồm các bƣớc cơ bản sau đây [1][2][9]:
Bƣớc 1: Xác định vấn đề và lựa chọn nguồn dữ liệu (Problem
Understanding anh Data Understanding)
Bƣớc 2: Chuẩn bị dữ liệu (Data preparation)
Quá trình này gồm các quá trình sau:
 Thu thập dữ liệu (Data gathering)
 Làm sạch dữ liệu (Data cleaning): Loại bỏ nhiễu và các dữ liệu
không cần thiết.
 Tích hợp dữ liệu (Data integeration): q trình hợp nhất dữ liệu
thành những kho dữ liệu (data warehouses & data marts) sau khi đã
làm sạch và tiền xử lý (data cleaning & preprocessing).
 Chọn dữ liệu (Data selection): trích chọn dữ liệu từ những kho dữ
liệu và sau đó chuyển đổi về dạng thích hợp cho q trình khai thác
tri thức. Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu
(noisy data), dữ liệu không đầy đủ (incomplete data),.v.v.
 Biến đổi dữ liệu (Data transformation): Các dữ liệu đƣợc chuyển
đổi sang các dạng phù hợp cho quá trình xử lý

Bƣớc 3: Khai phá dữ liệu (Data Mining)


5

Bƣớc 4: Đánh giá mẫu (Partern Evalution)
Bƣớc 5: Biểu diễn tri thức và triển khai (Knowlegde presentation and
Deployment)
Tóm lại: KDD là một quá trình kết xuất ra tri thức từ kho dữ liệu mà
trong đó khai phá dữ liệu là cơng đoạn quan trọng nhất [2], [3],[8].

Khai phá
dữ liệu

Trình
Diễn

Đổi dạng
Tiền xử lý

Tri thức
Mẫu

Chọn lựa
Dữ liệu đã
tiền xử lý

Dữ liệu
chuyên trang


Dữ liệu đích

Hình 1.1: Q trình phát hiện tri thức trong CSDL
1.1.2. Khai phá dữ liệu
Khai phá dữ liệu đƣợc dùng để mơ tả q trình phát hiện ra tri thức
trong CSDL. Quá trình khai phá dữ liệu bao gồm các giai đoạn [1][3]:
Giai đoạn 1: Gom dữ liệu
Giai đoạn 2: Trích lọc dữ liệu
Giai đoạn 3: Làm sạch, tiền xử lý và chuẩn bị trƣớc dữ liệu
Giai đoạn 4: Chuyển đổi dữ liệu
Giai đoạn 5: Phát hiện và trích mẫu dữ liệu
Giai đoạn 6: Đánh giá kết quả mẫu
Khai phá dữ liệu đƣợc mơ hình hóa một cách tổng qt nhƣ hình vẽ
1.2:


6

Giao diện ngƣời dùng

Đánh giá mẫu khai phá đƣợc

Cơ sở tri thức

Thành phần khai phá dữ liệu

Phục vụ Cơ sở dữ liệu/Kho dữ liệu

Làm sạch tích họp và chọn dữ liệu


Cơ sở dữ liệu

Kho dữ liệu

World Wide Web

Các kiểu kho chứa
thơng tin khác

Hình 1.2: Kiến trúc điển hình của hệ thống khai phá dữ liệu
1.2. ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU
Data Mining tuy là một hƣớng tiếp cận mới nhƣng thu hút đƣợc rất nhiều
sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng
thực tiễn của nó. Sau đây là một số lĩnh vực mà Data mining đang đƣợc ứng
dụng rộng rãi:


Phân tích dữ liệu tài chính (Financial Data Analysis)



Cơng nghiệp bán lẻ (Retail Industry)



Cơng nghiệp viễn thơng (Telecommunication Industry)



Phân tích dữ liệu sinh học (Biological Data Analysis)




Phát hiện xâm nhập (Intrusion Detection)



Một số ứng dụng trong khoa học (Scientific Applications)


7

Phân tích dữ liệu tài chính (Financial Data Analysis)
Dữ liệu tài chính trong ngân hàng và trong ngành tài chính nói chung
thƣờng đáng tin cậy và có chất lƣợng cao, tạo điều kiện cho khai phá dữ liệu.
Dƣới đây là một số ứng dụng điển hình trong khai phá dữ liệu tài chính:


Dự đốn khả năng vay và thanh tốn của khách hàng, phân tích
chính sách tín dụngđối với khách hàng.



Phân tích hành vi khách hàng (vay, gửi tiền)



Phân loại và phân nhóm khách hàng mục tiêu cho tiếp thị tài chính




Phát hiện các hoạt động rửa tiền và tội phạm tài chính khác

Cơng nghiệp bán lẻ (Retail Industry)
Khai phá dữ liệu có vai trị rất quan trọng trong ngành công nghiệp bán lẻ,
do dữ liệu thu thập từ lĩnh vực này rất lớn từ doanh số bán hàng, lịch sử mua
hàng của khách hàng, vận chuyển hàng hóa, tiêu thụ và dịch vụ. Điều tự nhiên
là khối lƣợng dữ liệu từ ngành công nghiệp này sẽ tiếp tục tăng lên nhanh
chóng và dễ dàng thu thập bởi tính sẵn có trên mơi trƣờng Web. Ứng dụng
khai phá dữ liệu trong ngành công nghiệp bán lẻ nhằm xây dựng mô hình giúp
xác định xu hƣớng mua hàng của khách hàng, giúp doanh nghiệp cải thiện
chất lƣợng sản phẩm dịch vụ nhằm nâng cao sự hài lòng của khách hàng
và giữ chân khách hàng tốt. Dƣới đây là một số ứng dụng của khai phá dữ
liệu trong ngành công nghiệp bán lẻ:



Khai phá dữ liệu trên kho dữ liệu khách hàng
Phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán
hàng, khách hàng, sản phẩm, thời gian và khu vực.



Phân tích hiệu quả của các chiến dịch bán hàng, Marketing.


8




Quản trị mối quan hệ khách hàng (CRM).



Giới thiệu và tƣ vấn sản phẩm phù hợp cho khách hàng

Công nghiệp viễn thông (Telecommunication Industry)
Công nghiệp viễn thông là một trong những ngành công nghiệp mới
nổi, cung cấp nhiều dịch vụ nhƣ trên điện thoại di động, Internet, truyền hình
ảnh... Do sự phát triển mạnh củacơng nghệ máy tính và mạng máy tính, viễn
thơng đang phát triển với tốc độ rất lớn. Đây là lý do tại sao khai phá dữ
liệu trở nên rất quan trọng trong lĩnh vực này.
Khai phá dữ liệu trong ngành công nghiệp viễn thông giúp xác định các mơ
hình viễn thơng,phát hiện các hoạt động gian lận trong viễn thông, sử dụng tốt
hơn nguồn tài nguyên và cải thiện chất lƣợng dịch vụ viễn thông. Dƣới đây
là một số ứng dụng của khai phá dữ liệutrong ngành cơng nghiệp này:


Phân tích dữ liệu đa chiều viễn thơng.



Xây dựng các mơ hình phát hiện gian lận.



Phát hiện bất thƣờng trong giao dịch viễn thơng.




Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng



Sử dụng các cơng cụ trực quan trong phân tích dữ liệu viễn thơng

Phân tích dữ liệu sinh học (Biological Data Analysis)
Khai phá dữ liệu sinh học là một phần rất quan trọng của lĩnh vực Tin -Sinh
học(Bioinformatics). Sau đây là một số ứng dụng của khai phá dữ liệu ứng
dụng trong sinh học:


Lập chỉ mục, tìm kiếm tƣơng tự, bất thƣờng trong cơ sở dữ
liệu Gen.


9



Xây dựng mơ hình khai phá các mạng di truyền và cấu trúc của
Gen, protein



Xây dựng các công cụ trực quan trong phân tích dữ liệu di truyền.

Phát hiện xâm nhập bất hợp pháp (Intrusion Detection)
Xâm nhập bất hợp pháp là những hành động đe dọa tính tồn vẹn, bảo
mật và tính sẵn sàng của tài nguyên mạng. Trong thế giới của kết nối, bảo

mật đã trở thành vấn đề lớn đối với tồn tại của hệ thống. Với sự phát triển
của internet và sự sẵn có của các cơng cụ, thủ thuật trợ giúp cho xâm nhập và
tấn công mạng, yêu cầu kiểm soát truy cập bất hợp pháp là yếu tố rất quan
trọng đảm bảo cho sự ổn định của hệ thống.
Dƣới đây là một số ứng dụng của khai phá dữ liệu có thể đƣợc áp
dụng để phát hiện xâm nhập:
 Phát triển các thuật toán khai phá dữ liệu để phát hiện xâm nhập.
 Phân tích kết hợp, tƣơng quan và khác biệt để phát hiện xâm nhập.
 Phân tích dịng dữ liệu dữ liệu (Analysis of Stream data) để phát
hiện bất thƣờng.
.v.v…
1.3. CÁC PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU THÔNG DỤNG
1.3.1. Phân lớp (Classification)
Ngày nay phân lớp dữ liệu (classification) là một trong những hƣớng
nghiên cứu chính của khai phá dữ liệu. Thực tế đặt ra nhu cầu là từ một cơ
sở dữ liệu với nhiều thơng tin ẩn con ngƣời có thể trích rút ra các quyết định
nghiệp vụ thông minh. Phân lớp và dự đốn là hai dạng của phân tích dữ liệu
nhằm trích rút ra một mơ hình mơ tả các lớp dữ liệu quan trọng hay dự đoán
xu hƣớng dữ liệu tƣơng lai. Phân lớp dự đoán giá trị của những nhãn xác định
(categorical label) hay những giá trị rời rạc (discrete value), có nghĩa là phân


10

lớp thao tác với những đối tƣợng dữ liệu mà có bộ giá trị là biết trƣớc. Trong
khi đó, dự đốn lại xây dựng mơ hình với các hàm nhận giá trị liên tục. Ví dụ
mơ hình phân lớp dự báo thời tiết có thể cho biết thời tiết ngày mai là mƣa,
hay nắng dựa vào những thông số về độ ẩm, sức gió, nhiệt độ,... của ngày
hơm nay và các ngày trƣớc đó. Hay nhờ các luật về xu hƣớng mua hàng của
khách hàng trong siêu thị, các nhân viên kinh doanh có thể ra những quyết

sách đúng đắn về lƣợng mặt hàng cũng nhƣ chủng loại bày bán. Một mơ hình
dự đốn có thể dự đốn đƣợc lƣợng tiền tiêu dùng của các khách hàng tiềm
năng dựa trên những thông tin về thu nhập và nghề nghiệp của khách hàng.
Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà
nghiên cứu trong nhiều lĩnh vực khác nhau nhƣ học máy (machine learning),
hệ chuyên gia (expert system), thống kê (statistics)... Công nghệ này cũng
ứng dụng trong nhiều lĩnh vực khác nhau nhƣ: thƣơng mại, nhà băng,
maketing, nghiên cứu thị trƣờng, bảo hiểm, y tế, giáo dục... Phần lớn các
thuật toán ra đời trƣớc đều sử dụng cơ chế dữ liệu cƣ trú trong bộ nhớ
(memory resident), thƣờng thao tác với lƣợng dữ liệu nhỏ. Một số thuật toán
ra đời sau này đã sử dụng kỹ thuật cƣ trú trên đĩa cải thiện đáng kể khả năng
mở rộng của thuật toán với những tập dữ liệu lớn lên tới hàng tỉ bản ghi.
Quá trình phân lớp dữ liệu gồm hai bƣớc [4][5]:
Bƣớc thứ nhất (Learning)
Quá trình học nhằm xây dựng một mơ hình mơ tả một tập các lớp dữ
liệu hay các khái niệm định trƣớc. Đầu vào của quá trình này là một tập dữ
liệu có cấu trúc đƣợc mơ tả bằng các thuộc tính và đƣợc tạo ra từ tập các bộ
giá trị của các thuộc tính đó. Mỗi bộ giá trị đƣợc gọi chung là một phần tử dữ
liệu (data tuple), có thể là các mẫu (sample), ví dụ (example), đối tƣợng
(object), bản ghi (record) hay trƣờng hợp (case). Luận văn sử dụng các thuật
ngữ này với nghĩa tƣơng đƣơng. Trong tập dữ liệu này, mỗi phần tử dữ liệu


11

đƣợc giả sử thuộc về một lớp định trƣớc, lớp ở đây là giá trị của một thuộc
tính đƣợc chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class
label attribute). Đầu ra của bƣớc này thƣờng là các quy tắc phân lớp dƣới
dạng luật dạng if-then, cây quyết định, cơng thức logic, hay mạng nơron. Q
trình này đƣợc mơ tả nhƣ trong hình 1.3


Hình 1.3 : Q trình phân lớp dữ liệu - (a) Bƣớc xây dựng mơ hình phân lớp
Bƣớc thứ hai (Classification)
Bƣớc thứ hai dùng mơ hình đã xây dựng ở bƣớc trƣớc để phân lớp dữ
liệu mới. Trƣớc tiên độ chính xác mang tính chất dự đốn của mơ hình phân
lớp vừa tạo ra đƣợc ƣớc lƣợng. Holdout là một kỹ thuật đơn giản để ƣớc
lƣợng độ chính xác đó. Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các
mẫu đã đƣợc gán nhãn lớp. Các mẫu này đƣợc chọn ngẫu nhiên và độc lập với
các mẫu trong tập dữ liệu đào tạo. Độ chính xác của mơ hình trên tập dữ liệu
kiểm tra đã đƣa là tỉ lệ phần trăm các các mẫu trong tập dữ liệu kiểm tra đƣợc
mô hình phân lớp đúng (so với thực tế). Nếu độ chính xác của mơ hình đƣợc


12

ƣớc lƣợng dựa trên tập dữ liệu đào tạo thì kết quả thu đƣợc là rất khả quan vì
mơ hình ln có xu hƣớng “q vừa” dữ liệu. Q vừa dữ liệu là hiện tƣợng
kết quả phân lớp trùng khít với dữ liệu thực tế vì quá trình xây dựng mơ hình
phân lớp từ tập dữ liệu đào tạo có thể đã kết hợp những đặc điểm riêng biệt
của tập dữ liệu đó. Do vậy cần sử dụng một tập dữ liệu kiểm tra độc lập với
tập dữ liệu đào tạo. Nếu độ chính xác của mơ hình là chấp nhận đƣợc, thì mơ
hình đƣợc sử dụng để phân lớp những dữ liệu tƣơng lai, hoặc những dữ liệu
mà giá trị của thuộc tính phân lớp là chƣa biết.

Hình 1.4: Quá trình phân lớp dữ liệu - (b1)Ƣớc lƣợng độ chính xác của mơ
hình

Hình 1.5: Q trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu mới



13

Trong mơ hình phân lớp, thuật tốn phân lớp giữ vai trị trung tâm, quyết định
tới sự thành cơng của mơ hình phân lớp. Do vậy chìa khóa của vấn đề phân
lớp dữ liệu là tìm ra đƣợc một thuật tốn phân lớp nhanh, hiệu quả, có độ
chính xác cao và có khả năng mở rộng đƣợc. Trong đó khả năng mở rộng
đƣợc của thuật toán đƣợc đặc biệt trú trọng và phát triển.
Có thể liệt kê ra đây các kỹ thuật phân lớp đã đƣợc sử dụng trong những năm
qua:
 Phân lớp cây quyết định (Decision tree classification)
 Bộ phân lớp Bayesian (Bayesian classifier)
 Mơ hình phân lớp K-hàng xóm gần nhất (K-nearest neighbor
classifier)
 Mạng nơron
 Phân tích thống kê
 Các thuật tốn di truyền
 Phƣơng pháp tập thơ (Rough set Approach)
1.3.2. Phân cụm (Clustering)
Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc
lớp các phƣơng pháp Unsupervised Learning trong Machine Learning. Có rất
nhiều định nghĩa khác nhau về kỹ thuật này, nhƣng về bản chất ta có thể hiểu
phân cụm là các qui trình tìm cách nhóm các đối tƣợng đã cho vào các cụm
(clusters), sao cho các đối tƣợng trong cùng 1 cụm tƣơng tự (similar) nhau và
các đối tƣợng khác cụm thì khơng tƣơng tự (Dissimilar) nhau.
Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ
liệu. Các thuật toán phân cụm (Clustering Algorithms) đều sinh ra các cụm
(clusters). Tuy nhiên, khơng có tiêu chí nào là đƣợc xem là tốt nhất để đánh
hiệu của của phân tích phân cụm, điều này phụ thuộc vào mục đích của phân
cụm nhƣ: data reduction, “natural clusters”, “useful” clusters, outlier detection



14

Kỹ thuật phân cụm có thể áp dụng trong rất nhiều lĩnh vực nhƣ:
Marketing: Xác định các nhóm khách hàng (khách hàng tiềm năng,
khách hàng giá trị, phân loại và dự đoán hành vi khách hàng,…) sử dụng sản
phẩm hay dịch vụ của cơng ty để giúp cơng ty có chiến lƣợc kinh doanh hiệu
quả hơn;
Biology: Phận nhóm động vật và thực vật dựa vào các thuộc tính của
chúng;
Libraries: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả…;
Insurance, Finance: Phân nhóm các đối tƣợng sử dụng bảo hiểm và các
dịch vụ tài chính, dự đốn xu hƣớng (trend) của khách hàng, phát hiện gian
lận tài chính (identifying frauds);
WWW: Phân loại tài liệu (document classification); phân loại ngƣời
dùng web (clustering weblog);…
Các kỹ thuật phân cụm đƣợc phân loại nhƣ sau (xem hình)
Clustering
Hierarchial

Single Link

Partitional

Complete

Square

Graph


Mixture

Mode

Link

Error

Theoretic

Resolving

Seeking

K-means

Expectation
Maximization

Hình 1.6: Phân loại kỹ thuật phân cụm
1.3.3. Luật kết hợp (Association Rules)
Khai phá luật kết hợp đƣợc thực hiện qua 2 bƣớc:

 Bƣớc 1 : Tìm tất cả các tập mục phổ biến, một văn bản phổ biến đƣợc
xác định qua độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu.


15
 Bƣớc 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật
phải thỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu.

Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association
Rule - AR) là tìm ra các mối quan hệ giữa các đối tƣợng trong khối lƣợng lớn
dữ liệu. Nội dung cơ bản của luật kết hợp đƣợc tóm tắt nhƣ dƣới đây.
Cho cơ sở dữ liệu gồm các giao dịch T là tập các giao dịch t1, t2, …, tn.
T = {t1, t2, …, tn}. T gọi là cơ sở dữ liệu giao dịch (Transaction Database)
Mỗi giao dịch ti bao gồm tập các đối tƣợng I (gọi là itemset)
I = {i1, i2, …, im}. Một itemset gồm k items gọi là k-itemset
Mục đích của luật kết hợp là tìm ra sự kết hợp (association) hay tƣơng
quan (correlation) giữa các items. Những luật kết hợp này có dạng X =>Y
Trong Basket Analysis, luật kết hợp X =>Y có thể hiểu rằng những ngƣời
mua các mặt hàng trong tập X cũng thƣờng mua các mặt hàng trong tập Y. (X
và Y gọi là itemset).
Ví dụ, nếu X = {Apple, Banana} và Y = {Cherry, Durian} và ta có luật
kết hợp X =>Y thì chúng ta có thể nói rằng những ngƣời mua Apple và
Banana thì cũng thƣờng mua Cherry và Durian.
Theo quan điểm thống kê, X đƣợc xem là biến độc lập (Independent variable)
còn Y đƣợc xem là biến phụ thuộc (Dependent variable)
Độ hỗ trợ (Support) và độ tin cây (Confidence) là 2 tham số dùng để đo lƣờng
luật kết hợp.
Độ hỗ trợ (Support) của luật kết hợp X =>Y là tần suất của giao dịch chứa tất
cả các items trong cả hai tập X và Y. Ví dụ, support của luật X =>Y là 5% có
nghĩa là 5% các giao dịch X và Y đƣợc mua cùng nhau.
Công thức để tính support của luật X =>Y nhƣ sau:


×