Tải bản đầy đủ (.docx) (142 trang)

Ứng dụng khai phá dữ liệu để giảm thiểu rủi ro tín dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.1 MB, 142 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN XUÂN LỢI

ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ GIẢM
THIỂU RỦI RO TÍN DỤNG

LUẬN VĂN THẠC SĨ

Hà Nội - 2010


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN XUÂN LỢI

ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ GIẢM
THIỂU RỦI RO TÍN DỤNG

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. NGUYỄN TRỌNG DŨNG

Hà Nội - 2010




I

DANH MỤC TỪ VÀ THUẬT NGỮ VIẾT TẮT

STT

Chữ viết tắt

1

CSDL

2

DM

3

Itemset

4

Transaction

5

TID


6

Support

7

Minsup

8

Confidence

9

Mincof

10

Training set

11

Test set

12

Information gain

13


Coverage

14

Accuracy

15

ILA

16

Naïve Bayes

17

18

Normalising
Constant
ScoringF1


19

ScoringF2

20

Mining Structure



II
21

Mining Model

22

Discretized

22

Discrete

23

Key

24

Clusters

25

26

27

28


29

30

MAXIMUM
ITEMSET COUNT

MAXIMUM
ITEMSET SIZE

MAXIMUM
SUPPORT
MINIMUM ITEMSET
SIZE

MINIMUM
PROBABILITY

MINIMUM
SUPPORT


STT
Hình 1
Hình 1.1
Hình 1.3.1
Hình 1.3.3.1
Hình 1.3.3.2
Hình 2.2.4

Hình 3.1.2
Hình 3.2.2

Hình 3.3.2.1

Hình 3.3.2.2
Hình 3.3.2.3


STT
Bảng 1
Bảng 2
Bảng 3
Bảng 4
Bảng 5
Bảng 6a
Bảng 6b
Bảng 7a
Bảng 7b
Bảng 8a
Bảng 8a
Bảng 9a
Bảng 9b
Bảng 10a
Bảng 10b
Bảng 11
Bảng 12a
Bảng 12b
Bảng 13a
Bảng 13b



Bảng 14a
Bảng 14b
Bảng 15
Bảng 16


Bảng 17
Bảng 18a
Bảng 18b
Bảng 19a
Bảng 19b
Bảng 20a
Bảng 20b
Bảng 21
Bảng 22a
Bảng 22b
Bảng 23
Bảng 24
Bảng 25
Bảng 26
Bảng 27
Bảng 28
Bảng 29


Bảng 29



VI
Bảng 30
Bảng 31a
Bảng 31b
Bảng 32a
Bảng 32b
Bảng 33a
Bảng 33b


VII

LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của Tôi. Những kết quả và các số liệu trong
khoá luận chƣa đƣợc ai công bố dƣới bất cứ hình thức nào. Tôi hoàn toàn chịu trách
nhiệm trƣớc nhà trƣờng về sự cam đoan này!
Hà nội, ngày ... tháng ... năm 2010
Tác giả

Trần Xuân Lợi


VIII

LỜI CẢM ƠN
Luâṇ văn này đƣợc hoàn thành ngoài nỗlƣcc̣ hết sƣƣ́c của bản thân , trong quátrinhh̀ làm
viêcc̣ T ôi đa n ̃ hâṇ đƣơcc̣ sƣ hc̣ ƣớng dâñ , giúp đỡ tận tình của các thầy cô tại khoa
Công nghê T
c̣ hông tin, Đại học Công Nghệ, Đại học Quốc Gia Hà Nội.
Xin chân thành gƣƣ̉i lời cảm ơn tới các thầy cô giáo khoa Công nghê T

c̣ hông tin , Trƣờng
đại học Công Nghệ , đăcc̣ biêṭlàthầy g iáo, Tiến si N
̃ guyêñ Trọng Dũng , ngƣời trƣcc̣ tiếp
hƣớng dâñ Tôi.
Xin gƣƣ̉i lời cám ơn tới cha me ,c̣ bạn bè, đồng nghiêpc̣ vànhƣ ̃ng ngƣời thân đa g ̃ iúp đỡvà
tạo điều kiện cho Tôi trong suốt thời gian qua.
Luận văn thạc sĩ này đƣợc thực hiện trong khuôn khổ đề tài nghiên cứu mang mã số
QG.09.27, Đại học Quốc gia Hà Nội.


IX

MỤC LỤC
MỞ ĐẦU …………………………………………………………………………………
CHƢƠNG I: NGHIÊN CỨU CƠ SỞ LÝ THUYẾT ……………………………………..

1.1 Sơ lƣợc về khai phá dữ liệu ……………………………...............
1.1.1

Sự cần thiết của kha

1.1.2

Định nghĩa khai phá dữ l

1.1.3

Quy trình khám phá tri th

1.2 Khai phá luật kết hợp ………………………………………………

1.2.1

Luật kết hợp trong C

1.2.2

Bài toán khai thác lu

1.3 Phân lớp ……………………………………………………………

1.3.1 Phân lớp bằng phƣơng pháp dựa trên cây quyết đinh ………
1.3.2

Phân lớp bằng phƣơng p

1.3.3

Phân lớp bằng phƣơng p

CHƢƠNG II: LÝ THUYẾT VỀ RỦI RO TÍN DỤNG…………………………………..

2.1 Tổng quan về ngân hàng thƣơng mại.............................................
2.1.1

Khái niệm về ngân

2.1.2

Chức năng của ngâ


2.2 Hoạt động tín dụng trong ngân hàng thƣơng mại …………………
2.2.1

Nguyên tắc tín dụn

2.2.2

Lãi suất tín dụng …

2.2.3

Đảm bảo tín dụng

2.2.3

Quy trình tín dụng

2.3 Xếp hạng tín dụng …………………………………………………
2.3.1

Mục đích của xếp h

2.3.2

Phân nhóm khách
X


2.3.3 Xếp hạng tín dụng doanh nghiệp …………………………………………..
2.3 Rủi ro tín dụng ……………………………………………………………………..


34

2.3.1 Khái niệm về rủi ro tín dụng ……………………………………………….. 38
2.3.2 Phân loại nợ và trích lập dự phòng rủi ro ……..……………………………

38

2.3.3 Quản trị rủi ro tín dụng trong ngân hàng thƣơng mại ………………………

39

CHƢƠNG III: ỨNG DỤNG KHAI PHÁ DỮ LIỆU, ÁP DỤNG VỚI NGUỒN DỮ
LIỆU CỦA NGÂN HÀNG KỸ THƢƠNG VIỆT NAM TECHCOMBANK

3.1 Hệ thống xếp hạng tín dụng của ngân hàng Techcombank ……………………...

41
43

3.1.1 Hệ thống xếp hạng thế chấp (ScoringF1) …………………………………

43

3.1.2 Thống kê với dữ liệu ScoringF1 …………………………………………...

43

3.1.3 Hệ thống xếp hạng tín chấp (ScoringF2) ………………………………….


49

3.1.4 Thống kê với dữ liệu ScoringF2 …………………………………………..

54

3.2 Dữ liệu tín dụng của khách hàng …………………………………………………

63

3.2.1 Phƣơng pháp luận đánh giá ……………………………………………….

67

3.2.2 Nguồn dữ liệu tín dụng …………………………………………………….

67

3.2.3 Kiểm định lại hệ thống ScoringF1 ………………………………………...

67

3.2.4 Kiểm định lại hệ thống ScoringF2 ………………………………………...

73

3.2.5 Nhóm không đƣợc chấm điểm tín dụng …………………………………..

75


3.3 Điều chỉnh lại hệ thống xếp hạng tín dụng ScoringF2 ……………………………

78

3.3.1 Chọn và làm sạch dữ liệu ………………………………………………….

79

3.3.2 Tạo mining structure ………………………………………………………

80

3.3.3 Tạo mining model …………………………………………………………

80

3.3.4 Điều chỉnh lại hệ thống ScoringF2 ………………………………………..

81

CHƢƠNG IV: KẾT LUẬN VÀ KIẾN NGHỊ ……………………………………............

86

TÀI LIỆU THAM KHẢO ………………………………………………………………... 91
93


-1-


MỞ ĐẦU
Khai phá dữ liệu là một quá trình phát hiện những mẫu có giá trị, mới, hữu ích
tiềm năng và hiểu được trong dữ liệu. Kho dữ liệu của một ngân hàng hay một tập
đoàn bán lẻ không ngừng tăng trưởng theo thời gian với tốc độ cao, nhưng chỉ một số
ít trong đó là thực sự có giá trị, có lợi hay hỗ trợ cho việc ra quyết định. Ngày nay khai
phá dữ liệu đã được ứng dụng trong nhiều lĩnh vực của đời sống như bán lẻ, ngân
hàng, tài chính…Khai phá dữ liệu trong lĩnh vực tài chính bao gồm các nhiệm vụ sau:
dự đoán xu hướng thị trường chứng khoán, lãi suất tiền tệ, đo lường xác suất phá sản
của ngân hàng, quản trị rủi ro tài chính, giao dịch hàng hóa tương lai, xếp hạng tín
dụng, chống rửa tiền…
Rủi ro tín dụng là khả năng mất vốn khi khách hàng không thực hiện đầy đủ
nghĩa vụ nợ, theo nghĩa đó khách hàng không trả được nợ khi các khoản nợ đến hạn
bao gồm gốc và lãi dẫn đến chất lượng các khoản nợ suy giảm. Việc ứng dụng khai
phá dữ liệu vào lĩnh vực quản lý rủi ro nói chung và rủi ro tín dụng nói riêng có một ý
nghĩa quan trọng nhằm giảm thiểu tình trạng nợ quá hạn, nâng cao chất lượng tín
dụng, giảm thiểu khả năng mất vốn.
Mục đích của đề tài ứng dụng khai phá dữ liệu nhằm nâng cao chất lượng của
hệ thống xếp hạng tín dụng của Ngân hàng Kỹ thương Việt Nam Techcombank, để hệ
thống xếp hạng tín dụng thực hiện phân loại khách hàng tốt hơn, phản ánh thực chất
hơn tình trạng tín dụng của khách hàng.
Luận văn gồm 4 chương với bố cục như sau:
Chương 1: Nghiên cứu cơ sở lý thuyết
Trình bày về quy trình khai phá dữ liệu, các phương pháp khai phá dữ liệu được
sử dụng.
Chương 2: Lý thuyết về rủi ro tín dụng
Trình bày về ngân hàng thương mại, hoạt động tín dụng trong ngân hàng, hệ
thống xếp hạng tín dụng, và lý thuyết về rủi ro tín dụng.
Chương 3: Ứng dụng khai phá dữ liệu, áp dụng với nguồn dữ liệu của Ngân
hàng Kỹ thương Việt Nam Techcombank
Trình bày về hệ thống xếp hạng tín dụng thế chấp và tín chấp tiêu dùng áp dụng

cho khách hàng thể nhân và ứng dụng khai phá dữ liệu để điều chỉnh hệ thống
xếp hạng tín dụng tín chấp tiêu dùng.
Chương 4: Kết luận và kiến nghị


-2-

CHƢƠNG 1: NGHIÊN CỨU CƠ SỞ LÝ THUYẾT
1.1

Sơ lƣợc về khai phá dữ liệu

1.1.1

Sự cần thiết của khai phá dữ liệu

Kho dữ liệu của một công ty hay một tổ chức không ngừng tăng trưởng theo thời gian
với tốc độ cao, chúng ta có thể thấy điều này qua kho dữ liệu của một ngân hàng hay
một tập đoàn bán lẻ. Dữ liệu bản thân nó chứa đựng những thông tin rất có giá trị, có
lợi cho quá trình ra quyết định.
Hình vẽ dưới đây trình bày một tập dữ liệu giả định về vay nợ ngân hàng gồm
23 trường hợp được biểu diễn trong không gian hai chiều. Mỗi điểm trên đồ thị
biểu diễn một trường hợp vay nợ ở ngân hàng trong quá khứ. Trục hoành biểu
diễn thu nhập còn trục tung biểu diễn tổng nợ cá nhân của người đi vay (tiền
thế chấp, tiền chi trả ô tô...). Dữ liệu được phân thành hai lớp: lớp  gồm
những người thiếu khả năng trả nợ ngân hàng và lớp o gồm những người có
tình trạng tốt. Như vậy để hạn chế rủi ro các loại nợ (3-5) dẫn đến khả năng
mất vốn ngân hàng chỉ cấp tín dụng cho những khách hàng có mức thu nhập từ
ngưỡng T trở lên.


Việc phát hiện ra những thông tin “có giá trị” là không dễ dàng, đối với nguồn dữ liệu
có kích thước lớn chúng ta không thể phân tích bằng tay mà cần đến những công cụ hỗ
trợ đặc biệt. Usama Fayyad đã chỉ ra những nhược điểm sau đây:
- Con người cần hàng tuần lễ hoặc lâu hơn để phát hiện ra những thông tin

ích.
-

Phần lớn dữ liệu chưa bao giờ được phân tích cả.


-3-

-

Có một hố sâu giữa khả năng sinh ra dữ liệu và khả năng sử dụng dữ liệu.

Chính vì những điều đó đã dẫn đến sự ra đời của khai phá dữ hiệu hay còn gọi là phát
hiện trị thức, nhằm giải quyết tình trạng “giàu dữ liệu nhưng nghèo tri thức”.
Khai phá dữ liệu là giải pháp phân tích tự động các kho dữ liệu, phát hiện ra các thông
tin hữu ích, có lợi cho quá trình ra quyết định. Cùng với thời gian, với sự tăng cường
năng lực tính toán, hoàn thiện các thuật toán thống kê, học máy và các phương pháp
thu thập, quản lý dữ liệu là tiền đề cho sự ra đời của khai phá dữ liệu.

1.1.2 Định nghĩa khai phá dữ liệu
Phát hiện tri thức trong cơ sở dữ liệu (đôi khi còn được gọi là khai phá dữ liệu) là
một quá trình nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được
trong dữ liệu. (Frawley, Piatetski-Shapiro và Matheus)
Friedman đã tổng hợp một số quan niệm sau đây về “khai phá dữ liệu”:


Quá trình để nhận biết từ dữ liệu ra các mẫu có giá trị, mới, hữu dụng và
hiểu được,

Quá trình trích lọc các thông tin chưa biết trước, có thể nhận thức được, có
thể tác động được từ CSDL lớn và sử dụng chúng để tạo ra quyết định có lợi,

Tập các phương pháp được dùng trong quá trình phát hiện tri thức nhằm
tường minh các quan hệ và các mẫu chưa biết trước chứa trong dữ liệu,

Quá trình hỗ trợ quyết định khi tìm kiếm những mẫu thông tin chưa biết và
hữu ích từ CSDL lớn.
Trong định nghĩa xuất hiện các khái niệm là "mẫu", "có giá trị", "mới", "hữu ích" và
"hiểu được". Các khái niệm này được hiểu như sau:
 Dữ liệu: Được hiểu như là một tập F gồm hữu hạn các trường hợp (sự
kiện). Đối với một bảng, dữ liệu được hiểu là tập hợp tất cả các bản ghi
(record) trong bảng đó.
 Mẫu: Được hiểu là một tập con của tập sự kiện F, là một quan hệ tiềm ẩn
trong dữ liệu.
 Tính mới: Mẫu phải là mới trong một miền xem xét nào đó, ít nhất là hệ
thống đang được xem xét.
 Hữu ích tiềm năng: Mẫu cần có khả năng chỉ dẫn tới các tác động hữu dụng
và được đo bởi một hàm tiện ích.


-4-

 Có thể hiểu được: Một mục tiêu của khai phá dữ liệu là tạo ra các mẫu cho
con người hiểudễ dàng hơn các dữ liệu nền (dữ liệu sẵn có trong hệ thống).

1.1.3 Quy trình khám phá tri thức trong CSDL

Khám phá tri thức trong CSDL bao gồm nhiều bước là: Chuẩn bị dữ liệu, tìm kiếm
mẫu, ước lượng tri thức, tinh chế sự tương tác nội tại sau khi chuyển dạng dữ liệu.
Quá trình được thừa nhận là không tầm thường theo nghĩa là quá trình đó bao hàm một
mức độ tìm kiếm tự động. Khai phá dữ liệu chỉ là một bước thiết yếu trong quy trình
này.
Quy trình này gồm các bước:

1)

Làm sạch dữ liệu: Loại bỏ nhiễu hoặc các dữ liệu không thích hợp.

2)
Tích hợp dữ liệu: Tích hợp dữ liệu từ các nguồn khác nhau như: CSDL,
kho dữ liệu, file text…
3)
Chọn dữ liệu: Ở bước này, những dữ liệu liên quan trực tiếp đến nhiệm vụ
sẽ được thu thập từ các nguồn dữ liệu ban đầu.
4)
Chuyển đổi dữ liệu: Trong bước này, dữ liệu sẽ được chuyển đổi về dạng
phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp.
5)
Khai phá dữ liệu: Là giai đoạn thiết yếu, trong đó các phương pháp thông
minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu.
6)
Đánh giá mẫu: Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa vào
một số phép đo. Các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ
liệu. Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai
lệch. Vì



-5-

vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần
chiết xuất ra.
7)
Trình diễn dữ liệu: Sử dụng các kỹ thuật trình diễn vàtrực quan hoá dữ liệu
để biểu diễn tri thức khai phá được cho người sử dụng.

1.2

Khai phá luật kết hợp

1.2.1

Luật kết hợp trong cơ sở dữ liệu

Trong đời sống hàng ngày chúng ta thường thấy các thống kê có dạng như sau: Cứ một
100 người mua quyển sách “chiến tranh tiền tệ” thì có 70 người mua thêm quyển “lý
thuyết trò chơi” hay 80% khách hàng mua máy điện thoại di động thì mua thêm
simcard, 30% có mua cả máy điện thoại di động lẫn simcard. Đây là một dạng của luật
kết hợp, nó là một dạng đơn giản khi kết hợp 2 mệnh đề A và B, nhưng lại có nhiều ý
nghĩa trong cuộc sống, bởi nó giúp cho chúng ta ra những quyết định tốt hơn nhờ
những số liệu thực tế. Trong ví dụ trên, hiểu được tâm lý khách hàng, người bán hàng
chỉ việc sắp xếp 2 loại hàng hóa đó gần nhau (trong trường hợp này là 2 quyển sách),
sẽ giúp cho khách hàng tiết kiệm được thời gian và quan trọng hơn là tăng doanh số
bán hàng.
Gọi I = {I1, I2,..., Im} là tập m thuộc tính riêng biệt (itemsets), mỗi thuộc tính gọi là
một mục (item). Gọi D là một cơ sở dữ liệu, trong đó mỗi bản ghi tIT là một giao
dịch và chứa các tập mục, T  I.
T = {t1, t2, … tn} là tập gồm n giao dịch (transaction), mỗi giao dịch được định danh

bởi TID (transaction identification).
Định nghĩa 1:Luật là một quy tắc chung nhất trên một tập các đối tượng. Khái niệm
“chung nhất” được hiểu là một sự kiện xẩy ra thường xuyên hoặc có tính chất dị
thường (những giao dịch gian lận thẻ tín dụng thường có tính chất dị thường).
Định nghĩa 2: Một luật kết hợp là một quan hệ có dạng X  Y, trong đó X, Y  I là
các tập mục gọi là itemsets, và X Y   . Ở đây, X được gọi là tiền đề, Y là mệnh đề kết
quả.
Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (s)và độ tin cậy (c).
Định nghĩa 3: Độ hỗ trợ (support) của luật kết hợp X  Y là tỷ lệ phần trăm các bản
ghi X Y với tổng số các giao dịch có trong cơ sở dữ liệu.
Định nghĩa 4: Đối với một số giao dịch được đưa ra, độ tin cậy (confidence) là tỷ lệ
của số giao dịch có chứa X Y với số giao dịch có chứa X. Đơn vị tính %.Về mặt xác


-6-

suất, độ tin cậy (confidence)của một luật kết hợp là xác suất (có điều kiện) xảy ra Y
với điều kiện đã xảy ra X.
Việc khai thác các luật kết hợp từ cơ sở dữ liệu chính là việc tìm tất cả các luật có độ
hỗ trợ và độ tin cậy lớn hơn ngưỡng của độ hỗ trợ và độ tin cậy do người sử dụng xác
định trước. Các ngưỡng của độ hỗ trợ và độ tin cậy được ký hiệu là minsup và mincof.
Việc khai thác các luật kết hợp có thể được phân tích thành hai vấn đề sau đây:
1.
Tìm tất cả các tập mục thường xuyên xảy ra mà có độ hỗ trợ lớn hơn
hoặc bằng minsup.
2.
Tạo ra các luật mong muốn sử dụng các tập phổ biến mà có độ tin
cậy lớn hơn hoặc bằng mincof.
Định nghĩa 5: Độ phổ biến (sup) của tập mục S trong cơ sở dữ liệu D là tỷ lệ giữ số
giao dịch chứa S trên tổng số giao dịch trong D.

sup(S) = count(S) / |D|
Tập mục phổ biến (frequent itemsets) là tập các mục có độ phổ biến thỏa mãn độ phổ
biến tối thiểu minsup do người dùng tự xác định.
Nếu sup(S) >= minsup thì S là tập phổ biến
Ví dụ:
Trong ví dụ dưới đây là cơ sở dữ liệu giao dịch của một cửa hàng bán lẻ, ghi nhận
những giao dịch sau đây: Với tập mục I = {Bia, Bánh mì, Trái cây, Sữa, Đậu phụng},
ngưỡng phổ biến tối thiểu minsup = 50%

I = { Bia, Bánh mì, Trái cây, Sữa, Đậu phụng}
S= {Bánh mì, Đậu phụng}; count(S) = 3 và |D| = 5 → sup(S) = 60% → S- tập phổ
biến
S2 = {Bánh mì} → sup(S2) = 80%→ S2 - tập phổ biến


-7-

S3 = {Đậu phụng} → sup(S3) = 60% → S3 - tập phổ biến
S4 = {Sữa}→ sup(S4) = 2/5 = 40% → S4 –không là tập phổ biến
S5={Sữa, Bánh mì} → sup(S5) = 1/5 = 20% → S5 –không là tập phổ biến
Từ ví dụ này chúng ra rút ra các luật kết hợp với support và confidence như sau:

1.2.2

Bài toán khai thác luật kết hợp

Cho một tập các giá trị I, một cơ sở dữ liệu giao dịch D, ngưỡng độ hỗ trợ tối thiểu
minsup, ngưỡng độ tin cậy mincof, tìm các luật kết hợp dạng X  Y trên D thoả mãn
điều kiện Suport(X  Y) >= minsup và Confidence(X  Y) >= mincof.
Để giải quyết bài toán này chúng ta thực hiện 2 bước sau đây:

Bước 1: Tìm tất cả các tập phổ biến thỏa mãn ngưỡng minsup
Bước 2: Tạo ra các luật kết hợp từ tập phổ biến thỏa mãn ngưỡng hỗ trợ tối thiểu
minsup, ngưỡng tin cậy mincof
-

Đối với tập phổ biến S, tạo ra các tập con khác rỗng của S
- A là tập con khác rỗng của S: A (S - A) là luật kết hợp
nếu cof(A (S - A)) = sup(S) / sup(A) >= mincof

Từ bài toán khai thác luật kết hợp chuyển thành bài toán khai thác tập phổ biến: Độ
phức tạp tính toán cao vì số lượng các tập ứng cử viên là rất lớn.
Tiến trình khai thác luật kết hợp
Xác định các tập phổ biến:Việc xác định các tập phổ biến gồm có hai bước chính sau
đây:


-8-



Xác định các tập ứng cử viên (Ck).



Xác định các tập phổ biến (L) dựa vào tập ứng cử viên

Để xác định tập ứng cử viên, ta thực hiện các bước sau đây:




Tìm các tập ứng cử viên một mục.



Quét CSDL D để xác định độ hỗ trợ của các tập ứng cử viên. Trong vòng
đầu tiên, các tập ứng cử viên cũng chính là tất cả các mục có trong CSDL. Tại
vòng thứ k (k>1), các tập ứng cử viên được xác định dựa vào các tập phổ biến
đã xác định tại vòng k – 1, sử dụng hàm Apriori-gen(). Sau khi đã xác định
được các tập ứng cử viên, thuật toán quét từng giao dịch trong CSDL để tính độ
hỗ trợ của các tập ứng cử viên. Quá trình xác định các tập mục sẽ kết thúc khi
không xác định được thêm tập phổ biến nào nữa.
Nội dung hàm Apriori-gen().
Hàm Apriori-gen() thực hiện hai bước [1]:



Bước đầu tiên, Lk – 1 được kết nối với chính nó thu được Ck.



Bước thứ hai, Apriori_gen() xoá tất cả các tập mục từ kết quả kết nối mà có
một số tập con (k – 1) không có trong Lk – 1. Sau đó nó trả về tập phổ biến kích
thước k còn lại.
Sinh các luật kết hợp từ tập phổ biến:
Việc phát hiện các tập phổ biến là rất tốn kém về mặt tính toán. Tuy nhiên, ngay khi
tìm được tất cả các tập phổ biến (l L), ta có thể dễ dàng sinh ra các luật kết hợp có
thể có bằng các bước như sau:




Tìm tất cả các tập con không rỗng x, của tập phổ biếnl L.



Với mỗi tập con x tìm được, ta tìm ra luật dạng x (l - x) nếu tỷ

lệ
Suport(l)/Suport(x)>= mincof ( %).

Thủ tục sinh ra các tập con.
Đầu vào:
Tập phổ biến Lk
Đầu ra:
Tập luật thoả mãn điều kiện độ tin cậy >=mincof và độ hỗ trợ >=minsup


-9-

Phương pháp:
Forall Lk, k>=2 do
Call Genrules(Lk, Lk);
Procedure Genrules(Lk: large k-itemset, am: large m-itemset)
Begin
A={(m-1)-itemset am-1| am-1  am}
Forall am-1 A do begin
Conf = Suport(Lk)/Suport(am-1)
If (Conf >= mincof) then begin
Output the rule am-1(Lk– am-1)
với confidence = mincof and suport = suport(Lk)
If (m-1>1) then Call Genrules(Lk,am-1);

End;
End;
End;
Giải pháp hiệu quả
Trong phần trên chúng ta thấy tiến trình cơ bản để khai thác các luật kết hợp trong
CSDL, song vấn đề cần phải quan tâm nghiên cứu là tăng hiệu quả của thuật toán
trong trường hợp: “Số lượng tập ứng viên được tìm thấy là rất lớn”. Giải pháp cho vấn
đề này là “tỉa các ứng viên” nhằm giảm số lượng các ứngviên, và đảm bảo rằng các
ứng viên được chọn là sáng giá nhất.
Tỉa các ứng viên: Việc tỉa các ứng viên nhằm mục đích bỏ đi các tập ứng viên không
cần thiết, rút gọn số lượng của tập các tập ứng viên. Sau đây, sẽ trình bày kỹ thuật “tỉa”
các ứng viên không cần thiết.
Kỹ thuật này có tính chất: Các mục trong tập ứng viên được sắp xếp theo thứ tự.
Nội dung kỹ thuật:
Forall itesets c  Ck do
Forall (k – 1)–subsets s of c do
If (s  Lk – 1) then
Delete c from Ck


-10-

Dựa vào đây, ta có thể tỉa được các tập ứng viên, từ đó có thể giới hạn miền tìm kiếm
của nó trên tất cả các tập mục.

1.3Phân lớp
Phân lớp là bài toán mà chúng ta thường gặp trong thực tế: Phân loại học sinh vào các
lớp A, B, C, ngân hàng thực hiện phân lớp khách hàng để cấp tín dụng hay từ chối,
phân loại giao dịch thẻ tín dụng là gian lận hay hợp pháp, phân loại tin tức thuộc các
lĩnh vực như tài chính, y học, giải trí, thể thao, thời tiết…Có thể nói phân lớp có trong

hầu hết các lĩnh vực của cuộc sống, nhưng tại sao phải phân lớp và phân lớp để làm
gì?. Việc phân lớp đối tượng sẽ giúp hiểu rõ hơn về các đối tượng có chung một đặc
điểm nào đó, đồng thời giúp chúng ta những ứng xử tốt hơn với các đối tượng đó.
Ngân hàng thực hiện phân loại tình trạng tín dụng của khác hàng thành các lớp AAA
(tốt nhất), AA (rất tốt), A (tốt), BBB (khá), BB (trung bình khá), B (trung bình), C
(kém), đối với hạng BB, B ngân hàng sẽ thực hiện áp dụng mức lãi suất cao hơn, vì rủi
ro tín dụng đối với trường hợp này là cao hơn AAA, AA, A. Đối với hạng C ngân hàng
sẽ từ chối cấp tín dụng.
Làm sao để gán các đối tượng vào các lớp với độ chính xác cao nhất có thể?. Người ta
sử dụng các phương pháp khác nhau để thực hiện việc phân lớp, mỗi phương pháp đều
có ưu điểm và nhược điểm riêng, dưới đây là các phương pháp thường được sử dụng:
-

Phương pháp dựa trên cây quyết định

-

Phương pháp dựa trên luật

-

Phương pháp Naïve Bayes

-

Phương pháp dựa trên thể hiện

-

Mạng Nơron


-

SVM (support vector machine)

-

Tập thô

Định nghĩa phân lớp:Cho CSDL D = {t1, t2,…,tn} và tập các lớp C={C1,…,Cm}, phân



lớp là bài toán xác định ánh xạ f: D C sao cho mỗi ti được gán vào một lớp.
Mục đích:Gán các mẫu vào các lớp với độ chính xác cao nhất có thể.
Thông thường tập dữ liệu được chia ra làm 2 tập con: Tập huấn luyện (training set) và
tập kiểm thử (test set). Tập huấn luyện được dùng để xây dựng các mô hình và tập
kiểm thử để kiểm tra tính hợp lệ và đúng đắn của các môt hình đó.
Quy trình phân lớp: Gồm 2 bƣớc


×