Tải bản đầy đủ (.pdf) (73 trang)

Ứng dụng khai phá dữ liệu xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm tàu cá

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.37 MB, 73 trang )

Đ IăH CăĐĨăN NG
TR
NGăĐ IăH CăS ăPH M

NGUY NăPH

NGăNAM

NGăD NGăKHAIăPHỄăD ăLI UăĐ
XỂYăD NGăH ăTH NGăTR ăGIÚP
ĐỄNHăGIỄăR IăROăTRONGăB OăHI MăTĨUăCỄ

LU NăVĔNăTH CăSƾă
H ăTH NGăTHỌNGăTINă

ĐƠăN ngă- Nĕmă2019


Đ IăH CăĐĨăN NG
TR
NGăĐ IăH CăS ăPH M

NGUY NăPH

NGăNAM

NGăD NGăKHAIăPHỄăD ăLI UăĐ
XỂYăD NGăH ăTH NGăTR ăGIÚP
ĐỄNHăGIỄăR IăROăTRONGăB OăHI MăTĨUăCỄ

ChuyênăngƠnh:ăH ăth ngăthôngătin


Mưăs :ă848.01.04

LU NăVĔNăTH CăSƾă

NG
IăH
NGăD NăKHOAăH C:ă
TS. NGUY NăTRẦNăQU CăVINH

ĐƠăN ng,ănĕmă2019





ii

M CL C
L IăCAMăĐOAN ...........................................................................................................i
M CăL C ..................................................................................................................... ii
DANH M C CÁC T VI T T T .............................................................................iv
DANH M C CÁC B NG............................................................................................. v
DANH M C CÁC HÌNH ............................................................................................vi
M ăĐẦU ......................................................................................................................... 1
1. LỦ do chọn đề tƠi...................................................................................................1
2. M c tiêu nghiên c u ............................................................................................. 2
3. Đối t ợng vƠ phạm vi nghiên c u ........................................................................2
4. Ph ng pháp nghiên c u ...................................................................................... 2
5. K t qu đạt đ ợc ...................................................................................................3
6. ụ nghĩa khoa học vƠ thực tiễn c a lu n văn ......................................................... 3

7. Bố c c lu n văn .....................................................................................................3
CH
NGă1.ăNGHIểNăC UăT NGăQUAN .............................................................. 4
1.1. Tổng quan về khai phá dữ liệu .................................................................................4
1.1.1. S l ợc về khai phá dữ liệu ............................................................................4
1.1.2. Các kỹ thu t áp d ng trong khai phá dữ liệu ..................................................6
1.1.3. Các b ớc xơy dựng hệ thống khai phá dữ liệu ...............................................6
1.1.4.

ng d ng c a khai phá dữ liệu .......................................................................7

1.1.5. Khó khăn trong khai phá dữ liệu.....................................................................7
1.2. Phơn lớp trong khai phá dữ liệu ...............................................................................7
1.2.1. Phơn lớp dữ liệu .............................................................................................. 7
1.2.2. Quá trình phơn lớp dữ liệu ..............................................................................8
1.2.3. Các v n đề liên quan đ n phơn lớp dữ liệu ..................................................... 9
1.3. Giới thiệu cơy quy t định ....................................................................................... 12
1.3.1. Giới thiệu chung............................................................................................ 12
1.3.2.

u điểm c a cơy quy t định .........................................................................13

1.3.3. Các lu t đ ợc rút ra từ cơy quy t định .......................................................... 13
1.4. Thu t toán C4.5 ......................................................................................................14
1.4.1. Giới thiệu ......................................................................................................14
1.4.2. Gi i thu t C4.5 xơy dựng cơy quy t định từ trên xuống ............................... 15
1.4.3. Chọn thu c tính phơn loại tốt nh t ............................................................... 17
1.4.4. Entropy đo tính thuần nh t c a t p ví d ...................................................... 17
1.4.5. Tỷ su t lợi ích Gain Ratio .............................................................................19
1.4.6. Chuyển cơy về dạng lu t ...............................................................................20



iii
1.5. Random Forest (rừng ng u nhiên) .........................................................................21
1.5.1. C s vƠ định nghĩa ...................................................................................... 21
1.5.2. Tóm tắt gi i thu t .......................................................................................... 22
1.5.3. Mơ hình phơn lớp với Random Forest .......................................................... 23
1.5.4. ơy dựng cơy ng u nhiên .............................................................................24
1.5.5. Tạo cơy ng u nhiên ....................................................................................... 24
1.5.6. Đặc điểm c a Random Forest .......................................................................24
K T LU N CH
NG 1 .............................................................................................. 25
CH
NGă2.ă NGăD NGăCỂYăQUY TăĐ NHăTRONGăCỌNGăTỄC ĐỄNHă
GIỄăR IăROăVĨăB IăTH
NGăB OăHI MăTĨUăCỄ ........................................26
2.1. Khái quát về thị tr ng b o hiểm tƠu cá ................................................................ 26
2.2. Đánh giá r i ro tƠu cá ............................................................................................. 26
2.2.1. Khái niệm r i ro ............................................................................................ 26
2.2.2. Khái niệm về đánh giá r i ro ........................................................................27
2.2.3. Phạm vi b o hiểm.......................................................................................... 27
2.2.4. Quy trình đánh giá r i ro trong b o hiểm tƠu cá ...........................................28
2.2.5. Các y u tố nh h ng đ n r i ro trong b o hiểm tƠu cá ............................... 28
2.3. Phơn tích hiện trạng .............................................................................................. 28
2.3.1. Chỉ số trong lĩnh vực kinh doanh b o hiểm tƠu cá .......................................28
2.3.2. Gi i pháp xơy dựng hệ thống trợ giúp đánh giá r i ro trong b o hiểm tƠu
cá .................................................................................................................................29
2.4. So Sánh k t qu phơn lớp giữa 2 thu t toán C4.5 vƠ Random Forest .................... 30
2.4.1. ng d ng thu t toán C4.5 .............................................................................30
2.4.2. ng d ng Random Forresst ..........................................................................31

2.4.3. So sánh C4.5 và Random Forest ...................................................................40
K T LU N CH
NG 2 .............................................................................................. 41
CH
NGă3.ăXỂYăD NGăVĨăTH ăNGHI Mă NGăD NG ................................ 42
3.1. Ch c năng hệ thống ................................................................................................ 42
3.1.1. Phân tích yêu cầu .......................................................................................... 42
3.1.2. Các ch c năng chính ..................................................................................... 45
3.2. Thử nghiệm ng d ng ............................................................................................ 46
3.3. Đánh giá đ chính xác ............................................................................................ 49
K T LU N CH
NG 3 .............................................................................................. 52
K TăLU N ..................................................................................................................53
DANHăM CăTĨIăLI UăTHAMăKH O ...................................................................54
QUY TăĐ NHăGIAOăĐ ăTĨIăLU NăVĔNă(B năsao)ă


iv

DANH M C CÁC T

VI T T T

Ti ng Vi t
CSDL
CNTT

C s dữ liệu
Công nghệ thông tin


KPDL
MĐSD

Khai phá dữ liệu
M c đích sử d ng

MH
STBT

Máy học
Số tiền bồi th

SL

Số l ợng

TGSD

Th i gian sử d ng

Ti ngăn

ng

c ngoài

CART
DBMS

Classification and Regression Trees

Database Management System

KDD
OOB

Knowledge Discovery in Database
Out of Bag


v

DANH M C CÁC B NG
S ăhi uă

Tênăb ng

b ng

Trang

1.1.

T p ví d hu n luyện

14

2.1.

Số liệu kinh doanh tại chi nhánh Qu ng Ngưi


29

2.2.

Thống kê tình hình bồi th

29

2.3.

B ng dữ liệu m u c a 10 khách hƠng

31

2.4.

B ng thu c tính ng u nhiên để chia nút

33

2.5.

B ng thu c tính c a khách hƠng mới

33

2.6.

B ng dữ liệu bootstrap 1 c a 10 khách hƠng


35

2.7.

Entropy(S) phơn theo th i gian sử d ng

36

2.8.

Entropy(S) phơn theo M c Đích Sử D ng

37

2.9.

Entropy(S) phơn theo th i gian sử d ng

37

2.10.

Entropy(S) phơn theo Số Tiền Bồi Th

2.11.

Sử d ng phần mềm Weka so sánh đ chính xác giữa thu t
tốn C4.5 và Random Forest

40


3.1.

Ví d về khách hàng cần t v n

48

ng tổn th t

ng

38


vi

DANH M C CÁC HÌNH
S ăhi uă

Tên hình

hình

Trang

1.1.

Q trình khám phá tri th c

5


1.2.

ơy dựng mơ hình phơn lớp

8

1.3.

ớc l ợng đ chính xác

9

1.4.

Phơn lớp dữ liệu mới.

9

1.5.

ớc l ợng đ chính xác c a mơ hình

10

1.6.

Ví d K-fold croos validation - fold 1

11


1.7.

Ví d K-fold croos validation-fold 2

11

1.8.

Ví d K-fold croos validation-fold 3

12

1.9.

Cơy quy t định phơn lớp m c l

13

1.10.

M t phần cơy quy t định đ ợc xơy dựng

15

1. 11.

Entropy(S)

17


1.12.

Cơy quy t định đư đ ợc xơy dựng hoƠn chỉnh

19

1.13.

Chuyển cơy quy t định về dạng lu t

21

1.14.

Mơ hình phơn lớp với Random Forest

23

1.15.

Ví d cơy ng u nhiên.

24

2.1.

Thơng số c a thu t tốn xơy dựng cơy quy t định bằng C4.5

30


2.2.

Tạo bootstrap

32

2.3.

C u trúc cơy ng u nhiên

33

2.4.

Mơ hình Random Forest với numtree cơy

33

2.5.

Mơ hình tổng qt c a Random Forest để phơn lớp

34

2.6.

Mơ hình cơy phơn lớp tạo với bootstrap 1

35


2.7.

Các thu c tính chọn để chia nút

35

2.8.

Ng ỡng các thu c tính để chia

36

2.9.

Ví d - Cơy phơn lớp với nút chia đầu tiên

38

2.10.

Fold 1 với CSDL 1724 b ng ghi c a khách hƠng

39

2.11.

Fold 2 với CSDL 1724 b ng ghi c a khách hƠng

39


ng


vii
S ăhi uă

Tên hình

hình

Trang

2.12.

Fold 10 với CSDL 1724 b ng ghi c a khách hƠng

39

2.13.

Thông số c a Random Forest

40

3.1.

Biểu đồ ca sử d ng tổng quát

42


3.2.

Phơn rư ca sử d ng hu n luyện dữ liệu

42

3.3.

Phơn rư ca sử d ng T v n

43

3.4.

Biểu đồ hoạt đ ng hu n luyện dữ liệu & Biểu đồ hoạt đ ng t
v n

43

3.5.

Biểu đồ tuần tự cho hoạt đ ng đăng nh p

44

3.6.

Biểu đồ tuần tự cho hoạt đ ng hu n luyện dữ liệu


44

3.7.

Biểu đồ tuần tự cho hoạt đ ng t v n

45

3.8.

MƠn hình Đăng nh p hệ thống

46

3.9.

Màn hình Menu

46

3.10.

Màn hình t i dữ liệu hu n luyện

47

3.11.

Giao diện mơ hình phơn lớp Random Forest


47

3.12.

Giao diện ng d ng t v n

48

3.13.

Mơ hình Cơy quy t định bằng Random Forest

49

3.14.

Đ chính xác c a mơ hình Random Forest- fold1

51

3. 15.

K t qu Đ chính xác c a mơ hình Random Forest

51


1

M ăĐẦU

1. LỦădoăch năđ ătƠi
Công nghệ thông tin ngƠy nay đư đ ợc ng d ng r ng khắp trong nhiều lĩnh
vực c a xư h i trong đó khai phá dữ liệu đư vƠ đang đ ợc ng d ng thƠnh công vƠo
r t nhiều các lĩnh vực khác nhau nh : B o hiểm, tƠi chính, y học, giáo d c vƠ viễn
thông v.v.
Nền kinh t ngƠy cƠng phát triển thì nhu cầu b o hiểm cƠng lớn vƠ các loại hình
b o hiểm ngƠy cƠng đa dạng vƠ đ ợc hoƠn thiện. B o hiểm góp phần giữ cho nền kinh
t ổn định, đ m b o cho cá nhơn, gia đình, tổ ch c xư h i vƠ các doanh nghiệp ln
duy trì đ ợc q trình hoạt đ ng s n xu t, kinh doanh c a mình. Có thể nói, khai thác
vƠ đánh bắt cá lƠ m t ngƠnh chịu nhiều r i ro vƠ tổn th t. NgƠnh nƠy ph thu c nhiều
vƠo điều kiện tự nhiên, môi tr ng hoạt đ ng… Trong quá trình khai thác các ng dơn
th ng xuyên ph i đối mặt với v n đề r i ro cho tƠu, cho con ng i, máy móc, ng
l ới c . Qu ng Ngưi lƠ m t tỉnh duyên h i miền Trung có 192 km b biển với h n
5.444 tƠu cá vƠ hƠng vạn ng dơn tham gia nghề khai thác vƠ đánh bắt cá với s n
l ợng ớc đạt trong năm 2016 lƠ 191.400 t n. Gi i pháp phát triển tƠu cá bền vững
cũng chính lƠ gi i pháp lơu dƠi để phát triển kinh t biển, góp phần b o vệ an ninh vƠ
ch quyền trên biển. Vì v y b o hiểm tƠu cá lƠ m t thị tr

ng đầy h a hẹn. Đặc biệt,

với sự ra đ i c a c a nghị định 67/2014/NĐ_CP đư tạo điều kiện cho ng dơn đóng
mới tƠu thuyền mạnh m theo chiều h ớng tích cực vƠ thị tr
khơng nằm ngoƠi luồng chuyển bi n đó.

ng b o hiểm tƠu cá cũng

Trong lĩnh vực kinh doanh nƠy, công tác đánh giá r i ro đối với tƠu cá r t quan
trọng vƠ h t s c ph c tạp. Quy trình tác nghiệp địi hỏi ng i thẩm định vừa ph i có
trình đ chun mơn nghiệp v cao, vừa ph i có nhiều kinh nghiệm thực tiễn. Hầu h t
các công ty b o hiểm chỉ chú trọng đ n v n đề doanh thu mƠ ít quan tơm đ n cơng tác

đánh giá r i ro, đa phần đều đánh giá m t cách th công s sƠi vƠ c m tính.
Vì v y, hiệu qu kinh doanh th

ng khơng nh mong muốn. Mặt khác, v n đề

gi i quy t bồi th ng khi có tổn th t x y ra cần nhanh chóng, đầy đ vƠ chính xác s
mang lại cho khách hƠng niềm tin đối với các công ty b o hiểm. V n đề bồi th ng
sau tai nạn mang tính nhạy c m r t cao vƠ tác đ ng khơng nhỏ đ n tính hiệu qu c a
hoạt đ ng kinh doanh b o hiểm.
Nắm bắt đ ợc v n đề trên cũng nh tính c p thi t c a hoạt đ ng đánh giá r i ro
vƠ bồi th ng tổn th t trong b o hiểm tƠu cá, tôi th y cần ph i xơy dựng triển khai hệ
thống ng d ng công nghệ thông tin nhằm đáp ng nhu cầu phơn tích, xử lỦ vƠ h trợ
đ n m c tối đa cho công tác đánh giá vƠ bồi th ng r i ro trong b o hiểm tƠu cá.


2
u t phát từ những lỦ do trên và đ ợc sự đồng Ủ c a TS. Nguyễn Trần Quốc
Vinh, tôi chọn đề tƠi: “ ng d ng khai phá dữ liệu xơy dựng hệ thống trợ giúp đánh giá
r i ro trong b o hiểm tƠu cá” để lƠm lu n văn thạc sỹ.
2.ăM cătiêuănghiênăc u
2.1. Mục tiêu tổng quát
- H ớng đ n lƠ xơy dựng hệ thống trợ giúp đánh giá r i ro cho tƠu cá, đ m b o
đầy đ các yêu cầu về mặt chuyên môn trong lĩnh vực b o hiểm tƠu cá vƠ h ớng đ n
nơng cao hiệu qu kinh doanh trong đ n vị.
2.2. Mục tiêu cụ thể
- Nêu b t những v n đề hạn ch , đề xu t gi i pháp khắc ph c những tồn tại.
giúp tăng c ng năng lực cạnh trạnh với các đối th trên thị tr ng b o hiểm tƠu cá.
- Thu th p dữ liệu trong lĩnh vực b o hiểm tƠu cá tại Qu ng Ngưi.
- Tìm hiểu các thu t toán phơn lớp C4.5 vƠ rừng ng u nhiên (random forest) và
so sánh đ chính xác trên t p dữ liệu b o hiểm tƠu cá thu th p đ ợc.

- Phơn tích, thi t k vƠ phát triển hệ thống trợ giúp đánh giá r i ro b o hiểm tƠu
cá trên c s thu t toán phơn lớp đ ợc chọn.
3.ăĐ iăt

ngăvƠăph măviănghiênăc uă

3.1. Đối t ợng nghiên c u
- Quy trình đánh giá r i ro tƠu cá.
- Các v n đề liên quan đ n đ r i ro trong b o hiểm tƠu cá.
- Hồ s khách hƠng tham gia mua b o hiểm tƠu cá
- Các kỹ thu t khai phá dữ liệu.
3.2. Phạm vi nghiên c u
- Kỹ thu t khai phá dữ liệu cơy quy t định C4.5, rừng ng u nhiên (Random
Forrest).
- Số liệu kinh doanh c a Công ty Cổ phần B o Minh tại Qu ng Ngưi trong
kho ng th i gian 2015, 2016.
4.ăPh

ngăphápănghiênăc u

4.1. Nghiên c u lý thuyết
- Khai phá dữ liệu vƠ phơn lớp dữ liệu.
- Gi i thu t xơy dựng cơy quy t định.
- Nghiên c u về Thu t toán C4.5 vƠ rừng ng u nhiên trong việc dự đoán vƠ
phơn loại thông tin.
4.2. Nghiên c u thực nghiệm
- Ti n hƠnh thu th p vƠ tổng hợp các tƠi liệu liên quan đ n quy trình thẩm định
vƠ đánh giá hồ s đối với lĩnh vực b o hiểm tƠu cá



3
- V n d ng các c s lỦ thuy t để xơy dựng ng d ng, ti n hƠnh kiểm thử so
sánh đánh giá hiệu su t c a ng d ng.
5. K tăqu đ tăđ c
- Hiểu thêm đ ợc ph ng pháp khai phá dữ liệu vƠ ng d ng ph ng pháp khai
phá dữ liệu vƠo dự đốn tính r i ro trong khai thác b o hiểm nhằm nơng cao hiệu qu
kinh doanh trong đ n vị.
- ơy dựng hệ thống h trợ đánh giá r i ro cho tƠu cá tại Công ty Cổ phần b o
hiểm B o Minh tại Qu ng Ngưi.
- Hệ thống giúp đánh giá r i ro nhanh chóng nh ng v n đ m b o về mặt tối u,
có ch c năng c b n vƠ dễ sử d ng.
6.ăụănghƿaăkhoaăh căvƠăth căti năc aălu năvĕn
Áp d ng lỦ thuy t về khai phá dữ liệu phơn vƠo bƠi toán đánh giá r i ro trong
khai thác b o hiểm cho tƠu cá .
Về mặt thực tiễn, ng d ng có kh năng phơn tích dữ liệu kinh doanh c a công
ty trong những năm gần đơy vƠ qua đó có kh năng phát hiện ra các tr ng hợp b o
hiểm tƠu cá có m c đ r i ro cao.
Giúp cho việc dự đoán nhằm h trợ ra quy t định m t cách khoa học, tránh
đ ợc các tình huống bồi th ng theo c m tính, hạn ch các tr
hiệu qu kinh doanh c a công ty.

ng hợp r i ro vƠ tăng

7.ăB ăc călu năvĕn
Ch ng 1: Nghiên c u tổng quan
Ch ng nƠy, tơi trình bƠy các c s lỦ thuy t lƠm nền t ng để xơy dựng ng
d ng, bao gồm: Tổng quan về khai phá dữ liệu, các kỹ thu t khai phá dữ liệu. Giới
thiệu về cơy quy t định trong phơn lớp dữ liệu. Gi i thu t C4.5 vƠ Random Forest.
Ch ng 2: ng d ng cơy quy t định trong công tác đánh giá r i ro vƠ bồi
th ng b o hiểm tƠu cá

Ch ng nƠy, tơi s tìm hiểu vƠ phơn tích hiện trạng tại đ n vị, nêu lên những
v n đề hạn ch vƠ đề xu t gi i pháp khắc ph c. So sánh vƠ đánh giá phơn lớp giữa 2
thu t toán C4.5 vƠ Random Forest. ng d ng để xơy dựng mơ hình phơn lớp dữ liệu
để gi i quy t bƠi toán đặt ra.
Ch ng 3: ơy dựng vƠ thử nghiệm ng d ng
Tôi t p trung trình bƠy chi ti t về mơ hình ki n trúc tổng thể c a hệ thống vƠ
xơy dựng ng d ng. Ti n hƠnh thử nghiệm trên số liệu thực t , sau đó đánh giá k t qu
đạt đ ợc vƠ kh năng triển khai ng d ng trên toƠn hệ thống.
Cuối cùng lƠ những đánh giá, k t lu n vƠ h ớng phát triển c a đề tƠi.


4

CH
NGă1
NGHIểNăC UăT NGăQUAN
1.1. T ngăquanăv ăkhaiăpháăd ăli u
1.1.1. Sơ l ợc về khai phá dữ liệu
Khai phá dữ liệu lƠ m t lĩnh vực khoa học mới, ra đ i vƠo những năm cuối th p
kỷ 80 c a th kỷ
, nhằm khai thác những thông tin, tri th c hữu ích, tiềm ẩn trong
các c s dữ liệu (CSDL) c a các tổ ch c, doanh nghiệp... từ đó thúc đẩy kh năng s n
xu t, kinh doanh, cạnh tranh c a tổ ch c, doanh nghiệp.
Trong th i đại ngƠy nay, cùng với sự phát triển v ợt b t c a công nghệ thông
tin, các hệ thống thơng tin có thể l u trữ m t khối l ợng lớn dữ liệu về hoạt đ ng hƠng
ngƠy c a chúng. Từ khối dữ liệu nƠy, các kỹ thu t trong khai phá dữ liệu (KPDL) vƠ
máy học (MH) có thể dùng để trích xu t những thơng tin hữu ích mƠ chúng ta ch a
bi t. Các tri th c vừa học đ ợc có thể v n d ng để c i thiện hiệu qu hoạt đ ng c a hệ
thống thông tin ban đầu.
Giáo s Tom Mitchell [5] đư đ a ra định nghĩa c a KPDL nh sau: “KPDL lƠ

việc sử d ng dữ liệu lịch sử để khám phá những qui tắc vƠ c i thiện những quy t định
trong t ng lai.” Với m t cách ti p c n ng d ng h n, Ti n sĩ Fayyad đư phát biểu:
“KPDL, th ng đ ợc xem lƠ việc khám phá tri th c trong các c s dữ liệu, lƠ m t
q trình trích xu t những thơng tin ẩn, tr ớc đơy ch a bi t vƠ có kh năng hữu ích,
d ới dạng các qui lu t, rƠng bu c, qui tắc trong c s dữ liệu.” Nói tóm lại, KPDL lƠ
m t quá trình học tri th c mới từ những dữ liệu đư thu th p đ ợc.
Nh v y ta có thể khái quát hóa khái niệm KPDL lƠ “q trình kh o sát và phân
tích m t l ợng lớn các dữ liệu đ ợc l u trữ trong các CSDL, kho dữ liệu… để từ đó
trích xu t ra các thơng tin quan trọng, có giá trị tiềm ẩn bên trong”.
Khám phá tri th c trong c s dữ liệu (Knowledge Discovery in Databaes ậ
KDD) lƠ m c tiêu chính c a KPDL, do v y hai khái niệm khai phá dữ liệu vƠ KDD
đ ợc các nhƠ khoa học xem lƠ t ng đ ng nhau. Th nh ng, n u phơn chia m t cách
chi ti t thì khai phá dữ liệu lƠ m t b ớc chính trong q trình KDD.
Q trình khá phá tri th c có thể chia thành các b ớc nh sau:


5

Hình 1.1. Quá trình khám phá tri thức
Quá trình KPDL có thể phơn thƠnh các giai đoạn sau:
- Tíchăh păd ăli u: LƠ b ớc tuyển chọn những t p dữ liệu cần đ ợc khai phá từ
các t p dữ liệu lớn ban đầu theo m t số tiêu chí nh t định.
- Ti nă x ă lỦă d ă li u: LƠ b ớc lƠm sạch dữ liệu (xử lỦ dữ liệu không đầy đ ,
không nh t qn...), tổng hợp dữ liệu (nén, nhóm dữ liệu, tính tổng, xơy dựng các
histograms, l y m u...), r i rạc hóa dữ liệu (r i rạc hóa dựa vƠo histograms, entropy...).
Sau b ớc tiền sử lỦ nƠy, dữ liệu s nh t quán, đầy đ , đ ợc rút gọn vƠ r i rạc hóa.
- Bi năđ iăd ă li u: LƠ b ớc chuẩn hóa vƠ lƠm mịn dữ liệu để đ a dữ liệu về
dạng thu n lợi nh t nhằm ph c v việc áp d ng các kỹ thu t khai phá b ớc sau.
- Khaiăpháăd ăli u: LƠ b ớc áp d ng những kỹ thu t phơn tích (phần nhiều lƠ
các kỹ thu t học máy) nhằm khai thác dữ liệu, trích lọc những m u tin, những mối

quan hệ đặc biệt trong dữ liệu. Đơy đ ợc xem lƠ b ớc quan trọng vƠ tiêu tốn th i gian
nh t c a toƠn b quá trình KDD.
- ĐánhăgiáăvƠăbi uădi nătriăth c: Những m u thông tin vƠ mối quan hệ trong
dữ liệu đư đ ợc phát hiện
b ớc khai phá dữ liệu đ ợc chuyển sang vƠ
biểu diễn dạng gần gũi với ng i sử d ng nh đồ thị, cơy, b ng biểu vƠ lu t.
Đồng th i b ớc nƠy cũng đánh giá những tri th c khai phá đ ợc theo những tiêu chí
nh t định.


6
1.1.2. Các kỹ thuật áp dụng trong khai phá dữ liệu
HọẾ Ếó giám sát: LƠ q trình gán nhưn lớp cho các phần tử trong CSDL dựa
trên m t t p các ví d hu n luyện vƠ các thơng tin về nhưn lớp đư bi t.
HọẾ khơng có giám sát: LƠ quá trình phơn chia m t t p dữ liệu thƠnh các lớp
hay c m dữ liệu t ng tự nhau mƠ ch a bi t tr ớc các thơng tin về lớp hay t p các ví
d hu n luyện.
HọẾ nửa giám sát: LƠ quá trình phơn chia m t t p dữ liệu thƠnh các lớp dựa
trên m t t p nhỏ các ví d hu n luyện vƠ các thông tin về m t số nhưn lớp đư bi t
tr ớc.
1.1.3. Các b ớc xây dựng hệ thống khai phá dữ liệu
B ớc 1: ác định m c tiêu bƠi toán.
B ớc đầu tiên trong q trình khai phá dữ liệu đó lƠ ph i xác định rõ m c tiêu,
nhiệm v c a bƠi toán.
B ớc 2: Thu th p dữ liệu.
Sau khi xác định đ ợc m c tiêu, nhiệm v c a bƠi toán, ta ti n hƠnh thu th p
các dữ liệu liên quan, ti p đ n ta có thể ti n hƠnh chọn lọc các m u tiêu biểu để gi m
đ lớn c a t p luyện.
B ớc 3: LƠm sạch dữ liệu vƠ chuyển đổi dữ liệu.
Đơy lƠ m t b ớc r t quan trọng trong dự án khai phá dữ liệu. M c đích c a lƠm

sạch dữ liệu lƠ loại bỏ những dữ liệu thừa, khơng nh t qn, có ch a nhiễu. Q trình
lƠm sạch dữ liệu s cố gắng thêm giá trị vƠo những giá trị bị thi u, lƠm mịn các điểm
nhiễu vƠ sửa lại các dữ liệu không nh t qn.
B ớc 4: ơy dựng mơ hình.
Đối với m i bƠi tốn trong khai phá dữ liệu đều có nhiều mơ hình để gi i quy t.
Để lựa chọn chính xác mơ hình nƠo tốt h n lƠ khó khăn, chúng ta nên thử gi i quy t
bƠi toán bằng nhiều mơ hình khác nhau rồi ti n hƠnh so sánh lựa chọn, để tìm ra mơ
hình tối u nh t, thích hợp nh t với bƠi tốn c a ta.
B ớc 5: Đánh giá mơ hình, đánh giá m u.
Sau khi áp d ng m t số các mô hình chúng ta s đánh giá lựa chọn xem mơ
hình nào tốt h n.
B ớc 6: Báo cáo.
Sau khi xơy dựng vƠ đánh giá mơ hình thích hợp, chúng ta nên đ a ta các báo
cáo dự đoán d ới dạng biểu đồ hay b ng số liệu
B ớc 7: Dự đoán.
Trong hầu h t các bƠi toán khai phá dữ liệu, tìm ra các m u chỉ lƠ m t nửa c a
yêu cầu, nửa yêu cầu còn lại lƠ đ a ra các dự đoán.


7
B ớc 8: Tích hợp vƠo ng d ng.
Tích hợp khai phá dữ liệu vƠo ng d ng lƠ b ớc cuối cùng trong khai phá dữ
liệu. M c tiêu lƠ đ a tri th c tìm ki m đ ợc vƠo ng d ng.
B ớc 9: Qu n lỦ mơ hình.
M i m t mơ hình khai phá dữ liệu đều có m t vịng đ i phát triển. Tuy v y
trong m t số tr ng hợp các m u lƠ thay đổi th ng xuyên, trong những tr ng hợp
đó thì mơ hình ph i đ ợc tạo mới liên t c vƠ việc tạo ra mô hình mới lƠ ph i tự đ ng.
1.1.4. ng dụng c a khai phá dữ liệu
KPDL đ ợc v n d ng trong nhiều lĩnh vực khác nhau nhằm khai thác nguồn dữ
liệu phong phú đ ợc l u trữ trong các hệ thống thông tin nh :

- Kinh doanh th ng mại:
+ ác định thói quen mua hƠng c a khách hƠng.
+ Dự đoán chu kỳ kinh doanh s n phẩm.
- Ngân hàng:
+ Dự đoán các d u hiệu c a m t giao dịch trái lu t.
+ Dự đoán r i ro c a các kho n cho vay.
-Yt :
+ Chuẩn đoán bệnh qua các triệu ch ng.
+ Liên hệ giữa các loại bệnh.
- B o hiểm:
+ Loại khách hƠng có r i ro cao? Gian l n?
+ Liệu khách hƠng có thực hiện h t hợp đồng b o hiểm?
+ Đối t ợng, vùng nƠo có kh năng tham gia b o hiểm?
1.1.5. Khó khăn trong khai phá dữ liệu
- Kích th ớc c a c s dữ liệu lớn: N u c s dữ liệu nhỏ, k t qu truy xu t s
không đáng tin c y. Tuy nhiên, l ợng dữ liệu lớn (hƠng terabyte) đồng nghĩa với
khơng gian tìm ki m r ng, do dó địi hỏi ph i có các chi n l ợc tìm ki m hiệu qu với
đ ph c tạp th p để gi m th i gian thực hiện thu t toán.
- Dữ liệu thi u vƠ nhiễu: đơy lƠ m t thách th c lớn trong khai phá dữ liệu.
L ợng dữ liệu thi u vƠ nhiễu có thể d n đ n các k t qu dự báo khơng chính xác.
1.2.ăăPhơnăl pătrongăkhaiăpháăd ăli u
1.2.1. Phân lớp dữ liệu
Phơn lớp dữ liệu lƠ gán các m u mới vƠo các lớp với đ chính xác cao nh t để
dự báo cho các b dữ liệu (m u) mới.
Đầu vƠo lƠ m t t p các m u dữ liệu hu n luyện, với m t nhưn phơn lớp cho m i
m u dữ liệu. Đầu ra lƠ mô hình dự đốn (b phơn lớp) dựa trên t p hu n luyện vƠ


8
những nhưn phơn lớp.

1.2.2. Quá trình phân lớp dữ liệu
Quá trình phơn lớp dữ liệu gồm hai b ớc:[1]
B ớc th nhất: Quá trình học nhằm xơy dựng m t mơ hình mơ t m t t p các
lớp dữ liệu hay các khái niệm định tr ớc. Đầu vƠo c a quá trình nƠy lƠ m t t p dữ liệu
có c u trúc đ ợc mơ t bằng các thu c tính vƠ đ ợc tạo ra từ t p các b giá trị c a các
thu c tính đó. Đầu ra c a b ớc nƠy th ng lƠ các phơn lớp d ới dạng lu t dạng if-then,
cơy quy t định, công th c logic, hay mạng n ron. Q trình nƠy đ ợc mơ t nh trong
hình v :

Hình 1.2. Xây dựng mơ hình phân lớp
B ớc th hai: Dùng mơ hình đư xơy dựng b ớc tr ớc để phơn lớp dữ liệu
mới. Tr ớc tiên đ chính xác mang tính ch t dự đốn c a mơ hình phơn lớp vừa tạo ra
đ ợc ớc l ợng. N u đ chính xác c a mơ hình đ ợc ớc l ợng dựa trên t p dữ liệu
đƠo tạo thì k t qu thu đ ợc lƠ r t kh quan vì mơ hình ln có xu h ớng “q vừa” dữ
liệu. Q vừa dữ liệu lƠ hiện t ợng k t qu phơn lớp trùng khít với dữ liệu thực t vì
q trình xơy dựng mơ hình phơn lớp từ t p dữ liệu đƠo tạo có thể đư k t hợp những
đặc điểm riêng biệt c a t p dữ liệu đó. Do v y, cần sử d ng m t t p dữ liệu kiểm tra
đ c l p với t p dữ liệu đƠo tạo. N u đ chính xác c a mơ hình lƠ ch p nh n đ ợc, thì
mơ hình đ ợc sử d ng để phơn lớp những dữ liệu t ng lai, hoặc những dữ liệu mƠ giá
trị c a thu c tính phơn lớp lƠ ch a bi t.


9

B phơn lớp
(Mơ hình)

Dữ liệu kiểm
tra


NAME
Tom
M erlisa
G eo rg e
J o sep h

RANK
YEARS TENURED
A ssistan t P ro f
2
no
A sso c iate P ro f
7
no
P ro fesso r
5
yes
A ssistan t P ro f
7
yes

Hình 1.3.

TENURED
no
yes
yes
yes

ớẾ l ợng độ chính xác


B phơn lớp
(Mơ hình)
Dữ liệu mới

NAME
Jeff
Alex
Alice

RANK
YEARS
Professor
2
Assistant Prof
4
Assistant Prof
8

TENURED
yes
no
yes

Hình 1.4. Phân lớp dữ liệu mới.
Trong mơ hình phơn lớp, thu t tốn phơn lớp giữ vai trò trung tơm, quy t định tới
sự thƠnh cơng c a mơ hình phơn lớp. Do v y chìa khóa c a v n đề phơn lớp dữ liệu lƠ
tìm ra đ ợc m t thu t tốn phơn lớp nhanh, hiệu qu , có đ chính xác cao vƠ có kh
năng m r ng đ ợc. Trong đó kh năng m r ng đ ợc c a thu t toán đ ợc đặc biệt
chú trọng vƠ phát triển.

1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu
a. Chuẩn bị ếữ liệu Ếho việẾ phân lớp
- LƠmăs chăd ăli u: LƠm sạch dữ liệu liên quan đ n việc xử lỦ với l i vƠ giá trị
thi u trong t p dữ liệu ban đầu. Với l i lƠ các l i ng u nhiên hay các giá trị không hợp
lệ c a các bi n trong t p dữ liệu. Để xử lỦ với loại l i nƠy có thể dùng kỹ thu t lƠm


10
tr n. Những ơ khơng có giá trị c a các thu c tính. Giá trị thi u có thể do l i ch quan
trong quá trình nh p liệu, hoặc trong tr ng hợp c thể giá trị c a thu c tính đó khơng
có, hay khơng quan trọng. Kỹ thu t xử lỦ đơy có thể bằng cách thay giá trị thi u
bằng giá trị phổ bi n nh t c a thu c tính đó hoặc bằng giá trị có thể x y ra nh t dựa
trên thống kê. Mặc dù phần lớn thu t toán phơn lớp đều có c ch xử lỦ với những giá
trị thi u vƠ l i trong t p dữ liệu, nh ng b ớc tiền xử lỦ nƠy có thể lƠm gi m sự h n
đ n trong quá trình học (xơy dựng mơ hình phơn lớp).
- Chuy năđ iăd ăli u: Việc khái quát hóa dữ liệu lên m c khái niệm cao h n
đôi khi lƠ cần thi t trong quá trình tiền xử lỦ. Việc nƠy đặc biệt hữu ích với những
thu c tính liên t c. Ví d các giá trị số c a thu c tính thu nh p c a khách hƠng có thể
đ ợc khái quát hóa thƠnh các dưy giá trị r i rạc: th p, trung bình, cao. T ng tự với
những thu c tính r i rạc nh địa chỉ phố có thể đ ợc khái quát hóa lên thƠnh thƠnh
phố. Việc khái qt hóa lƠm cơ đọng dữ liệu học nguyên th y, vì v y các thao tác vƠo
ra liên quan đ n quá trình học s gi m.
b. Ph ơng pháp đánh giá độ Ếhính ồáẾ Ếủa mơ hình phân lớp
- Ph ng pháp Holdout: Dữ liệu d a ra đ ợc phơn chia ng u nhiên thƠnh 2
phần. T p dữ liệu đƠo tạo vƠ t p dữ liệu kiểm tra. Thông th ng 2/3 dữ liệu c p cho
t p dữ liệu đƠo tạo, phần còn lại cho t p dữ liệu kiểm tra.

Dữ liệu hu n luyện

Mơ hình phơn lớp


Dữ liệu
ớc tính chính xác

Dữ liệu kiểm tra

Hình 1.5. ớẾ l ợng độ chính xác của mơ hình
- Ph ng pháp K-Fold Cross Validation: T p dữ liệu ban đầu đ ợc chia ng u
nhiên thƠnh k t p con (fold) có kích th ớc x p xỉ nhau S1, S2, …, Sk. Quá trình học vƠ
test đ ợc thực hiện k lần. Tại lần lặp th i, Si lƠ t p dữ liệu kiểm tra, các t p còn lại
hợp thƠnh t p dữ liệu đƠo tạo. Có nghĩa lƠ, đơu tiên việc dạy đ ợc thực hiện trên các
t p S2, S3 …, Sk, sau đó test trên t p S1; ti p t c quá trình dạy đ ợc thực hiện trên t p
S1, S3, S4,…, Sk, sau đó test trên t p S2; vƠ c th ti p t c. Đ chính xác lƠ toƠn b số
phơn lớp đúng từ k lần lặp chia cho tổng số m u c a t p dữ liệu ban đầu.


11
Ví d : k-fold croos validation với k=3:
Fold1:

Hình 1.6. Ví dụ K-fold croos validation - fold 1
Fold 2:

Hình 1.7. Ví dụ K-fold croos validation-fold 2


12
Fold 3:

Hình 1.8. Ví dụ K-fold croos validation-fold 3

ớc tính đ chính xác = ( ớc tính chính xác 1+ ớc tính chính xác 2+
tính chính xác 3) / 3.

ớc

1.3.ăGi iăthi uăcơyăquy tăđ nh
1.3.1. Giới thiệu chung
Trong lĩnh vực học máy, cơy quy t định lƠ m t kiểu mô hình dự báo (predictive
model), nghĩa lƠ m t ánh xạ từ các quan sát về m t sự v t, hiện t ợng tới các k t lu n
về giá trị m c tiêu c a sự v t, hiện t ợng. M i nút trong (internal node) t ng ng với
m t bi n; đ ng nối giữa nó với nút con c a nó thể hiện giá trị c thể cho bi n đó. M i
nút lá đại diện cho giá trị dự đoán c a bi n m c tiêu, cho tr ớc các giá trị dự đoán c a
các bi n đ ợc biểu diễn b i đ ng đi từ nút gốc tới nút lá đó. Kỹ thu t học máy dùng
trong cơy quy t định đ ợc gọi lƠ học bằng cơy quy t định, hay chỉ gọi với cái tên ngắn
gọn lƠ cơy quy t định [1].


13
Ví d : Cơy quy t định phơn lớp m c l

ng

Age ?

≤ 35

>35

Salary
≤ 40


Salary
≤ 50

> 40

Bad

Good

>50

Bad
Bad

Good

Hình 1.9. Cây quy t định phân lớp mứẾ l ơng
Ta th y:
- Gốc (Age): Nút trên cùng c a cơy.
- Nút trong (Salary): Biểu diễn m t kiểm tra trên m t thu c tính đ n.
- Nhánh (mũi tên): Biểu diễn các k t qu c a kiểm tra trên nút trong.
- Nút lá (Bad, Good): Biểu diễn lớp hay sự phơn phối lớp.
Để phơn lớp m u dữ liệu ch a bi t giá trị, các thu c tính c a m u đ ợc đ a vƠo
kiểm tra trên cơy quy t định. M i m u t ng ng có m t đ
biểu diễn dự đốn giá trị phơn lớp m u đó.

ng đi từ gốc đ n lá vƠ lá

1.3.2. u điểm c a cây quyết định

- Cơy quy t định t ng đối dễ hiểu.
- Đòi hỏi m c tiền xử lỦ dữ liệu đ n gi n.
- Có thể xử lỦ với c các dữ liệu r i rạc vƠ liên t c.
- K t qu dự đốn bằng cơy quy t định có thể thẩm định lại bằng cách kiểm tra
thống kê.
1.3.3. Các luật đ ợc rút ra từ cây quyết định
Lu t đ ợc rút ra từ cơy quy t định lƠ các tri th c đ ợc phát biểu d ới dạng IFTHEN. M i lu t có thể đ ợc xác định thông qua m i nhánh c a cơy quy t định. Mệnh
đề IF bao gồm giá trị c a các thu c tính t ng ng với các nút trong, mệnh đề THEN
lƠ giá trị c a thu c tính phơn lớp, t

ng ng với các nút lá trong cơy quy t định.

Các b ớc bi n đổi cơy quy t định thƠnh lu t:
- Biểu diễn tri th c d ới dạng lu t IF-THEN
- M i lu t tạo ra từ m i đ ng d n từ gốc đ n lá
- M i cặp giá trị thu c tính dọc theo đ ng d n tạo nên phép k t (phép AND ậ
và)
- Các nút lá mang tên c a lớp.
Từ cơy quy t định nh hình 1.9, ta có thể rút ra đ ợc các lu t sau:


14
IF (Age <= 35) AND (Salary<=40) THEN class = Bad
IF (Age<=35) AND (Salary>40) THEN class = Good
IF (Age>35) AND (Salary <=50) THEN class = Bad
IF (Age > 35) AND(Salary>50) THEN class = Good
1.4. Thu tătoánăC4.5
1.4.1. Giới thiệu
VƠo đầu những năm 1980, J. Ross Quinlan, m t nhƠ nghiên c u trong lĩnh vực
học máy tính, phát triển thu t tốn cơy quy t định đ ợc bi t đ n nh ID3. Gi i thu t

C4.5 lƠ m t gi i thu t học đ n gi n nh ng tỏ ra thƠnh cơng trong nhiều lĩnh vực. Vì
cách biểu diễn tri th c học đ ợc c a nó, ti p c n c a nó trong việc qu n lỦ tính ph c
tạp, kinh nghiệm c a nó dùng cho việc chọn lựa các khái niệm ng viên, vƠ tiềm năng
c a nó đối với việc xử lỦ dữ liệu nhiễu.
Gi i thu t C4.5 biểu diễn các khái niệm dạng các cơy quy t định. Biểu diễn
này cho phép chúng ta xác định phơn loại c a m t đối t ợng bằng cách kiểm tra các
giá trị c a nó trên m t số thu c tính nƠo đó [7].
Nh v y, nhiệm v c a gi i thu t C4.5 lƠ học cơy quy t định từ m t t p các ví
d hu n luyện hay còn gọi lƠ dữ liệu hu n luyện. Hay nói khác h n, gi i thu t có:
Đầu vƠo: M t t p hợp các ví d . M i ví d bao gồm các thu c tính mơ t m t tình
huống, hay m t đối t ợng nƠo đó, vƠ m t giá trị phơn loại c a nó.
Đầu ra: Cơy quy t định có kh năng phơn loại đúng đắn các ví d trong t p dữ
liệu hu n luyện, vƠ hy vọng lƠ phơn loại đúng cho c các ví d ch a gặp trong t ng lai.
ét bƠi toán phơn loại r i ro trong b o hiểm tƠu cá. Gi i thu t C4.5 s học cơy
quy t định từ t p dữ liệu hu n luyện sau:
Bảng 1.1. Tập ví dụ huấn luyện
M că

Th iă

Kinh

TT Đíchăs ă gian s ă nghi mă
d ng
d ng
lái tàu

Làm
n c


S ăti nă

Khu

Ph măviă

b iă
th ng

v căđ ă
tàu

ho tă
đ ng

R iăro

Gần b

TH P

Cầu

1

Gi cƠo

6

3




10

c ng

2

Câu

8

7

Khơng

30

Khơng

Gần b

TB

3

Gi cƠo

14


6

Khơng

50

Khơng

Gần b

CAO

4

Lặn

11

6



10

Cầu
c ng

ab


TB

5

Gi cƠo

12

11



20

Cầu
c ng

Gần b

TB


×