Đ IăH CăĐĨăN NG
TR
NGăĐ IăH CăS ăPH M
NGUY NăPH
NGăNAM
NGăD NGăKHAIăPHỄăD ăLI UăĐ
XỂYăD NGăH ăTH NGăTR ăGIÚP
ĐỄNHăGIỄăR IăROăTRONGăB OăHI MăTĨUăCỄ
LU NăVĔNăTH CăSƾă
H ăTH NGăTHỌNGăTINă
ĐƠăN ngă- Nĕmă2019
Đ IăH CăĐĨăN NG
TR
NGăĐ IăH CăS ăPH M
NGUY NăPH
NGăNAM
NGăD NGăKHAIăPHỄăD ăLI UăĐ
XỂYăD NGăH ăTH NGăTR ăGIÚP
ĐỄNHăGIỄăR IăROăTRONGăB OăHI MăTĨUăCỄ
ChuyênăngƠnh:ăH ăth ngăthôngătin
Mưăs :ă848.01.04
LU NăVĔNăTH CăSƾă
NG
IăH
NGăD NăKHOAăH C:ă
TS. NGUY NăTRẦNăQU CăVINH
ĐƠăN ng,ănĕmă2019
ii
M CL C
L IăCAMăĐOAN ...........................................................................................................i
M CăL C ..................................................................................................................... ii
DANH M C CÁC T VI T T T .............................................................................iv
DANH M C CÁC B NG............................................................................................. v
DANH M C CÁC HÌNH ............................................................................................vi
M ăĐẦU ......................................................................................................................... 1
1. LỦ do chọn đề tƠi...................................................................................................1
2. M c tiêu nghiên c u ............................................................................................. 2
3. Đối t ợng vƠ phạm vi nghiên c u ........................................................................2
4. Ph ng pháp nghiên c u ...................................................................................... 2
5. K t qu đạt đ ợc ...................................................................................................3
6. ụ nghĩa khoa học vƠ thực tiễn c a lu n văn ......................................................... 3
7. Bố c c lu n văn .....................................................................................................3
CH
NGă1.ăNGHIểNăC UăT NGăQUAN .............................................................. 4
1.1. Tổng quan về khai phá dữ liệu .................................................................................4
1.1.1. S l ợc về khai phá dữ liệu ............................................................................4
1.1.2. Các kỹ thu t áp d ng trong khai phá dữ liệu ..................................................6
1.1.3. Các b ớc xơy dựng hệ thống khai phá dữ liệu ...............................................6
1.1.4.
ng d ng c a khai phá dữ liệu .......................................................................7
1.1.5. Khó khăn trong khai phá dữ liệu.....................................................................7
1.2. Phơn lớp trong khai phá dữ liệu ...............................................................................7
1.2.1. Phơn lớp dữ liệu .............................................................................................. 7
1.2.2. Quá trình phơn lớp dữ liệu ..............................................................................8
1.2.3. Các v n đề liên quan đ n phơn lớp dữ liệu ..................................................... 9
1.3. Giới thiệu cơy quy t định ....................................................................................... 12
1.3.1. Giới thiệu chung............................................................................................ 12
1.3.2.
u điểm c a cơy quy t định .........................................................................13
1.3.3. Các lu t đ ợc rút ra từ cơy quy t định .......................................................... 13
1.4. Thu t toán C4.5 ......................................................................................................14
1.4.1. Giới thiệu ......................................................................................................14
1.4.2. Gi i thu t C4.5 xơy dựng cơy quy t định từ trên xuống ............................... 15
1.4.3. Chọn thu c tính phơn loại tốt nh t ............................................................... 17
1.4.4. Entropy đo tính thuần nh t c a t p ví d ...................................................... 17
1.4.5. Tỷ su t lợi ích Gain Ratio .............................................................................19
1.4.6. Chuyển cơy về dạng lu t ...............................................................................20
iii
1.5. Random Forest (rừng ng u nhiên) .........................................................................21
1.5.1. C s vƠ định nghĩa ...................................................................................... 21
1.5.2. Tóm tắt gi i thu t .......................................................................................... 22
1.5.3. Mơ hình phơn lớp với Random Forest .......................................................... 23
1.5.4. ơy dựng cơy ng u nhiên .............................................................................24
1.5.5. Tạo cơy ng u nhiên ....................................................................................... 24
1.5.6. Đặc điểm c a Random Forest .......................................................................24
K T LU N CH
NG 1 .............................................................................................. 25
CH
NGă2.ă NGăD NGăCỂYăQUY TăĐ NHăTRONGăCỌNGăTỄC ĐỄNHă
GIỄăR IăROăVĨăB IăTH
NGăB OăHI MăTĨUăCỄ ........................................26
2.1. Khái quát về thị tr ng b o hiểm tƠu cá ................................................................ 26
2.2. Đánh giá r i ro tƠu cá ............................................................................................. 26
2.2.1. Khái niệm r i ro ............................................................................................ 26
2.2.2. Khái niệm về đánh giá r i ro ........................................................................27
2.2.3. Phạm vi b o hiểm.......................................................................................... 27
2.2.4. Quy trình đánh giá r i ro trong b o hiểm tƠu cá ...........................................28
2.2.5. Các y u tố nh h ng đ n r i ro trong b o hiểm tƠu cá ............................... 28
2.3. Phơn tích hiện trạng .............................................................................................. 28
2.3.1. Chỉ số trong lĩnh vực kinh doanh b o hiểm tƠu cá .......................................28
2.3.2. Gi i pháp xơy dựng hệ thống trợ giúp đánh giá r i ro trong b o hiểm tƠu
cá .................................................................................................................................29
2.4. So Sánh k t qu phơn lớp giữa 2 thu t toán C4.5 vƠ Random Forest .................... 30
2.4.1. ng d ng thu t toán C4.5 .............................................................................30
2.4.2. ng d ng Random Forresst ..........................................................................31
2.4.3. So sánh C4.5 và Random Forest ...................................................................40
K T LU N CH
NG 2 .............................................................................................. 41
CH
NGă3.ăXỂYăD NGăVĨăTH ăNGHI Mă NGăD NG ................................ 42
3.1. Ch c năng hệ thống ................................................................................................ 42
3.1.1. Phân tích yêu cầu .......................................................................................... 42
3.1.2. Các ch c năng chính ..................................................................................... 45
3.2. Thử nghiệm ng d ng ............................................................................................ 46
3.3. Đánh giá đ chính xác ............................................................................................ 49
K T LU N CH
NG 3 .............................................................................................. 52
K TăLU N ..................................................................................................................53
DANHăM CăTĨIăLI UăTHAMăKH O ...................................................................54
QUY TăĐ NHăGIAOăĐ ăTĨIăLU NăVĔNă(B năsao)ă
iv
DANH M C CÁC T
VI T T T
Ti ng Vi t
CSDL
CNTT
C s dữ liệu
Công nghệ thông tin
KPDL
MĐSD
Khai phá dữ liệu
M c đích sử d ng
MH
STBT
Máy học
Số tiền bồi th
SL
Số l ợng
TGSD
Th i gian sử d ng
Ti ngăn
ng
c ngoài
CART
DBMS
Classification and Regression Trees
Database Management System
KDD
OOB
Knowledge Discovery in Database
Out of Bag
v
DANH M C CÁC B NG
S ăhi uă
Tênăb ng
b ng
Trang
1.1.
T p ví d hu n luyện
14
2.1.
Số liệu kinh doanh tại chi nhánh Qu ng Ngưi
29
2.2.
Thống kê tình hình bồi th
29
2.3.
B ng dữ liệu m u c a 10 khách hƠng
31
2.4.
B ng thu c tính ng u nhiên để chia nút
33
2.5.
B ng thu c tính c a khách hƠng mới
33
2.6.
B ng dữ liệu bootstrap 1 c a 10 khách hƠng
35
2.7.
Entropy(S) phơn theo th i gian sử d ng
36
2.8.
Entropy(S) phơn theo M c Đích Sử D ng
37
2.9.
Entropy(S) phơn theo th i gian sử d ng
37
2.10.
Entropy(S) phơn theo Số Tiền Bồi Th
2.11.
Sử d ng phần mềm Weka so sánh đ chính xác giữa thu t
tốn C4.5 và Random Forest
40
3.1.
Ví d về khách hàng cần t v n
48
ng tổn th t
ng
38
vi
DANH M C CÁC HÌNH
S ăhi uă
Tên hình
hình
Trang
1.1.
Q trình khám phá tri th c
5
1.2.
ơy dựng mơ hình phơn lớp
8
1.3.
ớc l ợng đ chính xác
9
1.4.
Phơn lớp dữ liệu mới.
9
1.5.
ớc l ợng đ chính xác c a mơ hình
10
1.6.
Ví d K-fold croos validation - fold 1
11
1.7.
Ví d K-fold croos validation-fold 2
11
1.8.
Ví d K-fold croos validation-fold 3
12
1.9.
Cơy quy t định phơn lớp m c l
13
1.10.
M t phần cơy quy t định đ ợc xơy dựng
15
1. 11.
Entropy(S)
17
1.12.
Cơy quy t định đư đ ợc xơy dựng hoƠn chỉnh
19
1.13.
Chuyển cơy quy t định về dạng lu t
21
1.14.
Mơ hình phơn lớp với Random Forest
23
1.15.
Ví d cơy ng u nhiên.
24
2.1.
Thơng số c a thu t tốn xơy dựng cơy quy t định bằng C4.5
30
2.2.
Tạo bootstrap
32
2.3.
C u trúc cơy ng u nhiên
33
2.4.
Mơ hình Random Forest với numtree cơy
33
2.5.
Mơ hình tổng qt c a Random Forest để phơn lớp
34
2.6.
Mơ hình cơy phơn lớp tạo với bootstrap 1
35
2.7.
Các thu c tính chọn để chia nút
35
2.8.
Ng ỡng các thu c tính để chia
36
2.9.
Ví d - Cơy phơn lớp với nút chia đầu tiên
38
2.10.
Fold 1 với CSDL 1724 b ng ghi c a khách hƠng
39
2.11.
Fold 2 với CSDL 1724 b ng ghi c a khách hƠng
39
ng
vii
S ăhi uă
Tên hình
hình
Trang
2.12.
Fold 10 với CSDL 1724 b ng ghi c a khách hƠng
39
2.13.
Thông số c a Random Forest
40
3.1.
Biểu đồ ca sử d ng tổng quát
42
3.2.
Phơn rư ca sử d ng hu n luyện dữ liệu
42
3.3.
Phơn rư ca sử d ng T v n
43
3.4.
Biểu đồ hoạt đ ng hu n luyện dữ liệu & Biểu đồ hoạt đ ng t
v n
43
3.5.
Biểu đồ tuần tự cho hoạt đ ng đăng nh p
44
3.6.
Biểu đồ tuần tự cho hoạt đ ng hu n luyện dữ liệu
44
3.7.
Biểu đồ tuần tự cho hoạt đ ng t v n
45
3.8.
MƠn hình Đăng nh p hệ thống
46
3.9.
Màn hình Menu
46
3.10.
Màn hình t i dữ liệu hu n luyện
47
3.11.
Giao diện mơ hình phơn lớp Random Forest
47
3.12.
Giao diện ng d ng t v n
48
3.13.
Mơ hình Cơy quy t định bằng Random Forest
49
3.14.
Đ chính xác c a mơ hình Random Forest- fold1
51
3. 15.
K t qu Đ chính xác c a mơ hình Random Forest
51
1
M ăĐẦU
1. LỦădoăch năđ ătƠi
Công nghệ thông tin ngƠy nay đư đ ợc ng d ng r ng khắp trong nhiều lĩnh
vực c a xư h i trong đó khai phá dữ liệu đư vƠ đang đ ợc ng d ng thƠnh công vƠo
r t nhiều các lĩnh vực khác nhau nh : B o hiểm, tƠi chính, y học, giáo d c vƠ viễn
thông v.v.
Nền kinh t ngƠy cƠng phát triển thì nhu cầu b o hiểm cƠng lớn vƠ các loại hình
b o hiểm ngƠy cƠng đa dạng vƠ đ ợc hoƠn thiện. B o hiểm góp phần giữ cho nền kinh
t ổn định, đ m b o cho cá nhơn, gia đình, tổ ch c xư h i vƠ các doanh nghiệp ln
duy trì đ ợc q trình hoạt đ ng s n xu t, kinh doanh c a mình. Có thể nói, khai thác
vƠ đánh bắt cá lƠ m t ngƠnh chịu nhiều r i ro vƠ tổn th t. NgƠnh nƠy ph thu c nhiều
vƠo điều kiện tự nhiên, môi tr ng hoạt đ ng… Trong quá trình khai thác các ng dơn
th ng xuyên ph i đối mặt với v n đề r i ro cho tƠu, cho con ng i, máy móc, ng
l ới c . Qu ng Ngưi lƠ m t tỉnh duyên h i miền Trung có 192 km b biển với h n
5.444 tƠu cá vƠ hƠng vạn ng dơn tham gia nghề khai thác vƠ đánh bắt cá với s n
l ợng ớc đạt trong năm 2016 lƠ 191.400 t n. Gi i pháp phát triển tƠu cá bền vững
cũng chính lƠ gi i pháp lơu dƠi để phát triển kinh t biển, góp phần b o vệ an ninh vƠ
ch quyền trên biển. Vì v y b o hiểm tƠu cá lƠ m t thị tr
ng đầy h a hẹn. Đặc biệt,
với sự ra đ i c a c a nghị định 67/2014/NĐ_CP đư tạo điều kiện cho ng dơn đóng
mới tƠu thuyền mạnh m theo chiều h ớng tích cực vƠ thị tr
khơng nằm ngoƠi luồng chuyển bi n đó.
ng b o hiểm tƠu cá cũng
Trong lĩnh vực kinh doanh nƠy, công tác đánh giá r i ro đối với tƠu cá r t quan
trọng vƠ h t s c ph c tạp. Quy trình tác nghiệp địi hỏi ng i thẩm định vừa ph i có
trình đ chun mơn nghiệp v cao, vừa ph i có nhiều kinh nghiệm thực tiễn. Hầu h t
các công ty b o hiểm chỉ chú trọng đ n v n đề doanh thu mƠ ít quan tơm đ n cơng tác
đánh giá r i ro, đa phần đều đánh giá m t cách th công s sƠi vƠ c m tính.
Vì v y, hiệu qu kinh doanh th
ng khơng nh mong muốn. Mặt khác, v n đề
gi i quy t bồi th ng khi có tổn th t x y ra cần nhanh chóng, đầy đ vƠ chính xác s
mang lại cho khách hƠng niềm tin đối với các công ty b o hiểm. V n đề bồi th ng
sau tai nạn mang tính nhạy c m r t cao vƠ tác đ ng khơng nhỏ đ n tính hiệu qu c a
hoạt đ ng kinh doanh b o hiểm.
Nắm bắt đ ợc v n đề trên cũng nh tính c p thi t c a hoạt đ ng đánh giá r i ro
vƠ bồi th ng tổn th t trong b o hiểm tƠu cá, tôi th y cần ph i xơy dựng triển khai hệ
thống ng d ng công nghệ thông tin nhằm đáp ng nhu cầu phơn tích, xử lỦ vƠ h trợ
đ n m c tối đa cho công tác đánh giá vƠ bồi th ng r i ro trong b o hiểm tƠu cá.
2
u t phát từ những lỦ do trên và đ ợc sự đồng Ủ c a TS. Nguyễn Trần Quốc
Vinh, tôi chọn đề tƠi: “ ng d ng khai phá dữ liệu xơy dựng hệ thống trợ giúp đánh giá
r i ro trong b o hiểm tƠu cá” để lƠm lu n văn thạc sỹ.
2.ăM cătiêuănghiênăc u
2.1. Mục tiêu tổng quát
- H ớng đ n lƠ xơy dựng hệ thống trợ giúp đánh giá r i ro cho tƠu cá, đ m b o
đầy đ các yêu cầu về mặt chuyên môn trong lĩnh vực b o hiểm tƠu cá vƠ h ớng đ n
nơng cao hiệu qu kinh doanh trong đ n vị.
2.2. Mục tiêu cụ thể
- Nêu b t những v n đề hạn ch , đề xu t gi i pháp khắc ph c những tồn tại.
giúp tăng c ng năng lực cạnh trạnh với các đối th trên thị tr ng b o hiểm tƠu cá.
- Thu th p dữ liệu trong lĩnh vực b o hiểm tƠu cá tại Qu ng Ngưi.
- Tìm hiểu các thu t toán phơn lớp C4.5 vƠ rừng ng u nhiên (random forest) và
so sánh đ chính xác trên t p dữ liệu b o hiểm tƠu cá thu th p đ ợc.
- Phơn tích, thi t k vƠ phát triển hệ thống trợ giúp đánh giá r i ro b o hiểm tƠu
cá trên c s thu t toán phơn lớp đ ợc chọn.
3.ăĐ iăt
ngăvƠăph măviănghiênăc uă
3.1. Đối t ợng nghiên c u
- Quy trình đánh giá r i ro tƠu cá.
- Các v n đề liên quan đ n đ r i ro trong b o hiểm tƠu cá.
- Hồ s khách hƠng tham gia mua b o hiểm tƠu cá
- Các kỹ thu t khai phá dữ liệu.
3.2. Phạm vi nghiên c u
- Kỹ thu t khai phá dữ liệu cơy quy t định C4.5, rừng ng u nhiên (Random
Forrest).
- Số liệu kinh doanh c a Công ty Cổ phần B o Minh tại Qu ng Ngưi trong
kho ng th i gian 2015, 2016.
4.ăPh
ngăphápănghiênăc u
4.1. Nghiên c u lý thuyết
- Khai phá dữ liệu vƠ phơn lớp dữ liệu.
- Gi i thu t xơy dựng cơy quy t định.
- Nghiên c u về Thu t toán C4.5 vƠ rừng ng u nhiên trong việc dự đoán vƠ
phơn loại thông tin.
4.2. Nghiên c u thực nghiệm
- Ti n hƠnh thu th p vƠ tổng hợp các tƠi liệu liên quan đ n quy trình thẩm định
vƠ đánh giá hồ s đối với lĩnh vực b o hiểm tƠu cá
3
- V n d ng các c s lỦ thuy t để xơy dựng ng d ng, ti n hƠnh kiểm thử so
sánh đánh giá hiệu su t c a ng d ng.
5. K tăqu đ tăđ c
- Hiểu thêm đ ợc ph ng pháp khai phá dữ liệu vƠ ng d ng ph ng pháp khai
phá dữ liệu vƠo dự đốn tính r i ro trong khai thác b o hiểm nhằm nơng cao hiệu qu
kinh doanh trong đ n vị.
- ơy dựng hệ thống h trợ đánh giá r i ro cho tƠu cá tại Công ty Cổ phần b o
hiểm B o Minh tại Qu ng Ngưi.
- Hệ thống giúp đánh giá r i ro nhanh chóng nh ng v n đ m b o về mặt tối u,
có ch c năng c b n vƠ dễ sử d ng.
6.ăụănghƿaăkhoaăh căvƠăth căti năc aălu năvĕn
Áp d ng lỦ thuy t về khai phá dữ liệu phơn vƠo bƠi toán đánh giá r i ro trong
khai thác b o hiểm cho tƠu cá .
Về mặt thực tiễn, ng d ng có kh năng phơn tích dữ liệu kinh doanh c a công
ty trong những năm gần đơy vƠ qua đó có kh năng phát hiện ra các tr ng hợp b o
hiểm tƠu cá có m c đ r i ro cao.
Giúp cho việc dự đoán nhằm h trợ ra quy t định m t cách khoa học, tránh
đ ợc các tình huống bồi th ng theo c m tính, hạn ch các tr
hiệu qu kinh doanh c a công ty.
ng hợp r i ro vƠ tăng
7.ăB ăc călu năvĕn
Ch ng 1: Nghiên c u tổng quan
Ch ng nƠy, tơi trình bƠy các c s lỦ thuy t lƠm nền t ng để xơy dựng ng
d ng, bao gồm: Tổng quan về khai phá dữ liệu, các kỹ thu t khai phá dữ liệu. Giới
thiệu về cơy quy t định trong phơn lớp dữ liệu. Gi i thu t C4.5 vƠ Random Forest.
Ch ng 2: ng d ng cơy quy t định trong công tác đánh giá r i ro vƠ bồi
th ng b o hiểm tƠu cá
Ch ng nƠy, tơi s tìm hiểu vƠ phơn tích hiện trạng tại đ n vị, nêu lên những
v n đề hạn ch vƠ đề xu t gi i pháp khắc ph c. So sánh vƠ đánh giá phơn lớp giữa 2
thu t toán C4.5 vƠ Random Forest. ng d ng để xơy dựng mơ hình phơn lớp dữ liệu
để gi i quy t bƠi toán đặt ra.
Ch ng 3: ơy dựng vƠ thử nghiệm ng d ng
Tôi t p trung trình bƠy chi ti t về mơ hình ki n trúc tổng thể c a hệ thống vƠ
xơy dựng ng d ng. Ti n hƠnh thử nghiệm trên số liệu thực t , sau đó đánh giá k t qu
đạt đ ợc vƠ kh năng triển khai ng d ng trên toƠn hệ thống.
Cuối cùng lƠ những đánh giá, k t lu n vƠ h ớng phát triển c a đề tƠi.
4
CH
NGă1
NGHIểNăC UăT NGăQUAN
1.1. T ngăquanăv ăkhaiăpháăd ăli u
1.1.1. Sơ l ợc về khai phá dữ liệu
Khai phá dữ liệu lƠ m t lĩnh vực khoa học mới, ra đ i vƠo những năm cuối th p
kỷ 80 c a th kỷ
, nhằm khai thác những thông tin, tri th c hữu ích, tiềm ẩn trong
các c s dữ liệu (CSDL) c a các tổ ch c, doanh nghiệp... từ đó thúc đẩy kh năng s n
xu t, kinh doanh, cạnh tranh c a tổ ch c, doanh nghiệp.
Trong th i đại ngƠy nay, cùng với sự phát triển v ợt b t c a công nghệ thông
tin, các hệ thống thơng tin có thể l u trữ m t khối l ợng lớn dữ liệu về hoạt đ ng hƠng
ngƠy c a chúng. Từ khối dữ liệu nƠy, các kỹ thu t trong khai phá dữ liệu (KPDL) vƠ
máy học (MH) có thể dùng để trích xu t những thơng tin hữu ích mƠ chúng ta ch a
bi t. Các tri th c vừa học đ ợc có thể v n d ng để c i thiện hiệu qu hoạt đ ng c a hệ
thống thông tin ban đầu.
Giáo s Tom Mitchell [5] đư đ a ra định nghĩa c a KPDL nh sau: “KPDL lƠ
việc sử d ng dữ liệu lịch sử để khám phá những qui tắc vƠ c i thiện những quy t định
trong t ng lai.” Với m t cách ti p c n ng d ng h n, Ti n sĩ Fayyad đư phát biểu:
“KPDL, th ng đ ợc xem lƠ việc khám phá tri th c trong các c s dữ liệu, lƠ m t
q trình trích xu t những thơng tin ẩn, tr ớc đơy ch a bi t vƠ có kh năng hữu ích,
d ới dạng các qui lu t, rƠng bu c, qui tắc trong c s dữ liệu.” Nói tóm lại, KPDL lƠ
m t quá trình học tri th c mới từ những dữ liệu đư thu th p đ ợc.
Nh v y ta có thể khái quát hóa khái niệm KPDL lƠ “q trình kh o sát và phân
tích m t l ợng lớn các dữ liệu đ ợc l u trữ trong các CSDL, kho dữ liệu… để từ đó
trích xu t ra các thơng tin quan trọng, có giá trị tiềm ẩn bên trong”.
Khám phá tri th c trong c s dữ liệu (Knowledge Discovery in Databaes ậ
KDD) lƠ m c tiêu chính c a KPDL, do v y hai khái niệm khai phá dữ liệu vƠ KDD
đ ợc các nhƠ khoa học xem lƠ t ng đ ng nhau. Th nh ng, n u phơn chia m t cách
chi ti t thì khai phá dữ liệu lƠ m t b ớc chính trong q trình KDD.
Q trình khá phá tri th c có thể chia thành các b ớc nh sau:
5
Hình 1.1. Quá trình khám phá tri thức
Quá trình KPDL có thể phơn thƠnh các giai đoạn sau:
- Tíchăh păd ăli u: LƠ b ớc tuyển chọn những t p dữ liệu cần đ ợc khai phá từ
các t p dữ liệu lớn ban đầu theo m t số tiêu chí nh t định.
- Ti nă x ă lỦă d ă li u: LƠ b ớc lƠm sạch dữ liệu (xử lỦ dữ liệu không đầy đ ,
không nh t qn...), tổng hợp dữ liệu (nén, nhóm dữ liệu, tính tổng, xơy dựng các
histograms, l y m u...), r i rạc hóa dữ liệu (r i rạc hóa dựa vƠo histograms, entropy...).
Sau b ớc tiền sử lỦ nƠy, dữ liệu s nh t quán, đầy đ , đ ợc rút gọn vƠ r i rạc hóa.
- Bi năđ iăd ă li u: LƠ b ớc chuẩn hóa vƠ lƠm mịn dữ liệu để đ a dữ liệu về
dạng thu n lợi nh t nhằm ph c v việc áp d ng các kỹ thu t khai phá b ớc sau.
- Khaiăpháăd ăli u: LƠ b ớc áp d ng những kỹ thu t phơn tích (phần nhiều lƠ
các kỹ thu t học máy) nhằm khai thác dữ liệu, trích lọc những m u tin, những mối
quan hệ đặc biệt trong dữ liệu. Đơy đ ợc xem lƠ b ớc quan trọng vƠ tiêu tốn th i gian
nh t c a toƠn b quá trình KDD.
- ĐánhăgiáăvƠăbi uădi nătriăth c: Những m u thông tin vƠ mối quan hệ trong
dữ liệu đư đ ợc phát hiện
b ớc khai phá dữ liệu đ ợc chuyển sang vƠ
biểu diễn dạng gần gũi với ng i sử d ng nh đồ thị, cơy, b ng biểu vƠ lu t.
Đồng th i b ớc nƠy cũng đánh giá những tri th c khai phá đ ợc theo những tiêu chí
nh t định.
6
1.1.2. Các kỹ thuật áp dụng trong khai phá dữ liệu
HọẾ Ếó giám sát: LƠ q trình gán nhưn lớp cho các phần tử trong CSDL dựa
trên m t t p các ví d hu n luyện vƠ các thơng tin về nhưn lớp đư bi t.
HọẾ khơng có giám sát: LƠ quá trình phơn chia m t t p dữ liệu thƠnh các lớp
hay c m dữ liệu t ng tự nhau mƠ ch a bi t tr ớc các thơng tin về lớp hay t p các ví
d hu n luyện.
HọẾ nửa giám sát: LƠ quá trình phơn chia m t t p dữ liệu thƠnh các lớp dựa
trên m t t p nhỏ các ví d hu n luyện vƠ các thông tin về m t số nhưn lớp đư bi t
tr ớc.
1.1.3. Các b ớc xây dựng hệ thống khai phá dữ liệu
B ớc 1: ác định m c tiêu bƠi toán.
B ớc đầu tiên trong q trình khai phá dữ liệu đó lƠ ph i xác định rõ m c tiêu,
nhiệm v c a bƠi toán.
B ớc 2: Thu th p dữ liệu.
Sau khi xác định đ ợc m c tiêu, nhiệm v c a bƠi toán, ta ti n hƠnh thu th p
các dữ liệu liên quan, ti p đ n ta có thể ti n hƠnh chọn lọc các m u tiêu biểu để gi m
đ lớn c a t p luyện.
B ớc 3: LƠm sạch dữ liệu vƠ chuyển đổi dữ liệu.
Đơy lƠ m t b ớc r t quan trọng trong dự án khai phá dữ liệu. M c đích c a lƠm
sạch dữ liệu lƠ loại bỏ những dữ liệu thừa, khơng nh t qn, có ch a nhiễu. Q trình
lƠm sạch dữ liệu s cố gắng thêm giá trị vƠo những giá trị bị thi u, lƠm mịn các điểm
nhiễu vƠ sửa lại các dữ liệu không nh t qn.
B ớc 4: ơy dựng mơ hình.
Đối với m i bƠi tốn trong khai phá dữ liệu đều có nhiều mơ hình để gi i quy t.
Để lựa chọn chính xác mơ hình nƠo tốt h n lƠ khó khăn, chúng ta nên thử gi i quy t
bƠi toán bằng nhiều mơ hình khác nhau rồi ti n hƠnh so sánh lựa chọn, để tìm ra mơ
hình tối u nh t, thích hợp nh t với bƠi tốn c a ta.
B ớc 5: Đánh giá mơ hình, đánh giá m u.
Sau khi áp d ng m t số các mô hình chúng ta s đánh giá lựa chọn xem mơ
hình nào tốt h n.
B ớc 6: Báo cáo.
Sau khi xơy dựng vƠ đánh giá mơ hình thích hợp, chúng ta nên đ a ta các báo
cáo dự đoán d ới dạng biểu đồ hay b ng số liệu
B ớc 7: Dự đoán.
Trong hầu h t các bƠi toán khai phá dữ liệu, tìm ra các m u chỉ lƠ m t nửa c a
yêu cầu, nửa yêu cầu còn lại lƠ đ a ra các dự đoán.
7
B ớc 8: Tích hợp vƠo ng d ng.
Tích hợp khai phá dữ liệu vƠo ng d ng lƠ b ớc cuối cùng trong khai phá dữ
liệu. M c tiêu lƠ đ a tri th c tìm ki m đ ợc vƠo ng d ng.
B ớc 9: Qu n lỦ mơ hình.
M i m t mơ hình khai phá dữ liệu đều có m t vịng đ i phát triển. Tuy v y
trong m t số tr ng hợp các m u lƠ thay đổi th ng xuyên, trong những tr ng hợp
đó thì mơ hình ph i đ ợc tạo mới liên t c vƠ việc tạo ra mô hình mới lƠ ph i tự đ ng.
1.1.4. ng dụng c a khai phá dữ liệu
KPDL đ ợc v n d ng trong nhiều lĩnh vực khác nhau nhằm khai thác nguồn dữ
liệu phong phú đ ợc l u trữ trong các hệ thống thông tin nh :
- Kinh doanh th ng mại:
+ ác định thói quen mua hƠng c a khách hƠng.
+ Dự đoán chu kỳ kinh doanh s n phẩm.
- Ngân hàng:
+ Dự đoán các d u hiệu c a m t giao dịch trái lu t.
+ Dự đoán r i ro c a các kho n cho vay.
-Yt :
+ Chuẩn đoán bệnh qua các triệu ch ng.
+ Liên hệ giữa các loại bệnh.
- B o hiểm:
+ Loại khách hƠng có r i ro cao? Gian l n?
+ Liệu khách hƠng có thực hiện h t hợp đồng b o hiểm?
+ Đối t ợng, vùng nƠo có kh năng tham gia b o hiểm?
1.1.5. Khó khăn trong khai phá dữ liệu
- Kích th ớc c a c s dữ liệu lớn: N u c s dữ liệu nhỏ, k t qu truy xu t s
không đáng tin c y. Tuy nhiên, l ợng dữ liệu lớn (hƠng terabyte) đồng nghĩa với
khơng gian tìm ki m r ng, do dó địi hỏi ph i có các chi n l ợc tìm ki m hiệu qu với
đ ph c tạp th p để gi m th i gian thực hiện thu t toán.
- Dữ liệu thi u vƠ nhiễu: đơy lƠ m t thách th c lớn trong khai phá dữ liệu.
L ợng dữ liệu thi u vƠ nhiễu có thể d n đ n các k t qu dự báo khơng chính xác.
1.2.ăăPhơnăl pătrongăkhaiăpháăd ăli u
1.2.1. Phân lớp dữ liệu
Phơn lớp dữ liệu lƠ gán các m u mới vƠo các lớp với đ chính xác cao nh t để
dự báo cho các b dữ liệu (m u) mới.
Đầu vƠo lƠ m t t p các m u dữ liệu hu n luyện, với m t nhưn phơn lớp cho m i
m u dữ liệu. Đầu ra lƠ mô hình dự đốn (b phơn lớp) dựa trên t p hu n luyện vƠ
8
những nhưn phơn lớp.
1.2.2. Quá trình phân lớp dữ liệu
Quá trình phơn lớp dữ liệu gồm hai b ớc:[1]
B ớc th nhất: Quá trình học nhằm xơy dựng m t mơ hình mơ t m t t p các
lớp dữ liệu hay các khái niệm định tr ớc. Đầu vƠo c a quá trình nƠy lƠ m t t p dữ liệu
có c u trúc đ ợc mơ t bằng các thu c tính vƠ đ ợc tạo ra từ t p các b giá trị c a các
thu c tính đó. Đầu ra c a b ớc nƠy th ng lƠ các phơn lớp d ới dạng lu t dạng if-then,
cơy quy t định, công th c logic, hay mạng n ron. Q trình nƠy đ ợc mơ t nh trong
hình v :
Hình 1.2. Xây dựng mơ hình phân lớp
B ớc th hai: Dùng mơ hình đư xơy dựng b ớc tr ớc để phơn lớp dữ liệu
mới. Tr ớc tiên đ chính xác mang tính ch t dự đốn c a mơ hình phơn lớp vừa tạo ra
đ ợc ớc l ợng. N u đ chính xác c a mơ hình đ ợc ớc l ợng dựa trên t p dữ liệu
đƠo tạo thì k t qu thu đ ợc lƠ r t kh quan vì mơ hình ln có xu h ớng “q vừa” dữ
liệu. Q vừa dữ liệu lƠ hiện t ợng k t qu phơn lớp trùng khít với dữ liệu thực t vì
q trình xơy dựng mơ hình phơn lớp từ t p dữ liệu đƠo tạo có thể đư k t hợp những
đặc điểm riêng biệt c a t p dữ liệu đó. Do v y, cần sử d ng m t t p dữ liệu kiểm tra
đ c l p với t p dữ liệu đƠo tạo. N u đ chính xác c a mơ hình lƠ ch p nh n đ ợc, thì
mơ hình đ ợc sử d ng để phơn lớp những dữ liệu t ng lai, hoặc những dữ liệu mƠ giá
trị c a thu c tính phơn lớp lƠ ch a bi t.
9
B phơn lớp
(Mơ hình)
Dữ liệu kiểm
tra
NAME
Tom
M erlisa
G eo rg e
J o sep h
RANK
YEARS TENURED
A ssistan t P ro f
2
no
A sso c iate P ro f
7
no
P ro fesso r
5
yes
A ssistan t P ro f
7
yes
Hình 1.3.
TENURED
no
yes
yes
yes
ớẾ l ợng độ chính xác
B phơn lớp
(Mơ hình)
Dữ liệu mới
NAME
Jeff
Alex
Alice
RANK
YEARS
Professor
2
Assistant Prof
4
Assistant Prof
8
TENURED
yes
no
yes
Hình 1.4. Phân lớp dữ liệu mới.
Trong mơ hình phơn lớp, thu t tốn phơn lớp giữ vai trò trung tơm, quy t định tới
sự thƠnh cơng c a mơ hình phơn lớp. Do v y chìa khóa c a v n đề phơn lớp dữ liệu lƠ
tìm ra đ ợc m t thu t tốn phơn lớp nhanh, hiệu qu , có đ chính xác cao vƠ có kh
năng m r ng đ ợc. Trong đó kh năng m r ng đ ợc c a thu t toán đ ợc đặc biệt
chú trọng vƠ phát triển.
1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu
a. Chuẩn bị ếữ liệu Ếho việẾ phân lớp
- LƠmăs chăd ăli u: LƠm sạch dữ liệu liên quan đ n việc xử lỦ với l i vƠ giá trị
thi u trong t p dữ liệu ban đầu. Với l i lƠ các l i ng u nhiên hay các giá trị không hợp
lệ c a các bi n trong t p dữ liệu. Để xử lỦ với loại l i nƠy có thể dùng kỹ thu t lƠm
10
tr n. Những ơ khơng có giá trị c a các thu c tính. Giá trị thi u có thể do l i ch quan
trong quá trình nh p liệu, hoặc trong tr ng hợp c thể giá trị c a thu c tính đó khơng
có, hay khơng quan trọng. Kỹ thu t xử lỦ đơy có thể bằng cách thay giá trị thi u
bằng giá trị phổ bi n nh t c a thu c tính đó hoặc bằng giá trị có thể x y ra nh t dựa
trên thống kê. Mặc dù phần lớn thu t toán phơn lớp đều có c ch xử lỦ với những giá
trị thi u vƠ l i trong t p dữ liệu, nh ng b ớc tiền xử lỦ nƠy có thể lƠm gi m sự h n
đ n trong quá trình học (xơy dựng mơ hình phơn lớp).
- Chuy năđ iăd ăli u: Việc khái quát hóa dữ liệu lên m c khái niệm cao h n
đôi khi lƠ cần thi t trong quá trình tiền xử lỦ. Việc nƠy đặc biệt hữu ích với những
thu c tính liên t c. Ví d các giá trị số c a thu c tính thu nh p c a khách hƠng có thể
đ ợc khái quát hóa thƠnh các dưy giá trị r i rạc: th p, trung bình, cao. T ng tự với
những thu c tính r i rạc nh địa chỉ phố có thể đ ợc khái quát hóa lên thƠnh thƠnh
phố. Việc khái qt hóa lƠm cơ đọng dữ liệu học nguyên th y, vì v y các thao tác vƠo
ra liên quan đ n quá trình học s gi m.
b. Ph ơng pháp đánh giá độ Ếhính ồáẾ Ếủa mơ hình phân lớp
- Ph ng pháp Holdout: Dữ liệu d a ra đ ợc phơn chia ng u nhiên thƠnh 2
phần. T p dữ liệu đƠo tạo vƠ t p dữ liệu kiểm tra. Thông th ng 2/3 dữ liệu c p cho
t p dữ liệu đƠo tạo, phần còn lại cho t p dữ liệu kiểm tra.
Dữ liệu hu n luyện
Mơ hình phơn lớp
Dữ liệu
ớc tính chính xác
Dữ liệu kiểm tra
Hình 1.5. ớẾ l ợng độ chính xác của mơ hình
- Ph ng pháp K-Fold Cross Validation: T p dữ liệu ban đầu đ ợc chia ng u
nhiên thƠnh k t p con (fold) có kích th ớc x p xỉ nhau S1, S2, …, Sk. Quá trình học vƠ
test đ ợc thực hiện k lần. Tại lần lặp th i, Si lƠ t p dữ liệu kiểm tra, các t p còn lại
hợp thƠnh t p dữ liệu đƠo tạo. Có nghĩa lƠ, đơu tiên việc dạy đ ợc thực hiện trên các
t p S2, S3 …, Sk, sau đó test trên t p S1; ti p t c quá trình dạy đ ợc thực hiện trên t p
S1, S3, S4,…, Sk, sau đó test trên t p S2; vƠ c th ti p t c. Đ chính xác lƠ toƠn b số
phơn lớp đúng từ k lần lặp chia cho tổng số m u c a t p dữ liệu ban đầu.
11
Ví d : k-fold croos validation với k=3:
Fold1:
Hình 1.6. Ví dụ K-fold croos validation - fold 1
Fold 2:
Hình 1.7. Ví dụ K-fold croos validation-fold 2
12
Fold 3:
Hình 1.8. Ví dụ K-fold croos validation-fold 3
ớc tính đ chính xác = ( ớc tính chính xác 1+ ớc tính chính xác 2+
tính chính xác 3) / 3.
ớc
1.3.ăGi iăthi uăcơyăquy tăđ nh
1.3.1. Giới thiệu chung
Trong lĩnh vực học máy, cơy quy t định lƠ m t kiểu mô hình dự báo (predictive
model), nghĩa lƠ m t ánh xạ từ các quan sát về m t sự v t, hiện t ợng tới các k t lu n
về giá trị m c tiêu c a sự v t, hiện t ợng. M i nút trong (internal node) t ng ng với
m t bi n; đ ng nối giữa nó với nút con c a nó thể hiện giá trị c thể cho bi n đó. M i
nút lá đại diện cho giá trị dự đoán c a bi n m c tiêu, cho tr ớc các giá trị dự đoán c a
các bi n đ ợc biểu diễn b i đ ng đi từ nút gốc tới nút lá đó. Kỹ thu t học máy dùng
trong cơy quy t định đ ợc gọi lƠ học bằng cơy quy t định, hay chỉ gọi với cái tên ngắn
gọn lƠ cơy quy t định [1].
13
Ví d : Cơy quy t định phơn lớp m c l
ng
Age ?
≤ 35
>35
Salary
≤ 40
Salary
≤ 50
> 40
Bad
Good
>50
Bad
Bad
Good
Hình 1.9. Cây quy t định phân lớp mứẾ l ơng
Ta th y:
- Gốc (Age): Nút trên cùng c a cơy.
- Nút trong (Salary): Biểu diễn m t kiểm tra trên m t thu c tính đ n.
- Nhánh (mũi tên): Biểu diễn các k t qu c a kiểm tra trên nút trong.
- Nút lá (Bad, Good): Biểu diễn lớp hay sự phơn phối lớp.
Để phơn lớp m u dữ liệu ch a bi t giá trị, các thu c tính c a m u đ ợc đ a vƠo
kiểm tra trên cơy quy t định. M i m u t ng ng có m t đ
biểu diễn dự đốn giá trị phơn lớp m u đó.
ng đi từ gốc đ n lá vƠ lá
1.3.2. u điểm c a cây quyết định
- Cơy quy t định t ng đối dễ hiểu.
- Đòi hỏi m c tiền xử lỦ dữ liệu đ n gi n.
- Có thể xử lỦ với c các dữ liệu r i rạc vƠ liên t c.
- K t qu dự đốn bằng cơy quy t định có thể thẩm định lại bằng cách kiểm tra
thống kê.
1.3.3. Các luật đ ợc rút ra từ cây quyết định
Lu t đ ợc rút ra từ cơy quy t định lƠ các tri th c đ ợc phát biểu d ới dạng IFTHEN. M i lu t có thể đ ợc xác định thông qua m i nhánh c a cơy quy t định. Mệnh
đề IF bao gồm giá trị c a các thu c tính t ng ng với các nút trong, mệnh đề THEN
lƠ giá trị c a thu c tính phơn lớp, t
ng ng với các nút lá trong cơy quy t định.
Các b ớc bi n đổi cơy quy t định thƠnh lu t:
- Biểu diễn tri th c d ới dạng lu t IF-THEN
- M i lu t tạo ra từ m i đ ng d n từ gốc đ n lá
- M i cặp giá trị thu c tính dọc theo đ ng d n tạo nên phép k t (phép AND ậ
và)
- Các nút lá mang tên c a lớp.
Từ cơy quy t định nh hình 1.9, ta có thể rút ra đ ợc các lu t sau:
14
IF (Age <= 35) AND (Salary<=40) THEN class = Bad
IF (Age<=35) AND (Salary>40) THEN class = Good
IF (Age>35) AND (Salary <=50) THEN class = Bad
IF (Age > 35) AND(Salary>50) THEN class = Good
1.4. Thu tătoánăC4.5
1.4.1. Giới thiệu
VƠo đầu những năm 1980, J. Ross Quinlan, m t nhƠ nghiên c u trong lĩnh vực
học máy tính, phát triển thu t tốn cơy quy t định đ ợc bi t đ n nh ID3. Gi i thu t
C4.5 lƠ m t gi i thu t học đ n gi n nh ng tỏ ra thƠnh cơng trong nhiều lĩnh vực. Vì
cách biểu diễn tri th c học đ ợc c a nó, ti p c n c a nó trong việc qu n lỦ tính ph c
tạp, kinh nghiệm c a nó dùng cho việc chọn lựa các khái niệm ng viên, vƠ tiềm năng
c a nó đối với việc xử lỦ dữ liệu nhiễu.
Gi i thu t C4.5 biểu diễn các khái niệm dạng các cơy quy t định. Biểu diễn
này cho phép chúng ta xác định phơn loại c a m t đối t ợng bằng cách kiểm tra các
giá trị c a nó trên m t số thu c tính nƠo đó [7].
Nh v y, nhiệm v c a gi i thu t C4.5 lƠ học cơy quy t định từ m t t p các ví
d hu n luyện hay còn gọi lƠ dữ liệu hu n luyện. Hay nói khác h n, gi i thu t có:
Đầu vƠo: M t t p hợp các ví d . M i ví d bao gồm các thu c tính mơ t m t tình
huống, hay m t đối t ợng nƠo đó, vƠ m t giá trị phơn loại c a nó.
Đầu ra: Cơy quy t định có kh năng phơn loại đúng đắn các ví d trong t p dữ
liệu hu n luyện, vƠ hy vọng lƠ phơn loại đúng cho c các ví d ch a gặp trong t ng lai.
ét bƠi toán phơn loại r i ro trong b o hiểm tƠu cá. Gi i thu t C4.5 s học cơy
quy t định từ t p dữ liệu hu n luyện sau:
Bảng 1.1. Tập ví dụ huấn luyện
M că
Th iă
Kinh
TT Đíchăs ă gian s ă nghi mă
d ng
d ng
lái tàu
Làm
n c
S ăti nă
Khu
Ph măviă
b iă
th ng
v căđ ă
tàu
ho tă
đ ng
R iăro
Gần b
TH P
Cầu
1
Gi cƠo
6
3
Có
10
c ng
2
Câu
8
7
Khơng
30
Khơng
Gần b
TB
3
Gi cƠo
14
6
Khơng
50
Khơng
Gần b
CAO
4
Lặn
11
6
Có
10
Cầu
c ng
ab
TB
5
Gi cƠo
12
11
Có
20
Cầu
c ng
Gần b
TB