Tải bản đầy đủ (.pdf) (81 trang)

Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.22 MB, 81 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

PHAN TRỌNG HẢI

ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ
RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng - Năm 2016


BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

PHAN TRỌNG HẢI

ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ
RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI

Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Ngƣời hƣớng dẫn khoa học: TS. Nguyễn Trần Quốc Vinh

Đà Nẵng - Năm 2016




LỜI CAM ĐOAN
Tôi xin cam đoan:
-Những nội dung trong luận văn này là do tôi thực hiện dưới sự
hướng dẫn trực tiếp của TS. Nguyễn Trần Quốc Vinh.
-Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng và
trung thực về tên tác giả, tên cơng trình, thời gian và địa điểm công bố.
-Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi
xin chịu hồn tồn trách nhiệm.
Tác giả luận văn

Phan Trọng Hải


MỤC LỤC
MỞ ĐẦU ................................................................................................... 1
1. Lý do chọn đề tài .................................................................................... 1
2. Mục tiêu nghiên cứu .............................................................................. 2
3. Đối tƣợng và phạm vi nghiên cứu.......................................................... 2
4. Phƣơng pháp nghiên cứu ....................................................................... 3
5. Dự kiến kết quả ...................................................................................... 3
6. Ý nghĩa khoa học và thực tiễn của luận văn .......................................... 4
7. Bố cục luận văn ...................................................................................... 4
CHƯƠNG 1. NGHIÊN CỨU TỔNG QUAN .......................................... 6
1.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ................................................. 6
1.1.1. Sơ lƣợc về khai phá dữ liệu ............................................................. 6
1.1.2. Các kỹ thuật áp dụng trong khai phá dữ liệu ................................... 8
1.1.3. Các bƣớc xây dựng hệ thống khai phá dữ liệu ................................ 8
1.1.4. Ứng dụng của khai phá dữ liệu ...................................................... 10

1.1.5. Khó khăn trong khai phá dữ liệu.................................................... 10
1.2. PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU ........................................... 11
1.2.1. Phân lớp dữ liệu ............................................................................. 11
1.2.2. Quá trình phân lớp dữ liệu ............................................................. 11
1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu .................................... 13
1.3. GIỚI THIỆU CÂY QUYẾT ĐỊNH .......................................................... 16
1.3.1. Giới thiệu chung ............................................................................. 16
1.3.2. Ƣu điểm của cây quyết định .......................................................... 17
1.3.3. Các luật đƣợc rút ra từ cây quyết định ........................................... 17
1.4. THUẬT TOÁN C4.5 ................................................................................ 18
1.4.1. Giới thiệu ....................................................................................... 18


1.4.2. Giải thuật C4.5 xây dựng cây quyết định từ trên xuống ................ 19
1.4.3. Chọn thuộc tính phân loại tốt nhất ................................................. 21
1.4.4. Entropy đo tính thuần nhất của tập ví dụ ....................................... 22
1.4.5. Tỷ suất lợi ích Gain Ratio .............................................................. 25
1.4.6. Chuyển cây về dạng luật ................................................................ 26
1.5. RANDOM FOREST ................................................................................. 27
1.5.1. Cơ sở và định nghĩa ....................................................................... 27
1.5.2. Tóm tắt giải thuật ........................................................................... 28
1.5.3. Mơ hình phân lớp với Random Forest ........................................... 29
1.5.4. Xây dựng cây ng u nhiên............................................................... 30
1.5.5. Tạo cây ng u nhiên ........................................................................ 30
1.5.6. Đặc điểm của Random Forest ........................................................ 31
KẾT LUẬN CHƢƠNG 1................................................................................. 31
CHƯƠNG 2. ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG CÔNG TÁC
ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI . 32
2.1. KHÁI QUÁT VỀ THỊ TRƢỜNG BẢO HIỂM XE CƠ GIỚI ................. 32
2.2. ĐÁNH GIÁ RỦI RO XE CƠ GIỚI .......................................................... 33

2.2.1. Khái niệm rủi ro ............................................................................. 33
2.2.2. Khái niệm về đánh giá rủi ro.......................................................... 34
2.2.3. Phạm vi bảo hiểm........................................................................... 34
2.2.4. Quy trình đánh giá rủi ro trong bảo hiểm xe cơ giới ..................... 35
2.2.5. Các yếu tố ảnh hƣởng đến rủi ro trong bảo hiểm xe cơ giới ......... 35
2.3. PHÂN TÍCH HIỆN TRẠNG .................................................................... 36
2.3.1. Chỉ số trong lĩnh vực kinh doanh bảo hiểm xe cơ giới .................. 36
2.3.2. Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo
hiểm xe cơ giới ................................................................................................. 37


2.4. SO SÁNH KẾT QUẢ PHÂN LỚP GIỮA 2 THUẬT TOÁN C4.5 VÀ
RANDOM FOREST ........................................................................................ 38
2.5. ỨNG DỤNG CÂY QUYẾT ĐỊNH .......................................................... 40
2.5.1. Phân tích dữ liệu ............................................................................ 40
2.5.2. Xây dựng mơ hình phân lớp với Random Forest........................... 42
2.5.3. Mơ hình tổng qt .......................................................................... 45
2.5.4. Ƣớc tính độ chính xác của mơ hình ............................................... 50
KẾT LUẬN CHƢƠNG 2................................................................................. 52
CHƯƠNG 3. XÂY DỰNG VÀ THỬ NGHIỆM ỨNG DỤNG ............. 53
3.1. CHỨC NĂNG HỆ THỐNG ..................................................................... 53
3.1.1. Các chức năng chính ...................................................................... 53
3.1.2. Phân tích yêu cầu ........................................................................... 54
3.2. THỬ NGHIỆM ỨNG DỤNG ................................................................... 59
3.3. ĐÁNH GIÁ ĐỘ CHÍNH XÁC ................................................................. 63
3.3.1. Mơ hình cây quyết định b ng thuật tốn C4.5 ............................... 63
3.3.2. Mơ hình Random Forest ................................................................ 65
3.3.3. So sánh độ chính xác giữa mơ hình C4.5 và Random Forest ........ 68
KẾT LUẬN CHƢƠNG 3................................................................................. 69
KẾT LUẬN ............................................................................................. 69

DANH MỤC TÀI LIỆU THAM KHẢO ............................................... 70
QUYẾT ĐỊNH GIAO ĐỀ TÀI (bản sao)


DANH MỤC CÁC TỪ VIẾT TẮT
Tiếng Việt
CSDL

Cơ sở dữ liệu

CNTT

Công nghệ thơng tin

KPDL

Khai phá dữ liệu

MDSD

Mục đích sử dụng

MH

Máy học

STBT

Số tiền bồi thƣờng


SL

Số lƣợng

TGSD

Thời gian sử dụng

XCG

Xe cơ giới

Tiếng nƣớc ngoài
CART

Classification and Regression Trees

DBMS

Database Management System

KDD

Knowledge Discovery in Database

OOB

Out of Bag



DANH MỤC CÁC BẢNG
Số
hiệu

Tên bảng

Trang

1.1.

Tập ví dụ huấn luyện

19

2.1.

Số liệu kinh doanh tại chi nhánh Quảng Ngãi

36

2.2.

Thống kê tình hình bồi thƣờng tổn thất

37

2.3.

Sử dụng phần mềm Weka so sánh độ chính xác giữa thuật
tốn C4.5 và Random Forest


39

2.4.

Bảng dữ liệu m u của 10 khách hàng

40

2.5.

Bảng thuộc tính ng u nhiên để chia nút

43

2.6.

Bảng thuộc tính của khách hàng mới

44

2.7.

Bảng dữ liệu bootstrap 1 của 10 khách hàng

46

2.8.

Entropy(S) phân theo thời gian sử dụng (TGSD) = 6,5 năm


47

2.9.

Entropy(S) phân theo Mục Đích Sử Dụng

48

2.10. Entropy(S) phân theo thời gian sử dụng

49

2.11. Entropy(S) phân theo Số Tiền Bồi Thƣờng

49

3.1.

Ví dụ về khách hàng cần tƣ vấn

63

3.2.

So sánh độ chính xác giữa C4.5 và Random Forest

68



DANH MỤC CÁC HÌNH
Số

Tên hình

Trang

hiệu
1.1.

Q trình khám phá tri thức

7

1.2.

Xây dựng mơ hình phân lớp

11

1.3.

Ƣớc lƣợng độ chính xác

12

1.4.

Phân lớp dữ liệu mới.


12

1.5.

Ƣớc lƣợng độ chính xác của mơ hình

14

1.6.

Ví dụ K-fold croos validation - fold 1

15

1.7.

Ví dụ K-fold croos validation-fold 2

15

1.8.

Ví dụ K-fold croos validation-fold 3

16

1.9.

Cây quyết định phân lớp mức lƣơng


17

1.10.

Một phần cây quyết định đƣợc xây dựng

20

1.11.

Entropy(S)

22

1.12.

Cây quyết định đã đƣợc xây dựng hoàn chỉnh

25

1.13.

Chuyển cây quyết định về dạng luật

26

1.14.

Mơ hình phân lớp với Random Forest


29

2.1.

Thơng số của thuật toán xây dựng cây quyết định b ng

38

C4.5
2.2.

Thông số của Random Forest

39

2.3.

Tạo bootstrap

43

2.4.

Cấu trúc cây ng u nhiên

43

2.5.

Mơ hình Random Forest với numtree cây


44

2.6.

Mơ hình tổng qt của Random Forest để phân lớp

45

2.7.

Mơ hình cây phân lớp tạo với bootstrap 1

46

2.8.

Các thuộc tính chọn để chia nút

46

2.9.

Ngƣỡng các thuộc tính để chia

48


Số


Tên hình

Trang

hiệu
2.10.

Ví dụ - Cây phân lớp với nút chia đầu tiên

50

2.11.

Fold 1 với CSDL 1724 bảng ghi của khách hàng

51

2.12.

Fold 2 với CSDL 1724 bảng ghi của khách hàng

51

2.13.

Fold 10 với CSDL 1724 bảng ghi của khách hàng

52

3.1.


Biểu đồ ca sử dụng tổng quát

54

3.2.

Phân rã ca sử dụng huấn luyện dữ liệu

54

3.3.

Phân rã ca sử dụng Tƣ vấn

55

3.4.

Biểu đồ hoạt động huấn luyện dữ liệu

56

3.5.

Biểu đồ hoạt động tƣ vấn

56

3.6.


Biểu đồ tuần tự cho hoạt động đăng nhập

57

3.7.

Biểu đồ tuần tự cho hoạt động huấn luyện dữ liệu

57

3.9.

Triển khai hệ thống

58

3.10.

Màn hình Đăng nhập hệ thống

59

3.11.

Màn hình Menu

59

3.12.


Màn hình tải dữ liệu huấn luyện

60

3.13.

Giao diện mơ hình phân lớp Decision tree (C4.5)

61

3.14.

Giao diện mơ hình phân lớp Random Forest

62

3.15.

Giao diện ứng dụng tƣ vấn

63

3.16.

Mơ hình cây quyết định b ng C4.5

64

3.17.


Độ chính xác của mơ hình cây quyết định b ng C4.5- fold 1

64

3.18.

Kết quả độ chính xác của mơ hình cây quyết định C4.5

65

3.19.

Mơ hình Cây quyết định b ng Random Forest

66

3.20.

Độ chính xác của mơ hình Random Forest- fold1

68

3.21.

Kết quả Độ chính xác của mơ hình Random Forest

68



1

MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây, việc ứng dụng cộng nghệ thông tin ngày càng
rộng khắp. Vấn đề khai phá dữ liệu đã và đang ứng dụng thành công vào rất
nhiều các lĩnh vực khác nhau nhƣ: Bảo hiểm, tài chính, y học, giáo dục và
viễn thông v.v.
Mặt khác, cùng với sự phát triển mạnh mẽ của nền kinh tế và đời sống xã
hội, nhu cầu vận chuyển và tham gia giao thông b ng xe cơ giới ở nƣớc ta
không ngừng tăng cao, mà còn đa dạng và phong phú về chủng loại.
Theo thống kê, dân số tại Quảng Ngãi hiện có 1.200.000 ngƣời, tập trung
ở 12 huyện và thành phố. Trong đó có khoản 593.243 phƣơng tiện cơ giới
tham gia giao thông và có 20.114 ơ tơ, 573.129 mơtơ, xe máy. Theo số liệu
của Ủy ban An tồn giao thơng tỉnh Quảng Ngãi, trong năm 2015 có khoản
792 vụ tại nạng giao thơng, làm hỏng 1.467 phƣơng tiện ô tô xe máy các loại,
đa số tập trung ở các vùng đồng b ng.
Trong khi đó, hệ thống hạ tầng giao thơng chƣa thể đáp ứng tốt nhu cầu
lƣu thông của một lƣợng xe cơ giới lớn nhƣ hiện nay. Những ngƣời tham gia
giao thơng đều hiểu r ng, tai nạn có thể xảy ra bất kỳ lúc nào, cho bất kỳ ai
với những hậu quả khơn lƣờng. Vì vậy, bảo hiểm xe cơ giới đã ra đời và trở
thành một nhu cầu thiết yếu với những ngƣời tham gia điều khiển phƣơng tiện
giao thông. Điều này đã mở ra những cơ hội lớn cho các công ty bảo hiểm xe
cơ giới. Những công ty nào có dịch vụ tốt, sẽ chiếm lĩnh đƣợc tỉ lệ khách
hàng nhiều hơn.
Trong lĩnh vực kinh doanh này, công tác đánh giá rủi ro xe cơ giới rất
quan trọng và hết sức phức tạp. Quy trình tác nghiệp địi hỏi ngƣời thẩm định
vừa phải có trình độ chun mơn nghiệp vụ cao, vừa phải có nhiều kinh



2

nghiệm thực tiễn. Hầu hết các công ty đều chỉ chú trọng đến vấn đề doanh thu
mà ít quan tâm đến công tác đánh giá rủi ro, đa phần đều thủ cơng sơ sài và
cảm tính. Vì vậy, hiệu quả kinh doanh thƣờng không nhƣ mong muốn.
Mặt khác, vấn đề giải quyết bồi thƣờng khi có tổn thất xảy ra cần
“Nhanh, Đúng, Đủ” sẽ mang lại cho khách hàng niềm tin, cũng nhƣ sự sẻ chia
những rủi ro mà họ gặp phải. Vấn đề bồi thƣờng sau tai nạn mang tính nhạy
cảm rất cao và tác động khơng nhỏ đến tính hiệu quả của hoạt động kinh
doanh bảo hiểm.
Nắm bắt đƣợc vấn đề trên cũng nhƣ tính cấp thiết của hoạt động đánh giá
rủi ro và bồi thƣờng tổn thất trong bảo hiểm xe cơ giới, tôi thấy cần phải xây
dựng và triển khai hệ thống ứng dụng công nghệ thơng tin nh m đáp ứng nhu
cầu phân tích, xử lý và hỗ trợ đến mức tối đa cho công tác đánh giá và bồi
thƣờng rủi ro trong bảo hiểm xe cơ giới.
Xuất phát từ những lý do trên đƣợc sự đồng ý của TS. Nguyễn Trần
Quốc Vinh, tôi chọn đề tài: “Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ
Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo Hiểm Xe Cơ Giới” để làm luận
văn thạc sĩ.
2. Mục tiêu nghiên cứu
Nghiên cứu các thuật toán liên quan đến cây quyết định. Phân tích, so
sánh, đánh giá và triển khai áp dụng thuật toán C4.5 và Random Forest.
Trên cơ sở phân tích thực trạng và đề ra giải pháp ứng dụng công nghệ
thông tin. Hƣớng đến là xây dựng hệ thống trợ giúp đánh giá rủi ro xe cơ giới,
đảm bảo đầy đủ các yêu cầu về mặt chuyên môn trong lĩnh vực bảo hiểm xe
cơ giới.
3. Đối tƣợng và phạm vi nghiên cứu
3.1. Đối tƣợng nghiên cứu
- Quy trình đánh giá rủi ro xe cơ giới.



3

- Các vấn đề liên quan đến độ rủi ro trong bảo hiểm xe cơ giới.
- Hồ sơ khách hàng tham gia mua bảo hiểm xe cơ giới tại Công ty Cổ
phần bảo hiểm AAA tại Quảng Ngãi.
- Nghiên cứu về phân lớp dữ liệu trong khai phá dữ liệu.
3.2. Phạm vi nghiên cứu
- Kỹ thuật khai phá dữ liệu cây quyết định C4.5 và Random Forest.
- Số liệu kinh doanh của Công ty Cổ phần Bảo hiểm AAA tại Quảng
Ngãi trong khoảng thời gian 2012, 2013, 2014.
4. Phƣơng pháp nghiên cứu
4.1. Nghiên cứu lý thuyết
- Nghiên cứu tài liệu, ngơn ngữ và các cơng nghệ có liên quan.
- Khai phá dữ liệu và phân lớp dữ liệu.
- Giải thuật xây dựng cây quyết định.
- Nghiên cứu về Thuật toán C4.5 và Random Forest trong việc dự đoán
và phân loại thông tin.
4.2. Nghiên cứu thực nghiệm
- Tiến hành thu thập và tổng hợp các tài liệu liên quan đến quy trình
thẩm định và đánh giá hồ sơ đối với lĩnh vực bảo hiểm xe cơ giới.
- Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến hành kiểm
thử so sánh đánh giá hiệu suất của ứng dụng.
5. Dự kiến kết quả
5.1. Kết quả về lý thuyết
Hiểu thêm đƣợc phƣơng pháp khai phá dữ liệu.
- Ứng dụng phƣơng pháp khai phá dữ liệu vào dự đốn tính rủi ro trong
khai thác bảo hiểm hiện tại nh m nâng cao hiệu quả kinh doanh trong đơn vị.



4

5.2. Kết quả thực tiễn
Xây dựng hệ thống hỗ trợ đánh giá rủi ro cho xe cơ giới tại Công ty Cổ
phần Bảo hiểm AAA tại Quảng Ngãi.
Hệ thống giúp đánh giá rủi ro nhanh chóng nhƣng v n đảm bảo về mặt
tối ƣu, có chức năng cơ bản và dễ sử dụng.
6. Ý nghĩa khoa học và thực tiễn của luận văn
Áp dụng lý thuyết về khai phá dữ liệu vào bài toán đánh giá rủi ro trong
khai thác bảo hiểm cho xe cơ giới.
Về mặt thực tiễn, ứng dụng có khả năng phân tích dữ liệu kinh doanh
của cơng ty trong những năm gần đây và qua đó có khả năng phát hiện ra các
trƣờng hợp bảo hiểm xe cơ giới có mức độ rủi ro cao.
Giúp cho việc dự đoán nh m hỗ trợ ra quyết định một cách khoa học,
tránh đƣợc các tình huống bồi thƣờng theo cảm tính, hạn chế các trƣờng hợp
rủi ro và tăng hiệu quả kinh doanh của công ty.
7. Bố cục luận văn
Chƣơng 1: Nghiên cứu tổng quan
Chƣơng này, tơi trình bày các cơ sở lý thuyết làm nền tảng để xây dựng
ứng dụng, bao gồm: Tổng quan về khai phá dữ liệu, các kỹ thuật khai phá dữ
liệu. Giới thiệu về cây quyết định trong phân lớp dữ liệu. Giải thuật C4.5 và
Random Forest.
Chƣơng 2: Ứng dụng cây quyết định trong công tác đánh giá rủi ro và
bồi thƣờng bảo hiểm xe cơ giới
Trong chƣơng này, tơi sẽ tìm hiểu và phân tích hiện trạng tại đơn vị, nêu
lên những vấn đề hạn chế và đề xuất giải pháp khắc phục. So sánh và đánh giá
phân lớp giữa 2 thuật tốn C4.5 và Random Forest. Ứng dụng để xây dựng
mơ hình phân lớp dữ liệu để giải quyết bài tốn đặt ra.
Chƣơng 3: Xây dựng và thử nghiệm ứng dụng



5

Chƣơng cuối, tơi tập trung trình bày chi tiết về mơ hình kiến trúc tổng
thể của hệ thống và xây dựng ứng dụng. Tiến hành thử nghiệm trên số liệu
thực tế, sau đó đánh giá kết quả đạt đƣợc và khả năng triển khai ứng dụng trên
toàn hệ thống.
Cuối cùng là những đánh giá, kết luận và hƣớng phát triển của đề tài.


6

CHƯƠNG 1

NGHIÊN CỨU TỔNG QUAN
1.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1.1. Sơ lƣợc về khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực khoa học mới, ra đời vào những năm
cuối thập kỷ 80 của thế kỷ XX, nh m khai thác những thông tin, tri thức hữu
ích, tiềm ẩn trong các cơ sở dữ liệu (CSDL) của các tổ chức, doanh nghiệp...
từ đó thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh của tổ chức, doanh
nghiệp.
Trong thời đại ngày nay, cùng với sự phát triển vƣợt bật của công nghệ
thông tin, các hệ thống thông tin có thể lƣu trữ một khối lƣợng lớn dữ liệu về
hoạt động hàng ngày của chúng. Từ khối dữ liệu này, các kỹ thuật trong khai
phá dữ liệu (KPDL) và máy học (MH) có thể dùng để trích xuất những thơng
tin hữu ích mà chúng ta chƣa biết. Các tri thức vừa học đƣợc có thể vận dụng
để cải thiện hiệu quả hoạt động của hệ thống thông tin ban đầu.
Giáo sƣ Tom Mitchell [7] đã đƣa ra định nghĩa của KPDL nhƣ sau:
“KPDL là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện

những quyết định trong tƣơng lai.” Với một cách tiếp cận ứng dụng hơn, Tiến
sĩ Fayyad đã phát biểu: “KPDL, thƣờng đƣợc xem là việc khám phá tri thức
trong các cơ sở dữ liệu, là một q trình trích xuất những thơng tin ẩn, trƣớc
đây chƣa biết và có khả năng hữu ích, dƣới dạng các qui luật, ràng buộc, qui
tắc trong cơ sở dữ liệu.” Nói tóm lại, KPDL là một quá trình học tri thức mới
từ những dữ liệu đã thu thập đƣợc.
Nhƣ vậy ta có thể khái qt hóa khái niệm KPDL là “q trình khảo sát
và phân tích một lượng lớn các dữ liệu được lưu trữ trong các CSDL, kho dữ liệu…
để từ đó trích xuất ra các thơng tin quan trọng, có giá trị tiềm ẩn bên trong”.


7

Khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in
Databaes –KDD) là mục tiêu chính của KPDL, do vậy hai khái niệm khai phá
dữ liệu và KDD đƣợc các nhà khoa học xem là tƣơng đƣơng nhau. Thế
nhƣng, nếu phân chia một cách chi tiết thì khai phá dữ liệu là một bƣớc chính
trong q trình KDD.
Q trình khá phá tri thức có thể chia thành các bƣớc nhƣ sau:

Hình 1.1. Quá trình khám phá tri thức
Quá trình KPDL có thể phân thành các giai đoạn sau:
 Tích hợp dữ liệu: Là bƣớc tuyển chọn những tập dữ liệu cần đƣợc
khai phá từ các tập dữ liệu lớn ban đầu theo một số tiêu chí nhất định.
 Tiền xử lý dữ liệu: Là bƣớc làm sạch dữ liệu (xử lý dữ liệu không đầy
đủ, không nhất quán...), tổng hợp dữ liệu (nén, nhóm dữ liệu, tính tổng, xây
dựng các histograms, lấy m u...), rời rạc hóa dữ liệu (rời rạc hóa dựa vào
histograms, entropy...). Sau bƣớc tiền sử lý này, dữ liệu sẽ nhất quán, đầy đủ,
đƣợc rút gọn và rời rạc hóa.



8

 Biến đổi dữ liệu: Là bƣớc chuẩn hóa và làm mịn dữ liệu để đƣa dữ
liệu về dạng thuận lợi nhất nh m phục vụ việc áp dụng các kỹ thuật khai phá
ở bƣớc sau.
 Khai phá dữ liệu: Là bƣớc áp dụng những kỹ thuật phân tích (phần
nhiều là các kỹ thuật học máy) nh m khai thác dữ liệu, trích lọc những m u
tin, những mối quan hệ đặc biệt trong dữ liệu. Đây đƣợc xem là bƣớc quan
trọng và tiêu tốn thời gian nhất của toàn bộ quá trìnhKDD.
 Đánh giá và biểu diễn tri thức: Những m u thông tin và mối quan hệ
trong dữ liệu đã đƣợc phát hiện ở bƣớc khai phá dữ liệu đƣợc chuyển sang và
biểu diễn ở dạng gần gũi với ngƣời sử dụng nhƣ đồ thị, cây, bảng biểu và luật.
Đồng thời bƣớc này cũng đánh giá những tri thức khai phá đƣợc theo những
tiêu chí nhất định
1.1.2. Các kỹ thuật áp dụng trong khai phá dữ liệu
Học có giám sát: Là quá trình gán nhãn lớp cho các phần tử trong CSDL
dựa trên một tập các ví dụ huấn luyện và các thông tin về nhãn lớp đã biết.
Học khơng có giám sát: Là q trình phân chia một tập dữ liệu thành các
lớp hay cụm dữ liệu tƣơng tự nhau mà chƣa biết trƣớc các thông tin về lớp
hay tập các ví dụ huấn luyện.
Học nửa giám sát: Là quá trình phân chia một tập dữ liệu thành các lớp
dựa trên một tập nhỏ các ví dụ huấn luyện và các thông tin về một số nhãn lớp
đã biết trƣớc.
1.1.3. Các bƣớc xây dựng hệ thống khai phá dữ liệu
Bƣớc 1: Xác định mục tiêu bài toán.
Bƣớc đầu tiên trong q trình khai phá dữ liệu đó là phải xác định rõ
mục tiêu, nhiệm vụ của bài toán.
Bƣớc 2: Thu thập dữ liệu.
Sau khi xác định đƣợc mục tiêu, nhiệm vụ của bài toán, ta tiến hành thu



9

thập các dữ liệu liên quan tiếp đến ta có thể tiến hành chọn lọc các m u tiêu
biểu để giảm độ lớn của tập luyện.
Bƣớc 3: Làm sạch dữ liệu và chuyển đổi dữ liệu.
Đây là một bƣớc rất quan trọng trong dự án khai phá dữ liệu. Mục đích
của làm sạch dữ liệu là loại bỏ những dữ liệu thừa, khơng nhất qn, có chứa
nhiễu. Q trình làm sạch dữ liệu sẽ cố gắng thêm giá trị vào những giá trị bị
thiếu, làm mịn các điểm nhiễu và sửa lại các dữ liệu không nhất quán.
Bƣớc 4: Xây dựng mơ hình.
Đối với mỗi bài tốn trong khai phá dữ liệu đều có nhiều mơ hình để giải
quyết. Để lựa chọn chính xác mơ hình nào tốt hơn là khó khăn, chúng ta nên
thử giải quyết bài tốn b ng nhiều mơ hình khác nhau rồi tiến hành so sánh
lựa chọn, để tìm ra mơ hình tối ƣu nhất, thích hợp nhất với bài tốn của ta.
Bƣớc 5: Đánh giá mơ hình, đánh giá m u.
Sau khi áp dụng một số các mơ hình chúng ta sẽ đánh giá lựa chọn xem
mơ hình nào tốt hơn.
Bƣớc 6: Báo cáo.
Sau khi xây dựng và đánh giá mơ hình thích hợp, chúng ta nên đƣa ta
các báo cáo dự đoán dƣới dạng biểu đồ hay bảng số liệu
Bƣớc 7: Dự đoán.
Trong hầu hết các bài tốn khai phá dữ liệu, tìm ra các m u chỉ là một
nửa của yêu cầu, nửa yêu cầu còn lại là đƣa ra các dự đốn.
Bƣớc 8: Tích hợp vào ứng dụng.
Tích hợp khai phá dữ liệu và ứng dụng là bƣớc cuối cùng trong khai phá
dữ liệu. Mục tiêu là đƣa tri thức tìm kiếm đƣợc vào ứng dụng.
Bƣớc 9: Quản lý mơ hình.
Mỗi một mơ hình khai phá dữ liệu đều có một vòng đời phát triển. Tuy

vậy trong một số trƣờng hợp các m u là thay đổi thƣờng xuyên, trong những


10

trƣờng hợp đó thì mơ hình phải đƣợc tạo mới liên tục và việc tạo ra mơ hình
mới là phải tự động.
1.1.4. Ứng dụng của khai phá dữ liệu
KPDL đƣợc vận dụng trong nhiều lĩnh vực khác nhau nh m khai thác
nguồn dữ liệu phong phú đƣợc lƣu trữ trong các hệ thống thông tin nhƣ:
- Kinh doanh thƣơng mại:
+ Xác định thói quen mua hàng của khách hàng.
+ Dự đoán chu kỳ kinh doanh sản phẩm.
- Ngân hàng:
+ Dự đoán các dấu hiệu của một giao dịch trái luật.
+ Dự đoán rủi ro của các khoản cho vay.
- Y tế:
+ Chuẩn đoán bệnh qua các triệu chứng.
+ Liên hệ giữa các loại bệnh.
- Bảo hiểm:
+ Loại khách hàng có rủi ro cao? Gian lận?
+ Liệu khách hàng có thực hiện hết hợp đồng bảo hiểm?
+ Đối tƣợng, vùng nào có khả năng tham gia bảo hiểm?
1.1.5. Khó khăn trong khai phá dữ liệu
- Kích thước của cơ sở dữ liệu lớn: Nếu cơ sở dữ liệu nhỏ, kết quả truy
xuất sẽ không đáng tin cậy. Tuy nhiên, lƣợng dữ liệu lớn (hàng terabyte) đồng
nghĩa với khơng gian tìm kiếm rộng, do dó địi hỏi phải có các chiến lƣợc tìm
kiếm hiệu quả với độ phức tạp thấp để giảm thời gian thực hiện thuật toán.
- Dữ liệu thiếu và nhiễu: đây là một thách thức lớn trong khai phá dữ
liệu. Lƣợng dữ liệu thiếu và nhiễu có thể d n đến các kết quả dự báo khơng

chính xác.


11

1.2. PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU
1.2.1. Phân lớp dữ liệu
Phân lớp dữ liệu là gán các m u mới vào các lớp với độ chính xác cao
nhất để dự báo cho các bộ dữ liệu (m u) mới.
Đầu vào là một tập các m u dữ liệu huấn luyện, với một nhãn phân lớp
cho mỗi m u dữ liệu. Đầu ra là mơ hình dự đốn (bộ phân lớp) dựa trên tập
huấn luyện và những nhãn phân lớp.
1.2.2. Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm hai bƣớc [1]:
Bƣớc thứ nhất: Quá trình học nh m xây dựng một mơ hình mơ tả một
tập các lớp dữ liệu hay các khái niệm định trƣớc. Đầu vào của quá trình này là
một tập dữ liệu có cấu trúc đƣợc mơ tả b ng các thuộc tính và đƣợc tạo ra từ
tập các bộ giá trị của các thuộc tính đó. Đầu ra của bƣớc này thƣờng là các
phân lớp dƣới dạng luật dạng if-then, cây quyết định, cơng thức logic, hay
mạng nơron. Q trình này đƣợc mơ tả nhƣ trong hình vẽ:

Hình 1.2. Xây dựng mơ hình phân lớp


12

Bước thứ hai: Dùng mơ hình đã xây dựng ở bƣớc trƣớc để phân lớp dữ
liệu mới. Trƣớc tiên độ chính xác mang tính chất dự đốn của mơ hình phân
lớp vừa tạo ra đƣợc ƣớc lƣợng. Nếu độ chính xác của mơ hình đƣợc ƣớc
lƣợng dựa trên tập dữ liệu đào tạo thì kết quả thu đƣợc là rất khả quan vì mơ

hình ln có xu hƣớng “q vừa” dữ liệu. Quá vừa dữ liệu là hiện tƣợng kết
quả phân lớp trùng khít với dữ liệu thực tế vì q trình xây dựng mơ hình
phân lớp từ tập dữ liệu đào tạo có thể đã kết hợp những đặc điểm riêng biệt
của tập dữ liệu đó. Do vậy, cần sử dụng một tập dữ liệu kiểm tra độc lập với
tập dữ liệu đào tạo. Nếu độ chính xác của mơ hình là chấp nhận đƣợc, thì mơ
hình đƣợc sử dụng để phân lớp những dữ liệu tƣơng lai, hoặc những dữ liệu
mà giá trị của thuộc tính phân lớp là chƣa biết.
Bộ phân lớp
(Mơ hình)

Dữ liệu
kiểm tra

NAME
Tom
M erlisa
G eo rg e
Jo sep h

RANK
YEARS TENURED
A ssistan t P ro f
2
no
A sso ciate P ro f
7
no
P ro fesso r
5
yes

A ssistan t P ro f
7
yes

TENURED
no
yes
yes
yes

Hình 1.3. Ước lượng độ chính xác

Bộ phân
lớp
(Mơ hình)
Dữ liệu
mới

NAME
Jeff
Alex
Alice

RANK
YEARS
Professor
2
Assistant Prof
4
Assistant Prof

8

TENURED
yes
no
yes

Hình 1.4. Phân lớp dữ liệu mới.


13

Trong mơ hình phân lớp, thuật tốn phân lớp giữ vai trị trung tâm, quyết
định tới sự thành cơng của mơ hình phân lớp. Do vậy chìa khóa của vấn đề
phân lớp dữ liệu là tìm ra đƣợc một thuật tốn phân lớp nhanh, hiệu quả, có
độ chính xác cao và có khả năng mở rộng đƣợc. Trong đó khả năng mở rộng
đƣợc của thuật toán đƣợc đặc biệt chú trọng và phát triển.
1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu

a. Chuẩn bị dữ liệu cho việc phân lớp
- Làm sạch dữ liệu: Làm sạch dữ liệu liên quan đến việc xử lý với lỗi và
giá trị thiếu trong tập dữ liệu ban đầu. Với lỗi là các lỗi ng u nhiên hay các
giá trị không hợp lệ của các biến trong tập dữ liệu. Để xử lý với loại lỗi này
có thể dùng kỹ thuật làm trơn. Những ơ khơng có giá trị của các thuộc tính.
Giá trị thiếu có thể do lỗi chủ quan trong quá trình nhập liệu, hoặc trong
trƣờng hợp cụ thể giá trị của thuộc tính đó khơng có, hay khơng quan trọng.
Kỹ thuật xử lý ở đây có thể b ng cách thay giá trị thiếu b ng giá trị phổ biến
nhất của thuộc tính đó hoặc b ng giá trị có thể xảy ra nhất dựa trên thống kê.
Mặc dù phần lớn thuật tốn phân lớp đều có cơ chế xử lý với những giá trị
thiếu và lỗi trong tập dữ liệu, nhƣng bƣớc tiền xử lý này có thể làm giảm sự

hỗn độn trong quá trình học (xây dựng mơ hình phân lớp).
- Chuyển đổi dữ liệu: Việc khái qt hóa dữ liệu lên mức khái niệm cao
hơn đơi khi là cần thiết trong quá trình tiền xử lý. Việc này đặc biệt hữu ích với
những thuộc tính liên tục. Ví dụ các giá trị số của thuộc tính thu nhập của khách
hàng có thể đƣợc khái quát hóa thành các dãy giá trị rời rạc: thấp, trung bình,
cao. Tƣơng tự với những thuộc tính rời rạc nhƣ địa chỉ phố có thể đƣợc khái
quát hóa lên thành thành phố. Việc khái qt hóa làm cơ đọng dữ liệu học
nguyên thủy, vì vậy các thao tác vào ra liên quan đến quá trình học sẽ giảm.

b. Phương pháp đánh giá độ chính xác của mơ hình phân lớp
- Phƣơng pháp Holdout: Dữ liệu dƣa ra đƣợc phân chia ng u nhiên thành


14

2 phần. Tập dữ liệu đào tạo và tập dữ liệu kiểm tra. Thông thƣờng 2/3 dữ liệu
cấp cho tập dữ liệu đào tạo, phần còn lại cho tập dữ liệu kiểm tra.
Dữ liệu huấn luyện

Mơ hình phân lớp

Dữ liệu
Ƣớc tính chính xác

Dữ liệu kiểm tra

Hình 1.5. Ước lượng độ chính xác của mơ hình
- Phƣơng pháp K-Fold Cross Validation: Tập dữ liệu ban đầu đƣợc chia
ng u nhiên thành k tập con (fold) có kích thƣớc xấp xỉ nhau S1, S2, …, Sk.
Quá trình học và test đƣợc thực hiện k lần. Tại lần lặp thứ i, Si là tập dữ liệu

kiểm tra, các tập còn lại hợp thành tập dữ liệu đào tạo. Có nghĩa là, đâu tiên
việc dạy đƣợc thực hiện trên các tập S2, S3 …, Sk, sau đó test trên tập S1; tiếp
tục q trình dạy đƣợc thực hiện trên tập S1, S3, S4,…, Sk, sau đó test trên tập
S2; và cứ thế tiếp tục. Độ chính xác là tồn bộ số phân lớp đúng từ k lần lặp
chia cho tổng số m u của tập dữ liệu ban đầu.


15

Ví dụ: k-fold croos validation với k=3:
Fold1:
Phần 1

Dữ liệu

Dữ liệu đào tạo 1

Phần 2

Phần 3

Ƣớc tính
chính xác 1

Mơ hình phân lớp

Dữ liệu kiểm tra 1

Hình 1.6. Ví dụ K-fold croos validation - fold 1
Fold 2:

Phần 1

Dữ liệu

Phần 2

Dữ liệu đào tạo 2

Phần 3
Mơ hình phân lớp

Ƣớc tính
chính xác 2

Dữ liệu kiểm tra 2

Hình 1.7. Ví dụ K-fold croos validation-fold 2


×