Tải bản đầy đủ (.pdf) (95 trang)

Ứng dụng thuật toán rừng ngẫu nhiên mờ để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.86 MB, 95 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM

NGUYỄN THỊ THU AN

ỨNG DỤNG THUẬT TOÁN RỪNG NGẪU NHIÊN MỜ
ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ
RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng - Năm 2017


ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM

NGUYỄN THỊ THU AN

ỨNG DỤNG THUẬT TOÁN RỪNG NGẪU NHIÊN MỜ
ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ
RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI

Chuyên ngành: Hệ thống thông tin
Mã số: 61.49.01.04

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Người hướng dẫn khoa học: TS. Nguyễn Trần Quốc Vinh

Đà Nẵng - Năm 2017




LỜI CAM ĐOAN
Tôi xin cam đoan:
- Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn
trực tiếp của TS. Nguyễn Trần Quốc Vinh.
- Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng và trung
thực về tên tác giả, tên công trình, thời gian và địa điểm cơng bố.
- Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin
chịu hồn tồn trách nhiệm.
Tác giả luận văn

Nguyễn Thị Thu An


MỤC LỤC
MỞ ĐẦU ........................................................................................................... 1

1. Lý do chọn đề tài ................................................................................... 1
2. Mục tiêu nghiên cứu ............................................................................ 3
3. Đối tượng và phạm vi nghiên cứu......................................................... 3
4. Phương pháp nghiên cứu ...................................................................... 3
5. Dự kiến kết quả ..................................................................................... 4
6. Ý nghĩa khoa học và thực tiễn của luận văn ......................................... 4
7. Bố cục luận văn ..................................................................................... 5
CHƯƠNG 1. NGHIÊN CỨU TỔNG QUAN ................................................... 6

1.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ................................................ 6
1.1.1. Sơ lược về khai phá dữ liệu ............................................................ 6
1.1.2. Các kỹ thuật áp dụng trong khai phá dữ liệu .................................. 8

1.1.3. Các bước xây dựng hệ thống khai phá dữ liệu ............................... 8
1.1.4. Ứng dụng của khai phá dữ liệu ..................................................... 10
1.1.5. Khó khăn trong khai phá dữ liệu................................................... 10
1.2. PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU ........................................... 10
1.2.1. Phân lớp dữ liệu ............................................................................ 10
1.2.2. Quá trình phân lớp dữ liệu ............................................................ 11
1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu ................................... 14
1.3. CÂY QUYẾT ĐỊNH ................................................................................ 17
1.3.1. Cây quyết định ID3 ....................................................................... 17
1.3.2. Cây quyết định mờ (Fuzzy Decision tree) .................................... 21
1.4. RỪNG NGẪU NHIÊN ............................................................................ 30
1.4.1. Rừng ngẫu nhiên (Random Forest) .............................................. 30
1.4.2. Rừng ngẫu nhiên mờ (Fuzzy Random Forest) .............................. 31


1.4.3. Mơ hình phân lớp với rừng ngẫu nhiên mờ .................................. 33
KẾT CHƯƠNG 1 ............................................................................................ 37
CHƯƠNG 2. ỨNG DỤNG RỪNG NGẪU NHIÊN MỜ TRONG CÔNG
TÁC ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI 38

2.1. KHÁI QUÁT VỀ THỊ TRƯỜNG BẢO HIỂM XE CƠ GIỚI ................ 38
2.2. ĐÁNH GIÁ RỦI RO XE CƠ GIỚI ......................................................... 39
2.2.1. Khái niệm rủi ro ............................................................................ 39
2.2.2. Khái niệm về đánh giá rủi ro......................................................... 39
2.2.3. Phạm vi bảo hiểm.......................................................................... 40
2.2.4. Quy trình đánh giá rủi ro trong bảo hiểm xe cơ giới .................... 40
2.2.5. Các yếu tố ảnh hưởng đến rủi ro trong bảo hiểm xe cơ giới ........ 40
2.3. PHÂN TÍCH HIỆN TRẠNG ................................................................... 41
2.3.1. Chỉ số trong lĩnh vực kinh doanh bảo hiểm xe cơ giới ................. 41
2.3.2. Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo

hiểm xe cơ giới ................................................................................................ 42
2.4. ỨNG DỤNG RỪNG NGẪU NHIÊN MỜ .............................................. 42
2.4.1. Phân tích dữ liệu ........................................................................... 42
2.4.2. Mờ hóa dữ liệu .............................................................................. 44
2.4.3. Xây dựng cây ngẫu nhiên mờ ....................................................... 46
2.5.4. Mơ hình tổng qt ......................................................................... 48
2.4.5. Ước tính độ chính xác của mơ hình .............................................. 48
KẾT CHƯƠNG 2 ............................................................................................ 50
CHƯƠNG 3. XÂY DỰNG VÀ THỬ NGHIỆM ỨNG DỤNG ...................... 51

3.1. CHỨC NĂNG HỆ THỐNG .................................................................... 51
3.1.1. Phân tích yêu cầu .......................................................................... 51
3.1.2. Các chức năng chính ..................................................................... 55
3.2. THỬ NGHIỆM ỨNG DỤNG .................................................................. 56


3.3. ĐÁNH GIÁ ĐỢ CHÍNH XÁC ................................................................ 60
3.3.1. Mơ hình Random Forest ............................................................... 60
3.3.2. Mơ hình Fuzzy Random Forest..................................................... 62
2.3.3. So sánh độ chính xác giữa mơ hình Random Forest và Fuzzy
Random Forest ................................................................................................ 64
KẾT CHƯƠNG 3 ............................................................................................ 64
KẾT LUẬN ..................................................................................................... 65
DANH MỤC TÀI LIỆU THAM KHẢO

QUYẾT ĐỊNH GIAO ĐỀ TÀI (BẢN SAO)
PHỤ LỤC


DANH MỤC CÁC TỪ VIẾT TẮT

Tiếng Việt
CSDL

: Cơ sở dữ liệu

CNTT

: Công nghệ thông tin

KPDL

: Khai phá dữ liệu

MDSD

: Mục đích sử dụng

MH

: Máy học

STBT

: Số tiền bồi thường

SL

: Số lượng

TGSD


Thời gian sử dụng

XCG

Xe cơ giới

Tiếng nước ngoài
CART

Classification and Regression Trees

DBMS

Database Management System

KDD

Knowledge Discovery in Database

FRF

Fuzzy Random Forest

OOB

Out of Bag

RF


Random Forest


DANH MỤC CÁC BẢNG
Số hiệu

Tên bảng

bảng

Trang

2.1

Số liệu kinh doanh tại chi nhánh Quảng Ngãi

41

2.2

Thống kê tình hình bồi thường tổn thất

42

2.3

Mẫu dữ liệu 10 khách hàng

44


2.4

Giá trị hàm membership của 10 dữ liệu khách hàng

47

2.5

Mẫu bootstrap 1 của 10 khách hàng

47

3.1

Ví dụ về khách hàng cần tư vấn

59

3.2

So sánh độ chính xác giữa Random Forest và Fuzzy
Random Forest

64


DANH MỤC CÁC HÌNH
Số hiệu

Tên hình


hình

Trang

1.1.

Q trình khám phá tri thức

7

1.2.

Xây dựng mơ hình phân lớp

12

1.3.

Ước lượng độ chính xác

13

1.4.

Phân lớp dữ liệu mới

13

1.5.


Ước lượng độ chính xác của mơ hình

16

1.6.

Ví dụ K-fold croos validation - fold 1

16

1.7.

Ví dụ K-fold croos validation-fold 2

17

1.8.

Ví dụ K-fold croos validation-fold 3

17

1.9.

Xây dựng cây quyết định theo thuật toán ID3

18

1.10.


Đồ thị hàm thuộc tập mờ A

23

1.11.

Hình biểu diễn chức năng thành phần của Nhiệt độ

25

1.12.

Hình biểu diễn chức năng thành phần của Gió

26

1.13.

Biểu diễn chức năng thành phần Ùn tắc giao thông

26

1.14.

Xây dựng cây con Fuzzy ID3

29

2.1.


Đồ thị của hàm membership

46

2.2.

Bước tách nút lần 1

47

2.3.

Mơ hình tổng qt của Fuzzy Random Forest để
phân lớp

48

2.4.

Fold 1 với CSDL 1957 bảng ghi của khách hàng

49

2.5.

Fold 2 với CSDL 1957 bảng ghi của khách hàng

49


2.6.

Fold 10 với CSDL 1957 bảng ghi của khách hàng

50

3.1.

Biểu đồ ca sử dụng tổng quát

51

3.2.

Phân rã ca sử dụng huấn luyện dữ liệu

52

3.3.

Phân rã ca sử dụng Tư vấn

52


Số hiệu

Tên hình

hình


Trang

3.4.

Biểu đồ hoạt động huấn luyện dữ liệu

53

3.5.

Biểu đồ hoạt động tư vấn

53

3.6.

Biểu đồ tuần tự cho hoạt động đăng nhập

53

3.7.

Biểu đồ tuần tự cho hoạt động huấn luyện dữ liệu

54

3.8.

Biểu đồ tuần tự cho hoạt động tư vấn


54

3.9.

Triển khai hệ thống

55

3.10.

Màn hình Đăng nhập hệ thống

56

3.11.

Màn hình Menu

56

3.12.

Màn hình tải dữ liệu huấn luyện

57

3.13.

Giao diện mơ hình phân lớp Random Forest


57

3.14.

Giao diện mơ hình phân lớp Fuzzy Random Forest

58

3.15.

Giao diện ứng dụng tư vấn

59

3.16.

Mô hình Cây quyế t đinh
̣ bằng Random Forest

60

3.17.

Đô ̣ chiń h xác của mơ hin
̀ h Random Forest- fold1

61

3.18.


Kết quả độ chính xác của mơ hình Random Forest

62

3.19.

Mơ hình cây quyết định bằng Fuzzy Random Forest

62

3.20.

3.21.

Độ chính xác của mơ hình Fuzzy Random Forest –
Fold 1
Kết quả độ chính xác của mơ hình Fuzzy Random
Forest

63

64


1

MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ thông tin đã

làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng
nhanh một cách chóng mặt. Bên cạnh đó, việc tin học hóa một cách ồ ạt và nhanh
chóng của các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động
khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu cơ sở dữ
liệu đã được sử dụng cho các hoạt động sản xuất, kinh doanh và quản lý,...
Sự phát triển này đã dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và
công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ trên thành các tri thức có
ích. Từ đó, các kỹ thuật khai phá dữ liệu đã trở thành một lĩnh vực thời sự của nền
CNTT thế giới hiện nay nói chung và Việt Nam nói riêng. Khai phá dữ liệu đang
được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác
nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh,
internet… Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai
phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi
ích to lớn.
Theo thống kê, dân số tại Quảng Ngãi hiện có 1.200.000 người, tập trung ở 12
huyện và thành phố. Trong đó có khoản 593.243 phương tiện cơ giới tham gia giao
thơng và có 20.114 ơ tơ, 573.129 mơtơ các loại. Theo số liệu của Ủy ban An tồn giao
thơng tỉnh Quảng Ngãi, trong năm 2015 có khoản 792 vụ tại nạn giao thông, làm hỏng
1.467 phương tiện ô tô xe máy các loại, đa số tập trung ở các vùng đồng bằng.
Quảng Ngãi là đầu mối giao thông quan trọng xuyên suốt trên địa bàn tỉnh,
có Quốc lộ 1A và đường sắt Bắc - Nam chạy qua tỉnh. Trong đó chiều dài Quốc lộ
1A qua tỉnh dài 98 km. Quốc lộ 24 nối liền Quốc lộ 1A đoạn qua Thạch Trụ,
huyện Mộ Đức, tỉnh Quảng Ngãi với Kon Tum dài 69 km và Quốc lộ 24B dài
18 km, đây là tuyến giao thông quan trọng đối với Kon Tum và Quảng Ngãi trong
quan hệ kinh tế, văn hoá giữa duyên hải và Tây Nguyên, giao lưu trao đổi hàng hoá,


2

phát triển kinh tế miền núi gắn với an ninh quốc phịng. Phía Bắc tỉnh, tại

huyện Bình Sơn có sân bay Chu Lai đã đưa vào hoạt động, tại đây có cảng nước sâu
Dung Quất. Ngồi ra, với bờ biển dài 144 km, Quảng Ngãi có nhiều cửa biển, cảng
biển nhỏ như Sa Kỳ, Sa Cần, Bình Châu, Mỹ Á,… có tiềm năng về giao
thơng đường thủy, thương mại và du lịch. Tuy mức tăng trưởng kinh tế của Quảng
Ngãi đạt được là khá cao nhưng đi liền với nó là vấn đề về tai nạn giao thông và ùn
tắc giao thông, đặc biệt là giao thông đường bộ, số vụ giao thông không ngừng tăng
cả về quy mô và số lượng. Khi tai nạn giao thông xẩy ra, không chỉ gây thiệt hại về
tính mạng và tài sản cho người điều khiển mà cịn ảnh hưởng đến tính mạng và tài
sản của người bị hại, cũng như gây ra nhiều hệ lụy cho xã hội. Đây là mối lo ngại
lớn nhất đối với chủ xe cơ giới bởi vì họ khơng chỉ gây thiệt hại cho bản thân mà
cịn phải chịu trách nhiệm đối với bên thứ ba. Để khắc phục tổn hại cho các bên,
bảo hiểm xe cơ giới đã ra đời và đã chứng minh được sự cần thiết khách quan của
loại hình bảo hiểm này.
Trong lĩnh vực kinh doanh này, công tác đánh giá rủi ro xe cơ giới rất quan
trọng và hết sức phức tạp. Quy trình tác nghiệp địi hỏi người thẩm định vừa phải có
trình độ chun mơn nghiệp vụ cao, vừa phải có nhiều kinh nghiệm thực tiễn. Tuy
nhiên, hầu hết các công ty đều chỉ chú trọng đến vấn đề doanh thu mà ít quan tâm
đến cơng tác đánh giá rủi ro, đa phần việc đánh giá rủi ro đều thủ cơng, sơ sài và
cảm tính dẫn đến hiệu quả kinh doanh thường không như mong muốn.
Mặt khác, vấn đề giải quyết bồi thường khi có tổn thất xảy ra cần “Nhanh,
Đúng, Đủ” sẽ mang lại cho khách hàng niềm tin, cũng như sự sẻ chia những rủi ro
mà họ gặp phải. Vấn đề bồi thường sau tai nạn mang tính nhạy cảm rất cao và tác
động khơng nhỏ đến tính hiệu quả của hoạt động kinh doanh bảo hiểm.
Nắm bắt được vấn đề trên cũng như tính cấp thiết của hoạt động đánh giá rủi
ro và bồi thường tổn thất trong bảo hiểm xe cơ giới, tôi thấy cần phải xây dựng triển
khai hệ thống ứng dụng công nghệ thông tin nhằm đáp ứng nhu cầu phân tích, xử lý
và hỗ trợ đến mức tối đa cho công tác đánh giá và bồi thường rủi ro trong bảo hiểm
xe cơ giới.



3

Hiện nay, đã có một số cơng trình nghiên cứu được sử dụng để xây dựng hệ
thống đánh giá rủi ro trong xe cơ giới như: thuật toán C4.5, thuật toán rừng nhẫu
nhiên,... nhưng thuật toán rừng ngẫu nhiên mờ chưa được sử dụng. Vì vậy tơi chọn
đề tài: “Ứng dụng thuật toán rừng ngẫu nhiên mờ để xây dựng hệ thống trợ giúp
đánh giá rủi ro trong bảo hiểm xe cơ giới” để làm luận văn thạc sỹ của mình.
2. Mục tiêu nghiên cứu
- Nghiên cứu thuật tốn liên quan đến cây quyết định.
- Phân tích, so sánh đánh giá và triển khai áp dụng thuật toán Random Forest
và Fuzzy Random Forest.
- Xây dựng hệ thống trợ giúp đánh giá rủi ro xe cơ giới, đảm bảo đầy đủ các
yêu cầu về mặt chuyên môn trong lĩnh vực bảo hiểm xe cơ giới và nâng cao hiệu
quả kinh doanh trong đơn vị.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
- Nghiên cứu về các quy định, quy trình trong đánh giá rủi ro xe cơ giới.
- Các vấn đề liên quan đến độ rủi ro trong bảo hiểm xe cơ giới.
- Hồ sơ khách hàng tham gia mua bảo hiểm xe cơ giới tại Công ty Cổ phần
Bảo hiểm AAA tại Quảng Ngãi.
- Các phương pháp khai phá dữ liệu.
3.2. Phạm vi nghiên cứu
- Kỹ thuật khai phá dữ liệu rừng ngẫu nhiên (Random Forest) và rừng ngẫu
nhiên mờ (Fuzzy Random Forest).
- Các biểu mẫu, số liệu kinh doanh của Công ty Cổ phần Bảo hiểm AAA tại
Quảng Ngãi trong khoảng thời gian 2012, 2013, 2014.
- Thống kê, phân tích các số liệu thực tế, xây dựng bộ dữ liệu mẫu dùng để
kiểm tra, thử nghiệm chương trình và đưa ra nhận xét, đánh giá kết quả đạt được.
4. Phương pháp nghiên cứu
4.1. Nghiên cứu lý thuyết

- Nghiên cứu tài liệu, ngôn ngữ và các công nghệ có liên quan.


4

- Khai phá dữ liệu và phân lớp dữ liệu.
- Giải thuật xây dựng cây quyết định.
- Nghiên cứu về Thuật toán Random Forest và Fuzzy Random Forest trong
việc dự đốn và phân loại thơng tin.
4.2. Nghiên cứu thực nghiệm
- Tiến hành thu thập và tổng hợp các tài liệu liên quan đến quy trình thẩm định
và đánh giá hồ sơ đối với lĩnh vực bảo hiểm xe cơ giới.
- Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến hành kiểm thử so
sánh đánh giá hiệu suất của ứng dụng.
5. Dự kiến kết quả
5.1. Kết quả về lý thuyết
- Hiểu thêm được phương pháp khai phá dữ liệu.
- Ứng dụng phương pháp khai phá dữ liệu vào dự đốn tính rủi ro trong khai
thác bảo hiểm hiện tại nhằm nâng cao hiệu quả kinh doanh trong đơn vị.
5.2. Kết quả thực tiễn
- Xây dựng hệ thống hỗ trợ đánh giá rủi ro cho xe cơ giới tại Công ty Cổ phần
Bảo hiểm AAA tại Quảng Ngãi.
- Hệ thống giúp đánh giá rủi ro nhanh chóng nhưng vẫn đảm bảo về mặt tối
ưu, có chức năng cơ bản và dễ sử dụng.
6. Ý nghĩa khoa học và thực tiễn của luận văn
Áp dụng lý thuyết về thuật toán rừng ngẫu nhiên mờ vào bài toán đánh giá rủi
ro trong khai thác bảo hiểm cho xe cơ giới.
Về mặt thực tiễn, ứng dụng phân tích dữ liệu kinh doanh của cơng ty trong
những năm gần đây, qua đó phát hiện các trường hợp bảo hiểm xe cơ giới có mức
độ rủi ro cao.

Giúp dự đốn và hỗ trợ ra các quyết định chính xác, tránh những tình huống
bồi thường theo cảm tính, đồng thời hạn chế các trường hợp rủi ro và tăng hiệu quả
kinh doanh của công ty.


5

7. Bố cục luận văn
Chương 1: Nghiên cứu tổng quan
Trong chương này, chúng tơi trình bày cơ sở lý thuyết làm nền tảng để xây
dựng ứng dụng, bao gồm: Tổng quan về khai phá dữ liệu, các kỹ thuật khai phá dữ
liệu. Giới thiệu về cây quyết định và cây quyết định mờ trong phân lớp dữ liệu. Giải
thuật Random Forest và Fuzzy Random Forest.
Chương 2: Ứng dụng cây quyết định trong công tác đánh giá rủi ro và bồi
thường trong bảo hiểm xe cơ giới
Trong chương này, chúng tôi sẽ tìm hiểu và phân tích hiện trạng tại đơn vị,
nêu lên những vấn đề hạn chế và đề xuất giải pháp khắc phục. So sánh và đánh giá
phân lớp giữa 2 thuật toán Random Forest và Fuzzy Random Forest. Ứng dụng để
xây dựng mơ hình phân lớp dữ liệu để giải quyết bài toán đặt ra.
Chương 3: Xây dựng chương trình và thử nghiệm ứng dụng
Ở chương này, chúng tơi tập trung trình bày chi tiết về mơ hình kiến trúc tổng
thể của hệ thống và xây dựng ứng dụng. Tiến hành thử nghiệm trên số liệu thực tế,
sau đó đánh giá kết quả đạt được và khả năng triển khai ứng dụng trên toàn hệ
thống.
Cuối cùng là những đánh giá, kết luận và hướng phát triển của đề tài.


6

CHƯƠNG 1

NGHIÊN CỨU TỔNG QUAN

1.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1.1. Sơ lược về khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực khoa học mới, ra đời vào những năm cuối
thập kỷ 80 của thế kỷ XX, nhằm khai thác những thông tin, tri thức hữu ích, tiềm
ẩn trong các cơ sở dữ liệu của các tổ chức, doanh nghiệp... từ đó thúc đẩy khả năng
sản xuất, kinh doanh, cạnh tranh của tổ chức, doanh nghiệp.
Trong thời đại ngày nay, cùng với sự phát triển vượt bậc của công nghệ thông
tin, các hệ thống thông tin có thể lưu trữ một khối lượng lớn dữ liệu về hoạt động
hàng ngày của chúng. Từ khối dữ liệu này, các kỹ thuật trong khai phá dữ liệu và
máy học có thể dùng để trích xuất những thơng tin hữu ích mà chúng ta chưa biết.
Các tri thức vừa học được có thể vận dụng để cải thiện hiệu quả hoạt động của hệ
thống thông tin ban đầu.
Giáo sư Tom Mitchell đã đưa ra định nghĩa của khai phá dữ liệu như sau:
“Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải
thiện những quyết định trong tương lai” [11]. Với một cách tiếp cận ứng dụng hơn,
Tiến sĩ Fayyad đã phát biểu: “Khai phá dữ liệu thường được xem là việc khám phá
tri thức trong các cơ sở dữ liệu, là một q trình trích xuất những thơng tin ẩn, trước
đây chưa biết và có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui tắc
trong cơ sở dữ liệu”. Nói tóm lại, khai phá dữ liệu là một quá trình học tri thức mới
từ những dữ liệu đã thu thập được.
Như vậy ta có thể khái quát hóa khái niệm khai phá dữ liệu là “quá trình khảo
sát và phân tích một lượng lớn các dữ liệu được lưu trữ trong các cơ sở dữ liệu (CSDL),
kho dữ liệu… để từ đó trích xuất ra các thơng tin quan trọng, có giá trị tiềm ẩn bên trong”.
Khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databaes KDD) là mục tiêu chính của khai phá dữ liệu, do vậy hai khái niệm khai phá dữ liệu
và KDD được các nhà khoa học xem là tương đương nhau. Thế nhưng, nếu phân


7


chia một cách chi tiết thì khai phá dữ liệu là một bước chính trong q trình KDD.

Hình 1.1. Q trình khám phá tri thức
Quá trình khá phá tri thức có thể chia thành các bước như Hình 1.1 và có thể
được phân thành các giai đoạn sau:
- Tích hợp dữ liệu: Là bước tuyển chọn những tập dữ liệu cần được khai phá
từ các tập dữ liệu lớn ban đầu theo một số tiêu chí nhất định.
- Tiền xử lý dữ liệu: Là bước làm sạch dữ liệu (xử lý dữ liệu không đầy đủ,
không nhất quán...), tổng hợp dữ liệu (nén, nhóm dữ liệu, tính tổng, xây dựng các
histograms, lấy mẫu...), rời rạc hóa dữ liệu (rời rạc hóa dựa vào histograms,
entropy...). Sau bước tiền sử lý này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và
rời rạc hóa.
- Biến đổi dữ liệu: Là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về
dạng thuận lợi nhất nhằm phục vụ việc áp dụng các kỹ thuật khai phá ở bước sau.
- Khai phá dữ liệu: Là bước áp dụng những kỹ thuật phân tích (phần nhiều là
các kỹ thuật học máy) nhằm khai thác dữ liệu, trích lọc những mẫu tin, những mối
quan hệ đặc biệt trong dữ liệu. Đây được xem là bước quan trọng và tiêu tốn thời
gian nhất của toàn bộ quá trình KDD.
- Đánh giá và biểu diễn tri thức: Những mẫu thông tin và mối quan hệ trong


8

dữ liệu đã được phát hiện ở bước khai phá dữ liệu được chuyển sang và biểu diễn ở
dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu và luật. Đồng thời bước
này cũng đánh giá những tri thức khai phá được theo những tiêu chí nhất định.
1.1.2. Các kỹ thuật áp dụng trong khai phá dữ liệu
- Học có giám sát (supervised learning): là một kỹ thuật của ngành học máy để
xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp đối

tượng đầu vào (thường dạng vector) và đầu ra mong muốn. Đầu ra của một hàm có
thể là một giá trị liên tục (gọi là hồi quy), hay có thể là dự đốn một nhãn phân lớp
cho một đối tượng đầu vào (gọi là phân lớp).
- Học không có giám sát (unsupervised learning): là một phương pháp của
ngành học máy nhằm tìm ra một mơ hình mà phù hợp với các quan sát. Nó khác
biệt với học có giám sát ở chỗ là đầu ra đúng tương ứng cho mỗi đầu vào là không
biết trước. Trong học không có giám sát, một tập dữ liệu đầu vào được thu thập.
Học khơng có giám sát thường đối xử với các đối tượng đầu vào như là một tập
các biến ngẫu nhiên. Sau đó, một mơ hình mật độ kết hợp sẽ được xây dựng cho tập
dữ liệu đó.
- Học bán giám sát (semi-supervised learning): Là quá trình phân chia một tập
dữ liệu thành các lớp dựa trên một tập nhỏ các ví dụ huấn luyện và các thơng tin về
một số nhãn lớp đã biết trước.
- Học tăng cường (reinforcement learning): máy tính đưa ra quyết định hành
động (action) và nhận kết quả phản hồi (response/ reward) từ môi trường
(environment). Sau đó, máy tính tìm cách sữa chữa các quyết định hành động của
mình.
1.1.3. Các bước xây dựng hệ thống khai phá dữ liệu
Bước 1: Xác định mục tiêu bài tốn
Bước đầu tiên trong q trình khai phá dữ liệu đó là phải xác định rõ mục tiêu,
nhiệm vụ của bài toán.
Bước 2: Thu thập dữ liệu.
Sau khi xác định được mục tiêu, nhiệm vụ của bài toán, ta tiến hành thu thập


9

các dữ liệu liên quan tiếp đến ta có thể tiến hành chọn lọc các mẫu tiêu biểu để giảm
độ lớn của tập luyện.
Bước 3: Làm sạch dữ liệu và chuyển đổi dữ liệu

Đây là một bước rất quan trọng trong dự án khai phá dữ liệu. Mục đích của
làm sạch dữ liệu là loại bỏ những dữ liệu thừa, khơng nhất qn, có chứa nhiễu.
Q trình làm sạch dữ liệu sẽ cố gắng thêm giá trị vào những giá trị bị thiếu, làm
mịn các điểm nhiễu và sửa lại các dữ liệu không nhất quán.
Bước 4: Xây dựng mô hình
Đối với mỗi bài tốn trong khai phá dữ liệu đều có nhiều mơ hình để giải
quyết. Để lựa chọn chính xác mơ hình nào tốt hơn là khó khăn, chúng ta nên thử
giải quyết bài tốn bằng nhiều mơ hình khác nhau rồi tiến hành so sánh lựa chọn, để
tìm ra mơ hình tối ưu nhất, thích hợp nhất với bài tốn của ta.
Bước 5: Đánh giá mơ hình, đánh giá mẫu
Sau khi áp dụng một số các mô hình chúng ta sẽ đánh giá lựa chọn xem mơ
hình nào tốt hơn.
Bước 6: Báo cáo
Sau khi xây dựng và đánh giá mơ hình thích hợp, chúng ta nên đưa ta các báo
cáo dự đoán dưới dạng biểu đồ hay bảng số liệu
Bước 7: Dự đoán
Trong hầu hết các bài tốn khai phá dữ liệu, tìm ra các mẫu chỉ là một nửa của
yêu cầu, nửa yêu cầu còn lại là đưa ra các dự đốn.
Bước 8: Tích hợp vào ứng dụng
Tích hợp khai phá dữ liệu và ứng dụng là bước cuối cùng trong khai phá dữ
liệu. Mục tiêu là đưa tri thức tìm kiếm được vào ứng dụng.
Bước 9: Quản lý mơ hình
Mỗi một mơ hình khai phá dữ liệu đều có một vịng đời phát triển. Tuy vậy
trong một số trường hợp các mẫu là thay đổi thường xun, trong những trường hợp
đó thì mơ hình phải được tạo mới liên tục và việc tạo ra mô hình mới là phải tự động.


10

1.1.4. Ứng dụng của khai phá dữ liệu

KPDL được vận dụng trong nhiều lĩnh vực khác nhau nhằm khai thác nguồn
dữ liệu phong phú được lưu trữ trong các hệ thống thông tin như:
- Kinh doanh thương mại:
+ Xác định thói quen mua hàng của khách hàng.
+ Dự đốn chu kỳ kinh doanh sản phẩm.
- Ngân hàng:
+ Dự đoán các dấu hiệu của một giao dịch trái luật.
+ Dự đoán rủi ro của các khoản cho vay.
- Y tế:
+ Chuẩn đoán bệnh qua các triệu chứng.
+ Liên hệ giữa các loại bệnh.
- Bảo hiểm:
+ Loại khách hàng có rủi ro cao? Gian lận?
+ Liệu khách hàng có thực hiện hết hợp đồng bảo hiểm?
+ Đối tượng, vùng nào có khả năng tham gia bảo hiểm?
1.1.5. Khó khăn trong khai phá dữ liệu
- Kích thước của cơ sở dữ liệu lớn: Nếu cơ sở dữ liệu nhỏ, kết quả truy xuất sẽ
không đáng tin cậy. Tuy nhiên, lượng dữ liệu lớn (hàng ngàn bản ghi) đồng nghĩa
với khơng gian tìm kiếm rộng, do dó địi hỏi phải có các chiến lược tìm kiếm hiệu
quả với độ phức tạp thấp để giảm thời gian thực hiện thuật toán.
- Dữ liệu thiếu và nhiễu: đây là một thách thức lớn trong khai phá dữ liệu.
Lượng dữ liệu thiếu và nhiễu có thể dẫn đến các kết quả dự báo khơng chính xác.
1.2. PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU
1.2.1. Phân lớp dữ liệu
Ngày nay phân lớp dữ liệu (classification) là một trong những hướng nghiên
cứu chính của khai phá dữ liệu. Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu với
nhiều thơng tin ẩn con người có thể trích rút ra các quyết định nghiệp vụ thông
minh. Phân lớp và dự đốn là hai dạng của phân tích dữ liệu nhằm trích rút ra một



11

mơ hình mơ tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ liệu tương lai.
Phân lớp dự đoán giá trị của những nhãn xác định (categorical label) hay những
giá trị rời rạc (discrete value), có nghĩa là phân lớp thao tác với những đối tượng
dữ liệu mà có bộ giá trị là biết trước. Trong khi đó, dự đốn lại xây dựng mơ hình
với các hàm nhận giá trị liên tục. Ví dụ mơ hình phân lớp dự báo thời tiết có thể
cho biết thời tiết ngày mai là mưa hay nắng dựa vào những thông số về độ ẩm, sức
gió, nhiệt độ,… của ngày hơm nay và các ngày trước đó. Hay nhờ các luật về xu
hướng mua hàng của khách hàng trong siêu thị, các nhân viên kinh doanh có thể ra
những quyết sách đúng đắn về lượng mặt hàng cũng như chủng loại bày bán…
Một mơ hình dự đốn có thể dự đốn được lượng tiền tiêu dùng của các khách
hàng tiềm năng dựa trên những thông tin về thu nhập và nghề nghiệp của khách
hàng. Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà
nghiên cứu trong nhiều lĩnh vực khác nhau như học máy (machine learning), hệ
chuyên gia (expert system), thống kê (statistics)... Công nghệ này cũng ứng dụng
trong nhiều lĩnh vực khác nhau như: thương mại, nhà băng, maketing, nghiên cứu
thị trường, bảo hiểm, y tế, giáo dục... Phần lớn các thuật toán ra đời trước đều sử
dụng cơ chế dữ liệu cư trú trong bộ nhớ (memory resident), thường thao tác với
lượng dữ liệu nhỏ. Một số thuật toán ra đời sau này đã sử dụng kỹ thuật cư trú trên
để cải thiện đáng kể khả năng mở rộng của thuật toán với những tập dữ liệu lớn
lên tới hàng tỉ bản ghi.
1.2.2. Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm hai bước [14]:
- Bước thứ nhất (learning)
Quá trình học nhằm xây dựng một mơ hình mơ tả một tập các lớp dữ liệu hay
các khái niệm định trước. Đầu vào của quá trình này là một tập dữ liệu có cấu trúc
được mơ tả bằng các thuộc tính và được tạo ra từ tập các bộ giá trị của các thuộc
tính đó. Mỗi bộ giá trị được gọi chung là một phần tử dữ liệu (data tuple), có thể là
các mẫu (sample), ví dụ (example), đối tượng (object), bản ghi (record) hay

trường hợp (case). Khoá luận sử dụng các thuật ngữ này với nghĩa tương đương.


12

Trong tập dữ liệu này, mỗi phần tử dữ liệu được giả sử thuộc về một lớp định
trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn
lớp hay thuộc tính phân lớp (class label attribute). Đầu ra của bước này thường là
các quy tắc phân lớp dưới dạng luật dạng if-then, cây quyết định, cơng thức logic,
hay mạng nơron. Q trình này được mơ tả như trong Hình 1.2.

Hình 1.2. Xây dựng mơ hình phân lớp
- Bước thứ hai (classification)
Bước thứ hai dùng mơ hình đã xây dựng ở bước trước để phân lớp dữ liệu
mới. Trước tiên độ chính xác mang tính chất dự đốn của mơ hình phân lớp vừa tạo
ra được ước lượng. Holdout là một kỹ thuật đơn giản để ước lượng độ chính xác đó.
Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp.
Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu đào
tạo. Độ chính xác của mơ hình trên tập dữ liệu kiểm tra đã đưa là tỉ lệ phần trăm các
các mẫu trong tập dữ liệu kiểm tra được mơ hình phân lớp đúng (so với thực tế).
Nếu độ chính xác của mơ hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết
quả thu được là rất khả quan vì mơ hình ln có xu hướng “quá vừa” dữ liệu. Quá
vừa dữ liệu là hiện tượng kết quả phân lớp trùng khít với dữ liệu thực tế vì q trình
xây dựng mơ hình phân lớp từ tập dữ liệu đào tạo có thể đã kết hợp những đặc điểm
riêng biệt của tập dữ liệu đó. Do vậy cần sử dụng một tập dữ liệu kiểm tra độc lập
với tập dữ liệu đào tạo. Nếu độ chính xác của mơ hình là chấp nhận được, thì mô


13


hình được sử dụng để phân lớp những dữ liệu tương lai, hoặc những dữ liệu mà giá
trị của thuộc tính phân lớp là chưa biết.

Bộ phân
lớp
(Mơ hình)
Dữ liệu
mới

NAME
Jeff
Alex
Alice

RANK
YEARS
Professor
2
Assistant Prof
4
Assistant Prof
8

TENURED
yes
no
yes

Hình 1.3. Ước lượng độ chính xác
Bộ phân

lớp
(Mơ hình)
Dữ liệu
kiểm tra

NAME
T om
M erlisa
G eorge
Joseph

RANK
YEARS TENURED
A ssistant P rof
2
no
A ssociate P rof
7
no
P rofessor
5
yes
A ssistant P rof
7
yes

TENURED
no
yes
yes

yes

Hình 1.4. Phân lớp dữ liệu mới
Trong mơ hình phân lớp, thuật tốn phân lớp giữ vai trị trung tâm, quyết
định tới sự thành cơng của mơ hình phân lớp. Do vậy chìa khóa của vấn đề phân
lớp dữ liệu là tìm ra được một thuật tốn phân lớp nhanh, hiệu quả, có độ chính
xác cao và có khả năng mở rộng được. Trong đó khả năng mở rộng được của thuật
toán được đặc biệt trú trọng và phát triển.
Có thể liệt kê ra đây các kỹ thuật phân lớp đã được sử dụng trong những năm qua:
- Phân lớp cây quyết định (Decision tree classification)
- Bộ phân lớp Bayesian (Bayesian classifier)


14

- Mơ hình phân lớp K-hàng xóm gần nhất (K-nearest neighbor classifier)
- Mạng nơron
- Phân tích thống kê
- Các thuật tốn di truyền
- Phương pháp tập thơ (Rough set Approach)
1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu
a. Chuẩn bị dữ liệu cho việc phân lớp
- Làm sạch dữ liệu: Làm sạch dữ liệu liên quan đến việc xử lý với lỗi (noise)
và giá trị thiếu (missing value) trong tập dữ liệu ban đầu. Noise là các lỗi ngẫu nhiên
hay các giá trị không hợp lệ của các biến trong tập dữ liệu. Để xử lý với loại lỗi này
có thể dùng kỹ thuật làm trơn. Missing value là những ơ khơng có giá trị của các
thuộc tính. Giá trị thiếu có thể do lỗi chủ quan trong quá trình nhập liệu, hoặc trong
trường hợp cụ thể giá trị của thuộc tính đó khơng có, hay khơng quan trọng. Kỹ
thuật xử lý ở đây có thể bằng cách thay giá trị thiếu bằng giá trị phổ biến nhất của
thuộc tính đó hoặc bằng giá trị có thể xảy ra nhất dựa trên thống kê. Mặc dù phần

lớn thuật tốn phân lớp đều có cơ chế xử lý với những giá trị thiếu và lỗi trong tập
dữ liệu, nhưng bước tiền xử lý này có thể làm giảm sự hỗn độn trong q trình học
(xây dựng mơ hình phân lớp).
- Phân tích sự cần thiết của dữ liệu: Có rất nhiều thuộc tính trong tập dữ liệu có
thể hồn tồn khơng cần thiết hay liên quan đến một bài tốn phân lớp cụ thể. Ví dụ
dữ liệu về ngày trong tuần hồn tồn khơng cần thiết đối với ứng dụng phân tích độ
rủi ro của các khoản tiền cho vay của ngân hàng, nên thuộc tính này là dư thừa. Phân
tích sự cần thiết của dữ liệu nhằm mục đích loại bỏ những thuộc tính khơng cần thiết,
dư thừa khỏi q trình học vì những thuộc tính đó sẽ làm chậm, phức tạp và gây ra sự
hiểu sai trong q trình học dẫn tới một mơ hình phân lớp không dùng được.
- Chuyển đổi dữ liệu: Việc khái quát hóa dữ liệu lên mức khái niệm cao hơn
đơi khi là cần thiết trong quá trình tiền xử lý. Việc này đặc biệt hữu ích với những
thuộc tính liên tục (continuous attribute hay numeric attribute). Ví dụ các giá trị số
của thuộc tính thu nhập của khách hàng có thể được khái quát hóa thành các dãy giá


15

trị rời rạc: thấp, trung bình, cao. Tương tự với những thuộc tính rời rạc (categorical
attribute) như địa chỉ phố có thể được khái quát hóa lên thành thành phố. Việc khái
qt hóa làm cơ đọng dữ liệu học ngun thủy, vì vậy các thao tác vào/ ra liên quan
đến q trình học sẽ giảm.
b. So sánh các mơ hình phân lớp
Trong từng ứng dụng cụ thể cần lựa chọn mơ hình phân lớp phù hợp. Việc
lựa chọn đó căn cứ vào sự so sánh các mơ hình phân lớp với nhau, dựa trên các
tiêu chuẩn sau:
- Độ chính xác dự đốn (predictive accuracy): Độ chính xác là khả năng của
mơ hình để dự đốn chính xác nhãn lớp của dữ liệu mới hay dữ liệu chưa biết.
- Tốc độ (speed): Tốc độ là những chi phí tính tốn liên quan đến q trình tạo
ra và sử dụng mơ hình.

- Sức mạnh (robustness): Sức mạnh là khả năng mơ hình tạo ta những dự đoán
đúng từ những dữ liệu noise hay dữ liệu với những giá trị thiếu.
- Khả năng mở rộng (scalability): Khả năng mở rộng là khả năng thực thi hiệu
quả trên lượng lớn dữ liệu của mô hình đã học.
- Tính hiểu được (interpretability): Tính hiểu được là mức độ hiểu và hiểu rõ
những kết quả sinh ra bởi mơ hình đã học.
- Tính đơn giản (simplicity): Tính đơn giản liên quan đến kích thước của cây
quyết định hay độ cô đọng của các luật.
Trong các tiêu chuẩn trên, khả năng mở rộng của mơ hình phân lớp được
nhấn mạnh và trú trọng phát triển, đặc biệt với cây quyết định [14].
c. Phương pháp đánh giá độ chính xác của mơ hình phân lớp
Ước lượng độ chính xác của bộ phân lớp là quan trọng ở chỗ nó cho phép dự
đốn được độ chính xác của các kết quả phân lớp những dữ liệu tương lai. Độ
chính xác cịn giúp so sánh các mơ hình phân lớp khác nhau. Luận văn đề cập đến
2 phương pháp đánh giá phổ biến là holdout và k-fold cross-validation. Cả 2 kỹ
thuật này đều dựa trên các phân hoạch ngẫu nhiên tập dữ liệu ban đầu.
- Phương pháp Holdout: Dữ liệu dưa ra được phân chia ngẫu nhiên thành 2


×