Ứng dụng thuật toán rừng ngẫu nhiên mờ để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.22 MB, 26 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM

NGUYỄN THỊ THU AN

ỨNG DỤNG THUẬT TOÁN RỪNG NGẪU NHIÊN MỜ
ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ
RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI

Chuyên ngành: Hệ thống thông tin
Mã số: 61.49.01.04

TÓM TẮT
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng – Năm 2017

Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN

Người hướng dẫn khoa học: TS. NGUYỄN TRẦN QUỐC VINH

Phản biện 1: TS. Phạm Anh Phương
Phản biện 2: PGS.TS. Hoàng Quang

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc
sĩ Hệ thống thông tin họp tại Trường Đại học Sư phạm – ĐHĐN vào
ngày 30 tháng 7 năm 2017.

Có thể tìm hiểu luận văn tại:

- Thư viện Trường Đại học Sư phạm Đà Nẵng, Đại học Đà Nẵng.
- Trung tâm thông tin học liệu, Đại học Đà Nẵng.

1
MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ
thông tin đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ
thống thông tin tăng nhanh một cách chóng mặt. Bên cạnh đó, việc tin
học hóa một cách ồ ạt và nhanh chóng của các hoạt động sản xuất, kinh
doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta
một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu cơ sở dữ liệu đã được sử
dụng cho các hoạt động sản xuất, kinh doanh và quản lý,...
Theo thống kê, dân số tại Quảng Ngãi hiện có 1.200.000 người,
tập trung ở 12 huyện và thành phố. Trong đó có khoản 593.243 phương
tiện cơ giới tham gia giao thông và có 20.114 ô tô, 573.129 môtô các
loại. Theo số liệu của Ủy ban An toàn giao thông tỉnh Quảng Ngãi,
trong năm 2015 có khoản 792 vụ tại nạn giao thông, làm hỏng 1.467
phương tiện ô tô xe máy các loại, đa số tập trung ở các vùng đồng bằng.
Mức tăng trưởng kinh tế của Quảng Ngãi đạt được là khá cao
nhưng đi liền với nó là vấn đề về tai nạn giao thông và ùn tắc giao
thông, đặc biệt là giao thông đường bộ, số vụ giao thông không ngừng
tăng cả về quy mô và số lượng. Đây là mối lo ngại lớn nhất đối với chủ
xe cơ giới bởi vì họ không chỉ gây thiệt hại cho bản thân mà còn phải
chịu trách nhiệm đối với bên thứ ba. Để khắc phục tổn hại cho các bên,
bảo hiểm xe cơ giới đã ra đời và đã chứng minh được sự cần thiết khách
quan của loại hình bảo hiểm này.
Trong lĩnh vực kinh doanh này, công tác đánh giá rủi ro xe cơ
giới rất quan trọng và hết sức phức tạp. Quy trình tác nghiệp đòi hỏi

người thẩm định vừa phải có trình độ chuyên môn nghiệp vụ cao, vừa
phải có nhiều kinh nghiệm thực tiễn. Tuy nhiên, hầu hết các công ty đều
chỉ chú trọng đến vấn đề doanh thu mà ít quan tâm đến công tác đánh
giá rủi ro, đa phần việc đánh giá rủi ro đều thủ công, sơ sài và cảm tính
dẫn đến hiệu quả kinh doanh thường không như mong muốn.

2
Mặt khác, vấn đề giải quyết bồi thường khi có tổn thất xảy ra cần
“Nhanh, Đúng, Đủ” sẽ mang lại cho khách hàng niềm tin, cũng như sự
sẻ chia những rủi ro mà họ gặp phải. Vấn đề bồi thường sau tai nạn
mang tính nhạy cảm rất cao và tác động không nhỏ đến tính hiệu quả
của hoạt động kinh doanh bảo hiểm.
Nắm bắt được vấn đề trên cũng như tính cấp thiết của hoạt động
đánh giá rủi ro và bồi thường tổn thất trong bảo hiểm xe cơ giới, tôi
thấy cần phải xây dựng triển khai hệ thống ứng dụng công nghệ thông
tin nhằm đáp ứng nhu cầu phân tích, xử lý và hỗ trợ đến mức tối đa cho
công tác đánh giá và bồi thường rủi ro trong bảo hiểm xe cơ giới.
Hiện nay, đã có một số công trình nghiên cứu được sử dụng để
xây dựng hệ thống đánh giá rủi ro trong xe cơ giới như: thuật toán C4.5,
thuật toán rừng nhẫu nhiên,... nhưng thuật toán rừng ngẫu nhiên mờ
chưa được sử dụng. Vì vậy tôi chọn đề tài: “Ứng dụng thuật toán rừng
ngẫu nhiên mờ để xây dựng hệ thống trợ giúp đánh giá rủi ro trong
bảo hiểm xe cơ giới” để làm luận văn thạc sỹ của mình.
2. Mục tiêu nghiên cứu
- Nghiên cứu thuật toán liên quan đến cây quyết định.
- Phân tích, so sánh đánh giá và triển khai áp dụng thuật toán
Random Forest và Fuzzy Random Forest.
- Xây dựng hệ thống trợ giúp đánh giá rủi ro xe cơ giới, đảm bảo
đầy đủ các yêu cầu về mặt chuyên môn trong lĩnh vực bảo hiểm xe cơ

giới và nâng cao hiệu quả kinh doanh trong đơn vị.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
- Nghiên cứu về các quy định, quy trình trong đánh giá rủi ro xe
cơ giới.
- Các vấn đề liên quan đến độ rủi ro trong bảo hiểm xe cơ giới.
- Hồ sơ khách hàng tham gia mua bảo hiểm xe cơ giới tại Công ty
Cổ phần Bảo hiểm AAA tại Quảng Ngãi.

3
- Các phương pháp khai phá dữ liệu.
3.2. Phạm vi nghiên cứu
- Kỹ thuật khai phá dữ liệu rừng ngẫu nhiên (Random Forest) và
rừng ngẫu nhiên mờ (Fuzzy Random Forest).
- Các biểu mẫu, số liệu kinh doanh của Công ty Cổ phần Bảo
hiểm AAA tại Quảng Ngãi trong khoảng thời gian 2013, 2014, 2015.
- Thống kê, phân tích các số liệu thực tế, xây dựng bộ dữ liệu
mẫu dùng để kiểm tra, thử nghiệm chương trình và đưa ra nhận xét,
đánh giá kết quả đạt được.
4. Phương pháp nghiên cứu
4.1. Nghiên cứu lý thuyết
- Nghiên cứu tài liệu, ngôn ngữ và các công nghệ có liên quan.
- Khai phá dữ liệu và phân lớp dữ liệu.
- Giải thuật xây dựng cây quyết định.
- Nghiên cứu về Thuật toán Random Forest và Fuzzy Random
Forest trong việc dự đoán và phân loại thông tin.
4.2. Nghiên cứu thực nghiệm
- Tiến hành thu thập và tổng hợp các tài liệu liên quan đến quy
trình thẩm định và đánh giá hồ sơ đối với lĩnh vực bảo hiểm xe cơ giới.

- Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến hành
kiểm thử so sánh đánh giá hiệu suất của ứng dụng.
5. Dự kiến kết quả
5.1. Kết quả về lý thuyết
- Hiểu thêm được phương pháp khai phá dữ liệu.
- Ứng dụng phương pháp khai phá dữ liệu vào dự đoán tính rủi ro
trong khai thác bảo hiểm hiện tại nhằm nâng cao hiệu quả kinh doanh
trong đơn vị.
5.2. Kết quả thực tiễn
- Xây dựng hệ thống hỗ trợ đánh giá rủi ro cho xe cơ giới tại
Công ty Cổ phần Bảo hiểm AAA tại Quảng Ngãi.

4
- Hệ thống giúp đánh giá rủi ro nhanh chóng nhưng vẫn đảm bảo
về mặt tối ưu, có chức năng cơ bản và dễ sử dụng.
6. Ý nghĩa khoa học và thực tiễn của luận văn
Áp dụng lý thuyết về thuật toán rừng ngẫu nhiên mờ vào bài toán
đánh giá rủi ro trong khai thác bảo hiểm cho xe cơ giới.
Về mặt thực tiễn, ứng dụng phân tích dữ liệu kinh doanh của
công ty trong những năm gần đây, qua đó phát hiện các trường hợp bảo
hiểm xe cơ giới có mức độ rủi ro cao.
Giúp dự đoán và hỗ trợ ra các quyết định chính xác, tránh những
tình huống bồi thường theo cảm tính, đồng thời hạn chế các trường hợp
rủi ro và tăng hiệu quả kinh doanh của công ty.
7. Bố cục luận văn
Chương 1: Nghiên cứu tổng quan
Chương 2: Ứng dụng cây quyết định trong công tác đánh giá rủi
ro và bồi thường trong bảo hiểm xe cơ giới
Chương 3: Xây dựng chương trình và thử nghiệm ứng dụng

Cuối cùng là những đánh giá, kết luận và hướng phát triển của đề
tài.
CHƯƠNG 1
NGHIÊN CỨU TỔNG QUAN
1.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1.1. Sơ lược về khai phá dữ liệu
Trong thời đại ngày nay, cùng với sự phát triển vượt bậc của
công nghệ thông tin, các hệ thống thông tin có thể lưu trữ một khối
lượng lớn dữ liệu về hoạt động hàng ngày của chúng. Từ khối dữ liệu
này, các kỹ thuật trong khai phá dữ liệu và máy học có thể dùng để trích
xuất những thông tin hữu ích mà chúng ta chưa biết. Các tri thức vừa
học được có thể vận dụng để cải thiện hiệu quả hoạt động của hệ thống
thông tin ban đầu.
Như vậy ta có thể khái quát hóa khái niệm khai phá dữ liệu là

5
“quá trình khảo sát và phân tích một lượng lớn các dữ liệu được lưu trữ
trong các cơ sở dữ liệu (CSDL), kho dữ liệu… để từ đó trích xuất ra các thông
tin quan trọng, có giá trị tiềm ẩn bên trong”.
1.1.2. Các kỹ thuật áp dụng trong khai phá dữ liệu
- Học có giám sát (supervised learning)
- Học không có giám sát (unsupervised learning)
- Học bán giám sát (semi-supervised learning)
- Học tăng cường (reinforcement learning)
1.1.3. Các bước xây dựng hệ thống khai phá dữ liệu
1.1.4. Ứng dụng của khai phá dữ liệu
1.1.5. Khó khăn trong khai phá dữ liệu
1.2. PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU
1.2.1. Phân lớp dữ liệu

Phân lớp dữ liệu là gán các mẫu mới vào các lớp với độ chính xác
cao nhất để dự báo cho các bộ dữ liệu (mẫu) mới.
Đầu vào là một tập các mẫu dữ liệu huấn luyện, với một nhãn
phân lớp cho mỗi mẫu dữ liệu. Đầu ra là mô hình dự đoán (bộ phân lớp)
dựa trên tập huấn luyện và những nhãn phân lớp.
1.2.2. Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm hai bước [14]:
- Bước thứ nhất (learning): quá trình ho ̣c nhằm xây dựng mô ̣t
mô hình mô tả tâ ̣p các lớp dữ liê ̣u hay các khái niê ̣m đinh
̣ trước.
- Bước thứ hai (classification): bước này dùng mô hình đã xây
dựng đươ ̣c ở bước thứ nhấ t để phân lớp dữ liê ̣u mới.
1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu
1.3. CÂY QUYẾT ĐỊNH
1.3.1. Cây quyết định ID3
1.3.2. Cây quyết định mờ (Fuzzy Decision tree)
1.4. RỪNG NGẪU NHIÊN
1.4.1. Rừng ngẫu nhiên (Random Forest)
Random Forest là một phương pháp học quần thể để phân loại,
hồi quy và các nhiệm vụ khác, hoạt động bằng cách xây dựng vô số các

6
quyết định trong thời gian đào tạo và đầu ra của lớp là mô hình phân lớp
hoặc hồi quy của những cây riêng biệt. Nó như là một nhóm phân loại
và hồi quy cây không cắt tỉa được làm từ các lựa chọn ngẫu nhiên của
các mẫu dữ liệu huấn luyện. Tính năng ngẫu nhiên được chọn trong quá
trình cảm ứng. Dự đoán được thực hiện bằng cách kết hợp (đa số phiếu
để phân loại hoặc trung bình cho hồi quy) dự đoán của quần thể.
Thuật toán Random Forest (RF)

Function RF (input: E, Output: Random Forest)
Begin
1. Tạo cây con S: Lấy ngẫu nhiên có hoàn lại |E| từ mẫu tập huấn
luyện E
2. Xây dựng cây quyết định (Decision Tree – DT) từ tập con S.
3. Lặp lại bước 1 và bước 2 cho tới khi tất cả cây quyết định (DT)
được xây dựng.
End.
1.4.2. Rừng ngẫu nhiên mờ (Fuzzy Random Forest)
Hiện nay có rất nhiều kỹ thuật và thuật toán giải quyết vấn đề
phân lớp. Tuy nhiên, đa số các bài toán phân lớp này được áp dụng trên
dữ liệu đầy đủ và được đo đạc chính xác. Nhưng trên thực tế các dữ liệu
thu thập được hầu như không hoàn hảo, dữ liệu méo mó, dữ liệu không
đầy đủ,... việc xử lý các dạng dữ liệu này rất khó khăn và tốn kém. Hơn
nữa các thông tin này thường được điều chỉnh bởi các chuyên gia. Do
đó, tính xác thực của dữ liệu trở nên mơ hồ. Vậy nên cần thiết xử lý trực
tiếp các dạng thông tin này [3].
Rừng ngẫu nhiên có hai yếu tố ngẫu nhiên, một là bagging được
sử dụng lựa chọn tập dữ liệu được sử dụng như dữ liệu đầu vào cho mỗi
cây; và hai là tập các thuộc tính được coi là ứng cử viên cho mỗi nút
chia. Tính ngẫu nhiên nhằm tăng sự đa dạng của cây và cải thiện chính
xác kết quả dự báo trên các cây trong rừng. Khi rừng ngẫu nhiên được
xây dựng thì 1/3 đối tượng quan sát (exambles) được loại bỏ ra khỏi dữ
liệu huấn luyện của mỗi cây trong rừng. Các đối tượng này được gọi là

7
“out of bag - OOB”. Mỗi cây sẽ có các tập đối tượng OOB khác nhau.
Các đối tượng OOB không sử dụng để xây dựng các cây và được sử dụng
thử nghiệm cho mỗi cây tương ứng.

Chúng tôi phát hiện ra rằng độ chính xác phân lớp có thể được cải
thiện với dữ liệu không chắc chắn khi sử dụng sức mạnh ngẫu nhiên của
phương pháp Fuzzy Random Forest để tăng sự đa dạng của cây và sự linh
hoạt của tập mờ.
Để phân loại, chúng tôi sử dụng phương pháp luận của rừng ngẫu
nhiên và kết hợp xử lý dữ liệu hoàn hảo, sau đó xây dựng rừng ngẫu
nhiên sử dụng cây mờ như phân loại cơ sở. Do đó, chúng tôi cố gắng sử
dụng sự vững mạnh của một quần thể cây, sức mạnh của sự ngẫu nhiênNess để tăng sự đa dạng của các cây trong rừng, sự linh hoạt của logic
mờ và tập mờ để quản lý dữ liệu không hoàn hảo.
Thuật toán Fuzzy Random Forest (FRF) tương tự thuật toán
Random Forest, chỉ khác là thay cây quyết định trong thuật toán RF bởi cây
quyết định mờ.
Function FRF (input: E, Fuzzy Partition; output: Fuzzy
Random Forest)
Begin
1. Tạo tập con S: Lấy ngẫu nhiên có hoàn lại |E| mẫu từ tập huấn
luyện E.
2. Xây dựng cây quyết định mờ (Fuzzy Decision Tree – FDT) từ
tập con S.
3. Lặp lại bước 1 và bước 2 cho tới khi tất cả các cây quyết định
mờ (FDT) được xây dựng.
End.
1.4.3. Mô hình phân lớp với rừng ngẫu nhiên mờ
a. Các ký hiệu
- T là số cây trong rừng ngẫu nhiên mờ (FRF)
- Nt là tổng số nút lá trong cây thứ t với t=1,2,3,…,T. Đặc tính
phân lớp của cây quyết định mờ là một mẫu có thể thuộc về một lá hoặc
nhiều lá khác nhau do sự chồng chéo của tập mờ tạo ra một số phân

8
hoạch mà một thuộc tính cùng tồn tại trên các phân hạch khác nhau.
- I là tổng số lớp của dữ liệu mẫu.
- E mẫu sử dụng huấn luyện hoặc kiểm tra.
- t , n (e) là độ phụ thuộc mẫu e của nút lá n trên cây t
- Support là độ hỗ trợ của lớp I trong mỗi

lá bằng

E
Support (n)  i với Ei là tổng mức độ thuộc của các mẫu e trong lớp I
En
của nút lá n, E n là tổng mức độ thuộc của đối tượng e trong nút lá n.

- L_FRF là ma trận có kích thước T  MAX N , với :
t

MAX Nt  max{N1 , N2 ,..., NT } ,

trong đó mỗi phần tử của ma trận là một véctơ có kích thước I có
support(i) bằng độ hỗ trợ của nút lá n trên cây t. Một số phần tử của ma
trận không chứ thông tin vì tất cả các cây không có lá nào đạt MAX N .
t

Tuy nhiên ma trận L_FRF bao gồm tất cả các thông tin được tạo ra bởi
FRF, trong khi các thông tin này được sử dụng để phân lớp các mẫu e.
- T_FRFt,i là ma trận có kích thước ( T 1 ) bao gồm độ chắc chắn
(confidence) của mỗi cây t đối với mỗi lớp i.
- D_FRFi là một véc tơ có kích thước I, chỉ độ chắc chắn của FRF
đối với mỗi lớp i

b. Phân lớp trong rừng ngẫu nhiên mờ
Phân lớp mờ được P.Bonissone và các cộng sự đưa ra hai dạng
mô hình được gọi là Mô hình 1 (Strategy 1) và Mô hình 2 (Strategy 2)
như sau:

Hình 1.16. Mô hình phân lớp mờ

9
- Mô hình 1 (kí hiệu Strategy 1)
Thuật toán. FRF Classification (strategy 1)
FRFClassification(Input e, Fuzzy Random Forest; Output c)
Begin
DecisionsOfTrees(in: e, Fuzzy Random Forest; out: T_FRF);
DecisionsOfTrees(in: T_FRF; out: c);
End;
DecisionsOfTrees(in: e, Fuzzy Random Forest; out: T_FRF)
Begin
1) Tạo ma trận L_FRF
2) For each tree t do {For each class i do T_FRt,i=Faggre11(t, i,
L_FRF)}
End;
DecisionsOfTrees(in: T_FRF; out: c)
Begin
1) For each class i do D_FRFi=Faggre12(i, L_FRF)
2) c=argmaxi,i=1...I {D_FRFi}
End.
Trong đó, ma trận L_FRF và hàm tổng hợp thông tin Faggre
được xác định như sau:
- Ma trận L_FRF đươc tạo ra bằng cách quét mẫu e trên các cây t

- Các hàm tổng hợp thông tin Fagge coi như trọng số của cây
trong FRF và xác định như sau:

 Nt

L _ FRFt , n, j 
1 if i  arg jmax


;
j

1..
I
Fagge11  t , i, L _ FRF   
 n 1


1 otherwise
T
 errors (OOBT ) 
Faggre12  i, T _ FRF     
  T _ FRFt ,i
t 1
 size(OOBT ) 

Với  là hàm thuộc được xác định:
1
0  x  p min  m arg


 ( p max  m arg)  x
  x  
p min  m arg  x  p max  m arg
 p max  p min
0
p max  m arg  x

10
 errors (OOBt ) 
 là tỷ lệ lỗi lớn nhất
 size(OOBt ) 

Trong đó: p max  max t 1..T 

 errors (OOBt ) 

 size(OOBt ) 

trong các cây của rừng, 

tỷ lệ lỗi của cây t,

errors (OOBt ) số lỗi khi thực hiện phân lớp thực hiện trên cây t sử dụng

dữ liệu kiểm thử OOB, size(OOBt) kích thước của dữ liệu kiểm tra
OOB của cây t. pmin là tỷ lệ lỗi của cây t và m arg 

p max  p min
.

4

Các cây trong FRF bao giờ cũng có trọng số lớn hơn 0. Trọng số
thể hiện tỷ lệ lỗi, vì thế cây có tỷ lệ lỗi thấp nhất thì có trọng số là 1.
Mô hình 2 (kí hiệu Strategy 2)
Thuật toán FRF Classification (Strategy 2)
FRFclassification(in: e, Fuzzy random Forest; out: c) )
Begin)
1. Tạo ma trận L_FRF)
2. For each class i do D_FRFi=Faggre2(I,L_FRF) )
3. c=argmaxi,i=1...I {D_FRFi}
end;
Trong thuật toán này thì ma trận L_FRF được tạo ra thông qua
chạy mẫu e trên cây trong rừng và hàm tổng hợp thông tin Faggre 2 được
xác định bởi công thức sau:
T
 errors (OOBt )  Nt
Faggre2 (i, T _ FRF )    
   T _ FRFt , n ,i
t 1
 size(OOBt )  n 1

(2.4)
 errors (OOBt ) 
 được xác định tương tự
 size(OOBt ) 

Với hàm phụ thuộc  

thuật toán FRF Classification (strategy 1).

11
KẾT CHƯƠNG 1
Trong chương này, tôi đã trình bày khái quát về khai phá dữ liệu,
các bước xây dựng hệ thống khai phá dữ liệu, phân lớp trong khai phá
dữ liệu.
Giới thiệu chung về cây quyết định, thuật toán Random Forest và
Fuzzy Random Forest.
Trong chương tiếp theo, luận văn sẽ trình bày chi tiết cách thức
vận dụng cây quyết định để giải quyết bài toán đánh giá rủi ro và bồi
thường bảo hiểm xe cơ giới.
CHƯƠNG 2
ỨNG DỤNG RỪNG NGẪU NHIÊN MỜ TRONG CÔNG TÁC
ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI
2.1. KHÁI QUÁT VỀ THỊ TRƯỜNG BẢO HIỂM XE CƠ GIỚI
2.2. ĐÁNH GIÁ RỦI RO XE CƠ GIỚI
2.2.1. Khái niệm rủi ro
2.2.2. Khái niệm về đánh giá rủi ro
2.2.3. Phạm vi bảo hiểm
2.2.4. Quy trình đánh giá rủi ro trong bảo hiểm xe cơ giới
2.2.5. Các yếu tố ảnh hưởng đến rủi ro trong bảo hiểm xe cơ
giới
2.3. PHÂN TÍCH HIỆN TRẠNG
2.3.1. Chỉ số trong lĩnh vực kinh doanh bảo hiểm xe cơ giới
2.3.2. Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro
trong bảo hiểm xe cơ giới
2.4. ỨNG DỤNG RỪNG NGẪU NHIÊN MỜ
2.5.1. Phân tích dữ liệu
Có rất nhiều yếu tố ảnh hưởng đến tỉ lệ rủi ro trong bảo hiểm xe

cơ giới như đã nêu ở trên. Tuy nhiên ở đây, chúng tôi chú trọng phân
tích các tập thuộc tính với các yếu tố chính trong bảng dữ liệu sau:

12
- Thuộc tính Giới tính là loại thộc tính Nominal có giá trị [Nam:
1, Nữ: 0]. Thông thường khi mới lái xe (kinh nghiệm lái xe =< 3 năm),
thì nguy cơ rủi ro của nữ thường là cao hơn so với nam.
- Thuộc tính Mục đích sử dụng là loại thộc tính Nominal có giá
trị [kinh doanh:1 , không kinh doanh: 0, chuyên dụng: 2]
+ Xe kinh doanh: Là xe có cấp Giấy phép kinh doanh vận tải
bằng xe ô tô, thường dùng trong các doanh nghiệp vận tải và chuyên
chở khách…
+ Xe không kinh doanh: Là xe sử dụng cá nhân trong cá hộ gia
đình, các doanh nghiệp tư nhân…
+ Xe chuyên dụng: Là xe sử dụng trong các lĩnh vực đặc thù như
xe trong các cơ qua nhà nước, cứu thương, cứu hỏa…
- Thuộc tính Thời gian sử dụng là loại thuộc tính Numeric. Xe
sản xuất càng lâu năm thì nguy cơ rủi ro càng cao.
- Thuộc tính Kinh nghiệm lái xe là loại thuộc tính Numeric. Nếu
kinh nghiệm lái xe càng lâu năm, thì nguy cơ rủi ro càng thấp. Ngược
lại kinh nghiệm lái xe càng ít thì nguy cơ rủi ro càng cao.
- Thuộc tính Bảo dưỡng định kỳ là loại thộc tính Nominal có giá
trị [Có: 1, Không: 0]. Nếu chủ xe thường xuyên bảo dưỡng, kiểm tra
định kỳ, thì chắc chắn sẽ giảm thiểu được rủi ro.
- Thuộc tính Khu vực để xe là loại thộc tính Nominal có giá trị
[Gara: 1, Không: 0]. Đây cũng là yếu tố ảnh hưởng đến mức độ rủi ro
của xe tham gia bảo hiểm. Vì nếu xe không có gara, thì nguy cơ va quẹt
xe nơi đậu đỗ là rất cao
- Thuộc tính Số tiền bồi thường là loại thuộc tính Numeric. Là tỉ

lệ % của số tiền bồi thường so với tổng phí bảo hiểm của năm trước đó.
Nếu tỉ lệ này trên 50% có nghĩa là hợp đồng này trước đó có tại nang,
đồng nghĩa với tỉ lệ rủi ro cao.
- Thuộc tính Phạm vi hoạt động là loại thộc tính Nominal có giá
trị [Trong tỉnh: 1, Ngoài tỉnh: 0]. Nếu xe hoạt động trên địa bàn càng
rộng (ngoài tỉnh). Thì khả năng gặp rủi ro càng cao. Ngược lại nếu xe

13
hoạt động trong tỉnh, thì nguy cơ rủi ro là thấp, thường chỉ va chạm vỏ
xe là chủ yếu.
Trong đó:
+ Numeric: Là các giá trị số hay giá trị liên tục.
+ Nominal: Là các giá trị định danh hay giá trị không liên tục.
Các yếu tố trên chính là các tập thuộc tính, dựa vào tập thuộc tính
này ta sẽ dự đoán giá trị cho thuộc tính đích Rủi ro. Đây là thuộc tính phân
loại. Thuộc tính rủi ro có các giá trị [Thấp: 1, Trung bình: 2, Cao: 3].
2.5.2. Mờ hóa dữ liệu
- Thuộc tính Giới tính, chúng tôi sử dụng hàm membership cho
Nữ và Nam lần lượt là a0(x) và a1(x) được xác định như sau:
1
a0 ( x)  
0

khi x  0
khi x  1

1
a1 ( x)  
0

khi x  1
khi x  0

-Thuộc tính Mục đích kinh doanh, chúng tôi sử dụng hàm
membership cho Không kinh doanh, Kinh doanh và Chuyên dụng lần
lượt là b0(x), b1(x) và b2(x) được xác định như sau:
1
b0 ( x)  
0
1
b2 ( x)  
0

khi x  0
khi x  1, 2

;

1
b1 ( x)  
0

khi x  1
khi x  0, 2

;

khi x  2
khi x  0,1

- Thuộc tính Phạm vi hoạt động, chúng tôi sử dụng hàm
membership cho Ngoại tỉnh và Trong tỉnh lần lượt là a0 và a1.
- Thuộc tính Bảo dưỡng định kì, chúng tôi sử dụng hàm
membership cho Không bảo dưỡng và Có bảo dưỡng lần lượt là a0 và a1.
- Thuộc tính Khu vực đỗ xe, chúng tôi sử dụng hàm membership
cho Không có gara và Có gara lần lượt là a0 và a1.
- Thuộc tính Thời gian sử dụng, Số tiền bồi thường và Kinh
nghiệm lái xe, mỗi thuộc tính chúng tôi phân thành 3 mức: Thấp, Trung
bình, Cao.
+ Đối với mức Thấp, chúng tôi sử dụng hàm membership Zshaped curve xác định như sau:

14
khi x  a

1

2
1  2  x  a 



ba
zmf ( x)  
2
  x b 
2
 ba


 
0

khi a  x 

ab
2

ab
 xb
2
khi x  b
khi

+ Đối với mức Trung bình, chúng tôi sử dụng hàm membership
Gaussian curve xác định như sau:
Gausmf ( x)  e



( x  m )2
2 2

+ Đối với mức Cao, chúng tôi sử dụng hàm membership Sshaped curve xác định như sau:
0

2
2  x  a 
  c  b 
smf ( x)  

2
 xc

1

2



 cb 

1

khi x  b
khi b  x 

bc
2

bc
xc
2
khi x  c
khi

Từ phân tích dữ liệu của 1957 khách hàng chúng tôi ước lượng
các tham số a, b và c của hàm zmf ( x) và smf ( x) như sau:
Thời gian sử dụng Số tiền bồi thường Kinh nghiệm lái xe
a
b

c

0
9.953
15

0
17.733
35

0
8.255
15

Ước lượng tham số m với  của hàm Gausmf ( x) như sau:
m



Thời gian sử dụng
9.953
3.178

Số tiền bồi thường
17.733
11

Kinh nghiệm lái xe
8.255
2.648

Hình 2.1. Đồ thị của hàm membership

15
2.5.3. Xây dựng cây ngẫu nhiên mờ
Bước 1: Tạo mẫu bootstrap 1.
Bước 2. Tạo cây quyết định mờ với dữ liệu bootstrap 1.
Chọn ngẫu nhiên 3 thuộc tính trong 8 thuộc tính; ở đây ta chọn 3
thuộc tính sau: Giới tính, Phạm vi hoạt động, Kinh nghiệm lái xe.
Tính độ lợi thông tin cho 3 thuộc tính ta được:
G f (S, Giới tính) = 0.4129
G f (S, Phạm vi hoạt động) = 0.6030
G f (S, Kinh nghiệm lái xe) = 0.3027
Phạm vi hoạt động có độ lợi thông tin lớn nhất nên được chọn
làm nút góc để tách cây.

Bảng 2.4. Giá trị hàm membership của 10 dữ liệu khách hàng

Bảng 2.5. Mẫu bootstrap 1 của 10 khách hàng

16

Hình 2.2. Bước tách nút lần 1
Tiếp tục như trên cho đến khi điều kiện dừng được thỏa mãn ta sẽ
được cây quyết định mờ.
2.5.4. Mô hình tổng quát

Hình 2.3. Mô hình tổng quát của Fuzzy Random Forest để phân lớp

17
2.5.5. Ước tính độ chính xác của mô hình
Ước tính độ chính xác của mô hình bằng cách sử dụng k-fold
crops validation với k=10.
KẾT CHƯƠNG 2
Trong chương này, tôi đã phân tích hiện trang và các yếu tố ảnh
hưởng đến rủi ro trong bảo hiểm xe cơ giới.
So sánh kết quả phân lớp giữa 2 thuật toán Random Forest và
Fuzzy Random Forest. Phân tích đã trình bày chi tiết quá trình tính toán,
chọn lựa các thuộc tính nhằm xây dựng một cây quyết định trực quan có
khả năng phân loại đúng đắn tập dữ liệu cho trước để xây dựng hệ
thống hỗ trợ đánh giá rủi ro trong bảo hiểm xe cơ giới.
Chương tiếp theo, chúng tôi sẽ trình bày phương pháp xây dựng,
cài đặt và sau đó tiến hành kiểm thử ứng dụng.
CHƯƠNG 3
XÂY DỰNG VÀ THỬ NGHIỆM ỨNG DỤNG
3.1. CHỨC NĂNG HỆ THỐNG
3.1.1. Phân tích yêu cầu
a. Biểu đồ ca sử dụng
b. Biểu đồ hoạt động
c. Biểu đồ tuần tự
d. Triển khai hệ thống
3.1.2. Các chức năng chính
3.2. THỬ NGHIỆM ỨNG DỤNG
- Giao diện đăng nhập hệ thống: Người dùng đăng nhập với tên
đăng nhập và mật khẩu riêng để đăng nhập vào hệ thống.

18

Hình 3.10. Màn hình Đăng nhập hệ thống
➢ Giao diện chính: Có 2 chức năng đó là Huấn luyện dữ liệu và
Tư vấn:

Hình 3.11. Màn hình Menu
➢ Huấn luyện dữ liệu: Đầu tiên ta chon mút Chọn dữ liệu để nạp
dữ liệu huấn luyện (dữ liệu huấn luyện là file excel có phần mở rộng là
*.xls hoặc file CSV, arff).
Phần mô hình hệ thống gồm có 2 mô hình phân lớp Random
Forest và Fuzzy Random Forest. Sau khi chạy hệ thống sẽ sinh ra các

19
tập luật và kết xuất ra kết quả dự đoán khách hàng và lưu trong
database.

Hình 3.12. Màn hình tải dữ liệu huấn luyện
- Mô hình phân lớp với Random Forest

Hình 3.13. Giao diện mô hình phân lớp Random Forest
- Mô hình phân lớp với Fuzzy Random Forest

20

Hình 3.14. Giao diện mô hình phân lớp Fuzzy Random Forest
Trong đó:
+ MaxDepth: Cho thấy độ sâu tối đa của cây. Thường thì chọn 0

để truy xuất đầy đủ dữ liệu, tuy nhiên nếu dữ liệu quá lớn. Thời quan xử
lý quá lâu, cần giới hạn lại độ sâu của cây.
+ NumFeatures: Số lượng các thuộc tính sử dụng khi lựa chọn
ngẫu nhiên để chia nút.
+ NumTree: Số lượng cây được tạo ra.
- Giao diện Tư vấn: Khi chọn chức năng này, hệ thống cho phép
người dùng cập nhật trực tiếp các thông tin của khách hàng mà cán bộ
thậm định cần hệ thống tư vấn tư vấn, sau đó click Xem kết quả, hệ
thống sẽ dựa vào tập luật đã có trong database và xuất kết quả dự đoán
phân lớp khách hàng trong vùng hiện thị Kết quả.
Bảng 3.1. Ví dụ về khách hàng cần tư vấn
Kinh
Bảo Số tiền Khu Phạm vi
Mục Đích
thời gian
Giới
nghiệm
dưỡng bồi vực để hoạt Rủi ro
sử dụngsử dụng
tính
lái xe
định kỳ thường xe
đông
Chưa
Chưa
Kinh
xác
5
Nữ
Có

15
Không
xác
?
doanh
định
định

21

Hình 3.15. Giao diện ứng dụng tư vấn
Với dữ liệu cần tư vấn trong Bảng 3.1 thì chương trình sinh ra 10
tập luật. Trong đó có 6 tập luật nguy cơ rủi ro là TRUNG BÌNH, 4 tập
luật nguy cơ rủi ro là CAO. Từ đây cán bộ thẩm định có thể đưa ra
quyết định 1 cách đúng nhất.
3.3. ĐÁNH GIÁ ĐỘ CHÍ NH XÁC
3.3.1. Mô hin
̀ h Random Forest
a. Kế t quả mô hình phân lớp với Random Frorest
b. Đánh giá đô ̣ chính xác của mô hình
Đánh giá độ chính xác của mô hình bằng cách sử dụng k-fold
croos validation với k=10 Kế t quả với mỗi lầ n cha ̣y là:
Fold 1:
---------------------------Fold 1--------------------------**Ket Qua**
STT PhanLop DuDoan
1 Thap
Thap
2 Thap
Thap

3 Thap
Thap
4 Thap
TrungBinh
5 Thap
Thap
………………………………
194 Thap
Thap
195 TrungBinh
TrungBinh
196 Cao
Cao
Số dự đoán chinh xác là: 188.0/196.0
Độ Chính Xác : 95.91836734693878%

Hình 3.17. Độ chính xác của mô hình Random Forest- fold1

22
************** TỔNG KẾT ******************
Số trường hợp chính xác của Random Forests với 1957 trường hợp =
1790.0
Tỉ lệ chính xác của Random Forests = 91.4665304036791%
***************************************
Hình 3.18. Kết quả độ chính xác của mô hình Random Forest
3.3.2. Mô hình Fuzzy Random Forest
a. Kết quả mô hình phân lớp với Fuzzy Random Forest
b. Đánh giá độ chính xác của mô hình
Đánh giá độ chính xác của mô hình bằng cách sử dụng k-fold

croos validation với k=10. Kết quả với mỗi lần chạy là:
Fold 1:
---------------------------Fold 1--------------------------**Ket Qua**
STT PhanLop
DuDoan
1
Thap
Thap
2
Thap
Thap
3
Thap
Thap
…………………………..
194
Thap
Thap
195
TrungBinh
TrungBinh
196
Cao
Cao
Số dự đoán chinh xác là: 189.0/196.0
Độ Chính Xác : 97.83673469387756%
Hình 3.20. Độ chính xác của mô hình Fuzzy Random Forest – Fold 1
*****************TỔNG KẾT*************************
Số trường hợp chính xác của Fuzzy Random Forests với 1957 trường
hợp = 1790.0

Tỉ lệ chính xác của Fuzzy Random Forests = 93.29586101175269%
*************************************
Hình 3.21. Kết quả độ chính xác của mô hình Fuzzy Random Forest

23
2.3.3. So sánh độ chính xác giữa mô hình Random Forest và
Fuzzy Random Forest
Bảng 3.2. So sánh độ chính xác giữa Random Forest và Fuzzy Random
Forest
Phương pháp

Độ chính xác

Độ sai lệch

Random Forest

91.46%

8.54%

0.32 giây

Fuzzy Random Forest

93.29%

6.71%

0.34 giây

Thời gian

Kết quả Bảng 3.2 cho thấy 2 thuật toán Random Forest và Fuzzy
Random Forest đều có tốc độ xử lý nhanh và gần bằng nhau. Do đó sẽ rất
tiết kiệm thời gian khi áp dụng xử lý cho những khối dữ liệu lớn. Do đó
sẽ rất tiết kiệm thời gian khi áp dụng xử lý cho những khối dữ liệu lớn.
Tuy nhiên, độ chính xác của thuật toán Fuzzy Random Forest
(93.29%) tương đối tốt hơn thuật toán Random Forest (91.46%).
KẾT CHƯƠNG 3
Trong chương này, luận văn đã trình bày các chức năng của hệ
thống, xây dựng và kiểm thử ứng dụng dựa trên những số liệu cụ thể từ
Công ty Cổ phần Bảo hiểm AAA tại Quảng Ngãi. Hệ thống trợ giúp
cho cán bộ thẩm định dễ dàng phát hiện ra các trường hợp khách hàng
có mức độ rủi ro cao. Qua đó đưa ra những quyết định hợp lý nhằm
tăng hiệu quả kinh doanh trong đơn vị.

Ứng dụng thuật toán rừng ngẫu nhiên mờ để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về