BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
PHAN TRỌNG HẢI
ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI
RO TRONG BẢO HIỂM XE CƠ GIỚI
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04
TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
Đà Nẵng – Năm 2016
Công trình được hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG
Ngƣời hƣớng dẫn khoa học: TS. Nguyễn Trần Quốc Vinh
Phản biện 1: PGS.TS Nguyễn Tấn Khôi
Phản biện 2: TS. Nguyễn Hoàng Hải
Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp
thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày ... tháng ... năm
2016.
* Có thể tìm hiểu luận văn tại:
Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng
1
MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây, việc ứng dụng cộng nghệ thông tin
ngày càng rộng khắp. Vấn đề khai phá dữ liệu đã và đang ứng dụng
thành công vào rất nhiều các lĩnh vực khác nhau như: Bảo hiểm, tài
chính, y học, giáo dục và viễn thông v.v.
Mặt khác, cùng với sự phát triển mạnh mẽ của nền kinh tế và
đời sống xã hội, nhu cầu vận chuyển và tham gia giao thông bằng xe
cơ giới ở nước ta không ngừng tăng cao, mà còn đa dạng và phong
phú về chủng loại.
Theo thống kê, dân số tại Quảng Ngãi hiện có 1.200.000 người,
tập trung ở 12 huyện và thành phố. Trong đó có khoản 593.243
phương tiện cơ giới tham gia giao thông và có 20.114 ô tô, 573.129
môtô, xe máy. Theo số liệu của Ủy ban An toàn giao thông tỉnh
Quảng Ngãi, trong năm 2015 có khoản 792 vụ tại nạng giao thông,
làm hỏng 1.467 phương tiện ô tô xe máy các loại, đa số tập trung ở
các vùng đồng bằng.
Trong khi đó, hệ thống hạ tầng giao thông chưa thể đáp ứng tốt
nhu cầu lưu thông của một lượng xe cơ giới lớn như hiện nay. Những
người tham gia giao thông đều hiểu rằng, tai nạn có thể xảy ra bất kỳ
lúc nào, cho bất kỳ ai với những hậu quả khôn lường. Vì vậy, bảo
hiểm xe cơ giới đã ra đời và trở thành một nhu cầu thiết yếu với
những người tham gia điều khiển phương tiện giao thông. Điều này
đã mở ra những cơ hội lớn cho các công ty bảo hiểm xe cơ giới.
Những công ty nào có dịch vụ tốt, sẽ chiếm lĩnh được tỉ lệ khách
2
hàng nhiều hơn.
Trong lĩnh vực kinh doanh này, công tác đánh giá rủi ro xe cơ
giới rất quan trọng và hết sức phức tạp. Quy trình tác nghiệp đòi hỏi
người thẩm định vừa phải có trình độ chuyên môn nghiệp vụ cao, vừa
phải có nhiều kinh nghiệm thực tiễn. Hầu hết các công ty đều chỉ chú
trọng đến vấn đề doanh thu mà ít quan tâm đến công tác đánh giá rủi
ro, đa phần đều thủ công sơ sài và cảm tính. Vì vậy, hiệu quả kinh
doanh thường không như mong muốn.
Mặt khác, vấn đề giải quyết bồi thường khi có tổn thất xảy ra
cần “Nhanh, Đúng, Đủ” sẽ mang lại cho khách hàng niềm tin, cũng
như sự sẻ chia những rủi ro mà họ gặp phải. Vấn đề bồi thường sau
tai nạn mang tính nhạy cảm rất cao và tác động không nhỏ đến tính
hiệu quả của hoạt động kinh doanh bảo hiểm.
Nắm bắt được vấn đề trên cũng như tính cấp thiết của hoạt
động đánh giá rủi ro và bồi thường tổn thất trong bảo hiểm xe cơ
giới, tôi thấy cần phải xây dựng và triển khai hệ thống ứng dụng công
nghệ thông tin nhằm đáp ứng nhu cầu phân tích, xử lý và hỗ trợ đến
mức tối đa cho công tác đánh giá và bồi thường rủi ro trong bảo hiểm
xe cơ giới.
Xuất phát từ những lý do trên được sự đồng ý của TS. Nguyễn
Trần Quốc Vinh, tôi chọn đề tài: “Ứng Dụng Khai Phá Dữ Liệu Để
Xây Dựng Hệ Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo Hiểm Xe
Cơ Giới” để làm luận văn thạc sĩ.
2. Mục tiêu nghiên cứu
Nghiên cứu các thuật toán liên quan đến cây quyết định. Phân
3
tích, so sánh, đánh giá và triển khai áp dụng thuật toán C4.5 và
Random Forest.
Trên cơ sở phân tích thực trạng và đề ra giải pháp ứng dụng
công nghệ thông tin. Hướng đến là xây dựng hệ thống trợ giúp đánh
giá rủi ro xe cơ giới, đảm bảo đầy đủ các yêu cầu về mặt chuyên môn
trong lĩnh vực bảo hiểm xe cơ giới.
3. Đối tƣợng và phạm vi nghiên cứu
3.1. Đối tƣợng nghiên cứu
- Quy trình đánh giá rủi ro xe cơ giới.
- Các vấn đề liên quan đến độ rủi ro trong bảo hiểm xe cơ giới.
- Hồ sơ khách hàng tham gia mua bảo hiểm xe cơ giới tại Công
ty Cổ phần bảo hiểm AAA tại Quảng Ngãi.
- Nghiên cứu về phân lớp dữ liệu trong khai phá dữ liệu.
3.2. Phạm vi nghiên cứu
- Kỹ thuật khai phá dữ liệu cây quyết định C4.5 và Random
Forest.
- Số liệu kinh doanh của Công ty Cổ phần Bảo hiểm AAA tại
Quảng Ngãi trong khoảng thời gian 2012, 2013, 2014.
4. Phƣơng pháp nghiên cứu
4.1. Nghiên cứu lý thuyết
- Nghiên cứu tài liệu, ngôn ngữ và các công nghệ có liên quan.
- Khai phá dữ liệu và phân lớp dữ liệu.
- Giải thuật xây dựng cây quyết định.
- Nghiên cứu về Thuật toán C4.5 và Random Forest trong việc
dự đoán và phân loại thông tin.
4
4.2. Nghiên cứu thực nghiệm
- Tiến hành thu thập và tổng hợp các tài liệu liên quan đến quy
trình thẩm định và đánh giá hồ sơ đối với lĩnh vực bảo hiểm xe cơ
giới.
- Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến
hành kiểm thử so sánh đánh giá hiệu suất của ứng dụng.
5. Dự kiến kết quả
5.1. Kết quả về lý thuyết
Hiểu thêm được phương pháp khai phá dữ liệu.
- Ứng dụng phương pháp khai phá dữ liệu vào dự đoán tính rủi
ro trong khai thác bảo hiểm hiện tại nhằm nâng cao hiệu quả kinh
doanh trong đơn vị.
5.2. Kết quả thực tiễn
Xây dựng hệ thống hỗ trợ đánh giá rủi ro cho xe cơ giới tại
Công ty Cổ phần Bảo hiểm AAA tại Quảng Ngãi.
Hệ thống giúp đánh giá rủi ro nhanh chóng nhưng vẫn đảm
bảo về mặt tối ưu, có chức năng cơ bản và dễ sử dụng.
6. Ý nghĩa khoa học và thực tiễn của luận văn
Áp dụng lý thuyết về khai phá dữ liệu vào bài toán đánh giá rủi
ro trong khai thác bảo hiểm cho xe cơ giới.
Về mặt thực tiễn, ứng dụng có khả năng phân tích dữ liệu kinh
doanh của công ty trong những năm gần đây và qua đó có khả năng
phát hiện ra các trường hợp bảo hiểm xe cơ giới có mức độ rủi ro
cao.
5
Giúp cho việc dự đoán nhằm hỗ trợ ra quyết định một cách
khoa học, tránh được các tình huống bồi thường theo cảm tính, hạn
chế các trường hợp rủi ro và tăng hiệu quả kinh doanh của công ty.
7. Bố cục luận văn
Chương 1: Nghiên cứu tổng quan
Chương 2: Ứng dụng cây quyết định trong công tác đánh giá
rủi ro và bồi thường bảo hiểm xe cơ giới.
Chương 3: Xây dựng và thử nghiệm ứng dụng.
Cuối cùng là những đánh giá, kết luận và hướng phát triển của
đề tài.
6
CHƯƠNG 1
NGHIÊN CỨU TỔNG QUAN
1.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1.1. Sơ lƣợc về khai phá dữ liệu
Trong thời đại ngày nay, cùng với sự phát triển vượt bật của
công nghệ thông tin, các hệ thống thông tin có thể lưu trữ một khối
lượng lớn dữ liệu về hoạt động hàng ngày của chúng. Từ khối dữ liệu
này, các kỹ thuật trong khai phá dữ liệu (KPDL) và máy học (MH) có
thể dùng để trích xuất những thông tin hữu ích mà chúng ta chưa biết.
Các tri thức vừa học được có thể vận dụng để cải thiện hiệu quả hoạt
động của hệ thống thông tin ban đầu.
Khái niệm khai phá dữ liệu là “quá trình khảo sát và phân tích
một lượng lớn các dữ liệu được lưu trữ trong các CSDL, kho dữ
liệu… để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm
ẩn bên trong”.
1.1.2. Các kỹ thuật áp dụng trong khai phá dữ liệu
Học có giám sát: Là quá trình gán nhãn lớp cho các phần tử
trong CSDL dựa trên một tập các ví dụ huấn luyện và các thông tin
về nhãn lớp đã biết.
Học không có giám sát: Là quá trình phân chia một tập dữ liệu
thành các lớp hay cụm dữ liệu tương tự nhau mà chưa biết trước các
thông tin về lớp hay tập các ví dụ huấn luyện.
7
Học nửa giám sát: Là quá trình phân chia một tập dữ liệu thành
các lớp dựa trên một tập nhỏ các ví dụ huấn luyện và các thông tin về
một số nhãn lớp đã biết trước.
1.1.3. Các bƣớc xây dựng hệ thống khai phá dữ liệu
1.1.4. Ứng dụng của khai phá dữ liệu
1.1.5. Khó khăn trong khai phá dữ liệu
1.2. PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU
1.2.1. Phân lớp dữ liệu
Phân lớp dữ liệu là gán các mẫu mới vào các lớp với độ chính
xác cao nhất để dự báo cho các bộ dữ liệu (mẫu) mới.
Đầu vào là một tập các mẫu dữ liệu huấn luyện, với một nhãn
phân lớp cho mỗi mẫu dữ liệu. Đầu ra là mô hình dự đoán (bộ phân
lớp) dựa trên tập huấn luyện và những nhãn phân lớp.
1.2.2. Quá trình phân lớp dữ liệu
Bước thứ nhất (learning): quá trình học nhằm xây dựng một mô hình
mô tả tập các lớp dữ liệu hay các khái niệm định trước.
Bước thứ hai (classification): bước này dùng mô hình đã xây dựng
được ở bước thứ nhất để phân lớp dữ liệu mới.
1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu
1.3. GIỚI THIỆU CÂY QUYẾT ĐỊNH
1.3.1. Giới thiệu chung
1.3.2. Ƣu điểm của cây quyết định
1.3.3. Các luật đƣợc rút ra từ cây quyết định
1.4. THUẬT TOÁN C4.5
1.4.1. Giới thiệu
8
Giải thuật C4.5 biểu diễn các khái niệm ở dạng các cây quyết
định. Biểu diễn này cho phép chúng ta xác định phân loại của một
đối tượng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính
nào đó.
Đầu vào: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc
tính mô tả một tình huống, hay một đối tượng nào đó, và một giá trị
phân loại của nó.
Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví
dụ trong tập dữ liệu huấn luyện, và hy vọng là phân loại đúng cho cả
các ví dụ chưa gặp trong tương lai.
1.4.2. Giải thuật C4.5 xây dựng cây quyết định từ trên
xuống
1.4.3. Chọn thuộc tính phân loại tốt nhất
1.4.4. Entropy đo tính thuần nhất của tập ví dụ
Khái niệm entropy của một tập S được định nghĩa trong lý
thuyết thông tin là số lượng mong đợi các bit cần thiết để mã hóa
thông tin về lớp của một thành viên rút ra một cách ngẫu nhiên từ tập
S. Trong trường hợp tối ưu, mã có độ dài ngắn nhất. Theo lý thuyết
thông tin, mã có độ dài tối ưu là mã gán –log2p bit cho thông điệp có
xác suất là p.
Trong trường hợp S là tập ví dụ, thì thành viên của S là một ví
dụ, mỗi ví dụ thuộc một lớp hay có một giá trị phân loại.
Entropy có giá trị nằm trong khoảng [0..1].
Entropy(S) = 0: tập ví dụ S chỉ toàn thuộc cùng một loại, hay S
là thuần nhất.
9
Entropy(S) = 1: tập ví dụ S có các ví dụ thuộc các loại là bằng
nhau.
0 < Entropy(S) < 1: tập ví dụ S có số lượng ví dụ thuộc các loại
khác nhau là không bằng nhau.
Tập S là tập dữ liệu huấn luyện, trong đó thuộc tính phân loại
có hai giá trị, giả sử là âm (-) và dương (+). Trong đó:
p+ là phần các ví dụ dương trong tập S.
p_ là phần các ví dụ âm trong tập S.
Khi đó, entropy đo độ pha trộn của tập S theo công thức sau:
Entropy(S) = -p+ log2 p+ - p- log2 pCông thức Entropy tổng quát là:
Entrop y (S)
c
p log
i 1
i
2
pi
Entropy là số đo độ pha trộn của một tập ví dụ, bây giờ chúng
ta sẽ định nghĩa một phép đo hiệu suất phân loại các ví dụ của một
thuộc tính. Phép đo này gọi là lượng thông tin thu được (hay độ lợi
thông tin), nó đơn giản là lượng giảm entropy mong đợi gây ra bởi
việc phân chia các ví dụ theo thuộc tính này.
Một cách chính xác hơn, Gain(S, A) của thuộc tính A, trên tập S,
được định nghĩa như sau:
Gain(S, A) Entropy(S)
VValue(A)
SV
S
Entropy(SV )
Giá trị Value (A) là tập các giá trị có thể cho thuộc tính A, và
Sv là tập con của S mà A nhận giá trị v.
1.4.5. Tỷ suất lợi ích Gain Ratio
10
Thuật toán C4.5, một cải tiến của ID3, mở rộng cách
tính Information Gain thành Gain Ratio để cố gắng khắc phục sự
thiên lệch.
Gain Ratio được xác định bởi công thức sau:
GainRatio(S, A)
Gain(S, A)
SplitInformation(S, A)
Trong đó, SplitInformation(S, A) chính là thông tin do phân tách của
A trên cơ sở giá trị của thuộc tính phân loại S. Công thức tính như
sau:
c
Si
S
log 2 i
|S|
i 1 | S |
SplitInformation(S, A)
1.4.6. Chuyển cây về dạng luật
1.5. RANDOM FOREST
1.5.1. Cơ sở và định nghĩa
Random Forest là một phương pháp học quần thể để phân loại,
hồi quy và các nhiệm vụ khác, hoạt động bằng cách xây dựng vô số
các cây quyết định trong thời gian đào tạo và đầu ra của lớp là mô
hình phân lớp hoặc hồi quy của những cây riêng biệt. Nó như là một
nhóm phân loại và hồi quy cây không cắt tỉa được làm từ các lựa
chọn ngẫu nhiên của các mẫu dữ liệu huấn luyện. Tính năng ngẫu
nhiên được chọn trong quá trình cảm ứng. Dự đoán được thực hiện
bằng cách kết hợp (đa số phiếu để phân loại hoặc trung bình cho hồi
quy) dự đoán của quần thể.
1.5.2. Tóm tắt giải thuật
Đầu vào: là tập dữ liệu đào tạo.
11
Đầu ra: là mô hình Random Forest, Random Forest là tập hợp
nhiều cây quyết định n tree.
Với mỗi Cây n tree được xây dựng bằng các sử dụng thuật toán
sau:
Với N là số lượng các trường hợp của dữ liệu đào tạo, M là số
lượng các biến trong việc phân loại.
Lấy m là số các biến đầu vào được sử dụng để xác định việc
phân chia tại 1 Nút của cây, m < M.
Chọn 1 tập huấn luyện cho cây bằng cách chọn n ngẫu nhiên
với sự thay thế từ tất cả các trường hợp đào tạo có sẵn N. Sử dụng
các phần còn lại để ước lượng các lỗi của cây, bằng cách dự đoán các
lớp của chúng.
Với mỗi nút của cây, chọn ngẫu nhiên m là cơ sở phân chia tại
nút đó (độc lập với mỗi nút). Tính chia tốt nhất dựa trên các biến m
trong tập huấn luyện n.
Mỗi cây được trồng hoàn toàn và không tỉa (có thể được sử
dụng trong vệ xây dựng một bộ phân loại như các cây bình thường).
Đối với mỗi dự đoán mới được đưa vào. Nó được gán nhãn của
mẫu đạo tạo trong các nút cuối để kết thúc. Thủ tục sẽ được lập lại
qua tất cả các cây Ntree, và số phiếu bình chọn (với phân lớp) hay
trung bình (với hồi quy) của các cây Ntree là dự đoán của rừng ngẫu
nhiên.
12
1.5.3. Mô hình phân lớp với Random Forest
Hình 1.1. Mô hình phân lớp với Random Forest
1.5.4. Tạo ra n tập dữ liệu huấn luyện bằng cách sử dụng
Bootstrap
1.5.5. X y dựng c y ngẫu nhiên
1.5.6. Tạo cây ngẫu nhiên
1.5.7. Đặc điểm của Random Forest
13
CHƯƠNG 2
ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG CÔNG TÁC ĐÁNH
GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI
2.1. KHÁI QUÁT VỀ THỊ TRƢỜNG BẢO HIỂM XE CƠ GIỚI
2.2. ĐÁNH GIÁ RỦI RO XE CƠ GIỚI
2.2.1. Khái niệm rủi ro
2.2.2. Khái niệm về đánh giá rủi ro
2.2.3. Phạm vi bảo hiểm
2.2.4. Quy trình đánh giá rủi ro trong bảo hiểm xe cơ giới
2.2.5. Các yếu tố ảnh hƣởng đến rủi ro trong bảo hiểm xe
cơ giới
2.3. PHÂN TÍCH HIỆN TRẠNG
2.3.1. Chỉ số trong lĩnh vực kinh doanh bảo hiểm xe cơ giới
2.3.2. Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi
ro trong bảo hiểm xe cơ giới
2.4. SO SÁNH KẾT QUẢ PHÂN LỚP GIỮA 2 THUẬT TOÁN
C4.5 VÀ RANDOM FOREST
2.5. ỨNG DỤNG CÂY QUYẾT ĐỊNH
2.5.1. Phân tích dữ liệu
2.5.2. Xây dựng mô hình phân lớp với Random Forest
Xây dựng mô hình phân lớp với dữ liệu đầu vào là bảng dữ liệu
của 1724 hồ sơ khách hàng với 9 thuộc tính và thuộc tính cần phân
lớp là: RỦI RO, như sau:
14
Trước hết xác định 2 giá trị quan trọng của Random Forest là
numTree (số cây của rừng) và numFeatures (số biến được lựa chọn
để chia nút).
Ta xây dựng Random Forest gồm numTree cây phân lớp.
Mỗi cây phân lớp được xây dựng với các bước sau:
Bước 1: Tạo tập huấn luyện bằng các sử dụng bootstrap
Dữ liệu đào tạo [1724 khách hàng]
Dữ liệu huấn luyện
[1724 khách hàng]
OOB [586 khách hàng]
Hình 2.1. Tạo bootstrap
Bước 2: Xây dựng một cây quyết định ngẫu nhiên
Thuộc tính
?
?
?
Hình 2.2. Cấu trúc cây ngẫu nhiên
Bước 3: Chọn nút chia tốt nhất bằng cách tính theo giá trị
GAIN. Lập lại như vậy với mỗi nút cho đến khi cây không thể chia
nữa.
Cuối cùng ta được Random Forest với numTree cây.
15
Hình 2.3. Mô hình Random Forest với numtree cây
2.5.3. Mô hình tổng quát
Hình2.4. Mô hình tổng quát của Random Forest để phân lớp
2.5.4. Ƣớc tính độ chính xác của mô hình
16
CHƯƠNG 3
XÂY DỰNG VÀ THỬ NGHIỆM ỨNG DỤNG
3.1. CHỨC NĂNG HỆ THỐNG
3.1.1. Các chức năng chính
3.1.2. Phân tích yêu cầu
a. Biểu đồ ca sử dụng
b. Biểu đồ hoạt động
c. Biểu đồ tuần tự
d. Triển khai hệ thống
3.2. THỬ NGHIỆM ỨNG DỤNG
Giao diện đăng nhập hệ thống: Người dùng đăng nhập với
tên đăng nhập và mật khẩu riêng để đăng nhập vào hệ thống.
Hình 3.1. Màn hình Đăng nhập hệ thống
17
Giao diện chính: Có 2 chức năng đó là Huấn Luyện Dữ
Liệu và Tư Vấn:
Hình 3.2. Màn hình Menu
Huấn Luyện Dữ Liệu: Đầu tiên ta chon mút Chọn dữ liệu để
nạp dữ liệu huấn luyện (dữ liệu huấn luyện là file excel có phần mở
rộng là *.xls hoặc file CSV, arff)
Phần mô hình hệ thống gồm có 2 mô hình phân lớp Decision
tree (C4.5) và Random Forest. Sau khi chay hệ thống sẽ sinh ra các
tập luật và kết xuất ra kết quả dự đoán khách hàng và lưu trong
database.
18
Hình 3.3. Màn hình tải dữ liệu huấn luyện
19
Mô hình phân lớp là Decision tree (C4.5)
Hình 3.4. Giao diện mô hình phân lớp Decision tree (C4.5)
20
Mô hình phân lớp với Random Forest
Hình 3.5. Giao diện mô hình phân lớp Random Forest
Giao diện Tư Vấn: Khi chọn chức năng này, hệ thống cho
phép người dùng cập nhật trực tiếp các thông tin của khách hàng mà
cán bộ thậm định cần hệ thống tư vấn tư vấn, sau đó click Xem Kết
Quả, hệ thống sẽ dựa vào tập luật đã có trong database và xuất kết
quả dự đoán phân lớp khách hàng trong vùng hiện thị Kết Quả.
21
Hình 3.6. Giao diện ứng dụng tư vấn
22
3.3. ĐÁNH GIÁ Đ
CH NH XÁC
3.3.1. Mô hình c y quyết định bằng thuật toán C4.5
a.
t qu
b.
nh gi độ ch nh
h nh c
qu t đ nh
cc a
ng thu t to n
h nh
Hình 3.7. Độ chính xác của mô hình cây quyết định
bằng C4.5- fold 1
Hình 3.8. Kết quả độ chính xác của mô hình cây quyết định C4.5
3.3.2. Mô hình Random Forest
a.
t qu
b.
nh gi độ ch nh
h nh ph n
p v i ando
cc a
rorest
h nh
Đánh giá độ chính xác của mô hình bằng cách sử dụng k-fold croos
validation với k=10 Kết quả với mỗi lần chạy là:
23
Fold 1:
Hình 3.9. Độ chính xác của mô hình Random Forest- fold1
Hình 3.10. Kết quả Độ chính xác của mô hình Random Forest
3.4. SO SÁNH Đ
CH NH XÁC GIỮA MÔ HÌNH C4.5 VÀ
RANDOM FOREST
Bảng 3.1. So sánh độ chính xác giữa C4.5 và Random Forest
Phương pháp
Độ
chính xác
Độ sai lệch
Thời gian
Random Forest
84.74 %
15.26 %
8~9 giây
83.23 %
16.77 %
2 giây
C4.5
Kết quả bảng 3.2 cho thấy thuật toán C4.5 có tốc độ xử lý
nhanh, mất khoản 2 giây, trong khi đó đối với Random Forest mất
khoảng 8~9 giây. Do đó sẽ rất tiết kiệm thời gian khi áp dụng xử lý
cho những khối dữ liệu lớn.
Tuy nhiên, độ chính xác của thuật toán Random Forest (84.74
%) tương đối tốt hơn thuật toán C4.5 (83.23 %).