Tải bản đầy đủ (.pdf) (64 trang)

Ứng dụng phân cụm dữ liệu trong quản lý bảo hiểm tại công ty bảo việt nhân thọ hà nội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.37 MB, 64 trang )

1

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN
THÔNG

ĐỖ PHƯƠNG DUNG
ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG QUẢN LÝ BẢO HIỂM
TẠI CÔNG TY BẢO VIỆT NHÂN THỌ HÀ NỘI

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN, 2018


2

LỜI CAM ĐOAN
Em xin cam đoan luận văn này là công trình do em tự nghiên cứu dưới
sự hướng dẫn của thầy giáo Nguyễn Tân Ân. Mọi trích dẫn sử dụng trong báo
cáo đều được ghi rõ nguồn tài liệu tham khảo theo quy định.
Thái Nguyên, ngày 06 tháng 04 năm 2018
Tác giả luận văn

Đỗ Phương Dung


3

LỜI CẢM ƠN
Trước hết, tôi xin bày tỏ lòng kính trọng và lòng biết ơn sâu sắc tới thầy


giáo PGS.TS Nguyễn Tân Ân, người đã tận tình hướng dẫn, chỉ bảo và cung
cấp những tài liệu rất hữu ích để tôi có thể hoàn thành luận văn.
Tôi cũng xin cảm ơn lãnh đạo Trường Đại học Công nghệ Thông tin và
Truyền thông - Đại học Thái Nguyên đã tạo điều kiện giúp đỡ tôi về mọi mặt
trong suốt quá trình học tập và thực hiện luận văn.
Tôi xin bày tỏ lòng biết ơn tới các thầy, cô giáo đã giảng dạy, truyền
đạt kiến thức, và phương pháp nghiên cứu khoa học trong suốt thời gian học
tập vừa qua.
Cuối cùng, tôi gửi lời cảm ơn tới gia đình, các anh chị em học viên cao
học CK15B, các bạn đồng nghiẹp đã động viên, khích lệ và luôn tạo điều kiện
giúp đỡ tôi trong quá trình học tập và nghiên cứu.

Thái Nguyên, ngày 06 tháng 04 năm 2018
Tác giả luận văn

Đỗ Phương Dung


4

MỤC LỤC
LỜI CAM ĐOAN...........................................................................................................................1
LỜI CẢM ƠN .................................................................................................................................3
MỤC LỤC .......................................................................................................................................4
DANH MỤC CÁC TỪ VIẾT TẮT............................................................................................6
DANH MỤC HÌNH VẼ................................................................................................................7
MỞ ĐẦU ..........................................................................................................................................8
CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ
DỮ LIỆU ....................................................................................................................................... 10
1.1. Giới thiệu chung về khám phá tri thức và khai phá dữ liệu ........................... 10

1.2. Quá trình khám phá tri thức ........................................................................... 11
1.3. Quá trình khai phá dữ liệu .............................................................................. 12
1.4. Các phương pháp khai phá dữ liệu................................................................. 13
1.5. Các lĩnh vực ứng dụng thực tiễn của KPDL .................................................. 14
1.6. Các hướng tiếp cận cơ bản và kỹ thuật áp dụng trong KPDL ....................... 15
1.7. Kết luận .......................................................................................................... 17
CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONG
PHÂN CỤM DỮ LIỆU.............................................................................................................. 19
2.1. Khái niệm và mục tiêu của phân cụm dữ liệu ................................................ 19
2.2. Các ứng dụng của phân cụm dữ liệu .............................................................. 20
2.3. Các yêu cầu của phân cụm ............................................................................. 21
2.4. Những kỹ thuật tiếp cận trong phân cụm dữ liệu ........................................... 23
2.4.1. Phương pháp phân cụm phân hoạch .......................................................23
2.4.2. Phương pháp phân cụm phân cấp ...........................................................29
2.4.3. Phương pháp phân cụm dựa trên mật độ.................................................35
2.4.4. Phương pháp phân cụm dựa trên lưới .....................................................39
2.4.5. Phương pháp phân cụm dựa trên mô hình ..............................................40
2.4.6. Phương pháp phân cụm có dữ liệu rằng buộc .........................................41
CHƯƠNG 3: BÀI TOÁN ỨNG DỤNG ................................................................................ 43
3.1. Đặt bài toán .................................................................................................... 43
3.2. Giải quyết bài toán ......................................................................................... 44
3.3. Lý thuyết áp dụng........................................................................................... 45
3.4. Chương trình ứng dụng .................................................................................. 45


5
3.5. Đánh giá kết quả............................................................................................. 48
HƯỚNG NGHIÊN CỨU TIẾP THEO ................................................................................. 52
TÀI LIỆU THAM KHẢO ........................................................................................................ 53
PHỤ LỤC...................................................................................................................................... 54

Phụ lục 1: Hướng dẫn sử dụng chương trình ........................................................ 54
Phụ lục 2: Mã nguồn trang Phân cụm của chương trình ....................................... 57


6

DANH MỤC CÁC TỪ VIẾT TẮT
STT

Viết tắt

Cụm từ

1.

CNTT

Công nghệ thông tin

2.

CSDL

Cơ sở dữ liệu

3.

KPDL

Khai phá dữ liệu


4.

PCDL

Phân cụm dữ liệu


7

DANH MỤC HÌNH VẼ
Tên hình vẽ

STT

1. Hình 1.1: Quá trình Khai phá tri thức
2. Hình 1.2: Quá trình Khai phá dữ liệu
3. Hình 2.1: Các thiết lập để xác định ranh giới các cụm ban đầu
4. Hình 2.2: Tính toán trọng tâm của các cụm mới
5. Hình 2.3: Phân cụm phân cấp Top-down và Bottom-up
6. Hình 2.4: Các cụm dữ liệu theo thuật toán CURE
7. Hình 2.5: Cấu trúc cây CF
8. Hình 2.6: Một số hình dạng cụm dữ liệu khám phá được bởi kỹ thuật
PCDL dựa trên mật độ
9. Hình 2.7: Mô hình cấu trúc dữ liệu lưới


8

MỞ ĐẦU

Sự phát triển của Công nghệ thông tin và việc ứng dụng công nghệ
thông tin trong các lĩnh vực của đời sống kinh tế, xã hội trong nhiều năm qua
dẫn đến dữ liệu được thu thập và lưu trữ ngày càng đa dạng và phong phú.
Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kĩ
thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ thành các
tri thức có ích. Từ đó, các kĩ thuật Khai phá dữ liệu đã trở thành một lĩnh vực
thời sự của nền Công nghệ thông tin thế giới hiện nay. Một vấn đề được đặt ra
là phải làm sao trích chọn được những thông tin có ý nghĩa từ tập dữ liệu lớn
để từ đó có thể giải quyết được các yêu cầu của thực tế như trợ giúp ra quyết
định và dự đoán,…
Khai phá dữ liệu (Data mining) đã ra đời nhằm giải quyết các yêu cầu
đó. Khai phá dữ liệu được định nghĩa là: quá trình trích xuất các thông tin có
giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các Cơ sở dữ
liệu, kho dữ liệu… Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn
dùng một số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ Cơ
sở dữ liệu (knowlegde mining from databases), trích lọc dữ liệu (knowlegde
extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu
(data archaeology), nạo vét dữ liệu (data dredging). Nhiều người coi khai phá
dữ liệu và một thuật ngữ thông dụng khác là khám phá tri thức trong Cơ sở dữ
liệu (Knowlegde Discovery in Databases) là như nhau. Tuy nhiên trên thực tế,
khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình Khám phá tri thức
trong Cơ sở dữ liệu.
Ngay từ những ngày đầu khi xuất hiện, Data mining đã trở thành một
trong những xu hướng nghiên cứu phổ biến trong lĩnh vực học máy tính và
công nghệ tri thức. Nhiều thành tựu nghiên cứu của Data mining đã được áp


9

dụng trong thực tế. Data mining có nhiều hướng quan trọng và một trong các

hướng đó là phân cụm dữ liệu (Data Clustering). Phân cụm dữ liệu là quá
trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các
phần tử trong một cụm "tương tự" (Similar) với nhau và các phần tử trong
các cụm khác nhau sẽ "phi tương tự" (Dissimilar) với nhau. Số các cụm dữ
liệu được phân ở đây có thể được xác định trước theo kinh nghiệm hoặc có
thể được tự động xác định. Phân cụm dữ liệu đặc biệt hiệu quả khi ta không
biết thông tin của các cụm. Phân cụm được coi như một công cụ độc lập để
xem xét phân bố dữ liệu. Hiện nay, phân cụm dữ liệu là một hướng được
nghiên cứu rất nhiều trong tin học. Chính vì vậy em chọn đề tài “Ứng dụng
phân cụm dữ liệu trong quản lý bảo hiểm tại công ty Bảo Việt nhân thọ Hà
Nội” để ứng dụng thuật toán của phân cụm dữ liệu để đưa ra nhóm khách
hàng có sự giống nhau là lớn nhất và từ đó có thể giúp cho các chuyên ra đưa
ra các đánh giá về các mẫu khách hàng, trên cơ sở hồ sơ mua bảo hiểm gồm
các thông tin độ tuổi, số tiền, số năm mua.


10

CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC
VÀ KHAI PHÁ DỮ LIỆU
1.1. Giới thiệu chung về khám phá tri thức và khai phá dữ liệu
Nếu ta cho rằng, điện tử và truyền thông chính là bản chất của khoa học
điện tử, thì dữ liệu, thông tin, và tri thức hiện đang là tiêu điểm của một lĩnh
vực mới để nghiên cứu và ứng dụng, đó là khám phá tri thức và khai phá dữ
liệu.
Thông thường, chúng ta coi dữ liệu như là một chuỗi các bits, hoặc các
số và các ký hiệu hay là các “đối tượng” với một ý nghĩa nào đó khi được gửi
cho một chương trình dưới một dạng nhất định. Các bits thường được sử dụng
để đo thông tin, và xem nó như là dữ liệu đã được loại bỏ phần tử thừa, lặp
lại, và rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu. Tri

thức được xem như là các thông tin tích hợp, bao gồm các sự kiện và mối
quan hệ giữa chúng, đã được nhận thức, khám phá, hoặc nghiên cứu. Nói cách
khác, tri thức có thể được coi là dữ liệu ở mức độ cao của sự trừu tượng và
tổng quát.
Khám phá tri thức hay phát hiện tri thức trong CSDL là một quy trình
nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: Phân
tích, tổng hợp, hợp thức, khả ích và có thể hiểu được.
Khai phá dữ liệu là một bước trong quá trình khám phá tri thức, gồm
các thuật toán khai thác dữ liệu chuyên dùng dưới một số quy định về hiệu
quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ
liệu. Nói cách khác, mục tiêu của KPDL là tìm các mẫu hoặc mô hình tồn tại
trong CSDL nhưng ẩn trong khối lượng lớn dữ liệu.


















×