TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
ỨNG DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU
ĐỂ PHÂN LOẠI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ
VIỄN THÔNG VIETTEL
Hà Nội – 2016
TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
NGUYỄN KHÁNH DUY
ỨNG DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU
ĐỂ PHÂN LOẠI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ
VIỄN THÔNG VIETTEL
Chuyên ngành : Công Nghệ Thông Tin
Mã ngành
:D480201
Người hướng dẫn : TS.NGUYỄN NHƯ SƠN
Hà Nội - 2016
LỜI CAM ĐOAN
Tôi xin cam đoan đây là sản phẩm nghiên cứu của bản thân,được xuất phát từ
yêu cầu bài toán phát sinh trong công việc để hình thành hướng nghiên cứu được
thực hiện dưới sự hướng dẫn của giá viên hướng dẫn. Mọi sự tham khảo sử dụng
trong đồ án đều được trích dẫn các nguồn tài liệu trong báo cáo và danh mục tài liệu
tham khảo. Các sao chép không hợp lệ, vi phạm quy chế của nhà trường, tôi xin
hoan toàn chịu trách nhiệm
Hà Nội, ngày 11 tháng 06 năm 2016
Tác giả đồ án
Nguyễn Khánh Duy
LỜI CẢM ƠN
Trên thực tế không có sự thành công nào mà không gắn liền với những sự giúp
đỡ mọi người dù ít hay nhiều, dù trực tiếp hay gián tiếp. Trong suốt thời gian học
tập nhất là trong quá trình thực tập, em đã nhận được rất nhiều sự quan tâm giúp đỡ
nhiệt tình của các thầy cô, bạn bè và gia đình.
Đầu tiên em xin gửi lời cảm ơn sâu sắc đến thầy TS.Nguyễn Như Sơn, thầy đã
trực tiếp hướng dẫn và giúp đỡ em rất nhiều trong thời gian em làm niên luận này.
Em xin cảm ơn Ban giám đốc Viện Công nghệ thông tin – Viện Hàn Lâm và
Khoa Học Việt Nam đã cho phép và tạo điều kiện thuận lợi cho em được thực tập ở
Viện.
Em cũng xin gửi lời cảm ơn đến thầy Ts.Hà Mạnh Đào, Trưởng khoa Công
nghệ thông tin đồng thời cũng là giáo viên chủ nhiệm của lớp em, cùng các thầy cô
giáo trong Khoa đã nhiệt tình giúp đỡ em trong quá trình học tập tại trường.
Cuối cùng, em xin gửi lời cảm ơn chân thành tới gia đình và bạn bè đã luôn
giúp đỡ, động viên và tạo điều kiện tốt nhất cho em trong suốt quá trình học tập
cũng như trong cuộc sống.
Vì năng lực có hạn nên bài báo cáo của em còn nhiều hạn chế và không thể
tránh khỏi những thiếu sót, mong thầy cô và các bạn có những ý kiến đóng góp để
em có thể hoàn thiện và phát triển đề tài hơn.
Em xin chân thành cảm ơn!
Hà Nội, ngày 11 tháng 06 năm 2016
Sinh viên thực hiện
Nguyễn Khánh Duy
MỤC LỤC
DANH MỤC HÌNH VẼ
DANH MỤC VIẾT TẮT
MỞ ĐẦU ................................................................................................................ 1
CHƯƠNG 1: TỔNG QUAN CÁC KIẾN THỨC CƠ BẢN VỀ KHAI PHÁ DỮ
LIỆU VÀ KHÁM PHÁ TRI THỨC ..................................................................... 3
1.1 Khám phá tri thức và khai phá dữ liệu là gì? ................................................... 3
1.1.1 Quá trình khám phá tri thức............................................................................. 4
1.1.2 Quá trình khai phá dữ liệu ............................................................................... 6
1.2 Các kỹ thuật khai phá dữ liệu .......................................................................... 8
1.3 Các dạng dữ liệu có thể khai phá được .......................................................... 13
1.4 Các lĩnh vực liên quan đến khai phá dữ liệu .................................................. 13
1.4.1 Các lĩnh vực liên quan đến phát hiện tri thức và khai phá dữ liệu .................. 13
1.4.2 Ứng dụng của khai phá dữ liệu ...................................................................... 13
1.5 Kết Luận ....................................................................................................... 14
CHƯƠNG 2: GIỚI THIỆU MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU
DÙNG PHỔ BIẾN TRONG KHAI PHÁ DỮ LIỆU VÀ PHÁT TRIỂN TRI
THỨC................................................................................................................... 15
2.1 Giới thiệu........................................................................................................ 15
2.2 Một số kỹ thuật phân cụm ............................................................................... 16
2.2.1 Phương pháp phân cụm phẳng ...................................................................... 16
2.2.2 Phương pháp phân cụm phân cấp .................................................................. 20
2.2.3 Phương pháp phân cụm dựa trên mật độ. ...................................................... 26
2.2.4 Phương pháp phân cụm trên lưới .................................................................. 31
2.2.5 Phương pháp phân cụm dữ liệu dựa trên mô hình .......................................... 34
2.2.6 Phân cụm dữ liệu mờ .................................................................................... 36
2.3 Các kiểu dữ liệu trong phân cụm ................................................................... 37
2.4 Các ứng dụng của phân cụm ......................................................................... 38
2.5 Kết luận .......................................................................................................... 39
CHƯƠNG 3: SỬ DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU ĐỂ ỨNG DỤNG
VÀO PHÂN LOẠI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIETTEL ............ 41
3.1 Tổng quan về khách hàng ................................................................................ 41
3.1.1 Phân tích khách hàng .................................................................................... 41
3.1.2 Phân loại khách hàng sử dụng dịch vụ viễn thông ......................................... 41
3.2 Đặt vấn đề bài toán ......................................................................................... 42
3.3 Cài đặt cơ sở dữ liệu ........................................................................................ 42
3.4 Cài đặt thuật toán ............................................................................................. 45
KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................. 50
TÀI LIỆU THAM KHẢO ................................................................................... 51
DANH MỤC HÌNH VẼ
Hình 1.1. Quá trình khám phá tri thức ..................................................................... 4
Hình 1.2. Quá trình khai phá dữ liệu ........................................................................ 7
Hình 2.1 Mô hình về phân cụm dựa trên tiêu chuẩn thu nhập và số nợ .................. 15
Hình 2.2 Ví dụ về một số hình dạng cụm dữ liệu được khám phá bởi K-means ..... 18
Hình 2.3 Các trường hợp xảy ra khi thay thế một phần tử đại diện......................... 19
trong thuật toán PAM ............................................................................................ 19
Hình 2.4 Các chiến lược phân cụm phân cấp ........................................................ 21
Hình 2.5 Cây CF được sử dụng bởi thuật toán BRICH ......................................... 22
Hình 2.6 Các cụm dữ liệu được khai phá bởi CURE ............................................. 24
Hình 2.7 Vi dụ thực hiện phân cụm bỏi thuật toán CURE ...................................... 25
Hình 2.8 Một số hình dạng được khám phá bởi phân cụm dựa trên mật độ ............ 26
Hình 2.9 Lân cận P với ngướng Esp ...................................................................... 27
Hinh 2.10 Mật độ đến – được trực tiếp .................................................................. 28
Hình 2.11 Mật độ - đến được ................................................................................. 28
Hình 2.12 Mật độ liên thông .................................................................................. 28
Hình 2.13 Mật độ liên thông .................................................................................. 29
Hình 2.14 Thứ tự phân cụm các đôi tượng theo OPTICS ....................................... 30
Hình 2.15 Mô hình cấu trúc dữ liệu lưới ................................................................ 31
Hình 2.16 Mô hình thuật toán STING.................................................................... 32
Hình 2.17 Quá trình nhận dạng các ô của CLIQUE ............................................... 34
Hình 3.1 . Các trường khai bào dữ liệu .................................................................. 43
Hình 3.2 Cơ sở dữ liệu đầu vào ............................................................................. 43
Hình 3.3 Dữ liệu khách hàng trong SQL ............................................................... 44
Hình 3.4. Giao diện chọn tham số cho thuật toán ................................................... 46
Hình 3.5. Giao diện chính của quá trình phân cụm................................................. 46
Hình 3.6. Giao diện phân cụm theo tiền dịch vụ .................................................... 47
Hình 3.7. Giao diện phân cụm theo thời lượng gọi................................................. 47
DANH MỤC CÁC TỪ VIẾT TẮT
STT
Viết Tắt
Cụm Từ Tiếng Anh
Cụm Từ Tiếng Việt
1
CNTT
InformationTechnology
Công nghệ thông tin
2
CSDL
Database
Cơ sở dữ liệu
3
KPDL
Datamining
Khai phá dữ liệu
4
PCDL
DataClustering
Phân cụm dữ liệu