Tải bản đầy đủ (.docx) (46 trang)

TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING RKETING

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.18 MB, 46 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH
TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH

KHOA KINH TẾ

TIỂU LUẬN
Môn học: KHOA HỌC DỮ LIỆU

Tp.HCM, tháng 11 năm 2022



BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH
TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH

KHOA KINH TẾ

Đề tài: PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING.
Giảng viên hướng dẫn: ThS. Trần Lê Phúc Thịnh
Siinnh viiêên thhựực hiiệện
1..

Lưươơnng Trruunng Quuốốc

2.

Hoàng Võ Cao Sơn

3.

Mai Thị Yến Nhi



4.

Nguyễn Đức Thắng

5.

Trần Nguyễn Trâm Yến

6.

Nguyễn Thị Thúy Nga

7.

Nguyễn Thị Minh Vương

Mã lớp học phần: 21C1MAR5030011


LỜI CẢM ƠN
Để hoàn thành tiểu luận này, em xin gửi lời chân thành đến:
Giảng viên bộ môn Khoa học Dữ liệu - Trần Lê Phúc Thịnh đã giảng dạy tận tình, nhiệt
tình và chi tiết để chúng em có kiến thức và vận dụng chúng vào bài tiểu luận này.

Ban giám hiệu trường Đại học UEH vì đã tạo điều kiện về cơ sở vật chất với hệ
thống thư viên hiện đại, tài liệu thuận lợi cho việc tìm kiếm, ngun cứu thơng tin.
Do chưa có nhiều kinh nghiệm làm đề tài cũng như những hạn chế về kiến thức, trong
bài tiểu luận chắc chắn sẽ không tránh khỏi những thiếu sót. Rất mong nhận được sự
nhận xét, ý kiến đóng góp, phê bình từ phía thầy để bài tiểu luận được hoàn thiện hơn.


Lời cuối cùng, em xin kính chúc thầy nhiều sức khỏe, thành cơng và hạnh phúc.


“MỤC LỤC
DANH MỤC HÌNH ẢNH............................................................................................................................................... 3
LỜI CẢM ƠN.............................................................................................................................................................................. 6
LỜI MỞ ĐẦU.............................................................................................................................................................................. 7
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
........................................................................................................................................................................................................................ 7

1.1. Giới thiệu về Khoa học dữ liệu............................................................................................... 7
1.2.. Giới thiệu về đề tài “Phân tích và dự đốn sự rời đi của khách hàng trong lĩnh
vực viễn thông”.............................................................................................................................................................. 8
1.2.1. Lý do chhọọn đề tàài................................................................................................................. 9
1.2.2. Mục tiêiêu nghiêiên cứứu.................................................................................................. 9
1.2.3. Phương pháp thực hiện....................................................................................................... 9
1.2.4. Ý ngghhĩĩa............................................................................................................................................... 10
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG

PHÁP SỬ DỤNG................................................................................................................................................................ 10
2.1. Tổng quan về phần mềm Orange...................................................................................... 10
2.1.1. Mô tả sơ lược về phần mềm Orange.............................................................. 10
2.1.2. Các tính năng......................................................................................................................................... 11
2.2. Tổng quan về các phương pháp sử dụng........................................................... 18
2.2.1. Tiền xử lý dữ liệu........................................................................................................................... 18
2.2.2. Phân lớp dữ liệu............................................................................................................................... 19
2.2.3. Phân cụm dữ liệu.......................................................................................................................... 21
CHƯƠNG 3: MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT.............................................................. 25
3.1. Bộ dữ liệu Telecom Customer Churn........................................................................ 25

3.2. Giải thích các thuộc tính của bộ dữ liệu “Telecom Customer Churn”
25

CHƯƠNG 4: KẾT QUẢ THỰC HIỆN................................................................................................... 31
4.1. Tiền xử lí dữ liệu......................................................................................................................................... 31
4.1.1. Chọn số lượng khảo sát.................................................................................................... 32
4.1.2. Loại bỏ các biếiến không phù hợp..................................................................... 32
4.2. Phân lớp dữ liệu.(lưu ý thứ tự thực hiện).......................................................... 36
4.2.1. Các phương pháp đánh giá......................................................................................... 36


4.2.2. Dự bááoo:................................................................................................................................................. 42


4.3. Phân cụm dữ liệu.(lưu ý thứ tự thực hiện)....................................................... 43
4.3.1. Phương pháp Hierarchical lustering...…………….…..……………44
4.3.2. Phương pháp K-means...................................................................................................... 45""
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.............................................................................................. 48
1. Kết luận........................................................................................................................................................................... 48
2. Hướng phát triển............................................................................................................................................. 49
TÀI LIỆU THAM KHẢO.......................................................................................................................................... 50""


DANH MỤC HÌNH ẢNH
Hình 1 : Phần mềm orange................................................................................................................................ 11
Hình 2 : Chọn chức năng Datasets....................................................................................................... 20
Hình 3 : Chọn bộ dữ liệu Banking Marketing từ Datasets..................................20
Hình 4 : Liên kết Datasets vào Data Table.................................................................................. 21
Hình 5 : Kết quả bộ dữ liệu Banking Marketing trong Data Table...........21
Hình 6 : Quy trình tiền xử lý dữ liệu...................................................................................................... 22

Hình 7 : Các bước thực hiện xử lý dữ liệu trong Preprocess.....................22
Hình 8 : Kết quả dữ liệu Data_Tiền xử lý dữ liệu với mẫu 4119 quan sát. ....23

Hình 9 : Quy trình tạo File Training Data và File Testing Data....................23
Hình 10 : Data Sampler của File Training Data..................................................................... 24
Hình 11 : Data Sampler của File Testing Data...................................................................... 24
Hình 12 : Dữ liệu đầu vào.................................................................................................................................... 25
Hình 13 : Lựa chọn chức năng................................................................................................................... 26
Hình 14 : Kết quả phân cụm............................................................................................................................ 26
Hình 15 : Kết quả phân cụm theo chỉ số Silhouette.................................................... 27
Hình 16 : Chỉ số Silhouette cao nhất của 2 cụm............................................................. 28
Hình 17 : Phân cụm với phương pháp Hierarchical clustering.................28
Hình 18 : Dữ liệu đầu vào.................................................................................................................................... 29
Hình 19 : Phân Cụm với chứng năng K-means................................................................ 29
Hình 20 : Bảng kết quả phân cụm ........................................................................................................ 30
Hình 21 : Bảng kết quả phân cụm 1.................................................................................................... 31
Hình 22 : Bảng kết quả phân cụm 2.................................................................................................... 31
Hình 23 : Bảng chỉ số Silhouette Scores cao nhất của 2 cụm.....................32
Hình 24 : Mơ hình phân cụm bằng phương pháp K-means............................32
Hình 25 : Mơ hình phân cụm dữ liệu Bank Marketing..............................................33
Hình 26 : Insert File Training Data vào hộp chức năng File............................33


Hình 27 : Mơ hình phân lớp dữ liệu...................................................................................................... 34
Hình 28 : Kết quả chi mẫu dữ liệu thành 5 phần.............................................................. 35
Hình 29 : Kết quả chia mẫu dữ liệu thành 10 phần...................................................... 35
Hình 30 : Kết quả chia mẫu dữ liệu với tỷ lệ 10% - 60%......................................... 36
Hình 31 : Kết quả chia mẫu dữ liệu với tỷ lệ 20% - 70%......................................... 36
Hình 32 : Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression
.......................................................................................................................................................................................................................... 37


Hình 33 : Kết quả ma trận nhầm lẫn của phương pháp Decision Tree
.......................................................................................................................................................................................................................... 38

Hình 34 : Kết quả ma trận nhầm lẫn của phương pháp SVM.......................38
Hình 35 : Kết quả ROC Analysis.................................................................................................................. 39
Hình 36 : Testing Data............................................................................................................................................... 40
Hình 37 : Dự báo bằng Prediction với phương pháp Logistic Regression . 40
Hình 38 : Kết quả dự báo bằng Logistic Regression của 100 mẫu dữ liệu 41


CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu về khoa học dữ liệu
Khoa học dữ liệu là lĩnh vực áp dụng các kỹ thuật phân tích tiên tiến và các nguyên tắc
khoa học để trích xuất thơng tin có giá trị từ dữ liệu cho việc ra quyết định kinh doanh, lập
kế hoạch chiến lược và các mục đích sử dụng khác. Nó ngày càng quan trọng đối với

các doanh nghiệp: Những hiểu biết sâu sắc mà khoa học dữ liệu tạo ra giúp các
tổ chức tăng hiệu quả hoạt động, xác định các cơ hội kinh doanh mới và cải
thiện các chương trình tiếp thị và bán hàng, cùng với các lợi ích khác. Cuối
cùng, chúng có thể dẫn đến lợi thế cạnh tranh so với các đối thủ kinh doanh.

Khoa học dữ liệu kết hợp nhiều lĩnh vực khác nhau - ví dụ, kỹ thuật dữ liệu,
chuẩn bị dữ liệu, khai thác dữ liệu , phân tích dự đốn, học máy và trực quan
hóa dữ liệu, cũng như thống kê, tốn học và lập trình phần mềm.
Khoa học dữ liệu đóng một vai trị quan trọng trong hầu như tất cả các khía cạnh của hoạt
động và chiến lược kinh doanh. Ví dụ, nó cung cấp thơng tin về khách hàng giúp các

công ty tạo ra các chiến dịch tiếp thị mạnh mẽ hơn và quảng cáo nhắm mục

tiêu để tăng doanh số bán sản phẩm. Nó hỗ trợ trong việc quản lý rủi ro tài
chính, phát hiện các giao dịch gian lận và ngăn ngừa sự cố thiết bị trong các
nhà máy sản xuất và các cơ sở công nghiệp khác. Nó giúp chặn các cuộc tấn
cơng mạng và các mối đe dọa bảo mật khác trong hệ thống CNTT.
Khoa học dữ liệu cũng rất quan trọng trong các lĩnh vực ngồi hoạt động kinh doanh
thơng thường. Trong chăm sóc sức khỏe, các ứng dụng của nó bao gồm chẩn đốn tình
trạng y tế, phân tích hình ảnh, lập kế hoạch điều trị và nghiên cứu y tế. Các tổ chức học
thuật sử dụng khoa học dữ liệu để theo dõi kết quả hoạt động của sinh viên và cải thiện
hoạt động tiếp thị của họ tới các sinh viên tương lai. Các đội thể thao phân tích hiệu suất
của người chơi và lập kế hoạch chiến lược trò chơi thơng qua khoa học dữ liệu. Các cơ
quan chính phủ và các tổ chức chính sách cơng cũng là những người sử dụng lớn.

Vòng đời của khoa học dữ liệu bao gồm sáu bước chính sau:
Xác định một giả thuyết liên quan đến kinh doanh để
kiểm tra. Thu thập dữ liệu và chuẩn bị để phân tích.

Thử nghiệm với các mơ hình phân tích khác nhau.


Chọn mơ hình tốt nhất và chạy nó với dữ liệu.
Trình bày kết quả cho các nhà quản trị doanh nghiệp.
Triển khai mơ hình để sử dụng liên tục với dữ liệu mới.

1.2. Giới thiệu về đề tài.
Makerting hiện đang phổ biến cho mọi ngành nghề. Các ngành nghề cần makerting để tối
ưu và tìm hiểu yêu cầu mong muốn của khách hàng hơn nữa còn xác định khả năng sản

xuất với giá thành phù hợp sau đó sản xuất và bán ra thị trường với
chiến lược giá đã đề ra.Và đối với bank makerting cũng vậy, ngân hàng
cần tiếp thị để phục vụ khách hàng của mình một cách tốt nhất và xem

xét cái gì là cần thiết và phù hợp cho khách hàng mục tiêu của mình.

1.2.1. Lý do chọn đề tài.
Hiện nay việc khai thác các dữ liệu đã trở nên không thể thiếu đối với các ngành
nghề. Đặc biệt ở đây chúng tôi đề cập đến trong thương mại và kinh doanh. Một
lượng lớn dữ liệu từ khách hàng, hoạt động kinh doanh, đối tác,… Những điều này
khơng thể xử lý bằng sức người, do đó việc số hóa các số liệu này là điều vơ cùng
cần thiết. Để có thể phân tích được các dữ liệu một cách tự động thì nhóm sử dụng
phần mềm Orange để xây dựng quy trình khai thác dữ liệu trực quan – đây là phần
mềm khai thác dữ liệu phổ biến có thể được thực hiện mà khơng cần lập trình
Nhóm đã tìm được bộ dữ liệu của một tổ chức ngân hàng, dữ liệu có liên quan. Dữ liệu sau
khi được phân tích bởi Orange, nhóm sẽ đưa ra một số nhận xét và kết luận của từng cửa
sổ phân tích , đánh giá độ hiệu quả và đề xuất một số hướng phát triển dành cho ???.

Đó cũng là lý do chọn đề tài: “Phân tích bộ dữ liệu Bank
Marketing qua các thuật toán trên Orange”.
1.2.2. Mục tiêu nghiên cứu.
Xử lý bộ dữ liệu Bank Makerting để dự đốn liệu khách hàng có đăng ký
một khoản tiền gửi có kỳ hạn hay khơng dựa trên hồ sơ của khách hàng
có các thuộc tính: tuổi, cơng việc, tình trạng hơn nhân, học vấn,…

1.2.3. Phương pháp thực hiện.
Nhóm sử dụng phần mềm Orange để tiến hành thực hiện xử lý dữ liệu, phân cụm, phân

lớp dữ liệu, rồi sau đó tiến hành dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp.


Để thực hiện phân cụm bộ dữ liệu nhóm sử dụng hai phương
pháp chính là: Hierarchical clustering và K-means.
- Đối với phương pháp Hierarchical clustering nhóm tiến hành tính

khồng cách giữa các phân tử bằng Distance rồi quan sát dữ liệu được
phân cụm với số cụm từ 2 đến 5 và quan sát trên Silhouette Plot.
Sau khi thực hiện phân cụm dữ liệu theo hai phương pháp trên, nhóm tiến
hành chọn phương pháp tốt nhất để phân cụm cho bộ dữ liệu của nhóm.
- Đối với việc phân lớp dữ liệu, nhóm chọn biến "Subscribed" (đã đăng kí) cho
việc gửi tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên 3 phương
pháp là Cây quyết định (Decision Tree), SVM (Support Vector Machine) và Hồi
quy Logistic (Logistic Rgression). Sử dụng Test and Score, quan sát chỉ số
AUC của từng phương pháp và cuối cùng là quan sát trên ma trận nhầm lẫn.


CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC
PHƯƠNG PHÁP SỬ DỤNG
2.1. Tổng quan về chương trình sử dụng
Phần mềm Orange biết đến bởi việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở và
học máy thơng minh, đơn giản, được lập trình bằng Python với giao diện trực quan và
tương tác dễ dàng. Với nhiều chức năng, phần mềm này có thể phân tích được những dữ
liệu từ đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt và thú vị và còn giúp việc khai
thác dữ liệu và học máy trở nên dễ dàng hơn cho cả người dùng mới và chuyên gia.

Các công cụ cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu
dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự
đoán, so sánh các thuật toán máy học, trực quan hóa các phần tử dữ liệu.

Hình 1: Phần mềm orange.
2.2 Tổng quan về các phương pháp sử dụng.
2.2.1. Phân lớp dữ liệu.
2.2.1.1. Định nghĩa.
Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho
trước nhờ một mơ hình phân lớp. Mơ hình này được xây dựng dựa trên một tập

dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào). Quá trình gán nhãn
(thuộc lớp nào) cho đối tượng dữ liệu chính là q trình phân lớp dữ liệu.

2.2.2.2. Quá trình phân lớp dữ liệu.


- Quá trình phân lớp dữ liệu gồm hai bước chính:
Bước 1: Xây dựng mơ hình (hay cịn gọi là giai đoạn “học” hoặc “huấn luyện”)

Bước 2: Sử dụng mô hình, được chia thành 2 bước nhỏ:
+

Đánh giá mơ hình (kiểm tra tính đúng đắn của mơ hình):
Dữ liệu đầu vào: Là một tập dữ liệu mẫu khác đã được dán nhãn và tiền xử lý. Tuy
nhiên lúc đưa vào mơ hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn.

Tính đúng đắn của mơ hình được xác định bằng cách so sánh thuộc
tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình.

+

Phân lớp dữ liệu mới.

Dữ liệu đầu vào là dữ liệu “khuyết” thuộc tính cần dự đốn lớp (nhãn)

Mơ hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng
dữ liệu này dựa vào những gì đã được huấn luyện ở bước 1.
2.2.1.3. Một số phương pháp phân lớp.
-


Hồi quy Logistic (Logistic Regression): Là một mơ hình xác suất dự đoán

giá trị đầu ra rời rạc từ một tập cá giá trị đầu vào (biểu diễn dưới dạng vector).

-

Cây quyết định (Decision Tree):

Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định
cùng các kết quả khả dĩ đi kèm hỗ trợ quá trình ra quyết định.
Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp
nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.
- Ưu điểm:
Khơng địi hỏi việc chuẩn hóa dữ liệu.
Có thể xử lý trên nhiều kiểu dữ liệu khác nhau.
Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn.
- Khuyết điểm:
Khó giải quyết trong tình huống dữ liệu phụ
thuộc thời gian. Cho phí xây dựng mơ hình cao.


-

SVM (Support Vector Machine).

+ Là một thuật tốn có giám sát, SVM nhận dữ liệu vào, xem chúng như các vector
trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một
siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.

+ Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có

khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.

+ SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau:
Hard Margin SVM, Soft Margin SVM, Multi-class SVM, Kernel SVM.

- Ưu điểm:
Tiết kiệm bộ nhớ (do quá trình test chỉ cần so điểm dữ liệu mới
với mặt siêu phẳng tìm được mà khơng cần tính tốn lại).
Linh hoạt: vừa có thể phân lớp tuyến tính và phi tuyến (sử dụng các kernel khác

nhau).
Xử lý được trong không gian nhiều chiều.
- Khuyết điểm:
Trong trường hợp số chiều dữ liệu lớn hơn số dịng dữ liệu
thì SVM cho kết quả khơng tốt.
Chưa thể hiện tính xác suất trong phân lớp.
2.2.1.4. Các phương pháp đánh giá mô hình phân lớp.
Khái niệm: Là các phương pháp nhằm kiểm tra tính hiệu quả của mơ hình phân lớp
trên dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mơ hình đó hay khơng.

Một mơ hình lý tưởng là một mơ hình khơng q đơn giản, không quá phức
tạp và không quá nhạy cảm với nhiễu (tránh underfitting và overfitting).

- Ma trận nhầm lẫn (Confusion Matrix).
Ma trận nhầm lẫn: là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự
phụ thuộc vào một lớp cụ thể và được dự đoán là rơi vào lớp nào.

- Accuracy (tính chính xác).
Là tỉ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu.



Accuracy chỉ cho chúng ta biết được tỷ lệ dữ liệu được phân loại đúng mà không
chỉ ra được cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại
đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác.

- ROC, AUC, Precision, Recall, F1-score.
+ ROC (Receiver Operating Characteristic)
Là một đồ thị được sử dụng khá phổ biến trong đánh giá các mơ hình phân loại nhị
phân. Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive
rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau.

Mơ hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm
cận với điểm (0;1) trong đồ thị thì mơ hình càng hiệu quả.
+ AUC (Area Under The Curve)
Là diện tích nằm dưới đường cong ROC
Giá trị này là một số dương nhỏ hơn hoặc bằng 1
Giá trị này càng lớn thì mơ hình càng tốt.
Precision (độ chính xác): cho biết trong số m mẫu được
phân vào lớp i thì có tỷ lệ bao nhiêu mẫu có đúng.
Recall (độ phủ): còn gọi là độ phủ hay độ nhạy (sensitivity)
hay TPR (True Positive Rate).
F1-score: giá trị trung bình điều hịa (harmonic mean) của hai
độ đo Precision và Recall.
- Phương pháp phân chia dữ liệu Hold-out
Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập
độc lập theo một tỷ lệ nhất định. Ví dụ, tập huấn luyện (training
set) chiếm 70%, tập thử nghiệm (testing set) chiếm 30%.
Phương pháp này thích hợp cho các tập dữ liệu nhỏ. Tuy nhiên, các mẫu
có thể khơng đại diện cho tồn bộ dữ liệu (thiếu lớp trong tập thử nghiệm).
Có thể cải tiến bằng cách dùng phương pháp lấy mẫu sao cho mỗi lớp được phân bổ

đều trong cả hai tập dữ liệu huấn luyện và đánh giá. Hoặc lấy mẫu ngẫu nhiên: thực
hiện hold-out k lần và độ chính xác acc(M) = trung bình cộng k giá trị chính xác.


2.2.2. Phân cụm dữ liệu
2.2.2.1 Khái niệm.
Phân cụm dữ liệu là q trình gom cụm/nhóm các đối tượng/dữ liệu có các
đặc điểm tương tự nhau và phân vào các cụm/nhóm tương ứng. Trong đó:
- Những đối tượng thuộc cùng một cụm sẽ có các thuộc tính tương tự nhau.
- Những đối tượng thuộc những cụm/nhóm khác nhau sẽ có các thuộc tính khác nhau.

Lưu ý: Dữ liệu của bài tốn phân cụm là dữ liệu chưa được gán
nhãn. Đây là dữ liệu tự nhiên thường thấy trong thực tế.
Đặc điểm:
- Nhiệm vụ chính chủ yếu là phát hiện và đo lường sự khác biệt
giữa các đối tượng dữ liệu.
- Phân cụm thuộc nhóm phương pháp học khơng giám sát (unsupervised
learning) vì số lượng nhóm khơng được biết trước (khác với bài toán phân lớp).
- Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:

Độ tương đồng nội bộ cao
Độ tương đồng giữa các cụm thấp (khác biệt
cao) Ứng dụng phân cụm trong kinh tế học

Dự báo khách hàng năng lực
Phân tích xu hướng hành vi khách hàng
Phân tích cạnh tranh giữa các nhà cung cấp, xu hướng
lựa chọn dịch vụ Phân tích đặc tính sản phẩm và dịch vụ

Đánh giá hiệu quả kinh doanh

Phân tích hành vi người dùng mạng xã hội
2.2.2.2 Phân cụm phân cấp (Hierarchical Clustering):
- Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:
Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity
matrix) Độ đo khoảng cách giữa các cụm (single link, complete link…)
- Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng.


- Các phương pháp điển hình:
Diana, Agnes… + Agnes:
Theo chiến lược bottom up:
Bắt đầu với những cụm chỉ là 1 phần tử.
Ở mỗi bước, gom 2 cụm gần nhau thành 1 cụm.
Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm
gần nhất từ hai cụm, hoặc khoảng cách trung bình.
Quá trình này lặp lại cho đến khi tất cả các phần tử cùng thuộc một
cụm lớn. Kết quả quá trình phát là một dendrogram (cây phân cấp).

Agnes - Dendrogram (cây phân cấp) là sơ đồ/cây biễu diễn sự
phân rã các phần tử dữ liệu thành nhiều cấp độ lồng nhau.
+ Diana:
Theo chiến lược top down:
Bắt đầu với một cụm gồm tất cả các phần tử. Ở
mỗi bước, chia cụm ban đầu thành hai cụm.

Khoảng cách giữa hai cụm là khoảng cách giữa hai
điẻm gần nhất từ hai cụm, khoảng cách trung bình.
Thực hiện đệ quy trên các cụm mới được tách ra và lặp lại
cho đến khi mỗi phần tử là một cụm.
Kết quả phát sinh cây phân cấp (dendrogram).

- Nhận xét về phân cụm phân cấp:
Giải thuật đơn giản.
Kết quả dễ hiểu.

Không cần tham số đầu
vào. Không quay lui được.

Tốc độ chậm, khơng thích hợp trên dữ liệu lớn.
Không xử lý được trên dữ liệu bị thiếu, nhạy cảm với nhiễu.
2.2.2.3 Phân cụm phân hoạch (Partitioning Clustering).


- Phân tập dữ liệu có n phần tử cho trước thành k tập con (k≤ n),
mỗi tập con biễu diễn một cụm.
- Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo
tương tự (đọ đo phân cụm) sao cho:
Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm
có sự tương tự nhau. Mỗi cụm có ít nhất 1 phần tử.
- Thuật tốn điển hình: K-means, K-mediods, Fuzzy C-means.
+

Thuật tốn K-means
Thuộc nhóm thuật tốn phân cụm dựa
trên phân hoạch Tư tưởng chính:

Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không
gian d chiều (với d là số lượng thuộc tính của đối tượng).
o

Bước 1: chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.


o

Bước 2: phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. Nếu các điểm

dữ liệu ở từng cụm vừa được phân chia không thay đổi so
với kết quả của lần phân chia trước đó thì ta dưng thuật toán.
o

Bước 3: cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất

cả các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2.
o

Bước 4: quay lại bước 2.

- Đánh giá thuật toán K-means: +
Cần biết trước số lượng cụm k.

+ Nhạy cảm với nhiễu và ngoại biên (outliers).
+ Không phù hợp với phân bổ dữ liệu dạng khơng lồi (non-convex).
+ Kết quả (nghiệm) bài tốn phụ thuộc vào cách khởi tạo các trung tâm cụm ban đầu.

Trường hợp 1: tốc độ hội tụ chậm.
Trường hợp 2: kết quả gom cụm khơng chính xác (do chỉ tìm
được các cực trị địa phương chứ khơng phải tồn cục).
+

Khắc phục:



Áp dụng một số phương pháp tính số cụm.
Chạy thuật tốn nhiều lần với các trung tâm khác nhau để
tìm giá trị cực tiểu của hàm mất mát.
2.2.2.4. Các phương pháp đánh giá phân cụm dữ liệu.
- Là vấn đề khó khăn nhất trong bài tốn phân cụm.
- Các phương pháp đánh giá việc phân cụm dữ liệu: đánh giá
ngoài, đánh giá nội bộ, đánh giá tương đối.
- Một số tiêu chí để đánh giá chất lượng phân cụm là:
Độ nén (compactness): các phần tử của cụm phải “gần nhau”.
Độ phân cách (separation): khoảng cách giữa các cụm nên
“xa nhau”, phân cách rõ ràng.
- Các phương pháp đánh giá:
+

Đánh giá ngoài (external validation)
Là đánh giá kết quả phân cụm dựa vào cấu trúc/xu hướng
phân cụm được chỉ định trước cho tập dữ liệu.
So sánh độ sai khác giữa các cụm
So sánh với kết quả mẫu (đáp án).

Các độ đo được sử dụng trong phương pháp này: Rank
statatisistic, Jaccccarard coefficient, Folkes và Mallows index,...

+

Đánh giá nội bộ (internal validation).
Là đánh giá kết quả phân cụm mà khơng có thơng tin từ bên ngồi, chủ
yếu dựa trên các vector chính của dữ liệu thông qua ma trận xấp xỉ
(proximity matrix). Tối ưu hóa các chỉ số nội bộ: độ nén, độ phân tách.


Các độ đo được sử dụng trong phương pháp này: Hubert’s statistic,
Sihouette index, Dunn’s index, F-ratio, DBI (Davics Bouldin Index).

+ Đánh giá tương đối (relative validation)
Đánh giá kết quả gom cụm bằng việc so sánh với:
Kết quả gom cụm ứng với các bộ trị thông số khác nhau.


Kết quả gom cụm của các phương pháp khác.


CHƯƠNG 3: MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT VÀ KẾT QUẢ THỰC HIỆN.

3.1. Tiền xử lí dữ liệu
Đầu tiên, ta nạp dữ liệu Banking Marketing vào Datasets
Các bước thực hiện như sau: Ta mở Datasets, tim bộ dữ liệu có
tên Banking Marketing, sau đó chọn bộ dữ liệu.

Hình 2: Chọn chức năng Datasets

Hình 3: Chọn bộ dữ liệu Banking Marketing từ Datasets
Để có thể quan sát được dữ liệu, ta liên kết Datasets vào Data Tables


Hình 4: Liên kết Datasets vào Data Table

Hình 5: Kết quả bộ dữ liệu Banking Marketing trong Data Table



Hình 6: Quy trình tiền xử lý dữ liệu
* Loại bỏ các biến không phù hợp
Dữ liệu gốc ban đầu của Banking Marketing có 4119 quan sát (có
4,8% dữ liệu bị thiếu – khoảng 198 dữ liệu bị thiếu)
Tiền xử lý dữ liệu thông qua chức năng Preprocess: trong Preprocess,
chọn Impute Missing Values -> Chọn Replace with random value.

Hình 7: Các bước thực hiện xử lý dữ liệu trong Preprocess
Sau khi xử lý dữ liệu ta nối với Data Table để dữ liệu dễ nhìn hơn
và lưu dữ liệu với tên là Data_Tiền xử lý dữ liệu.


Hình 8: Kết quả dữ liệu Data_Tiền xử lý dữ liệu với mẫu 4119 quan sát..
Để chuẩn bị cho quá trình phân lớp và phân cụm dữ liệu, ta dùng Data Sampler để tạo ra
hai file Training Data (dữ liệu huấn luyện) là 70% của Data_Tiền xử lý dữ liệu và Testing
Data (dữ liệu thử nghiệm) gồm 100 quan sát ngẫu nhiên của Data_Tiền xử lý dữ liệu.

Hình 9: Quy trình tạo File Training Data và File Testing Data


×