Tải bản đầy đủ (.pdf) (45 trang)

TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING RKETING

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.09 MB, 45 trang )

 

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH
TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH
KHOA KINH TẾ

 TIỂU LUẬN
Môn học: KHOA HỌC DỮ LIỆU

Tp.HCM, tháng 11 năm 2022



 

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH
TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH
KHOA KINH TẾ

 Đề tài: PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING.
MARKETING.
Giảng viên hướng dẫn: ThS. Trần Lê Phúc Thịnh
Sinh viên thực hiện

MSSV

Phần trăm đóng góp

1. Lương Trung Quốc

31201020481



100%

2. Hồng Võ Cao Sơn

31201020493

100%

3. Mai
Mai T
Thị
hị Yến
Yến Nh
Nhii

31201026374

100%

4. Nguyễ
Nguyễnn Đức
Đức Th
Thắn
ắngg

31201026048

100%


5. Trần
Trần Nguy
Nguyễn
ễn Trâ
Trâm
m Yến
Yến

31201020653

100%

6. Nguyễ
Nguyễnn Thị
Thị Thúy
Thúy Nga
Nga

31201020396

100%

7. Nguyễ
Nguyễnn Thị
Thị Minh
Minh Vươn
Vươngg

31201020639


100%

Mã lớp học phần: 21C1MAR5030011


 

LỜI CẢM ƠN
Để hoàn thành tiểu luận này, em xin gửi lời chân thành đến:
Giảng viên bộ môn Khoa học Dữ liệu - Trần Lê Phúc Thịnh đã giảng dạy tận tình, nhiệt
tình và chi tiết để chúng em có kiến thức và vận dụng chúng vào bài tiểu luận này.
Ban giám hiệu trường Đại học UEH vì đã tạo điều kiện về cơ sở vật chất với hệ thống thư
viên hiện đại, tài liệu thuận lợi cho việc tìm kiếm, ngun cứu thơng tin.
Do chưa có nhiều kinh nghiệm làm đề tài cũng như những hạn chế về kiến thức, trong bài
tiểu luận chắc chắn sẽ không tránh khỏi những thiếu sót. Rất mong nhận được sự nhận
xét, ý kiến đóng góp, phê bình từ phía thầy để bài tiểu luận được hoàn thiện hơn.
Lời cuối cùng, em xin kính chúc thầy nhiều sức khỏe, thành cơng và hạnh phúc.


 

“MỤC LỤC
DANH MỤC HÌNH ẢNH..................................................................................................3
LỜI CẢM ƠN....................................................................................................................6
LỜI MỞ ĐẦU....................................................................................................................7
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI.........7
1.1. Giới thiệu
thiệu về Khoa học dữ liệu..
liệu.........
...............

................
................
................
................
................
............................7
....................7
1.2.. Giớ
1.2
Giớii thiệu
thiệu về đề tài
tài “Phân
“Phân tích và
và dự đốn
đốn sự rời đi ccủa
ủa khách
khách hàng
hàng tro
trong
ng lĩnh
lĩnh
vực viễn thông”...............................................................................................................8
1.2.1. Lý ddoo ch
chọn đề
đề ttàài............................................................................................9
1.2
1.2.2
.2.. Mụ
Mụcc tiê
tiêuu ngh

nghiê
iênn cứ
cứu.
u.......................................................................................9
......................................................................................9
1.2.
1.2.3.
3. Ph
Phươ
ương
ng ph
pháp
áp th
thực
ực hiện
hiện...................................................................................9
1.2.4. Ý nghĩa.........................................................................................................10
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG
PHÁP SỬ DỤNG.............................................................................................................10
2.1. Tổng quan về phần mềm Orange...........................................................................10
2.1.1. Mô
2.1.1.
 Mô tả sơ lược về
về phần mềm Orange.
Orange................................................................10
...............................................................10
2.1.2. Các tính năng.........
năng.................
................
................

................
................
...............
...............
..........................................11
..................................11
2.2. Tổng quan về các phương pháp sử dụng................................................................18
2.2.1. Tiền xử lý dữ liệu.............................................................................................18
liệu.............................................................................................18
2.2.2. Phân lớp dữ liệu.........
liệu.................
................
................
................
................
...............
...............
......................................19
..............................19
2.2.3. Phân cụm dữ liệu.............................................................................................21
liệu.............................................................................................21
CHƯƠNG 3: MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT......................................................25
3.1. Bộ dữ liệu Telecom
Telecom Customer
Customer Churn.........
Churn.................
................
................
........................................25
................................25

3.2. Giải thích
thích ccác
ác thuộc tính của bộ dữ
dữ liệu
liệu “Telecom
“Telecom Cust
Customer
omer Churn
Churn”..........
”...............
......25
.25
CHƯƠNG 4: KẾT QUẢ THỰC HIỆN............................................................................31
4.1. Tiền xử lí dữ liệu
liệu........
................
................
...............
...............
................
................
................
.........................................
.................................31
31
4.1.
4.1.1.
1. Ch
Chọn
ọn số lư

lượn
ợngg kkhả
hảoo ssát
át.................................................................................32
4.
4.1.
1.2.
2. Lo
Loại
ại bỏ cá
cácc biế
biếnn khô
không
ng ph
phùù hhợp
ợp..........
................
................
...............
.........................................32
..................................32
4.2. Phân lớp dữ liệu
liệu.(lưu
.(lưu ý thứ
thứ tự tthực
hực hiện)
hiện)........
................
................
...............

...............
.............................36
.....................36
4.2.
4.2.1.
1. Cá
Cácc phư
phươn
ơngg pphá
hápp đđán
ánhh ggiá
iá...........................................................................36
4.2.2. Dự báo:........................................................................................................42


 

4.3. Phân cụm dữ liệu.(lưu
liệu.(lưu ý thứ
thứ tự thực hiện)........
hiện)...............
...............
...........................................43
...................................43
 
4.3.1.    Phương pháp Hierarchical
4.3.1.
Hierarchical lustering 
lustering ...…………….…..……………44
...…………….…..……………44

4.3.
4.3.2.
2. Ph
Phươ
ương
ng ph
pháp
áp KK-me
mean
ans.
s........
...............
................
................
................
...............
.......................................45
................................45""
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN........................................................................48
1. Kết luận........
luận................
................
................
................
................
................
................
...............
...............
................

................
................
...................
...........48
48
2. Hướng
Hướng phát triể
triển.......
n...............
...............
...............
................
................
................
................
................
......................................49
..............................49
TÀI LIỆU THAM KHẢO..............................................................................................50"
KHẢO..............................................................................................50"


 

DANH MỤC HÌNH ẢNH
 Hình 1 : Phần mềm orange................................................................................................11
orange................................................................................................11
 Hình 2 : Chọn chức năng Datasets....................................................................................20
Datasets....................................................................................20
 Hình 3 : Chọn bộ dữ liệu Banking Marketing từ Datasets.......

Datasets...............
................
................................20
........................20
 Hình 4 : Liên kết Datasets vào Data Table........................................................................21
Table........................................................................21
 Hình 5 : Kết quả bộ dữ liệu Banking Marketing trong Data Table..................................21
Table..................................21
 Hình 6 : Quy trình tiền xử lý dữ liệu........
liệu................
................
................
................
...............
...............
..................................22
..........................22
 Hình 7 : Các bước thực hiện xử lý dữ liệu trong Preprocess............................................22
Preprocess ............................................22
 Hình 8 : Kết quả dữ liệu Data_Tiền xử lý dữ liệu với mẫu 4119 quan sát.
sát.......................23
......................23
 Hình 9 : Quy trình tạo File Training Data và File Testing Data......................................23
Data ......................................23
 Hình 10 : Data Sampler của File Training Data.......
Data...............
................
...............................................24
.......................................24
 Hình 11 : Data Sampler của File Testing Data.................................................................24

Data.................................................................24
 Hình 12 : Dữ liệu đầu vào..................................................................................................25
vào..................................................................................................25
 Hình 13 : Lựa chọn chức năng..........................................................................................26
năng. .........................................................................................26
 Hình 14 : Kết quả phân cụm..............................................................................................26
cụm..............................................................................................26
 Hình 15 : Kết quả phân cụm theo chỉ số Silhouette.........
Silhouette.................
................
................
................
.........................27
.................27
 Hình 16 : Chỉ số Silhouette cao nhất của 2 cụm...............................................................28
cụm...............................................................28
 Hình 17 : Phân cụm với phương pháp Hierarchical clustering.......................................28
clustering. ......................................28
 Hình 18 : Dữ liệu đầu vào..................................................................................................29
vào..................................................................................................29
 Hình 19 : Phân Cụm với chứng năng K-means.
K-means................................................................29
...............................................................29
 Hình 20 : Bảng kết quả phân cụm ....................................................................................30
....................................................................................30
 Hình 21 : Bảng kết quả phân cụm 1.
1..................................................................................31
.................................................................................31
 Hình 22 : Bảng kết quả phân cụm 2.
2..................................................................................31

.................................................................................31
 Hình 23 : Bảng chỉ số Silhouette
Silhouette Scores
Scores cao nhất của 2 cụm.........................................32
cụm.........................................32
 Hình 24 : Mơ hình phân cụm bằng phương pháp K-means.........
K-means.................
................
............................32
....................32
 Hình 25 : Mơ hình phân cụm dữ liệu Bank Marketing.........
Marketing.................
................
................
...........................33
...................33
 Hình 26 : Insert File Training Data vào hộp chức năng File...........................................33
File...........................................33


 

 Hình 27 : Mơ hình phân lớp dữ liệu..................................................................................34
liệu..................................................................................34
 Hình 28 : Kết quả chi mẫu dữ liệu thành 5 phần..............................................................35
phần..............................................................35
 Hình 29 : Kết quả chia mẫu dữ liệu thành 10 phần..........................................................35
phần..........................................................35
 Hình 30 : Kết quả chia mẫu dữ liệu với tỷ lệ 10% - 60%
60%.......

...............
................
...................................36
...........................36
 Hình 31 : Kết quả chia mẫu dữ liệu với tỷ lệ 20% - 70%
70%.......
...............
................
...................................36
...........................36
 Hình 32 : Kết quả ma trận nhầm lẫn của phương pháp Logistic Regress
Regression
ion..................37
..................37
 Hình 33 : Kết quả ma trận nhầm lẫn của phương pháp Decision Tre
Treee...........................38
 Hình 34 : Kết quả ma trận nhầm lẫn của phương pháp SVM ..........................................38
..........................................38
 Hình 35 : Kết quả ROC Analysis........
Analysis................
................
................
................
................
................
.......................................39
...............................39
 Hình 36 : Testing Data.......................................................................................................40
Data.......................................................................................................40
 Hình 37 : Dự báo bằng Prediction với phương pháp Logistic Regression

Regression.......................40
.......................40
 Hình 38 : Kết quả dự báo bằng Logistic Regression của 100 mẫu dữ liệu
liệu.......................41
.......................41


 

CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
1.1. Giới thiệu về khoa học dữ liệu
Khoa học dữ liệu là lĩnh vực áp dụng các kỹ thuật phân tích tiên tiến và các nguyên tắc
khoa
để trích
có giá
dữ liệu
choNóviệc
ra càng
quyếtquan
địnhtrọng
kinh đối
doanh,
lập kếhọc
hoạch
chiếnxuất
lượcthơng
và cáctinmục
đíchtrịsửtừdụng
khác.
ngày

với
các doanh nghiệp: Những hiểu biết sâu sắc mà khoa học dữ liệu tạo ra giúp các tổ chức
tăng hiệu quả hoạt động, xác định các cơ hội kinh doanh mới và cải thiện các chương
trình tiếp thị và bán hàng, cùng với các lợi ích khác. Cuối cùng, chúng có thể dẫn đến lợi
thế cạnh tranh so với các đối thủ kinh doanh.
Khoa học dữ liệu kết hợp nhiều lĩnh vực khác nhau - ví dụ, kỹ thuật dữ liệu, chuẩn bị dữ
liệu, khai thác dữ liệu , phân tích dự đốn, học máy và trực quan hóa dữ liệu, cũng như
thống kê, tốn học và lập trình phần mềm.
Khoa học dữ liệu đóng một vai trị quan trọng trong hầu như tất cả các khía cạnh của hoạt
động và chiến lược kinh doanh. Ví dụ, nó cung cấp thơng tin về khách hàng giúp các
công ty tạo ra các chiến dịch tiếp thị mạnh mẽ hơn và quảng cáo nhắm mục tiêu để tăng
doanh số bán sản phẩm. Nó hỗ trợ trong việc quản lý rủi ro tài chính, phát hiện các giao
dịch gian lận và ngăn ngừa sự cố thiết bị trong các nhà máy sản xuất và các cơ sở cơng
nghiệp khác. Nó giúp chặn các cuộc tấn cơng mạng và các mối đe dọa bảo mật khác
trong hệ thống CNTT.
Khoa học dữ liệu cũng rất quan trọng trong các lĩnh vực ngồi hoạt động kinh doanh
thơng thường. Trong chăm sóc sức khỏe, các ứng dụng của nó bao gồm chẩn đốn tình
trạng y tế, phân tích hình ảnh, lập kế hoạch điều trị và nghiên cứu y tế. Các tổ chức học
thuật sử dụng khoa học dữ liệu để theo dõi kết quả hoạt động của sinh viên và cải thiện
hoạt động tiếp thị của họ tới các sinh viên tương lai. Các đội thể thao phân tích hiệu suất
của người chơi và lập kế hoạch chiến lược trò chơi thơng qua khoa học dữ liệu. Các cơ 
quan chính phủ và các tổ chức chính sách cơng cũng là những người sử dụng lớn.
Vòng đời của khoa học dữ liệu bao gồm sáu bước chính sau:






Xác định một giả thuyết liên quan đến kinh doanh để kiểm tra.

Thu thập dữ liệu và chuẩn bị để phân tích.
Thử nghiệm với các mơ hình phân tích khác nhau.


 







Chọn mơ hình tốt nhất và chạy nó với dữ liệu.
Trình bày kết quả cho các nhà quản trị doanh nghiệp.
Triển khai mơ hình để sử dụng liên tục với dữ liệu mới.

1.2. Giới thiệu
thiệu về đề tài.
Makerting hiện đang phổ biến cho mọi ngành nghề. Các ngành nghề cần makerting để tối
ưu và tìm hiểu yêu cầu mong muốn của khách hàng hơn nữa còn xác định khả năng sản
xuất với giá thành phù hợp sau đó sản xuất và bán ra thị trường với chiến lược giá đã đề
ra.Và đối với bank makerting cũng vậy, ngân hàng cần tiếp thị để phục vụ khách hàng
của mình một cách tốt nhất và xem xét cái gì là cần thiết và phù hợp cho khách hàng mục
tiêu của mình.
1.2.1. Lý do chọn đề tài.
Hiện nay việc khai thác các dữ liệu đã trở nên không thể thiếu đối với các ngành nghề.
Đặc biệt ở đây chúng tôi đề cập đến trong thương mại và kinh doanh. Một lượng lớn dữ
liệu từ khách hàng, hoạt động kinh doanh, đối tác,… Những điều này khơng thể xử lý
 bằng sức người, do đó việc số hóa các số liệu này là điều vơ cùng cần thiết. Để có thể
 phân tích được các dữ liệu một cách tự động thì nhóm sử dụng phần mềm Orange để xây

dựng quy trình khai thác dữ liệu trực quan – đây là phần mềm khai thác dữ liệu phổ biến
có thể được thực hiện mà khơng cần lập trình
 Nhóm đã tìm được bộ dữ liệu của một tổ chức ngân hàng, dữ liệu có liên quan. Dữ liệu
sau khi được phân tích bởi Orange, nhóm sẽ đưa ra một số nhận xét và kết luận của từng
cửa sổ phân tích , đánh giá độ hiệu quả và đề xuất một số hướng phát triển dành cho ???.
Đó cũng là lý do chọn đề tài: “Phân tích bộ dữ liệu Bank Marketing qua các thuật toán
trên Orange”.
1.2.2. Mục tiêu nghiên cứu.
Xử lý bộ dữ liệu Bank Makerting để dự đốn liệu khách hàng có đăng ký một khoản tiền
gửi có kỳ hạn hay khơng dựa trên hồ sơ của khách hàng có các thuộc tính: tuổi, cơng
việc, tình trạng hơn nhân, học vấn,…
1.2.3. Phương pháp thực hiện.
 Nhóm sử dụng phần mềm Orange để tiến hành thực hiện xử lý dữ liệu, phân cụm, phân
lớp dữ liệu, rồi sau đó tiến hành dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp.


 

 Để thực hiện phân cụm bộ dữ liệu nhóm sử dụng hai phương pháp chính là: Hierarchical
clustering và K-means.
 - Đối với phương pháp Hierarchical clustering nhóm tiến hành tính khồng cách giữa các
 phân tử bằng Distance rồi quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và quan
sát trên Silhouette Plot.
Sau khi thực hiện phân cụm dữ liệu theo hai phương pháp trên, nhóm tiến hành chọn
 phương pháp tốt nhất để phân
phân cụm cho bộ dữ liệu của nhóm.
- Đối với việc phân lớp dữ liệu, nhóm chọn biến "Subscribed" (đã đăng kí) cho việc
gửi tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây quyết
 định (Decision Tree), SVM (Support Vector Machine) và Hồi quy Logistic (Logistic
Rgression). Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuối

cùng là quan sát trên ma trận nhầm lẫn.


 

CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG
PHÁP SỬ DỤNG
2.1. Tổng quan về chương trình sử dụng
Phần
biết đến
việcđược
tíchlập
hợptrình
các bằng
cơng Python
cụ khai với
phágiao
dữ liệu
nguồn
và họcmềm
máyOrange
thơng minh,
đơnbởi
giản,
diệnmã
trực
quanmở 

tương tác dễ dàng. Với nhiều chức năng, phần mềm này có thể phân tích được những dữ
liệu từ đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt và thú vị và còn giúp việc

khai thác dữ liệu và học máy trở nên dễ dàng hơn cho cả người dùng mới và chuyên gia.
Các công cụ cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng,
lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh các
thuật tốn máy học, trực quan hóa các phần tử dữ liệu.

 Hình 1: Phần mềm
mềm orange.
2.2 Tổng quan về các phương pháp sử dụng.
2.2.1. Phân lớp dữ liệu.
2.2.1.1. Định nghĩa.
Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ 
một mô hình phân lớp. Mơ hình này được xây dựng dựa trên một tập dữ liệu đã được gán
nhãn trước đó (thuộc về lớp nào). Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ
liệu chính là q trình phân lớp dữ liệu.
2.2.2.2. Quá trình phân lớp dữ liệu.


 

- Quá trình phân lớp dữ liệu gồm hai bước chính:




Bước 1: Xây dựng mơ hình (hay cịn gọi là giai đoạn “học” hoặc “huấn luyện”)
Bước 2: Sử dụng mô hình, được chia thành 2 bước nhỏ:

+ Đánh giá mơ hình (kiểm tra tính đúng đắn của mơ hình):





Dữ liệu đầu vào: Là một tập dữ liệu mẫu khác đã được dán nhãn và tiền xử lý. Tuy
nhiên lúc đưa vào mơ hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn.
Tính đúng đắn của mơ hình được xác định bằng cách so sánh thuộc tính gán nhãn
của dữ liệu đầu vào và kết quả phân lớp của mơ hình.

+ Phân lớp dữ liệu mới.




Dữ liệu đầu vào là dữ liệu “khuyết” thuộc tính cần dự đốn lớp (nhãn)
Mơ hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào
những gì đã được huấn luyện ở bước 1.
2.2.1.3. Một số phương pháp phân lớp.

-  Hồi quy Logistic (Logistic Regression): Là
Regression): Là một mơ hình xác suất dự đoán giá trị đầu
ra rời rạc từ một tập cá giá trị đầu vào (biểu diễn dưới dạng vector).
- Cây quyết định (Decision Tree):
Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ 
đi kèm hỗ trợ quá trình ra quyết định.
Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại
và tổng quát hóa tập dữ liệu cho trước.
- Ưu điểm:







Khơng địi hỏi việc chuẩn hóa dữ liệu.
Có thể xử lý trên nhiều kiểu dữ liệu khác nhau.
Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn.

- Khuyết điểm:




Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian.
Cho phí xây dựng mơ hình cao.


 

- SVM (Support Vector Machine).
 + Là một thuật tốn có giám sát, SVM nhận dữ liệu vào, xem chúng như các vector trong
không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu
 phẳng trong không gian nhiều chiều
chiều làm mặt phân cách
cách các lớp dữ liệu.
liệu.
  + Để tối ưu kết quả phân lớp thì
thì phải xác định siêu phẳng (hyperplane) có khoảng ccách
ách
đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.
  + SVM có nhiều biến
biến thể phù hợp với các bài toán phâ

phânn loại khác nhau:
nhau: Hard Margin
Margin
SVM, Soft Margin SVM, Multi-class SVM, Kernel SVM.
- Ưu điểm:



Tiết kiệm bộ nhớ (do quá trình test chỉ cần so điểm dữ liệu mới với mặt siêu phẳng
tìm được mà khơng cần tính tốn lại).
Linh hoạt: vừa có thể phân lớp tuyến tính và phi tuyến (sử dụng các kernel khác



nhau).
Xử lý được trong không gian nhiều chiều.



- Khuyết điểm:




Trong trường hợp số chiều dữ liệu lớn hơn số dịng dữ liệu thì SVM cho kết quả
khơng tốt.
Chưa thể hiện tính xác suất trong phân lớp.
2.2.1.4. Các phương pháp đánh giá mơ hình phân lớp.

Khái niệm: Là

niệm: Là các phương pháp nhằm kiểm tra tính hiệu quả của mơ hình phân lớp trên
dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mơ hình đó hay khơng.
Một mơ hình lý tưởng là một mơ hình khơng q đơn giản, không quá phức tạp và không
quá nhạy cảm với nhiễu (tránh underfitting và overfitting).
- Ma trận nhầm lẫn (Confusion Matrix).
Ma trận nhầm lẫn: là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự phụ thuộc vào một
lớp cụ thể và được dự đoán là rơi vào lớp nào.
- Accuracy (tính chính xác).
Là tỉ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu.


 

Accuracy chỉ cho chúng ta biết được tỷ lệ dữ liệu được phân loại đúng mà không chỉ ra
được cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại đúng nhiều
nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác.
- ROC, AUC, Precision, Recall, F1-score.
+ ROC (Receiver Operating Characteristic)
Là một đồ thị được sử dụng khá phổ biến trong đánh giá các mơ hình phân loại nhị phân.
Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR)
dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau.
Mơ hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1)
trong đồ thị thì mơ hình càng hiệu quả.
+ AUC (Area Under The Curve)
Là diện tích nằm dưới đường cong ROC
Giá trị này là một số dương nhỏ hơn hoặc bằng 1
Giá trị này càng lớn thì mơ hình càng tốt.







Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ
 bao nhiêu mẫu có đúng.
Recall (độ phủ): còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True
Positive Rate).
F1-score: giá trị trung bình điều hịa (harmonic mean) của hai độ đo Precision và
Recall.

- Phương pháp phân chia dữ liệu Hold-out
Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo một tỷ lệ
nhất định. Ví dụ, tập huấn luyện (training set) chiếm 70%, tập thử nghiệm (testing set)
chiếm 30%.
Phương pháp này thích hợp cho các tập dữ liệu nhỏ. Tuy nhiên, các mẫu có thể khơng đại
diện cho tồn bộ dữ liệu (thiếu lớp trong tập thử nghiệm).
Có thể cải tiến bằng cách dùng phương pháp lấy mẫu sao cho mỗi lớp được phân bổ đều
trong cả hai tập dữ liệu huấn luyện và đánh giá. Hoặc lấy mẫu ngẫu nhiên: thực hiện
hold-out k lần và độ chính xác acc(M) = trung bình cộng k giá trị chính xác.


 

2.2.2. Phân cụm dữ liệu
2.2.2.1 Khái niệm.
Phân cụm dữ liệu là q trình gom cụm/nhóm các đối tượng/dữ liệu có các đặc điểm
tương tự nhau và phân vào các cụm/nhóm tương ứng. Trong đó:
- Những đối tượng thuộc cùng một cụm sẽ có các thuộc tính tương tự nhau.
- Những đối tượng thuộc những cụm/nhóm khác nhau sẽ có các thuộc tính khác nhau.
Lưu ý: Dữ liệu của bài tốn phân cụm là dữ liệu chưa được gán nhãn. Đây là dữ liệu tự

nhiên thường thấy trong thực tế.
Đặc điểm:
- Nhiệm vụ chính chủ yếu là phát hiện và đo lường sự khác biệt giữa các đối tượng dữ
liệu.
- Phân cụm thuộc nhóm phương pháp học khơng giám sát (unsupervised learning) vì số
lượng nhóm khơng được biết trước (khác với bài toán phân lớp).
- Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:

















Độ tương đồng nội bộ cao
Độ tương đồng giữa các cụm thấp (khác biệt cao)
Ứng dụng phân cụm trong kinh tế học
Dự báo khách hàng năng lực
Phân tích xu hướng hành vi khách hàng
Phân tích cạnh tranh giữa các nhà cung cấp, xu hướng lựa chọn dịch vụ

Phân tích đặc tính sản phẩm và dịch vụ
Đánh giá hiệu quả kinh doanh
Phân tích hành vi người dùng mạng xã hội

2.2.2.2 Phân cụm phân cấp (Hierarchical Clustering):
- Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:




Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity
dissimilarity matrix)
Độ đo khoảng cách giữa các cụm (single link, complete link…)

- Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng.


 

- Các phương pháp điển hình: Diana, Agnes…
+ Agnes:
Theo chiến lược bottom up:









Bắt đầu với những cụm chỉ là 1 phần tử.
Ở mỗi bước, gom 2 cụm gần nhau thành 1 cụm.
 Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm,
hoặc khoảng cách trung bình.
Quá trình này lặp lại cho đến khi tất cả các phần tử cùng thuộc một cụm lớn.
Kết quả quá trình phát là một dendrogram (cây phân cấp).

Agnes - Dendrogram (cây phân cấp) là sơ đồ/cây biễu diễn sự phân rã các phần tử dữ liệu
thành nhiều cấp độ lồng nhau.
+ Diana:
Theo chiến lược top down:








Bắt đầu với một cụm gồm tất cả các phần tử.
Ở mỗi bước, chia cụm ban đầu thành hai cụm.
 Khoảng cách giữa hai cụm là khoảng cách giữa hai điẻm gần nhất từ hai
cụm, khoảng cách trung bình.
Thực hiện đệ quy trên các cụm mới được tách ra và lặp lại cho đến khi mỗi phần
tử là một cụm.
Kết quả phát sinh cây phân cấp (dendrogram).

- Nhận xét về phân cụm phân cấp:













Giải thuật đơn giản.
Kết quả dễ hiểu.
Không cần tham số đầu vào.
Khơng quay lui được.
Tốc độ chậm, khơng thích hợp trên dữ liệu lớn.
Không xử lý được trên dữ liệu bị thiếu, nhạy cảm với nhiễu.

2.2.2.3 Phân cụm phân hoạch (Partitioning Clustering).


 

- Phân tập dữ liệu có n phần tử cho trước thành k tập con (k≤ n), mỗi tập con biễu diễn
một cụm.
- Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (đọ đo phân cụm)
sao cho:



Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau.

Mỗi cụm có ít nhất 1 phần tử.

- Thuật tốn điển hình: K-means, K-mediods, Fuzzy C-means.
+ Thuật tốn K-means



Thuộc nhóm thuật tốn phân cụm dựa trên phân hoạch
Tư tưởng chính:

Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số
lượng thuộc tính của đối tượng).
o
o

o

o

Bước 1: chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.
Bước 2: phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. Nếu các điểm
dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân
chia trước đó thì ta dưng thuật toán.
Bước 3: cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất
cả các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2.
Bước 4: quay lại bước 2.

- Đánh giá thuật toán K-means:
+ Cần biết trước số lượng cụm k.
+ Nhạy cảm với nhiễu và ngoại biên (outliers).

+ Không phù hợp với phân bổ dữ liệu dạng khơng lồi (non-convex).
+ Kết quả (nghiệm) bài tốn phụ thuộc vào cách khởi tạo các trung tâm cụm ban đầu.




Trường hợp 1: tốc độ hội tụ chậm.
Trường hợp 2: kết quả gom cụm khơng chính xác (do chỉ tìm được các cực trị địa
 phương chứ khơng phải tồn cục).
cục).

+ Khắc phục:


 





Áp dụng một số phương pháp tính số cụm.
Chạy thuật toán nhiều lần với các trung tâm khác nhau để tìm giá trị cực tiểu của
hàm mất mát.

2.2.2.4. Các phương pháp đánh giá phân cụm dữ liệu.
- Là vấn đề khó khăn nhất trong bài tốn phân cụm.
- Các phương pháp đánh giá việc phân cụm dữ liệu: đánh giá ngoài, đánh giá nội bộ, đánh
giá tương đối.
- Một số tiêu chí để đánh giá chất lượng phân cụm là:





Độ nén (compactness): các phần tử của cụm phải “gần nhau”.
Độ phân cách (separation): khoảng cách giữa các cụm nên “xa nhau”, phân cách rõ
ràng.

- Các phương pháp đánh giá:
+ Đánh giá ngoài (external validation)








Là đánh giá kết quả phân cụm dựa vào cấu trúc/xu hướng phân cụm được chỉ định
trước cho tập dữ liệu.
So sánh độ sai khác giữa các cụm
So sánh với kết quả mẫu (đáp án).
Cácc độ đo đư

được
ợc sử dụng
dụng tr
tron
ongg phươ
phương
ng ph

pháp
áp này:
này: Ra
Rank
nk stat
statis
isti
tic,
c, Jacc
Jaccar
ardd
coefficient, Folkes và Mallows index,...

+ Đánh giá nội bộ (internal validation).






Là đánh giá kết quả phân cụm mà khơng có thơng tin từ bên ngồi, chủ yếu dựa
trên các vector chính của dữ liệu thông qua ma trận xấp xỉ (proximity matrix).
Tối ưu hóa các chỉ số nội bộ: độ nén, độ phân tách.
Các độ đo được sử dụng trong phương pháp này: Hubert’s statistic, Sihouette
index, Dunn’s index, F-ratio, DBI (Davics Bouldin Index).

+ Đánh giá tương đối (relative validation)
Đánh giá kết quả gom cụm bằng việc so sánh với:



Kết quả gom cụm ứng với các bộ trị thông số khác nhau.


 



Kết quả gom cụm của các phương pháp khác.


 

CHƯƠNG 3: MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT VÀ KẾT QUẢ THỰC HIỆN.
3.1. Tiền xử lí dữ liệu
Đầu tiên, ta nạp dữ liệu Banking Marketing vào Datasets
Các bước thực hiện như sau: Ta mở Datasets, tim bộ dữ liệu có tên Banking Marketing,
sau đó chọn bộ dữ liệu.

 Hình 2: Chọn chức
chức năng Datasets

 Hình 3: Chọn bộ dữ liệu Banking Marketing
Marketing từ Datasets
Datasets
Để có thể quan sát được dữ liệu, ta liên kết Datasets vào Data Tables


 

 Hình 4: Liên kết

kết Datasets vào Data
Data Table

 Hình 5: Kết quả bộ dữ liệu Banking Marketing
Marketing trong
trong Data Table


 

 Hình 6: Quy trình tiền xử lý dữ liệu
* Loại bỏ các biến không phù hợp
Dữ liệu gốc ban đầu của Banking Marketing có 4119 quan sát (có 4,8% dữ liệu bị thiếu – 
khoảng 198 dữ liệu bị thiếu)
Tiền xử lý dữ liệu thông qua chức năng Preprocess: trong Preprocess, chọn Impute
Missing Values -> Chọn Replace with random value.

 Hình 7: Các bước
bước thực hiện xử lý dữ liệu trong
trong Preprocess
Preprocess
Sau khi xử lý dữ liệu ta nối với Data Table để dữ liệu dễ nhìn hơn và lưu dữ liệu với tên
là Data_Tiền xử lý dữ liệu.


 

 Hình 8: Kết quả dữ liệu
liệu Data_Tiền xử lý dữ liệu với
với mẫu 4119 quan sát.

sát.
Để chuẩn bị cho quá trình phân lớp và phân cụm dữ liệu, ta dùng Data Sampler để tạo ra
hai file Training Data (dữ liệu huấn luyện) là 70% của Data_Tiền xử lý dữ liệu và Testing
Data (dữ liệu thử nghiệm) gồm 100 quan sát ngẫu nhiên của Data_Tiền xử lý dữ liệu.

 Hình 9: Quy trình
trình tạo File Training
Training Data và File
File Testing Data


 

 Hình 10: Data Sampler
Sampler của File Training
Training Data

 Hình 11: Data Sampler
Sampler của File Testing
Testing Data


×