TRƯỜNG ĐẠI HỌC THƯƠNG MẠI
KHOA: HTTT KINH T V THƯƠNG MẠI ĐIÊN TƯ
ĐỀ TI THẢO LUẬN
MÔN: KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
Đề tài: Khai phá dữ liệu cho cơ sở dữ liệu khách hàng quyết định lựa chọn sản phẩm tại
Adidas.
Giảng viên hướng dẫn: PGS. TS. Nguyễn Thị Thu Thủy
Lớp học phần:
2102INFO2111
Nhóm thực hiện:
Nhóm 7
H NỘI, 2021
1
Mục lục
CHƯƠNG I: KHẢO SÁT DỰ ÁN........................................................................................................5
CHƯƠNG II: KT QUẢ NGHIÊN CÚU............................................................................................8
1.
Mơ tả thống kê...........................................................................................................................8
2.
Phân tích độ tin cậy qua hệ số Cronbach’s Alpha...................................................................8
3.
Kết quả phân tích nhân tố khám phá EFA............................................................................11
4.
Tương quan pearson................................................................................................................ 16
5.
Phân tích hồi quy đa biến........................................................................................................16
CHƯƠNG III: XÂY DỰNG CÂY QUYT ĐỊNH............................................................................18
CHƯƠNG IV: GIẢI PHÁP.................................................................................................................28
3
LỜI MỞ ĐẦU
Những năm gần đây, khi nền kinh tế đất nước phát triển, chất lượng đời sống của
người dân Việt Nam đặc biệt là ở khu vực thành thị ngày càng nâng cao. Cùng với nhu
cầu “ăn ngon mặc đẹp” là nhu cầu có được một sức khỏe tốt, thân hình dẻo dai, cân đối.
Để thỏa mãn các nhu cầu trên thì việc có được đơi giày thể thao đẹp, phù hợp với các loại
hình thể thao là một điều cần thiết.
Hàng loạt các thương hiệu giày thể thao quốc tế lớn như Nike, Adidas và
Reebok… có nhà sản xuất gia công phần mềm của giày dép tại Việt Nam, đồng thời các
sản phẩm chính hãng cũng tham gia vào thị trường giày dép của Việt Nam. Nổi bật trong
đó là Adidas. Là thương hiệu nổi tiếng tồn cầu, Adidas tham gia thị trường dụng cụ thể
thao Việt Nam từ rất lâu. Năm 1993, Adidas đã có mặt tại Việt Nam nhưng phải đến năm
2009 Adidas mới chính thức thành lập Công ty Adidas Việt Nam, được sở hữu 100% vốn
bởi Adidas International B.V (Amsterdam, Hà Lan).
Adidas phát triển nhanh và mạnh tại thị trường Việt Nam. Chỉ sau 2 năm hoạt
động chính thức, Adidas đã mở tổng cộng 50 cửa hàng tại các thành phố lớn, trải dài từ
Bắc vào Nam. Adidas hiện đang có khoảng 80.000 lao động tại Việt Nam.
Để gia tăng khả năng khai thác thị trường sản phẩm giày thể thao, Adidas đã thực
hiện các chiến dịch marketing với quy mô lớn nhằm tác động đến hành vi mua của người
tiêu dùng. Thông qua việc chứng minh những ưu thế về tính năng sản phẩm, chất lượng
dịch vụ, làm gia tăng lợi ích về mặt tâm lí, xã hội cho người sử dụng,… Cơng ty kì vọng
những giá trị vượt trội đó sẽ gia tăng lượng khách hàng về cho cơng ty. Đây chính là
nguyên nhân chúng tôi chọn đề tài nghiên cứu: “Nghiên cứu yếu tố ảnh hưởng đến việc
lựa chọn sản phẩm tại adidas”.
4
CHƯƠNG I: KHẢO SÁT DỰ ÁN
1. Dữ liệu đầu vào
Dữ liệu đầu vào là bảng dữ liệu thông tin và mức độ đồng ý của khách hàng về các
nhân tố ảnh hưởng đến quyết định lựa chọn sản phẩm tại Adidas.
2 Mục tiêu của bài toán
Từ những lựa chọn của khách hàng, xác định sự tương quan của các yếu tố ảnh
hưởng tới quyết định lựa chọn sản phẩm của Adidas. Từ đó thấy được mức độ ảnh hưởng
của các yếu tố và sự đưa ra quyết định mua các sản phẩm của Adidas.
3 Mẫu phiếu điều tra
Bảng câu hỏi khảo sát về các nhân tố ảnh hưởng đến quyết định mua sản phẩm của
Adidas.
BẢNG CÂU HỎI KHẢO SÁT VỀ CÁC YU TỐ ẢNH HƯỞNG ĐN VIỆC
LỰA CHỌN SẢN PHẨM TẠI ADIDAS
Xin chào các bạn! Chúng tơi là nhóm nghiên cứu của trường đại học Thương Mại
đang thực hiện việc khảo sát về "các yếu tố ảnh hưởng đến quyết định lựa chọn sản
phẩm tại Adidas". Rất mong các bạn dành thời gian để trả lời một số câu hỏi khảo sát
của chúng tôi dưới đây.
Xin chân thành cảm ơn!
A. Giới thiệu chung
Giới thiệu đôi nét về bản thân bạn
1. Họ và ………………………………………………………….
5
2. Giới tính:
o
Nam
o
Nữ
3. Thu nhập hàng tháng của bạn là bao nhiêu
o
Dưới 1 triệu
o
Từ 1 đến 2 triệu
o
Trên 2 triệu
o
Khác
4. Bạn có sử dụng sản phẩm của Adidas khơng?
o
Có
o
Khơng
B. Các yếu tố ảnh hưởng đến việc lựa chọn Adidas
1 . Bạn thường chọn giày theo tiêu chí gì?
o Màu sắc
o Thể loại
o Kích thước
o Chất liệu
o Khác
2 . Bạn chi bao nhiêu tiền cho một đôi giày Adidas?
o Dưới 1 triệu
o Từ 1 – 2 triệu
o Trên 2 triệu
o Khác
3 . Bạn thường mua giày Adidas ở đâu ?
6
o Cửa hàng
o Người bán hàng trên FB
o Website
o Các sàn TMĐT
o Khác
4 . Bạn biết Adidas qua đâu ?
o Được bạn bè, người thân giới thiệuNgười bán hàng trên FB
o Thường xuyên xuất hiện trên tivi, mạng xã hội
o Được thấy từ nhiều người sử dụng
o Khác
(Chú giải: 1 - Hồn tồn khơng đồng ý; 2 - Khơng đồng ý; 3 - Bình thường; 4 Đồng ý; 5 - Hồn tồn đồng ý)
CÁC PHÁT BIỂU
1
A. Hình thức, chất lượng sản phẩm
1
Giày có nhiều màu sắc, mẫu
mã đa dang để lựa chọn
2
Giày có đầy đủ kích cỡ phù
hợp vs người mua
3
Giày êm ái khi di chuyển
4
Giày có độ bền cao
B. Chất lượng dịch vụ
1
Thái độ nhân viên vui vẻ,
thân thiện và An ninh trật tự
7
2
3
4
5
tốt
2
Các cửa hàng phân phối giày
rộng rãi, mạng lưới đại lý
rộng khắp nên dễ dàng tìm
mua sản phẩm
3
Dịch vụ hậu mãi ở cửa hàng
tốt, chế độ bảo hành tốt và có
nhiều đợt sale
4
Khách hàng được cung cấp
nhiều thơng tin về sản phẩm
C. Thương hiệu
1
Adidas là một thương hiệu
lớn
2
Adidas là một thương hiệu uy
tín
3
Mọi người xung quanh đều sử
dụng
D. Giá cả
1
Giày có giá cả cạnh tranh trên
thị trường
2
Giá có tương xứng với chất
lượng
3
Có nhiều mức giá để lựa chọn
4
Có giá cả hợp lý với mỗi
người tiêu dùng
Bạn sẽ giới thiệu cho mọi người xung quanh mua hàng tại Adidas?
o
Có
o
Khơng
Cảm ơn bạn đã giúp nhóm mình!
8
CHƯƠNG II: KT QUẢ NGHIÊN CÚU
1. Mô tả thống kê
Sau khi khảo sát được 148 phiếu khảo sát, nhóm 7 có được số liệu thống kê như
sau:
Trong 147 phiếu khảo sát thu được có: 88 người thuộc giới tính nữ chiếm
59.86%, cịn lại 59 người là thuộc giới tính nữ chiếm 40.14%.
Thu nhập dưới 1 triệu có 27 người chiếm 18,36%, từ 1 đến 2 triệu có 72 người
chiếm 48,97% , trên 2 triệu có 43 chiếm 29,25% , khác có 5 người chiếm 3,4%
Số người chi dưới 1 triệu cho 1 đơi giày adidas có 52 người chiếm 35,37%, từ
1 đến 2 triệu có 65 người chiếm 44,2% , trên 2 triệu có 22 người chiếm 15%,
mục khác có 8 người chiếm 5,44%
Số người mua giày từ website có 30 người chiếm , số người mua gìay từ cửa
hàng có 50 người chiếm, số người mua giày từ các sàn thương mại điện tử có
19 người chiếm 12,92%, số người mua giày từ người bán hàng trên facebook
có 43 người chiếm 29,25%, mục khác có người mua giày từ các đơn vị bán
hàng khác hoặc chưa mua bao giờ có 5 người chiếm 3,4%
2. Phân tích độ tin cậy qua hệ số Cronbach’s Alpha
- Ta quy ước như sau:
HTCLSP1: Giày có nhiều màu sắc, mẫu mã đa dang để lựa chọn
HTCLSP2: Giày có đầy đủ kích cỡ phù hợp vs người mua
HTCLSP3: Giày êm ái khi di chuyển
HTCLSP4: Giày có độ bền cao
CLDV1: Thái độ nhân viên vui vẻ, thân thiện và an ninh trật tự tốt
CLDV2: Các cửa hàng phân phối giày rộng rãi, mạng lưới đại lý rộng khắp
CLDV3: Dịch vụ hậu mãi ở cửa hàng tốt, chế độ bảo hành tốt và có nhiều
đợt sale
CLDV4: Khách hàng được cung cấp nhiều thông tin về sản phẩm
TH1: Adidas là một thương hiệu lớn
9
TH2: Adidas là một thương hiệu uy tín
TH3: Mọi người xung quanh đều sử dụng
GC1: Giày có giá cả cạnh tranh trên thị trường
GC2: Giá có tương xứng với chất lượng
GC3: Có nhiều mức giá để lựa chọn
GC4: Có giá cả hợp lý với mỗi người tiêu dùng
- Hình thức chất lượng sản phẩm:
Reliability Statistics
Cronbach's
N of
Alpha
Items
.789
4
Item-Total Statistics
Scale Mean
Scale
Corrected
if Item
Variance if Item-Total
Deleted
Item
Correlation
Deleted
HTCLSP
1
HTCLSP
2
HTCLSP
3
HTCLSP
4
Cronbach's
Alpha if
Item
Deleted
11.90
5.114
.465
.796
11.86
4.132
.682
.692
11.97
4.027
.651
.708
12.07
4.385
.598
.737
Kết quả kiểm định cho thấy hệ số Cronbach’ Alpha chung = 0.789 > 0.6, hệ số
tương quan biến-tổng của các biến quan sát đều đạt yêu cầu (> 0.3). Tuy nhiên hệ
số Cronbach's Alpha if Item Deleted của biến “Giày có nhiều màu sắc, mẫu mã đa
dang để lựa chọn” (= 0.796) lớn hơn hệ số Cronbach’ Alpha chung nên ta loại bỏ
biến quan sát “Giày có nhiều màu sắc, mẫu mã đa dang để lựa chọn”.
- Chất lượng dịch vụ:
Reliability Statistics
10
Cronbach's
Alpha
.757
N of
Items
4
Scale Mean
if Item
Deleted
CLDV
1
CLDV
2
CLDV
3
CLDV
4
Item-Total Statistics
Scale
Corrected
Variance if Item-Total
Item
Correlation
Deleted
Cronbach's
Alpha if
Item
Deleted
11.71
3.751
.608
.672
11.90
3.845
.540
.709
11.78
3.827
.550
.703
11.75
3.804
.523
.719
Kết quả kiểm định cho thấy hệ số Cronbach’ Alpha chung = 0.757 > 0.6, hệ số
tương quan biến-tổng của các biến quan sát đều đạt yêu cầu (> 0.3).
- Thương hiệu:
Reliability Statistics
Cronbach's
N of
Alpha
Items
.719
3
Item-Total Statistics
Scale
Corrected Cronbach's
Variance if Item-Total
Alpha if
Item
Correlation
Item
Deleted
Deleted
8.06
2.044
.497
.680
7.90
1.928
.684
.465
8.12
2.026
.457
.736
Scale Mean
if Item
Deleted
TH1
TH2
TH3
Kết quả kiểm định cho thấy hệ số Cronbach’ Alpha chung = 0.719 > 0.6, hệ số
tương quan biến-tổng của các biến quan sát đều đạt yêu cầu (> 0.3). Tuy nhiên hệ
11
số Cronbach's Alpha if Item Deleted của biến “Mọi người xung quanh đều sử
dụng” (= 0.736) lớn hơn hệ số Cronbach’ Alpha chung nên ta loại bỏ biến quan sát
“Mọi người xung quanh đều sử dụng”.
- Giá cả:
Reliability Statistics
Cronbach's
N of
Alpha
Items
.795
4
GC1
GC2
GC3
GC4
Item-Total Statistics
Scale Mean
Scale
Corrected Cronbach's
if Item
Variance if Item-Total
Alpha if
Deleted
Item
Correlation
Item
Deleted
Deleted
11.84
4.640
.636
.734
11.66
4.568
.603
.746
11.67
4.290
.614
.741
11.86
4.214
.584
.759
Kết quả kiểm định cho thấy hệ số Cronbach’ Alpha chung = 0.795 > 0.6, hệ số
tương quan biến-tổng của các biến quan sát đều đạt yêu cầu (> 0.3).
Kết luận: Sau khi tiến hành phân tích độ tin cậy bằng phương pháp
Cronbach’s Alpha, 15 biến quan sát rút lại còn 13 biến quan sát, loại bỏ các
biến quan sát là: “Giày có nhiều màu sắc, mẫu mã đa dang để lựa chọn”,
“Mọi người xung quanh đều sử dụng”.
3. Kết quả phân tích nhân tố khám phá EFA
3.1. Kiểm định KMO và Bartlett’s Test
- Yêu cầu
+ Hệ số KMO ≥ 0.5
+ Sig. < 0.005
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
12
.858
Bartlett's Test of Sphericity
Approx. Chi-Square
866.753
df
78
Sig.
.000
Bảng giải thích tổng phương sai
Extraction Method: Principal Component Analysis.
Total Variance Explained
Nhận xét: Tiêu chuẩn của phương pháp phân tích nhân tố là chỉ số KMO phải lớn
hơn 0.5 (Garson, 2003) và kiểm định Barlett’s có mức ý nghĩa sig < 0.05 để chứng tỏ
dữ liệu dùng phân tích nhân tố là thích hợp và giữa các biến có tương quan với nhau.
Giá trị Kaiser-Meyer-Olkin Measure of Sampling Adequacy (KMO)=0.858.
Kết quả phân tích nhân tố cho thấy chỉ số KMO là 0.858> 0.5, điều này chứng tỏ dữ
liệu dùng để phân tích nhân tố là hồn tồn thích hợp.
Kết quả kiểm định Barlett’s là 866.753 với mức ý nghĩa Sig. = 0.000< 0.05,lúc này
bác bỏ giả thuyết H0: các biến quan sát khơng có tương quan với nhau trong tổng thể.
Như vậy giả thuyết về ma trận tương quan giữa các biến là ma trận đồng nhất bị bác
bỏ, tức là các biến có tương quan với nhau và thỏa điều kiện phân tích nhân tố.
3.2. Eigenvalues và phương sai trích
Nhận xét: Thực hiện phân tích nhân tố theo Principal components với phép quay
Varimax.
Kết quả cho thấy 13 biến quan sát ban đầu được nhóm thành 3 nhóm.
Giá trị tổng phương sai trích = 62.401% > 50%: đạt yêu cầu; khi đó có thể nói rằng 3
nhân tố này giải thích 62.401% biến thiên của dữ liệu.
Giá trị hệ số Eigenvalues của các nhân tố đều cao (>1), nhân tố thứ 3 có Eigenvalues
thấp nhất là 1.015> 1
Total Variance Explained
Compo
Initial Eigenvalues
Extraction Sums of Squared
Rotation Sums of Squared
Loadings
Loadings
13
%
Cumulative
% of
Variance
Total
%
Cumulative
% of
Variance
%
Cumulative
% of
Variance
Total
nent
Total
1
5.905
45.424
45.424
5.905
45.424
45.424
3.295
25.347
25.347
2
1.192
9.166
54.590
1.192
9.166
54.590
2.671
20.546
45.894
3
1.015
7.811
62.401
1.015
7.811
62.401
2.146
16.507
62.401
4
.922
7.093
69.493
5
.745
5.728
75.221
6
.612
4.706
79.928
7
.566
4.355
84.283
8
.512
3.938
88.221
9
.410
3.155
91.376
10
.353
2.717
94.093
11
.287
2.210
96.303
12
.280
2.158
98.461
13
.200
1.539
100.000
Extraction Method: Principal Component Analysis.
3.3. Ma trận xoay nhân số
Theo Hair & công sự (1998), Factor loading (hệ số tải nhân tố hay trọng số nhân
tố) là chỉ tiêu để đảm bảo mức ý nghĩa thiết thực của EFA.
Có 3 loại biến xấu:
+ Biến xấu 1 : Hệ số tải Factor Loading nhỏ hơn hệ số tải tiêu chuẩn.
+ Biển xấu 2 : Tải lên 2 hay nhiều nhóm nhân tố và chênh lệch hệ số tải nhỏ hơn 0.5.
+ Biến xấu 3 : Nằm tách biệt duy nhất ở một nhân tố.
Từ bảng trên ta thấy loại 2 biến xấu: CLDV3, GC1
Rotated Component Matrixa
Component
1
HTCLSP3
2
3
.819
14
HTCLSP4
.710
HTCLSP2
.689
GC2
.646
TH2
.619
CLDV3
CLDV4
.793
TH1
.698
CLDV1
.684
CLDV2
.560
GC4
.811
GC3
.644
GC1
.511
.619
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser
Normalization.
a. Rotation converged in 7 iterations.
Ta bỏ các biến trên và thực hiện lại ta được:
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
Bartlett's Test of Sphericity
.842
Approx. Chi-Square
671.126
df
55
Sig.
.000
Ta thấy hệ số KMO của bài là 0.842 > 0.5 đủ để phân tích nhân tố là phù hợp.
Kiểm định Bartlett có ý nghĩa thống kê Sig. < 0.05, chứng tỏ các biến quan sát có
tương quan với nhau trong nhân tố.
Total Variance Explained
Initial Eigenvalues
Component
1
Extraction Sums of Squared
Rotation Sums of Squared Loadings
Loadings
Total
5.039
% of
Cumulative
Variance
%
45.813
45.813
Total
5.039
% of
Cumulative
Variance
%
45.813
45.813
15
Total
3.558
% of
Cumulative
Variance
%
32.346
32.346
2
1.167
10.607
56.419
3
.907
8.243
64.663
4
.865
7.860
72.522
5
.626
5.692
78.214
6
.597
5.430
83.644
7
.494
4.487
88.131
8
.409
3.721
91.852
9
.394
3.582
95.434
10
.292
2.654
98.088
11
.210
1.912
100.000
1.167
10.607
56.419
2.648
24.074
56.419
Extraction Method: Principal Component Analysis.
Nhận xét: Thực hiện phân tích nhân tố theo Principal components với phép quay
Varimax.
Kết quả cho thấy 11 biến quan sát ban đầu được nhóm thành 2 nhóm.
Giá trị tổng phương sai trích = 56.419% > 50%: đạt yêu cầu; khi đó có thể nói rằng 3
nhân tố này giải thích 56.419% biến thiên của dữ liệu.
Giá trị hệ số Eigenvalues của các nhân tố đều cao (>1), nhân tố thứ 3 có Eigenvalues
thấp nhất là 1.167> 1
Ma trận xoay số
Rotated Component Matrixa
Component
1
2
GC3
.764
GC2
.764
HTCLSP3
.752
HTCLSP4
.712
HTCLSP2
.651
GC4
.557
TH2
.552
CLDV4
.798
16
TH1
.732
CLDV1
.710
CLDV2
.616
Extraction Method: Principal
Component Analysis.
Rotation Method: Varimax with Kaiser
Normalization.
a. Rotation converged in 3 iterations.
Qua bảng trên ta khơng cịn thấy biến xấu nào để loại bỏ nữa. Kết thúc phân tích EFA.
Vậy sau khi phân tích nhân tố khám phá EFA ta loại 2 biến xấu: CLDV3,
GC1
4. Tương quan pearson
Correlations
F_GC
F_GC
Pearson Correlation
F_CLDV
.620**
1
Sig. (2-tailed)
.000
N
F_CLDV
Pearson Correlation
147
147
.620**
1
Sig. (2-tailed)
.000
N
147
147
**. Correlation is significant at the 0.01 level (2-tailed).
Nhận xét: Sig kiểm định tương quan Pearson các giữa 2 biến độc lập F_GC,
F_CLDV đều nhỏ hơn 0.05. Như vậy, có mối liên hệ tuyến tính giữa 2 biến F_GC và
F_CLDV.
5. Phân tích hồi quy đa biến
Model Summaryb
Model
1
R
R Square
.114a
Adjusted R
Std. Error of the
Square
Estimate
.013
.008
.183
a. Predictors: (Constant), GC, CLDVTH, GCTH
b. Dependent Variable: HL
17
Durbin-Watson
2.105
Giá trị hiệu chỉnh bằng 0.008 cho thấy biến độc lập đưa vào chạy hồi quy ảnh hưởng 0.8% sự
thay đổi của biến phụ thuộc, còn lại là 99.2% là do các biến ngồi mơ hình và sai số ngẫu nhiên.
Hệ số Durbin- Watson nằm trong khoảng 1.5 đến 2.5 nên khơng có hiện tượng tự tương quan
chuỗi bậc xảy ra
ANOVAa
Model
1
Sum of Squares
Regression
df
.062
Mean Square
F
3
.021
.033
Residual
4.768
143
Total
4.830
146
Sig.
.624
.601b
a. Dependent Variable: HL
b. Predictors: (Constant), GC, CLDVTH, GCTH
Sig kiểm định F bằng 0.601 > 0.05
Coefficientsa
Standardized
Unstandardized Coefficients
Model
1
B
Coefficients
Std. Error
Beta
Collinearity Statistics
t
Sig.
9.286
Tolerance
.986
.106
.000
GCTH
.030
.033
.109
.911
.364
.482
2.074
CLDVTH
.030
.031
.102
.961
.338
.610
1.640
GC
.011
.024
.049
.462
.645
.617
1.620
a. Dependent Variable: HL
Hệ số VIF của các biến độc lập có 1 biến lớn lơn 2 nên có hiện tượng đa cộng biến
xảy ra
Các hệ số hồi quy đều lớn hơn 0. Như vậy tất cả các biến độc lập đưa vào phân
tích hồi quy đều tác động cùng chiều tới biến phụ thuộc. Dựa vào độ lớn của hệ số
hồi quy chuẩn hoá Beta, thứ tự mức độ tác động từ mạnh nhất tớ yếu nhất của cá
biến độc lập tới biến phụ thuộc HL là GCTH(0.030),CLDVTH(0.030) >
GC(0.011). Tương ứng với;
-
Biến Chất lượng dịch vụ và thương hiệu tác động mạnh nhất tới sự hài lòng của
khách hàng
-
VIF
(Constant)
Biến Giá cả tác động mạnh thứ 2 tới sự hài lòng của khách hàng
18
-
Giá cả trung bình Mean = -4.43E -16 gần bằng 0, độ lệch chuẩn là 0.990 gần bằng
1, như vậy có thể nói, phân phối phần dư xấp xỉ chuẩ. Do đó, có thể kết luận rằng:
Giả thiết phân phối chuẩn của phần dư khơng bị vi phạm
Phương trình hồi quy chuẩn hoá là
HL = 0.109 * GCTH + 0.102*CLDVTH+0.49*GC
CHƯƠNG III: XÂY DỰNG CÂY QUYT ĐỊNH
1. Tìm nút gốc
Attribute
Hình thức chất
lượng
Chất lượng dịch
Rules
Hoàn toàn đồng ý -> Yes
Đồng ý -> Yes
Trung lập -> Yes
Khơng đồng ý->Yes
Error
4/95
1/46
0/3
0/3
Hồn tồn đồng ý -> Yes
Đồng ý -> Yes
2/96
3/46
19
Total error
5/147
5/147
vụ
Thương hiệu
Giá cả
Trung lập -> Yes
0/3
Khơng đồng ý-> Yes
0/3
Hồn tồn đồng ý -> Yes
Đồng ý -> Yes
Trung lập -> Yes
Hoàn tồn khơng đồng ý-> Yes
2/57
3/75
0/13
0/2
Hồn tồn đồng ý-> Yes
Đồng ý -> Yes
Trung lập-> Yes
Khơng đồng ý-> yes
5/133
0/10
0/2
0/2
1.1. Xét thuộc tính Hình thức chất lượng
Thuộc tính này nhận 1 trong 5 giá trị là 2,3,4,5
Gọi tập hợp điểm trong mỗi child node này là T2, T3, T4, T5
Child node ứng với Hình thức chất lượng = 2 và = 3 có Entropy = 0 do tất cả các giá trị
đều là YES
Entropy(T2) = 0
Entropy(T3) = 0
Entropy(T4) =
……002
1Entropy(T5) =
Entropy(HTCL,S) =
1.2. Xét thuộc tính Chất lượng dịch vụ
Thuộc tính này nhận 1 trong 5 giá trị là 2,3,4,5
Gọi tập hợp điểm trong mỗi child node này là C2, C3, C4, C5
Child node ứng với Chất lượng dịch vụ = 2 và = 3 có Entropy = 0 do tất cả các giá trị đều
là YES
Entropy(C2) = 0
Entropy(C3) = 0
20
5/147
5/147
Entropy(C4) =
Entropy(C5) =
Entropy(CLDV,S) =
1.3. Xét thuộc tính Thương hiệu
Thuộc tính này nhận 1 trong 5 giá trị là 1,3,4,5
Gọi tập hợp điểm trong mỗi child node này là A1, A3, A4, A5
Child node ứng với Thương hiệu = 1 và = 3 có Entropy = 0 do tất cả các giá trị đều là
YES
Entropy(A1) = 0
Entropy(A3) = 0
Entropy(A4) =
Entropy(A5) =
=> Entropy(TH,S) =
1.4. Xét thuộc tính Giá cả
Thuộc tính này nhận 1 trong 5 giá trị là 2,3,4,5
Gọi tập hợp điểm trong mỗi child node này là G2, G3, G4, G5
Child node ứng với Thương hiệu = 2 và = 3 và = 4 có Entropy = 0 do tất cả các giá trị đều
là YES
Entropy(G2) = 0
Entropy(G3) = 0
Entropy(G4) = 0
Entropy(G5) =
Entropy(GC,S) =
Ta thấy Entropy (CLDV, S) = 0,2072 là nhỏ nhất vì thế nên ta chọn Chất lượng dịch vụ
làm node đầu tiên.
Với Chất lượng dịch vụ = 2 và Chất lượng dịch vụ = 3 tất cả các giá trị đều là YES vì
vậy ta thu được node YES ở nhánh 2 và 5.
21
2. Tìm các nút tiếp theo
Ta tiếp tục tính Entropy cho nhánh Chất lượng dịch vụ =5 và =4.
*Với Chất lượng dịch vụ = 4
2.1. Xét thuộc tính Hình thức chất lượng
Thuộc tính này nhận 1 trong 5 giá trị là 2,3,4,5
Gọi tập hợp điểm trong mỗi child node này là T2, T3, T4, T5
Child node ứng với Hình thức chất lượng = 2 và = 3 có Entropy = 0 do tất cả các giá trị
đều bằng YES
Entropy(T2) = 0
Entropy(T3) = 0
Entropy(T4) =
Entropy(T5) =
Entropy(HTCL,S) =
2.2. Xét thuộc tính Thương hiệu
Thuộc tính này nhận 1 trong 5 giá trị là 3,4,5
Gọi tập hợp điểm trong mỗi child node này là A3, A4, A5
Child node ứng với Thương hiệu = 3 có Entropy = 0 do tất cả các giá trị đều là YES
Entropy(A3) = 0
Entropy(A4) =
Entropy(A5) =
=> Entropy(TH,S) =
2.3. Xét thuộc tính Giá cả
Thuộc tính này nhận 1 trong 5 giá trị là 3,4,5
Gọi tập hợp điểm trong mỗi child node này là G3, G4, G5
22
Child node ứng với Thương hiệu = 3 và = 4 có Entropy = 0 do tất cả các giá trị đều là
YES
Entropy(G3) = 0
Entropy(G4) = 0
Entropy(G5) =
Entropy(GC,S) =
Ta thấy, Entropy (TH, S) = 0,2814 là nhỏ nhất. Ta chọn Node tiếp theo là Thương hiệu.
2.4 Với Thương hiệu = 4
a. Xét thuộc tính Hình thức chất lượng
Thuộc tính này nhận 1 trong 5 giá trị là 4,5
Gọi tập hợp điểm trong mỗi child node này là T4, T5
Child node ứng với Hình thức chất lượng = 4 có Entropy = 0 do tất cả các giá trị đều là
YES
Entropy(T4) = 0
Entropy(T5) =
Entropy(HTCL,S) =
b. Xét thuộc tính Giá cả
Thuộc tính này nhận 1 trong 5 giá trị là 5
Gọi tập hợp điểm trong mỗi child node này là G5
Entropy(G5) =
Entropy(GC,S) =
23
Ta thấy, Entropy (HTCL, S) = 0,4702 là nhỏ nhất. Ta chọn Node tiếp theo là Hình thức
chất lượng.
2.5 Với Thương hiệu = 5
a. Xét thuộc tính Hình thức chất lượng
Thuộc tính này nhận 1 trong 5 giá trị là 3,4,5
Gọi tập hợp điểm trong mỗi child node này là T3, T4, T5
Child node ứng với Hình thức chất lượng = 3 và = 5 có Entropy = 0 do tất cả các giá trị
đều là YES
Entropy(T3) = 0
24
Entropy(T5) = 0
Entropy(T4) =
Entropy(HTCL,S) =
b. Xét thuộc tính Giá cả
Thuộc tính này nhận 1 trong 5 giá trị là 3, 4, 5
Gọi tập hợp điểm trong mỗi child node này là G3, G4, G5
Child node ứng với Hình thức chất lượng = 3 và = 4 có Entropy = 0 do tất cả các giá trị
đều là YES
Entropy(G3) = 0
Entropy(G4) = 0
Entropy(G5) =
Entropy(GC,S) =
Ta thấy, Entropy (HTCL, S) = 0,1959 là nhỏ nhất. Ta chọn Node tiếp theo là Hình thức
chất lượng.
Làm tương tự với các nhánh cịn lại. Ta có cây quyết định cuối cùng sau:
25
3. Kiểm tra độ chính xác của cây quyết định vừa vẽ
Lấy 30% dữ liệu phần cuối trong file kết quả thu được từ phiếu khảo sát ta áp dụng vào
cây quyết định để tính độ chính xác của cây ta thu được bảng kết quả như sau:
STT
Hình th ức chấất lượng
98
99
100
Đồồng ý
Rấất đồồng ý
Đồồng ý
101
102
103
104
105
106
107
108
109
110
111
112
113
Khồng đồồng ý
Đồồng ý
Rấất đồồng ý
Đồồng ý
Rấất đồồng ý
Rấất đồồng ý
Đồồng ý
Rấất đồồng ý
Rấất đồồng ý
Đồồng ý
Đồồng ý
Rấất đồồng ý
Rấất đồồng ý
Sự hài lòng
Chấất lượng dịch Thương hiệu
Giá cả
của khách
hàng
vụ
Rấất đồồng ý
Rấất đồồng ý
Rấất đồồng ý
Yes (TP)
Rấất đồồng ý
Rấất đồồng ý
Rấất đồồng ý
Yes (TP)
Phấn vấn
Phấn vấn
Phấn vấn
Yes (FN)
Rấất khồng
Khồng đồồng ý
đồồng ý
Khồng đồồng ý
Yes (FN)
Đồồng ý
Đồồng ý
Rấất đồồng ý
Yes (TP)
Rấất đồồng ý
Đồồng ý
Rấất đồồng ý
Yes (TP)
Rấất đồồng ý
Phấn vấn
Đồồng ý
Yes (TP)
Rấất đồồng ý
Rấất đồồng ý
Rấất đồồng ý
Yes (TP)
Đồồng ý
Đồồng ý
Rấất đồồng ý
Yes (TP)
Đồồng ý
Đồồng ý
Rấất đồồng ý
Yes (TP)
Rấất đồồng ý
Rấất đồồng ý
Rấất đồồng ý
Yes (TP)
Đồồng ý
Rấất đồồng ý
Rấất đồồng ý
Yes (TP)
Đồồng ý
Đồồng ý
Đồồng ý
Yes (TP)
Đồồng ý
Rấất đồồng ý
Rấất đồồng ý
Yes (TP)
Đồồng ý
Đồồng ý
Rấất đồồng ý
Yes (TP)
Rấất đồồng ý
Đồồng ý
Rấất đồồng ý
Yes (TP)
26