Tải bản đầy đủ (.pdf) (46 trang)

Phân tích mô tả trong khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.31 MB, 46 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
KHOA TOÁN ỨNG DỤNG VÀ TIN HỌC

HỆ HỖ TRỢ QUYẾT ĐỊNH
CHƯƠNG 3: PHÂN TÍCH MÔ TẢ
Nhóm 4, Sinh viên:
Nguyễn Tiến Đạt 20173493
Phan Thanh Tùng 20173598
Lê Thị Nhung 20173571
Phạm Thúy Vy 20173604

HÀ NỘI – 03/2020

1


Mục Lục
Chương 3: Phân tích mô tả
3.1. Dữ liệu một chiều
3.1.1. Phân phối và biểu đồ phổ
3.1.2. Phân tích vị trí
3.1.3. Phân tích sự phân tán
3.1.4. Phân tích hình dáng
3.1.5. Hiển thị dữ liệu
3.3. Dữ liệu nhiều chiều
3.3.1. Phân tích tương quan
3.3.2. Phân tích thành phần chính
3.3.3. Phân tích nhân tố
3.3.4. Hiển thị dữ liệu nhiều chiều
3.4. Phân tích sự kết hợp
3.4.1. Khái niệm


3.4.2. Thuật toán Apriori
3.4.3. Các phương pháp tăng hiệu năng
3.4.4. Đánh giá kết quả
3.4.5. Thuộc tính giá trị số
3.5. Phân tích phân cụm
3.5.1. Khái niệm
2


3.5.2. Khoảng cách
3.5.3. Phân cụm theo tâm cụm
3.5.4. Phân cụm theo mật độ
3.5.5. Phân cụm theo cấu trúc

3


3.1. Dữ liệu một chiều
Dữ liệu 1 chiều là một tập các phần tử được đại diện bởi một trong hai
đặc trưng: định tính và định lượng. Không có một tiêu chuẩn đơn giản
nào về tính định tính hay định lượng của dữ liệu. Tuy nhiên, dựa theo
mục đích thực tế, một tiêu chuẩn được gọi là tốt khi một đặc trưng mang
tính định lượng nếu trung bình của nó có ý nghĩa.
3.1.1. Phân phối và biểu đồ phổ
Phân phối là một cách tổng hợp toàn diện và gây ấn tượng trực quan.
Trên mặt phẳng, vẽ một trục x và các đường ranh giới của đặc trưng thể
hiện giới hạn của chúng. Chia khoảng cách trên x dựa theo số cột tương
ứng với số đặc trưng (bin). Các cột không được chồng lên nhau và có
kích thước bằng nhau. Chiều cao của cột dựa vào số phần tử thuộc vào
cột. Người ta gọi đó là biểu đồ histogram.


4


Trục x thể hiện đặc trưng dữ liệu và trục y biểu diễn số phần tử thuộc
vào cột đặc trưng.
Nhận xét: Tổng số các phần tử trong cột bằng tổng số các phần tử trong
dữ liệu.
Dữ liệu là tập các phần tử x1, …, xN. Kí hiệu X = {x1, …, xN}.
Trên [a, b], ta có n đặc trưng của dữ liệu => Cần tạo n cột đặc trưng.
Để tạo ra n cột, ta cần thực hiện phép chia tại các điểm a + k(b−a)/n (k =
1, 2, …, n−1).
Công thức cũng áp dụng cho cả trường hợp k = 0 và k = n + 1 và khi đó
a = x0 và b = xn+1.

5


Trường hợp biểu đồ có 2 cột
Chú ý: Cột k có biên lần lượt là a+(k−1)(b−a)/n và a+k(b−a)/n. Có thể
loại bỏ một trong hai biên để các cột không bị chồng chéo lên nhau trên
các biên.
Các biểu đồ có thể được coi là biểu thức thực nghiệm của lý thuyết phân
phối xác suất (hay còn gọi là hàm mật độ).

3.1.2. Phân tích vị trí
Tên
Mean
(Giá trị kì
vọng)

(Giá trị trung
bình)
Median
(Trung vị)

Mid-range

Giải thích
Ghi chú
Giá trị trung bình Giảm tối thiểu lỗi tính tổng bình
của các phần tử
phương
Ước tính giá trị kì vọng của phân
phối
Nhạy cảm với ngoại lệ và hình
dạng phân phối
Giá trị của phần Giảm tối thiểu lỗi tính tổng giá trị
tử nằm giữa của tuyệt đối
dữ liệu
Ước tính giá trị kì vọng của phân
phối
Không nhạy cảm với ngoại lệ
Nhạy cảm với hình dạng phân phối
Nằm giữa của
Giảm tối thiểu lỗi tính tổng giá trị
giới hạn
tuyệt đối
Ước tính giá trị kì vọng của phân
phối
Nhạy cảm với ngoại lệ

6


P-quantile
(Percentile)
(Phân vị)

Mode
(Yếu vị)

Một giá trị chia
toàn bộ phần tử
theo tỉ lệ P hoặc
(1-P) để chúng
cùng những giá
trị cao hơn tạo
thành tỉ lệ P
(upper Pquantile) hoặc 1P (bottom Pquantile)
Giá trị của phần
tử lớn nhất trong
biểu đồ

Không nhạy cảm với hình dạng
phân phối
Không nhạy cảm với ngoại lệ
Nhạy cảm với hình dạng phân phối

Phụ thuộc vào kích thước của cột
Có thể có nhiều giá trị


3.1.3. Phân tích sự phân tán
Tên
Độ lệch
chuẩn
Độ lệch
tuyệt đối
Half-range

Giải thích
Trung bình toàn
phương độ lệch từ
mean
Trung bình độ lệch
tuyệt đối từ median
Độ lệch tối đa từ midrange

Ghi chú
Được tối thiểu hóa bằng mean
Ước tính căn bậc hai của
phương sai
Được tối thiểu hóa bằng median
(trung vị)
Được tối thiểu hóa nhờ midrange

3.1.4. Phân tích hình dáng

7


Phân bố kiểu lũy thừa


Phân bố Gauss

8


3.1.5. Hiển thị dữ liệu
Có rất nhiều cách để biểu diễn dữ liệu
Biểu đồ histogram

Pie – chart (Biểu đồ tròn)

9


Bar – chart (Biểu đồ cột)

Từ khóa
Categorical data: dữ liệu định tính
Quantitative data: dữ liệu định lượng
10


Bin: cột trong biểu đồ histogram
Density function: hàm mật độ
Power law: phân phối quy tắc lũy thừa
Tài liệu tham khảo
Boris Mirkin, Core Concepts in Data Analysis
3.3 Dữ liệu nhiều chiều
3.3.1 Phân tích tương quan (Correlation Analysis)

3.3.1.a, Định nghĩa
 Phân tích tương quan là một phương pháp thống kê được sử dụng
để đánh giá sức mạnh của mối quan hệ giữa hai biến định
lượng. Một mối tương quan cao có nghĩa là hai hoặc nhiều biến có
mối quan hệ chặt chẽ với nhau, trong khi tương quan yếu có nghĩa
là các biến đó hầu như không liên quan. Nói cách khác, đó là quá
trình nghiên cứu sức mạnh của mối quan hệ đó với dữ liệu thống
kê có sẵn. Kỹ thuật này được kết nối chặt chẽ với phân tích hồi
quy tuyến tính, là phương pháp thống kê để mô hình hóa mối liên
hệ giữa một biến phụ thuộc, được gọi là phản hồi và một hoặc
nhiều biến giải thích hoặc biến độc lập.
 Ví dụ

11


3.3.1.b, Hệ số tương quan tuyến tính (Correlation Coefficient)
 Hệ số tương quan (𝜌) là một chỉ số thống kê đo lường mối liên hệ
tương quan giữa hai biến số.Hệ số tương quan có giá trị từ -1 đến
1. Hệ số tương quan bằng 0 (hay gần 0) có nghĩa là hai biến số
không có liên hệ gì với nhau; ngược lại nếu hệ số bằng -1 hay 1 có
nghĩa là hai biến số có một mối liên hệ tuyệt đối.

12


 Nếu giá trị của hệ số tương quan là âm (𝜌<0) có nghĩa là khi x tăng
cao thì y giảm (và ngược lại, khi x giảm thì y tăng); nếu giá trị hệ
số tương quan là dương (𝜌 > 0) có nghĩa là khi x tăng thì y tăng, x
giảm thì y giảm.


13


3.3.1.c, Các phương pháp tính tương quan
 Có nhiều hệ số tương quan, hệ số tương quan thông dụng nhất là
hệ số tương quan Pearson r, được định nghĩa như sau: Cho hai biến
số x và y từ n mẫu, hệ số tương quan Pearson được ước tính bằng
công thức sau đây:

 Tương quan hạng Spearman
14


Tương quan hạng Spearman được sử dụng thay thế tương quan
Pearson để kiểm tra mối quan hệ giữa hai biến được xếp hạng hoặc
một biến được xếp hạng và một biến đo lường không yêu cầu có
phân phối chuẩn. Nghĩa là, ta có thể sử dụng tương quan hạng
Spearman thay cho hồi quy/tương quan Pearson khi ta lo lắng về
phân phối không chuẩn của dữ liệu. Tuy nhiên, không phải lúc nào
điều này cũng cần thiết. Tương quan hạng Spearman được tính
bằng công thức sau:

 Tương quan hạng Kendall
Đánh giá mức độ tương quan của 2 hạng của 2 biến (rank-ordered
variables), hệ số này được sử dụng tương tự như spearman, thông
thường hệ số này nhỏ hơn spearman
Hệ số kendall ít dùng hơn so với 2 hệ số tương quan trên
3.3.1.d, Kiểm định sự tương quan của 2 biến
Để kiểm định 2 biến, người ta đưa ra 2 giả thuyết kiểm định:

H0: không tương quan (hệ số tương quan bằng 0)
H1: đối lập H0 (hệ số tương quan khác 0)
Tiêu chuẩn kiểm định:

K=

𝑟 √𝑛−2
√1−𝑟 2

với r là hệ số tương quan Pearson tính trên tập mẫu ngẫu nhiên
15


-Nếu giả thuyết H0 đúng người ta đã chứng minh rằng K ~ t(n-2), từ đó
miền giới hạn là:

𝛼

B𝛼 = { Ktn : |Ktn| > tn-2; 1 − 2 }
Nếu giả thuyết về tính độc lập của X và Y chấp nhận được, ít lý do để
xem xét đồng thời 2 biến đó. Trong trường hợp ngược lại, ta sẽ quan tâm
đến quan hệ của chúng.
3.3.1.e, Kiểm định giả thuyết về hệ số tương quan
● Kiểm định H0: 𝜌 = 𝜌0 cho trước
Giả thuyết H0 ở đây là trường hợp tổng quát hóa kết quả, người ta đưa ra
thống kê:

Z=

1 1+𝑟

ln
2 1−𝑟

(*)

Theo Fisher, nếu H0 đúng thống kê Z sẽ tiệm cận tới phân phối chuẩn
(khi n → ∞) với các số đặc trưng xấp xỉ

1
2

1+𝜌0
1−𝜌0

EZ = ln
VZ =

+

𝜌0
2(𝑛−1)

1
𝑛−3

Trong thực hành với n>50 đã có thể chấp nhận kết quả trên. Từ đó nếu
chọn tiêu chuẩn của quy tắc kiểm định là:
K=

𝑍−𝐸𝑍

√𝑉𝑍

= (𝑍 − 𝐸𝑍) √𝑛 − 3 ~ N (0,1)

thì miền tới hạn của quy tắc sẽ là:

B𝛼 = { Ktn : |Ktn| > zb với ∅(zb) =

1−𝛼
2

} (**)
16


● So sánh 2 hệ số tương quan
Bài toán đưa về kiểm định H0: 𝜌1 = 𝜌2 dựa trên 2 bộ số liệu mẫu cặp (có
kích thước tương tứng là n1 và n2) của 2 cặp biến X1,Y1 và X2,Y2. Bằng
cách xác định 2 thống kê Z1 và Z2 như trong (*), người ta đưa ra tiêu
chuẩn kiểm định

K=

Z1− Z2
√𝑉𝑍1+𝑉𝑍2

Hàm số này có phân phối tiệm cận chuẩn N (0,1) và ta có thể dung lại
quy tắc như trong (**) cho miền tới hạn đối xứng.
3.3.2, Phân tích thành phần chính (Principal Components Analysis –
PCA)

3.3.2.a, Giới thiệu PCA
Trong thống kê, thông thường cần phải “nghiên cứu” dữ liệu trước khi
xây dựng các mô hình suy diễn dựa trên dữ liệu đó. Tuy nhiên đôi khi dữ
liệu có số chiều lớn, không thể visualize trong không gian 2 hay 3 chiều,
do đó cần phải tìm cách đưa dữ liệu về không gian có số chiều nhỏ hơn.
PCA là một trong những phương pháp như thế, nhưng hơn thế, PCA còn
có nhiều đặc tính tốt như:
 Giúp giảm số chiều của dữ liệu,
 Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng
một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn
dữ liệu tốt tương đương không gian cũ, nghĩa là đảm bảo độ biến
thiên (variability) của dữ liệu trên mỗi chiều mới.
 Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của
không gian cũ, do đó về mặt ngữ nghĩa, PCA xây dựng feature mới
17


dựa trên các feature đã quan sát được. Điểm hay là những feature
này vẫn biểu diễn tốt dữ liệu ban đầu.
 Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được
khám phá, mà nếu đặt trong không gian cũ thì khó phát hiện hơn,
hoặc những liên kết như thế không thể hiện rõ.
Nói một cách ngắn gọn, mục tiêu của PCA là tìm một không gian mới
(với số chiều nhỏ hơn không gian cũ). Các trục tọa độ trong không gian
mới được xây dựng sao cho trên mỗi trục, độ biến thiên của dữ liệu trên
đó là lớn nhất có thể (Maximize the Variability)

Hình minh họa. Cùng là một con lạc đà, nhưng nhìn từ phía khác nhau
sẽ cho thông tin khác nhau.
3.3.2.b, Thuật toán PCA

Cho ma trận

. Các bước của PCA lần lượt như sau:

● Tiền xử lí
Dữ liệu ban đầu có thể có giá trị thay đổi bất thường. Ví dụ trên feature
1 (cột 1 của ) giá trị thay đổi trong khoảng (0, 1), trên feature 2 lại
18


biến thiên trong đoạn (-100, 100). Rõ ràng cần phải có một bước tiền xử
lí để chuẩn hóa giá trị trên các cột của ma trận X. Có 2 cách tiền xử lí
thường được dùng cho PCA là Centered PCA và Normed PCA.
Centered PCA mang tất cả các feature (các cột của X) về cùng một gốc
tọa độ:
,

,

(1a)

.

Trong đó n là số dòng của X, là trung bình của cột thứ j của X, được
tính như trên. Normed PCA mang tất cả các feature về cùng một gốc
tọa độ, đồng thời chuẩn hóa về cùng một quãng độ lệch chuẩn bằng 1:
,

.


(1b)

Trong đó là độ lệch chuẩn (standard deviation) của cột thứ j trong X.
Thông thường Normed PCA hay được dùng. Sau bước tiền xử lí, ma
trận sẽ là đầu vào cho bước tiếp theo.
● Xây dựng không gian mới
Tính ma trận hiệp phương sai (covariance) của các feature trong :
(2)

Do là tích của ma trận với chuyển vị của nó nên
là ma trận
bán xác định dương kích thước
. Hơn nữa có p trị
riêng
.
Tiếp theo, PCA tìm trị riêng và vector riêng tương ứng của , sắp xếp
theo thứ tự giảm dần của trị riêng. Giả sử p trị riêng của V là
,

(3)
19


và p vector riêng tương ứng là
.
(4)
Khi đó các trục của không gian mới chính là các vector riêng ở trên,
đương nhiên các vector riêng hoàn toàn độc lập tuyến tính (nghĩa là trực
giao đôi một). Có thể nói trong PCA, trị riêng và vector riêng có vị trí rất
đẹp, thỏa mãn tất cả các yêu cầu của PCA.

● Chuyển dữ liệu từ không gian ban đầu vào không gian mới
Thông thường không gian mới không được xây dựng bằng tất
cả p vector riêng trong (4), mà thông thường chỉ từ k vector riêng đầu
tiên, với k < p. Tại sao là các vector đầu tiên, và chọn k bao nhiêu thì tốt,
ta sẽ bàn trong phần cuối.

Như vậy gọi
Khi đó tọa độ các điểm trong hệ tọa độ mới là
Kết thúc giải thuật PCA.
3.3.3, Phân tích nhân tố (Factor Analysis)
3.3.3.a, Phân tích nhân tố là gì
Phân tích nhân tố là một cách để lấy một khối lượng dữ liệu và thu nhỏ
nó thành một tập dữ liệu nhỏ hơn, dễ quản lý và dễ hiểu hơn. Đó là một
cách để tìm các mẫu ẩn, chỉ ra cách các mẫu đó trùng nhau và hiển thị
các đặc điểm được nhìn thấy trong nhiều mẫu. Nó cũng được sử dụng để
tạo một tập hợp các biến cho các mục tương tự trong tập hợp (các bộ
biến này được gọi là kích thước). Nó có thể là một công cụ rất hữu ích
cho các bộ dữ liệu phức tạp liên quan đến các nghiên cứu tâm lý, tình
trạng kinh tế xã hội và các khái niệm liên quan khác. Một yếu tố của
NỀN TẢNG là một tập hợp các biến quan sát có các mẫu phản ứng
tương tự; Chúng được liên kết với một biến ẩn (được gọi là biến gây
nhiễu) mà không được đo trực tiếp. Các yếu tố được liệt kê theo các yếu
tố tải, hoặc mức độ biến đổi trong dữ liệu họ có thể giải thích.
Hai loại: thăm dò và xác nhận.
20







Phân tích nhân tố khám phá là nếu bạn không có bất kỳ ý tưởng
nào về cấu trúc dữ liệu của bạn hoặc có bao nhiêu thứ nguyên trong
một tập hợp các biến.
Phân tích nhân tố khẳng định được sử dụng để xác minh miễn là
bạn có ý tưởng cụ thể về cấu trúc dữ liệu của bạn hoặc có bao nhiêu
thứ nguyên trong một tập hợp các biến.

3.3.3.b, Hệ số tải nhân tố (Factor Loading)

21


Không phải tất cả các nhân tố đều như nhau; một số yếu tố sẽ quan trọng
hơn những yếu tố khác.
Ví dụ, sau đây là kết quả cuộc khảo sát qua điện thoại về sự hài lòng của
khách hàng:

Các yếu tố ảnh hưởng đến câu hỏi nhiều nhất (và do đó có hệ số tải cao
nhất) được in đậm. Hệ số tải nhân tố tương tự như các hệ số tương
quan ở chỗ chúng có thể thay đổi từ -1 đến 1. Các yếu tố càng gần với -1
hoặc 1, chúng càng ảnh hưởng đến biến số. Hệ số tải nhân tố bằng 0 sẽ
cho thấy không có hiệu lực. Vì vậy, Factor loading (hệ số tải nhân tố hay
trọng số nhân tố) là chỉ tiêu để đảm bảo mức ý nghĩa thiết thực của phân
tích nhân tố.
3.3.3.c,Phân tích nhân tố khám phá (Exploratory Factor Analysis – EFA)
Trong phân tích nhân tố, phép phân tích được sử dụng phổ biến nhất là
Phân tích nhân tố khám phá, vì vậy em sẽ giới thiệu về phương pháp
này.
● Khái niệm

Phân tích nhân tố khám phá(EFA) là một phương pháp phân tích định
lượng dùng để rút gọn một tập gồm nhiều biến đo lường phụ thuộc lẫn
nhau thành một tập biến ít hơn(gọi là các nhân tố) để chúng có ý nghĩa
hơn nhưng vẫn chứa đựng hầu hết nội dung thông tin của tập biến ban
đầu(Hair et al. 2009).
● Mục tiêu
22


Hai mục tiêu chính của EFA là phải xác định:


Số lượng các nhân tố ảnh hướng đến một tập các biến đo lường.



Cường độ về mối quan hệ giữa mỗi nhân tố với từng biến đo lường

● Ứng dụng
EFA thường được sử dụng nhiều trong các lĩnh vực quản trị, kinh tế, tâm
lý, xã hội học, . . ., khi đã có được mô hình khái niệm(Conceptual
Framework) từ các lý thuyết hay các nghiên cứu trước.
Trong các nghiên cứu về kinh tế, người ta thường sử dụng thang đo(scale)
chỉ mục bao gồm rất nhiều câu hỏi(biến đo lường) nhằm đo lường các
khái niệm trong mô hình khái niệm, và EFA sẽ góp phần rút gọn một tập
gồm rất nhiều biến đo lường thành một số nhân tố.
Khi có được một số ít các nhân tố, nếu chúng ta sử dụng các nhân tố này
với tư cách là các biến độc lập trong hàm hồi quy bội thì khi đó, mô
hình sẽ giảm khả năng vi phạm hiện tượng đa cộng tuyến.
Ngoài ra, các nhân tố được rút ra sau khi thực hiện EFA sẽ có thể được

thực hiện trong phân tích hồi quy đa biến (Multivariate Regression
Analysis), mô hình Logit, sau đó có thể tiếp tục thực hiện phân tích nhân
tố khẳng định(CFA) để đánh giá độ tin cậy của mô hình hay thực hiện mô
hình cấu trúc tuyến tính (Structural Equation Modeling, SEM) để kiểm
định về mối quan hệ phức tạp giữa các khái niệm.
● Mô hình của EFA
Trong EFA, mỗi biến đo lường được biễu diễn như là một tổ hợp tuyến
tính của các nhân tố cơ bản, còn lượng biến thiên của mỗi biến đo lường
được giải thích bởi những nhân tố chung(common factor). Biến thiên
chung của các biến đo lường được mô tả bằng một số ít các nhân tố chung
cộng với một số nhân tố đặc trưng(unique factor) cho mỗi biến. Nếu các
biến đo lường được chuẩn hóa thì mô hình nhân tố được thể hiện bằng
phương trình:
Xi = Ai1 * F1 + Ai2 * F2 + Ai3 * F3 + . . .+ Aim * Fm + Vi*Ui
Trong đó,
23


Xi : biến đo lường thứ i đã được chuẩn hóa
Aij: hệ số hồi qui bội đã được chuẩn hóa của nhân tố j đối với biến i
F1, F2, . . ., Fm: các nhân tố chung
Vi: hệ số hồi qui chuẩn hóa của nhân tố đặc trưng i đối với biến i
Ui: nhân tố đặc trưng của biến i
Các nhân tố đặc trưng có tương quan với nhau và tương quan với các nhân
tố chung; mà bản thân các nhân tố chung cũng có thể được diễn tả như
những tổ hợp tuyến tính của các biến đo lường, điều này được thể hiện
thông qua mô hình sau đây:
Fi = Wi1*X1 + Wi2*X2 + Wi3*X3 + . . . + Wik*Xk
Trong đó,
Fi: ước lượng trị số của nhân tố i

Wi: quyền số hay trọng số nhân tố(weight or factor scores coefficient)
k: số biến
● Điều kiện áp dụng EFA
Điều kiện cần để bảng kết quả ma trận xoay có ý nghĩa thống kê là:
- Hệ số KMO phải nằm trong đoạn từ 0.5 đến 1
- Kiểm định Barlett có sig phải nhỏ hơn 0.05
- Giá trị Eigenvalue lớn hơn hoặc bằng 1
- Tổng phương sai trích lớn hơn hoặc bằng 50%.
● Các bước thực hiện EFA
Theo Hoàng Trọng và Chu Mộng Ngọc(2010), có 6 bước để thực hiện
EFA:

24


Theo Rietveld & Van Hout (1993), có 7 bước chính để thực hiện EFA:

25


×