Phân tích số liệu thống kê
Lê Phong
Khoa CNTT
{dhvan,lphong,ndthuc}@fit.hcmus.edu.vn
1
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Nội dung
• Phân tích mang tính khám phá (EDA)
•
▫ Khái
▫
▫ xác
▫ lý
• kê mô
▫ Khái
▫ Các giá kê mô
▫ Các
Histogram
Boxplot
Quantile-based plot
Scatter plot
HCMUS 2010 - 2
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Phân tích dữ liệu mang tính
khám phá
•
(EDA Exploratory Data Analysis) [John
Tukey, 1977]
▫
▫
▫
techniques)
HCMUS 2010 - 3
Phân
tích
Mô
hình
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Khái niệm
•
quát hóa
•
•
•
HCMUS 2010 - 4
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Lấy mẫu
• : là trình các cho
quát hóa.
▫ xác (probability sampling)
nhiên . Xác các
nhau.
là nhiên
▫ không xác (non-probability
sampling)
Ví dụ: UBND quận 5 thực hiện khảo sát lấy ý kiến của nhân dân quận 5 về tình
hình trị an hiện tại của quận.
Cách khảo sát 1: tất cả hộ gia đình của quận đều có cơ hội được chọn và
hỏi qua điện thoại. Xác suất 1 hộ gia đình được hỏi là xác định được.
– Lấy mẫu xác suất
Cách khảo sát 2: Bảng câu hỏi được gửi đến các cư dân trong quận dựa
vào 1 mailing list đã có sẵn. Ngoài ra các bảng câu hỏi được đặt ở các
nơi công cộng. Theo cách này, không xác định được 1 cá nhân có thể
trả lời bao nhiêu lần. Xác suất 1 cá nhân được hỏi là không xác định
được. – Lấy mẫu không xác suất
HCMUS 2010 - 5
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Lấy mẫu xác suất
• (simple random
sampling)
▫ n N sao cho
N
C
n
có
ngang nhau
▫
nhiên : f = n/N
Phát sinh s : nhãn là s+i.n i-1
nhiên
Phát sinh nhiên : nhãn trùng
nhiên
• (stratified random
sampling)
▫ Nhóm (stratum, strata)
▫ nhiên trong nhóm
▫ cho nhóm f
1
,f
2
• theo (cluster sampling),
nhiên cách (systematic
random sampling) [Levy & Lemeshow, 1999]
HCMUS 2010 - 6
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Ví dụ lấy mẫu ngẫu nhiên đơn giản
sát các khách hàng công ty,
danh sách khách hàng N=1000. Ta
100 khách hàng
sát (n=100)
a) phát sinh s = 5. Xác .
b) Dùng R phát sinh theo
pháp nhiên.
Trả lời:
a) f=100/1000 = 0,1. Mẫu là danh sách các phần tử ở các vị trí:
5,5+1.100, 5+2.100,…,5+9.100 hay 5, 105, 205,…,905
b) > N<-1000
> n<-100
> sample(1:N,n,replace=FALSE)
HCMUS 2010 - 7
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Ví dụ lấy mẫu ngẫu nhiên phân
tầng
•
khoa toán (n
1
=20), sv khoa cntt (n
2
=50), sv
khoa lý (n
3
=30) (f
1
=f
2
=f
3
=0,1)
nhóm.
HCMUS 2010 - 8
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Bài tập lấy mẫu ngẫu nhiên đơn
giản với R
sample(x, size, replace = FALSE, prob = NULL)
replace = TRUE: có
replace=FALSE: không
BT1: Dùng R nhiên 5 1 40
BT2: Dùng R thí tung xu 10
BT3: Dùng R thí tung xu 10 ,
tung là 90%, là 10%
Trả lời:
BT2: sample(c(“H”,”T”),10,replace=TRUE)
Lưu ý:
Dữ liệu vector: là một mảng
Khởi tạo vector:
1) Bằng cách nối kết: c(phần tử 1, phần tử 2,…). Vd: c(“H”,”T”): tạo vector 2 phần
tử
2) 1:10: tạo mảng từ 1 đến 10
HCMUS 2010 - 9
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Xử lý mẫu
•
▫
▫
HCMUS 2010 - 10
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Khái niệm thống kê mô tả
• Khái kê mô : là
pháp kê toán dùng mô
các cung
tóm cô và các .
HCMUS 2010 - 11
{x
i
•
Moment trung tâm:
• Trung bình (sample mean, sample
expected value
•
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Các thống kê mô tả
HCMUS 2010 - 12
n
i
r
ir
r
r
x
n
XE
1
''
1
n
i
r
ir
r
r
x
n
XE
1
1
n
i
i
n
i
iii
x
n
x
n
dxxfxxfxXEX
1
2
2
1
2
2
222
2
1
1
Shay
1
hay )var(
n
i
iii
x
n
dxxxfxfxXE
1
1
)(hay
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Các thống kê mô tả (tt)
•
•
HCMUS 2010 - 13
2
1
2
1
4
2
2
4
2
1
1
n
i
i
n
i
i
x
n
x
n
2/3
1
2
1
3
1
2/3
2
3
1
1
1
n
i
i
n
i
i
x
n
x
n
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Các thống kê mô tả (tt)
•
• :
•
▫ : range = Max – Min
▫
• Phân (quantile): phân q
p
là giá q
sao cho phân tích nó
p, 0<p<1
Ví : q
0,25
,q
0,5
,q
0,75
: các (quartile)
HCMUS 2010 - 14
( 1)/2
/2 /2 1
mod2 1
( ) / 2 mod2 0
n
nn
xn
median
x x n
pFqF
p
1
pp
hay pqXPq
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Ví dụ tính giá trị thống kê
•
• Tính
▫
▫
▫
▫
HCMUS 2010 - 15
44,3
9
31
9
6522642311
1
n
i
i
x
n
53,3
9
44,3644,3544,3244,3244,3644,3444,3244,3344,31
19
1
14,3
9
44,3644,3544,3244,3244,3644,3444,3244,3344,31
9
1
222222222
2
222222222
2
S
279,0
14,3
551,1
14,3
551,1
9
44,3644,3544,3244,3244,3644,3444,3244,3344,31
9
1
2/32/3
2
3
2
2
333333333
3
s kew
58,1
14,3
59,15
14,3
551,1
9
44,3644,3544,3244,3244,3644,3444,3244,3344,31
9
1
22
2
4
2
2
444444444
4
kurt
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Ví dụ tính giá trị thống kê mẫu với
R
> x<-c(1,3,2,4,6,2,2,5,6)
> library(moments)
> mean(x)
[1] 3.444444
> var(x)
[1] 3.527778
> quantile(x,0.25)
25%
2
> quantile(x)
0% 25% 50% 75% 100%
1 2 3 5 6
> kurtosis(x)
[1] 1.582584
> skewness(x)
[1] 0.2717328
HCMUS 2010 - 16
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Các kỹ thuật biểu diễn bằng đồ thị
•
▫ Histogram
▫ Boxplot
▫ Quantile-based plot
▫ Stem and leaf
•
▫ Scatter plot
▫ Surface plot
▫ Contour plot
▫ Bivariate histogram
•
HCMUS 2010 - 17
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Khái niệm histogram theo tần số
• Khái Histogram theo (frequency
histogram):
▫ ngang: chia thành các bin
( giá ). Các giá bin nào thì
cho bin . Cách phân chia các bin: tùy ý
theo dùng theo [Scott
1992]
▫ :
▫ y(x) = v
k
x B
k
y(x): giá trên x ; v
k
:
bin k; B
k
: bin k
HCMUS 2010 - 18
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Khái niệm các histogram biến thể
• Histogram (Relative
frequency histogram):
▫ y(x) = v
k
/n x B
k
n là
• Histogram theo (Density
histogram):
y(x) = v
k
/(nh) x B
k
h là bin
: tích các 1.
Ví : histogram ngôn R:
HCMUS 2010 - 19
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Xây dựng histogram
•
{1,2} (bin 1), {3,4} (bin 2), {5,6} bin 3, {7,8}
HCMUS 2010 - 20
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Xây dựng histogram với R
•
•
hist(x,so_bin=3,freq=TRUE)
•
hist(x,so_bin=3,freq=FALSE)
HCMUS 2010 - 21
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Đặc trưng của histogram
•
▫
▫
▫
▫
▫
•
•
HCMUS 2010 - 22
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Ví dụ - Histogram đối xứng, phần
đuôi vừa phải, dạng chuẩn
▫ trí tâm
▫ phân tán (spread): trung , hai bên,
▫ (skewness):
▫ Giá (outlier): không có
▫ (mode): 1
-> tra phân
HCMUS 2010 - 23
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Ví dụ - Histogram đối xứng, phần
đuôi ngắn
▫ trí tâm (center): xác
▫ phân tán (spread): , hai bên,
▫ (skewness):
▫ Giá (outlier): không có
▫ (mode): >1
-> tra phân
HCMUS 2010 - 24
EDA
Khái
xác
lý
kê mô
Khái
Các giá
kê
mô
Các
Histogr
am
Boxplo
t
Quantil
e-based
plot
Scatter
plot
Ví dụ - Histogram đối xứng, phần
đuôi dài, không có dạng chuẩn
▫ trí tâm
▫ phân tán (spread): trung , hai bên, dài
▫ (skewness):
▫ Giá (outlier): không có
▫ (mode): 1
-> tra phân Cauchy ( chi vào phân Cauchy)
HCMUS 2010 - 25