Tải bản đầy đủ (.pdf) (40 trang)

Phân tích số liệu thống kê pot

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (912.98 KB, 40 trang )

Phân tích số liệu thống kê
 Lê Phong  
Khoa CNTT  
{dhvan,lphong,ndthuc}@fit.hcmus.edu.vn
1
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Nội dung


• Phân tích   mang tính khám phá (EDA)
•  
▫ Khái 
▫  
▫   xác 
▫  lý 
•  kê mô 
▫ Khái 
▫ Các giá   kê mô 
▫ Các      
 Histogram
 Boxplot
 Quantile-based plot
 Scatter plot
HCMUS 2010 -  2
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 

  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Phân tích dữ liệu mang tính
khám phá
• 
(EDA  Exploratory Data Analysis) [John
Tukey, 1977]
▫ 


▫ 
▫ 

techniques)
HCMUS 2010 -  3
   
Phân
tích

hình



 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Khái niệm
• 
quát hóa
• 


• 

• 



HCMUS 2010 -  4
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot

 Scatter
plot
Lấy mẫu
•  : là   trình  các  cho
   quát hóa.
▫   xác  (probability sampling)
     nhiên . Xác  các  
   nhau.
     là   nhiên
▫   không xác  (non-probability
sampling)
Ví dụ: UBND quận 5 thực hiện khảo sát lấy ý kiến của nhân dân quận 5 về tình
hình trị an hiện tại của quận.
Cách khảo sát 1: tất cả hộ gia đình của quận đều có cơ hội được chọn và
hỏi qua điện thoại. Xác suất 1 hộ gia đình được hỏi là xác định được.
– Lấy mẫu xác suất
Cách khảo sát 2: Bảng câu hỏi được gửi đến các cư dân trong quận dựa
vào 1 mailing list đã có sẵn. Ngoài ra các bảng câu hỏi được đặt ở các
nơi công cộng. Theo cách này, không xác định được 1 cá nhân có thể
trả lời bao nhiêu lần. Xác suất 1 cá nhân được hỏi là không xác định
được. – Lấy mẫu không xác suất
HCMUS 2010 -  5
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô


 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Lấy mẫu xác suất
•  (simple random
sampling)
▫  n     N   sao cho
N
C
n
  có
   ngang nhau
▫   
   nhiên    : f = n/N
Phát sinh   s  : nhãn là s+i.n  i-1
   nhiên

Phát sinh   nhiên  : nhãn trùng   
nhiên
•  (stratified random
sampling)
▫ Nhóm   (stratum, strata)
▫    nhiên   trong  nhóm
▫    cho  nhóm f
1
,f
2

• theo  (cluster sampling), 
  nhiên  cách   (systematic
random sampling) [Levy & Lemeshow, 1999]
HCMUS 2010 -  6
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 

  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Ví dụ lấy mẫu ngẫu nhiên đơn giản
  sát các khách hàng  công ty, 
danh sách khách hàng  N=1000. Ta 
  100 khách hàng    
sát (n=100)
a)   phát sinh s = 5. Xác  .
b) Dùng R  phát sinh  theo 
pháp   nhiên.
Trả lời:
a) f=100/1000 = 0,1. Mẫu là danh sách các phần tử ở các vị trí:
5,5+1.100, 5+2.100,…,5+9.100 hay 5, 105, 205,…,905
b) > N<-1000
> n<-100
> sample(1:N,n,replace=FALSE)
HCMUS 2010 -  7
 EDA
  
 Khái 
  
  

xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Ví dụ lấy mẫu ngẫu nhiên phân
tầng
• 



khoa toán (n
1
=20), sv khoa cntt (n
2

=50), sv
khoa lý (n
3
=30) (f
1
=f
2
=f
3
=0,1)

nhóm.
HCMUS 2010 -  8
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr

am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Bài tập lấy mẫu ngẫu nhiên đơn
giản với R
sample(x, size, replace = FALSE, prob = NULL)
replace = TRUE:   có  
replace=FALSE:   không  
BT1: Dùng R   nhiên 5   1  40
BT2: Dùng R   thí  tung  xu 10 
BT3: Dùng R   thí  tung  xu 10 ,
   tung   là 90%,   là 10%
Trả lời:
BT2: sample(c(“H”,”T”),10,replace=TRUE)
Lưu ý:
Dữ liệu vector: là một mảng
Khởi tạo vector:
1) Bằng cách nối kết: c(phần tử 1, phần tử 2,…). Vd: c(“H”,”T”): tạo vector 2 phần
tử
2) 1:10: tạo mảng từ 1 đến 10
HCMUS 2010 -  9
 EDA
  
 Khái 
  

  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Xử lý mẫu
• 


▫ 
▫ 
HCMUS 2010 -  10
 EDA
  

 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Khái niệm thống kê mô tả
• Khái   kê mô : là 
pháp  kê toán  dùng  mô 
các        cung 
tóm  cô    và các  .
HCMUS 2010 -  11


{x
i

• 
Moment trung tâm:
• Trung bình  (sample mean, sample
expected value

• 
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil

e-based
plot
 Scatter
plot
Các thống kê mô tả
HCMUS 2010 -  12
 



n
i
r
ir
r
r
x
n
XE
1
''
1

 
 
 



n

i
r
ir
r
r
x
n
XE
1
1

 
 
           







n
i
i
n
i
iii
x
n
x

n
dxxfxxfxXEX
1
2
2
1
2
2
222
2
1
1
Shay
1
hay )var(

 
 




n
i
iii
x
n
dxxxfxfxXE
1
1

)(hay

 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Các thống kê mô tả (tt)
• 




• 


HCMUS 2010 -  13
 
 
2
1
2
1
4
2
2
4
2
1
1














n
i
i
n
i
i
x
n
x
n





 
 
2/3
1
2
1
3
1
2/3
2
3
1
1

1













n
i
i
n
i
i
x
n
x
n







 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Các thống kê mô tả (tt)
• 

• : 


• 

▫ : range = Max – Min
▫ 
• Phân  (quantile): phân  q
p
là giá  q 
 sao cho phân  tích   nó 
   p,  0<p<1
Ví : q
0,25
,q
0,5
,q
0,75
: các    (quartile)
HCMUS 2010 -  14
( 1)/2
/2 /2 1
mod2 1
( ) / 2 mod2 0
n
nn
xn
median
x x n









 
 
 
pFqF
p
1
pp
hay pqXPq


 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  

 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Ví dụ tính giá trị thống kê
• 
• Tính
▫ 
▫ 
▫ 
▫ 
HCMUS 2010 -  15
44,3
9
31
9
6522642311
1





n
i

i
x
n

                 
                 
53,3
9
44,3644,3544,3244,3244,3644,3444,3244,3344,31
19
1
14,3
9
44,3644,3544,3244,3244,3644,3444,3244,3344,31
9
1
222222222
2
222222222
2








S


                 
279,0
14,3
551,1
14,3
551,1
9
44,3644,3544,3244,3244,3644,3444,3244,3344,31
9
1
2/32/3
2
3
2
2
333333333
3








s kew
                 
58,1
14,3
59,15

14,3
551,1
9
44,3644,3544,3244,3244,3644,3444,3244,3344,31
9
1
22
2
4
2
2
444444444
4








kurt
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô


 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Ví dụ tính giá trị thống kê mẫu với
R
> x<-c(1,3,2,4,6,2,2,5,6)
> library(moments)
> mean(x)
[1] 3.444444
> var(x)
[1] 3.527778
> quantile(x,0.25)
25%
2
> quantile(x)
0% 25% 50% 75% 100%

1 2 3 5 6
> kurtosis(x)
[1] 1.582584
> skewness(x)
[1] 0.2717328
HCMUS 2010 -  16
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter

plot
Các kỹ thuật biểu diễn bằng đồ thị
• 
▫ Histogram
▫ Boxplot
▫ Quantile-based plot
▫ Stem and leaf
• 
▫ Scatter plot
▫ Surface plot
▫ Contour plot
▫ Bivariate histogram
• 
HCMUS 2010 -  17
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  

 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Khái niệm histogram theo tần số
• Khái  Histogram theo   (frequency
histogram):
▫  ngang:     chia thành các bin
( giá ). Các giá   bin nào thì 
  cho bin . Cách phân chia các bin: tùy ý
theo  dùng  theo     [Scott
1992]
▫  :  

▫ y(x) = v
k
 x  B
k
 y(x): giá  trên     x ; v
k
:  
   bin  k; B
k
: bin  k
HCMUS 2010 -  18

 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Khái niệm các histogram biến thể
• Histogram     (Relative
frequency histogram):
▫ y(x) = v
k

/n  x  B
k
 n là    
• Histogram theo   (Density
histogram):
y(x) = v
k
/(nh)  x  B
k
 h là    bin
 :   tích các   1.
Ví :  histogram  ngôn  R:
HCMUS 2010 -  19
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr

am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Xây dựng histogram
• 

{1,2} (bin 1), {3,4} (bin 2), {5,6} bin 3, {7,8}




HCMUS 2010 -  20
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 

 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Xây dựng histogram với R
• 
• 
hist(x,so_bin=3,freq=TRUE)
• 
hist(x,so_bin=3,freq=FALSE)
HCMUS 2010 -  21
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 

 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Đặc trưng của histogram
• 

▫ 
▫ 
▫ 
▫ 
▫ 
• 

• 
HCMUS 2010 -  22
 EDA
  
 Khái 
  

  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Ví dụ - Histogram đối xứng, phần
đuôi vừa phải, dạng chuẩn
▫  trí tâm    
▫  phân tán (spread):  trung ,   hai bên,  
 
▫   (skewness):  
▫ Giá    (outlier): không có
▫   (mode): 1  
->  tra phân  

HCMUS 2010 -  23
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot
Ví dụ - Histogram đối xứng, phần
đuôi ngắn
▫  trí tâm    (center):  xác 
▫  phân tán (spread): ,   hai bên,   

▫   (skewness):  
▫ Giá    (outlier): không có
▫   (mode): >1  
->  tra phân  
HCMUS 2010 -  24
 EDA
  
 Khái 
  
  
xác 
  lý 
  kê mô

 Khái 
 Các giá 
 kê
mô 
 Các 
 
  
 Histogr
am
 Boxplo
t
 Quantil
e-based
plot
 Scatter
plot

Ví dụ - Histogram đối xứng, phần
đuôi dài, không có dạng chuẩn
▫  trí tâm    
▫  phân tán (spread):  trung ,   hai bên,   dài
▫   (skewness):  
▫ Giá    (outlier): không có
▫   (mode): 1  
->  tra phân  Cauchy (  chi  vào phân  Cauchy)
HCMUS 2010 -  25

×