Tải bản đầy đủ (.doc) (14 trang)

tổng hợp lý thuyết thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (153.92 KB, 14 trang )

MỘT SỐ KHÁI NIỆM VÀ KÍ HIỆU
1. Khái niệm đám đông – mẫu
Đám đông (tổng thể): là tập hợp tất cả các phần tử mà ta muốn nghiên cứu.
Mẫu: là tập hợp các phần tử lấy ra từ đám đông để nghiên cứu.
Kích thước mẫu: là số phần tử của mẫu, kí hiệu là n.
Dãy thống kê dạng điểm cho dưới dạng tần số:
x1
m1

X
m
k

Chú ý:

�m
i 1

i

x2
m2

xi
mi




xk
mk






n

2. Tham số đám đông – Tham số mẫu
Định nghĩa 1: Giả sử cần nghiên cứu dấu hiệu X của một đám đông có:
E  X   ;D  X    2 ;   X   

Các tham số đám đông:
Tham số


2


Tên gọi
Kỳ vọng
Phương sai
Độ lệch tiêu chuẩn

Ý nghĩa
Giá trị trung bình của X trong đám đông
Bình phương độ phân tán trong đám đông
Độ phân tán trong đám đông

Các tham số mẫu:
Tham số
X

2

S

Tên gọi
Trung bình mẫu
(Giá trị trung bình của X trong mẫu)
Phương sai mẫu

Cách tính
1 k
X  �mi x i
n i1

 

S2  X 2  X

2
S$

Phương sai mẫu điều chỉnh

2
n 2
S$ 
S
n 1

S


Độ lệch tiêu chuẩn mẫu

S  S2

S$

Độ lệch tiêu chuẩn mẫu điều chỉnh
1

2
S$ S$

2

1 k
X  �mi x i2
n i1
với
2


Định nghĩa 2: Giả sử đám đông chỉ có 2 loại đối tượng là các phần tử mang đặc
tính A và các phần tử không mang đặc tính A. Ta có:
+ Tham số p là tỉ lệ phần tử mang đặc tính A trong đám đông.
+ Tham số f là tỉ lệ phần tử mang đặc tính A trong mẫu.

f

m

n với m là số phần tử mang đặc tính A trong mẫu.

2


BÀI TOÁN ƯỚC LƯỢNG
Phân biệt bài toán ước lượng điểm và bài toán ước lượng khoảng:
+ Không có độ tin cậy: bài toán ước lượng điểm.
+ Có độ tin cậy: bài toán ước lượng khoảng.
I. Bài toán ước lượng điểm
+ Ước lượng giá trị trung bình (ước lượng kỳ vọng  ): Tính X rồi kết luận.
+ Ước lượng tỉ lệ (ước lượng xác suất p): Tính f rồi kết luận.
2
$2
+ Ước lượng bình phương độ phân tán (ước lượng p/sai  ): Tính S rồi kết luận.

II. Bài toán ước lượng khoảng
Các bước làm:
+ Xác định bài toán: ước lượng kỳ vọng hay ước lượng xác suất? Nếu là ước lượng
kỳ vọng thì rơi vào trường hợp nào?
+ Viết biểu thức xác định khoảng tin cậy và công thức tính 
� �
� �
u� �
t n 1 � �
�2 �
+ Biết độ tin cậy  , ta đi tính   1   rồi suy ra �2 �hay
2
$2 ;S;f
$

X;S
;S;S
+ Tính các tham số mẫu (nếu cần tham số nào thì tính tham số đó):

rồi tính 
+ Tìm khoảng tin cậy rồi kết luận.
1. Ước lượng giá trị trung bình (ước lượng kỳ vọng  ):





X  ;X  
Khoảng tin cậy đối xứng của  là
với  tính như sau:
Trường hợp
 đã biết, X có phân phối chuẩn
hoặc mẫu lớn

Công thức tính

� � 
  u� �
.
2
�� n

3



 chưa biết, X có phân phối

� � S$
� � S
  t n 1 � �
.
  t n 1 � �
.
�2 � n
�2 � n  1 hoặc
chuẩn
 chưa biết, X không có phân
� � S$
� � S
  u� �
.
  u� �
.
2
2
n

1
n




phối chuẩn nhưng mẫu lớn
hoặc

2. Ước lượng tỉ lệ (ước lượng xác suất p):
� � f  1  f 
  u� �
.
f


;f




2
n


Khoảng tin cậy đối xứng của p là
với

4


BÀI TOÁN KIỂM ĐỊNH
Phân biệt với bài toán ước lượng:
+ Bài toán ước lượng: có từ ước lượng, có từ độ tin cậy
+ Bài toán kiểm định: có từ kiểm định, có từ mức ý nghĩa
Các bước làm:
+ Xác định bài toán: giả thuyết H, đối thuyết K, mức ý nghĩa  .
+ Nêu các điều kiện (nếu có) để đưa ra thống kê.
+ Xác định miền bác bỏ H (miền W)

+ Tính giá trị quan sát của thống kê. Kiểm tra xem giá trị quan sát của thống kê có
thuộc miền W hay không:
 Nếu thuộc thì ta bác bỏ H, chấp nhận K.
 Nếu không thuộc thì chưa bác bỏ được H nên tạm thời chấp nhận H, bác bỏ K
Hai vấn đề chính trong mỗi bài toán kiểm định:
+ Xác định thống kê được sử dụng
+ Xác định miền W
I. Kiểm định giả thuyết về giá trị trung bình (Kiểm định kỳ vọng)

BT1:

H :   0


K :   0


BT2:

H :   0


K :   0


Trường hợp

Sử dụng thống kê

 đã biết, X có phân phối


 X 
G

chuẩn hoặc mẫu lớn

0

BT3:

H :   0


K :  � 0


Miền W

BT1: W   G : G �u    

BT2 : W   G : G �u    

n





� �
BT3: W  �

G : G �u � �

�2 �


 chưa biết, X có phân

BT1: W   T : T �t n 1    

phối chuẩn

BT2 : W   T : T � t n 1    

5


T

 X  
0






� �
BT3: W  �
T : T �t n 1 � �


�2 �


n 1

S




X  0 n
T  X 
 chưa biết, X không có
S$0 n  1
G
S
phân phối chuẩn nhưng
X  0 n
G
mẫu lớn
S$



BT1: W   G : G �u    
BT2 : W   G : G �u    






� �
BT3: W  �
G : G �u � �

�2 �


II. Kiểm định giả thuyết về tỉ lệ (Kiểm định xác suất)
Gọi p là tỉ lệ phần tử mang đặc tính A trong tổng thể.

BT1:

H : p  p0


K : p  p0


BT2:

H : p  p0


K : p  p0


Trường hợp

Sử dụng thống kê


Mẫu lớn

G

BT3:

H : p  p0


K : p �p 0

Miền W

BT1: W   G : G �u    

 f  p0  n
p0  1  p0 

BT2 : W   G : G �u    


� �
BT3: W  �
G : G �u � �

�2 �


III. So sánh hai tỉ lệ (So sánh hai xác suất)

Giả sử ta cần so sánh tỉ lệ phần tử mang đặc tính A của 2 đám đông.
Gọi p1 ;p 2 lần lượt là tỉ lệ phần tử mang đặc tính A của 2 đám đông đó.
Ta có các bài toán so sánh:

BT1:

H : p1  p 2


K : p1  p 2


Trường hợp
Hai mẫu lớn

BT2:

H : p1  p 2


K : p1  p 2


Sử dụng thống kê

BT3:

H : p1  p 2



K : p1 �p 2


Miền W

BT1: W   G : G �u    

BT2 : W   G : G �u    
6




� �
BT3: W  �
G : G �u � �

�2 �


f1  f 2

G

�1
1 �
f 1 f  �  �
�n1 n 2 �

Ở đó:


n1 là kích thước mẫu thứ nhất, n 2 là kích thước mẫu thứ hai.

f1 

m1
n1 là tỉ lệ phần tử mang đặc tính A của mẫu thứ nhất.

f2 

m2
n 2 là tỉ lệ phần tử mang đặc tính A của mẫu thứ hai.

f

m1  m 2
n1  n 2 là tỉ lệ phần tử mang đặc tính A chung của cả hai mẫu.

IV. So sánh hai giá trị trung bình (So sánh kỳ vọng)
Giả sử cần so sánh 2 giá trị trung bình của một dấu hiệu nghiên cứu nào đó ở hai
đám đông khác nhau. Gọi X là dấu hiệu cần nghiên cứu ở đám đông thứ nhất, Y là dấu
hiệu cần nghiên cứu ở đám đông thứ hai.
2
2
Kí hiệu E  X   1;E  Y    2 và D  X   1 ;D  Y    2

Ta có các bài toán so sánh:

BT1:


H : 1   2


K : 1   2


Trường hợp
12 ;  22 đã biết, X và

BT2:

hoặc

BT3:

Sử dụng thống kê

BT1: W   G : G �u    

BT2 : W   G : G �u    




n1 n 2
2
1

hai


2
2



� �
BT3: W  �
G : G �u � �

�2 �


mẫu lớn



H : 1   2


K : 1 � 2


Miền W

XY

Y có phân phối G 
chuẩn

H : 1   2



K : 1   2




12  22 chưa biết,
X  Y n1n 2  n1  n 2  2 
T
 n1  n 2   n1SX2  n 2S2Y 
X và Y có phân
7



BT1: W  T : T �t n1  n2 2   





BT2 : W  T : T � t n1  n2 2   






� �

BT3: W  �
T : T �t n1 n 2 2 � �

�2 �


phối chuẩn
G

 ;  chưa biết, X
2
1

2
2

và Y không có phân
phối chuẩn nhưng G 
hai mẫu lớn

BT1: W   G : G �u    

XY
2
X

2
Y

S

S

n1  1 n 2  1

BT2 : W   G : G �u    

XY



� �
BT3: W  �
G : G �u � �

�2 �


2
2
S$X S$Y

n1 n 2

2
2
Trường hợp 1 ; 2 chưa biết, X và Y không có phân phối chuẩn nhưng hai mẫu bé

thì ta giải quyết bài toán so sánh kỳ vọng (bài toán 3) bằng tiêu chuẩn hạng của Mann –
Whitney hoặc tiêu chuẩn hạng của Wilcoxon:
+ Nếu số liệu cho theo từng cặp thì sử dụng tiêu chuẩn của Wilcoxon.

+ Nếu số liệu không cho theo từng cặp thì sử dụng tiêu chuẩn của Mann – Whitney.
Lưu ý: Hai tiêu chuẩn này chỉ giải quyết được bài toán 3.
Các bước làm đối với tiêu chuẩn của Wilcoxon:

+ Tính d i ; d i và đếm số giá trị d i �0 . Gọi số giá trị d i �0 là n

+ Sắp xếp các
+ Tính

+ Đặt

d i �0 theo thứ tự từ bé đến lớn.

rank  d i



T  T  thì

G
+ Đặt
+ Tính

G qs

với d i  0 rồi tính

E T 

T  E T

D T

n   n   1
4

T   �rank  di
di 0

;D  T  



n   n   1  2n   1
24



� �
W�
G : G �u � �

�2 �

thì miền bác bỏ H là

rồi kết luận.
8


Các bước làm đối với tiêu chuẩn của Mann – Whitney:

+ Gộp chung 2 dãy số liệu mẫu và sắp xếp theo thứ tự từ bé đến lớn.
+ Tính hạng của các phần tử trong mẫu 1, tức là tính

rank  x i  ,i  1;n1

n1

+ Tính

+ Tính

R1  �rank  x i 
i 1

U1  n1n 2 

+ Đặt U  U1 thì
G

G qs

E U 

U  E U
D U

+ Đặt
+ Tính

n1  n1  1

 R1
2
n n  n  n 2  1
n1n 2
;D  U   1 2 1
2
12



� �
W�
G : G �u � �

2



thì miền bác bỏ H là

rồi kết luận.

V. Kiểm định sự phù hợp của số liệu mẫu
Bài toán: Gọi p1 ,p 2 ,..., p k lần lượt là tỉ lệ phần tử mang đặc tính A1;A 2 ;...;A k trong
một đám đông ( p1  p 2  ...  p k  1 ). Từ đám đông, ta lấy ra mẫu có kích thước n.
Ta có bài toán kiểm định:
Giả thuyết H: Số liệu mẫu phù hợp với k tỉ lệ đã cho.
Đối thuyết K: Số liệu mẫu không phù hợp với k tỉ lệ đã cho.

Giải quyết: Ta sử dụng thống kê:


k

 mi  npi 

 �
2

i 1

2

npi

Ở đó: m1;m 2 ;...;m k lần lượt là số phần tử mang đặc tính A1;A 2 ;...;A k trong mẫu.
Miền bác H:

W    2 :  2 � k2 1    

Chú ý: Điều kiện là mi �5;i  1;k .
9


VI. Kiểm định tính độc lập của hai dấu hiệu
Bài toán: Giả sử ta có hai dấu hiệu X và Y. Ta có bài toán kiểm định:
Giả thuyết H: X và Y độc lập nhau; Đối thuyết K: X và Y phụ thuộc nhau.
Giải quyết: Thành lập bảng số liệu:
B1

B2




Bs

Tổng hàng

A1

m11

m12



m1s

hg1

A2

m 21

m 22



m 2s

hg2














Ar

m r1

mr 2



m rs

hgr

cot1

cot2




cots

n

X

Y

Tổng cột

�r s m 2ij



  n�
 1�


�i 1 j1 hg i cot j �
Ta sử dụng thống kê:
2

Miền bác H:



W   2 :  2 �2r 1 s 1   




VII. So sánh nhiều tỉ lệ (So sánh nhiều xác suất)
Bài toán: Gọi lần lượt là tỉ lệ phần tử mang đặc tính A của s đám đông. Ta có bài
toán kiểm định:
Giả thuyết H : p1  p 2  ...  ps
Đối thuyết K: Các tỉ lệ p1 ;p 2 ;...;ps không đồng thời bằng nhau.
Giải quyết: Thành lập bảng số liệu:
B1

B2



Bs

Tổng

A1

m11

m12



m1s

hg1

A2


m 21

m 22



m 2s

hg2

X

Y

10


Tổng
Ở đó,

m1j

cot1



cot2

cots


n

là số phần tử mang đặc tính A ở mẫu lấy ra từ đám đông thứ j còn

số phần tử không mang đặc tính A ở mẫu lấy ra từ đám đông thứ j, j  1;s
2


�2 s m ij

  n�
 1�


�i 1 j1 hg i cot j �
Ta sử dụng thống kê:
2

Miền bác H:

W    2 :  2 �s21    

11

m 2j





TƯƠNG QUAN VÀ HỒI QUY
I. Tương quan
1. Hệ số tương quan
 Ta có đánh giá mức độ phụ thuộc tuyến tính giữa X và Y dựa vào  như sau:
Rất yếu

Yếu

0

Trung bình

0,5

Chặt

Rất chặt

0,7

1

 Khi   0 thì ta nói X và Y không tương quan với nhau.
 Nếu   0 thì X, Y đồng biến và nếu   0 thì X, Y nghịch biến.
2. Hệ số tương quan mẫu
Hệ số tương quan mẫu của 2 biến ngẫu nhiên X, Y là:

r  X,Y  

XY  X.Y

SX .SY

Với bảng số liệu:
y1

y2



ys

Tổng hàng

x1

m11

m12



m1s

hg1

x2

m 21

m 22




m 2s

hg2













xr

m r1

mr 2



m rs

hgr


cot1

cot2



cots

n

X

Y

Tổng cột

12


Ta có:


1 �r s
XY  �
m
x
y
�� ij i j �
n �i1 j1



Ta có dãy thống kê của X:
X
m
Ta tính được X;SX

x1
hg1

x2
hg2




xr
hgr

y2
cot2




ys
cots

Ta có dãy thống kê của Y:
Y

m
Ta tính được Y;SY

y1
cot1

Với bảng số liệu:

 X,Y 

 x1; y1 

 x 2 ; y2 

 x k ; yk 

m2




m

m1

x1
y1
m1

x2

y2
m2





xk
yk
mk

mk

Hoặc:

X
Y
m
Ta có:

XY 

k
1 k
m
x
y
n

mi

�i i i

n i 1
i 1
với

Ta cũng lập dãy thống kê của X và Y rồi tính X;SX ; Y;SY .
II. Hồi quy
Đường hồi quy bình phương trung bình tuyến tính thực nghiệm
Y  Y  r.



SY
. XX
SX

Sai số bình phương trung bình thực nghiệm:

13




S2Y/X  SY2  1  r 2 
Điều kiện áp dụng tốt: r �0,7

14




×