Tải bản đầy đủ (.docx) (14 trang)

Tổng hợp lý thuyết về môn thống kê cho KHXH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (173.81 KB, 14 trang )

MỘT SỐ KHÁI NIỆM VÀ KÍ HIỆU
1. Khái niệm đám đông – mẫu
Đám đông (tổng thể): là tập hợp tất cả các phần tử mà ta muốn nghiên cứu.
Mẫu: là tập hợp các phần tử lấy ra từ đám đông để nghiên cứu.
Kích thước mẫu: là số phần tử của mẫu, kí hiệu là n.
Dãy thống kê dạng điểm cho dưới dạng tần số:
X

x1

x2



xi



xk

m

m1

m2



mi




mk

k

Chú ý:

∑m =n
i =1

i

2. Tham số đám đông – Tham số mẫu
Định nghĩa 1: Giả sử cần nghiên cứu dấu hiệu X của một đám đông có:

E ( X ) = µ ;D ( X ) = σ 2 ; σ ( X ) = σ
Các tham số đám đông:
Tham số

Tên gọi
Kỳ vọng

Ý nghĩa
Giá trị trung bình của X trong đám đông

σ2

Phương sai

Bình phương độ phân tán trong đám đông


Độ lệch tiêu chuẩn

Độ phân tán trong đám đông

µ

σ

Các tham số mẫu:
Tham số

X
S2
2
S$

Tên gọi
Trung bình mẫu
(Giá trị trung bình của X trong mẫu)
Phương sai mẫu

Cách tính

1 k
X = ∑ mi x i
n i=1
1 k
X = ∑ mi x i2
S2 = X 2 − X

n i=1
với

( )

Phương sai mẫu điều chỉnh

2
n 2
S$ =
S
n −1

S

Độ lệch tiêu chuẩn mẫu

S$

Độ lệch tiêu chuẩn mẫu điều chỉnh

S = S2

1

2
S$= S$

2


2


Định nghĩa 2: Giả sử đám đông chỉ có 2 loại đối tượng là các phần tử mang đặc
tính A và các phần tử không mang đặc tính A. Ta có:
+ Tham số p là tỉ lệ phần tử mang đặc tính A trong đám đông.
+ Tham số f là tỉ lệ phần tử mang đặc tính A trong mẫu.

f=

m
n với m là số phần tử mang đặc tính A trong mẫu.

2


BÀI TOÁN ƯỚC LƯỢNG
Phân biệt bài toán ước lượng điểm và bài toán ước lượng khoảng:
+ Không có độ tin cậy: bài toán ước lượng điểm.
+ Có độ tin cậy: bài toán ước lượng khoảng.
I. Bài toán ước lượng điểm
+ Ước lượng giá trị trung bình (ước lượng kỳ vọng

µ ): Tính X rồi kết luận.

+ Ước lượng tỉ lệ (ước lượng xác suất p): Tính f rồi kết luận.
2
$
+ Ước lượng bình phương độ phân tán (ước lượng p/sai σ ): Tính S


2

rồi kết luận.

II. Bài toán ước lượng khoảng
Các bước làm:
+ Xác định bài toán: ước lượng kỳ vọng hay ước lượng xác suất? Nếu là ước lượng
kỳ vọng thì rơi vào trường hợp nào?
+ Viết biểu thức xác định khoảng tin cậy và công thức tính

ε

α
α
u ÷
t n −1  ÷
γ
2
+ Biết độ tin cậy , ta đi tính α = 1 − γ rồi suy ra  2  hay
2
$2 ;S;f
$
X;S
;S;S
+ Tính các tham số mẫu (nếu cần tham số nào thì tính tham số đó):

rồi tính

ε


+ Tìm khoảng tin cậy rồi kết luận.
1. Ước lượng giá trị trung bình (ước lượng kỳ vọng
Khoảng tin cậy đối xứng của
Trường hợp

σ

µ



( X − ε;X + ε ) với ε tính như sau:

Công thức tính

đã biết, X có phân phối chuẩn
ε=
hoặc mẫu lớn

σ

µ ):

α σ
u  ÷.
 2 n
S
 α  S$
ε = t n −1  ÷.
 2 n

  n − 1 hoặc

chưa biết, X có phân phối
α
ε
=
t
n

1
 ÷.
chuẩn
2

3


σ

S
 α  S$
ε = u  ÷.
 2 n
  n − 1 hoặc

chưa biết, X không có phân
α
ε
=
u

 ÷.
phối chuẩn nhưng mẫu lớn
2
2. Ước lượng tỉ lệ (ước lượng xác suất p):

 α  f (1− f )
ε = u  ÷.
( f − ε ;f + ε ) với  2  n
Khoảng tin cậy đối xứng của p là

4


BÀI TOÁN KIỂM ĐỊNH
Phân biệt với bài toán ước lượng:
+ Bài toán ước lượng: có từ ước lượng, có từ độ tin cậy
+ Bài toán kiểm định: có từ kiểm định, có từ mức ý nghĩa
Các bước làm:
+ Xác định bài toán: giả thuyết H, đối thuyết K, mức ý nghĩa

α.

+ Nêu các điều kiện (nếu có) để đưa ra thống kê.
+ Xác định miền bác bỏ H (miền W)
+ Tính giá trị quan sát của thống kê. Kiểm tra xem giá trị quan sát của thống kê có
thuộc miền W hay không:
• Nếu thuộc thì ta bác bỏ H, chấp nhận K.
• Nếu không thuộc thì chưa bác bỏ được H nên tạm thời chấp nhận H, bác bỏ K

Hai vấn đề chính trong mỗi bài toán kiểm định:

+ Xác định thống kê được sử dụng
+ Xác định miền W
I. Kiểm định giả thuyết về giá trị trung bình (Kiểm định kỳ vọng)

H : µ = µ0

K : µ > µ0
BT1: 
Trường hợp

H : µ = µ 0

K : µ < µ0
BT2: 
Sử dụng thống kê

H : µ = µ0

K :µ ≠ µ0
BT3: 
Miền W

BT1: W = { G : G ≥ u ( α ) }

σ đã biết, X có phân phối
chuẩn hoặc mẫu lớn

X−µ )
(
G=

0

σ


 α 
BT3: W =  G : G ≥ u  ÷
 2 


(X−µ )
T=
0

σ

chưa biết, X có phân
phối chuẩn

σ

BT2 : W = { G : G ≤ − u ( α ) }

n

(

n −1

BT2: W = { T :T ≤ − t n −1 ( α ) }


S

X − µ0
T=
S$

)

BT1: W = { T : T ≥ t n −1 ( α ) }

n


 α 
BT3: W =  T : T ≥ t n −1  ÷
 2 


BT1: W = { G : G ≥ u ( α ) }

chưa biết, X không có
5


phân phối chuẩn nhưng
mẫu lớn

G=


(X−µ )
0

n −1

BT2 : W = { G : G ≤ − u ( α ) }

n


 α 
BT3: W =  G : G ≥ u  ÷
 2 


S

(X−µ )
G=
0

S$

II. Kiểm định giả thuyết về tỉ lệ (Kiểm định xác suất)
Gọi p là tỉ lệ phần tử mang đặc tính A trong tổng thể.

 H : p = p0

K : p > p0
BT1: 


 H : p = p0

K : p < p0
BT2: 
Sử dụng thống kê

Trường hợp

 H : p = p0

K : p ≠ p0
BT3: 
Miền W

BT1: W = { G : G ≥ u ( α ) }
G=

Mẫu lớn

BT2 : W = { G : G ≤ − u ( α ) }

( f − p0 ) n
p0 ( 1 − p0 )


 α 
BT3: W =  G : G ≥ u  ÷
 2 



III. So sánh hai tỉ lệ (So sánh hai xác suất)
Giả sử ta cần so sánh tỉ lệ phần tử mang đặc tính A của 2 đám đông.
Gọi

p1;p 2

lần lượt là tỉ lệ phần tử mang đặc tính A của 2 đám đông đó.

Ta có các bài toán so sánh:

H : p1 = p 2

K : p1 > p 2
BT1: 
Trường hợp

Hai mẫu lớn

H : p1 = p 2

K : p1 < p 2
BT2: 
Sử dụng thống kê

G=

 H : p1 = p 2

K : p1 ≠ p 2

BT3: 
Miền W

f1 − f 2
1 1
f ( 1− f )  + ÷
 n1 n 2 

Ở đó:
6

BT1: W = { G : G ≥ u ( α ) }
BT2 : W = { G : G ≤ − u ( α ) }

 α 
BT3: W =  G : G ≥ u  ÷
 2 



n1 là kích thước mẫu thứ nhất, n 2

là kích thước mẫu thứ hai.

f1 =

m1
n1 là tỉ lệ phần tử mang đặc tính A của mẫu thứ nhất.

f2 =


m2
n 2 là tỉ lệ phần tử mang đặc tính A của mẫu thứ hai.

f=

m1 + m 2
n1 + n 2 là tỉ lệ phần tử mang đặc tính A chung của cả hai mẫu.

IV. So sánh hai giá trị trung bình (So sánh kỳ vọng)
Giả sử cần so sánh 2 giá trị trung bình của một dấu hiệu nghiên cứu nào đó ở hai
đám đông khác nhau. Gọi X là dấu hiệu cần nghiên cứu ở đám đông thứ nhất, Y là dấu
hiệu cần nghiên cứu ở đám đông thứ hai.

E ( X ) = µ 1;E ( Y ) = µ 2
Kí hiệu



D ( X ) = σ 12 ;D ( Y ) = σ 22

Ta có các bài toán so sánh:

 H : µ1 = µ 2

K : µ1 > µ 2
BT1: 
Trường hợp

σ ;σ

2
1

2
2

 H : µ1 = µ 2

K : µ1 < µ 2
BT2: 
Sử dụng thống kê

đã biết, X và G =
Y có phân phối
chuẩn hoặc hai
mẫu lớn

σ 12 = σ 22

chưa biết,
X và Y có phân
phối chuẩn

 H : µ1 = µ 2

K : µ1 ≠ µ 2
BT3: 
Miền W

BT1: W = { G : G ≥ u ( α ) }


X−Y

BT2 : W = { G : G ≤ − u ( α ) }

σ12 σ 22
+
n1 n 2

X − Y)
(
T=


 α 
BT3: W =  G : G ≥ u  ÷
 2 

n1n 2 ( n1 + n 2 − 2 )

( n1 + n 2 ) ( n S

2
1 X

+nS

2
2 Y


)

{
BT2 : W = { T : T ≤ − t

BT1: W = T :T ≥ t n1 +n2 −2 ( α )
n1 + n 2 − 2

( α )}


 α 
BT3: W =  T : T ≥ t n1 + n 2 − 2  ÷
 2 


BT1: W = { G : G ≥ u ( α ) }
7

}


BT2 : W = { G : G ≤ − u ( α ) }

X−Y

G=

2
X


2
Y

S
S
+
n1 − 1 n 2 − 1

σ 12 ; σ 22

chưa biết, X
và Y không có phân
phối chuẩn nhưng G =
hai mẫu lớn


 α 
BT3: W =  G : G ≥ u  ÷
 2 


X−Y
2
2
S$X S$Y
+
n1 n 2

σ 12 ; σ 22


Trường hợp
chưa biết, X và Y không có phân phối chuẩn nhưng hai mẫu bé
thì ta giải quyết bài toán so sánh kỳ vọng (bài toán 3) bằng tiêu chuẩn hạng của Mann –
Whitney hoặc tiêu chuẩn hạng của Wilcoxon:
+ Nếu số liệu cho theo từng cặp thì sử dụng tiêu chuẩn của Wilcoxon.
+ Nếu số liệu không cho theo từng cặp thì sử dụng tiêu chuẩn của Mann – Whitney.
Lưu ý: Hai tiêu chuẩn này chỉ giải quyết được bài toán 3.
Các bước làm đối với tiêu chuẩn của Wilcoxon:
+ Tính

di ; di

và đếm số giá trị

+ Sắp xếp các

+ Tính

+ Đặt

rank ( di )

T = T+
G=

+ Đặt
+ Tính

di ≠ 0


G qs

thì

với

theo thứ tự từ bé đến lớn.

d i > 0 rồi tính

E( T) =

T − E( T)
D( T)

d i ≠ 0 . Gọi số giá trị d i ≠ 0 là n +

n + ( n + + 1)
4

T + = ∑ rank ( di )
d i >0

;D ( T ) =

n + ( n + + 1) ( 2n + + 1)
24



 α 
W =  G : G ≥ u  ÷
 2 

thì miền bác bỏ H là

rồi kết luận.

Các bước làm đối với tiêu chuẩn của Mann – Whitney:
+ Gộp chung 2 dãy số liệu mẫu và sắp xếp theo thứ tự từ bé đến lớn.

8


+ Tính hạng của các phần tử trong mẫu 1, tức là tính

rank ( x i ) ,i = 1;n1

n1

+ Tính

+ Tính

+ Đặt

R1 = ∑ rank ( x i )
i =1

U1 = n1n 2 +


U = U1 thì
G=

G qs

E( U) =

U − E( U)
D( U)

+ Đặt
+ Tính

n1 ( n1 + 1)
− R1
2
n n ( n + n + 1)
n1n 2
;D ( U ) = 1 2 1 2
2
12


 α 
W =  G : G ≥ u  ÷
 2 

thì miền bác bỏ H là


rồi kết luận.

V. Kiểm định sự phù hợp của số liệu mẫu
Bài toán: Gọi
một đám đông (

p1,p 2 ,...,p k

lần lượt là tỉ lệ phần tử mang đặc tính

A1;A 2 ;...;A k

trong

p1 + p2 + ... + p k = 1 ). Từ đám đông, ta lấy ra mẫu có kích thước n.

Ta có bài toán kiểm định:
Giả thuyết H: Số liệu mẫu phù hợp với k tỉ lệ đã cho.
Đối thuyết K: Số liệu mẫu không phù hợp với k tỉ lệ đã cho.
k

Giải quyết: Ta sử dụng thống kê:
Ở đó:

m1;m 2 ;...;m k

Miền bác H:

χ2 = ∑


( mi − npi )

2

npi

i =1

lần lượt là số phần tử mang đặc tính

A1;A 2 ;...;A k

W = { χ 2 : χ 2 ≥ χ k2 −1 ( α ) }

Chú ý: Điều kiện là

mi ≥ 5;i = 1;k .

VI. Kiểm định tính độc lập của hai dấu hiệu
Bài toán: Giả sử ta có hai dấu hiệu X và Y. Ta có bài toán kiểm định:
9

trong mẫu.


Giả thuyết H: X và Y độc lập nhau; Đối thuyết K: X và Y phụ thuộc nhau.
Giải quyết: Thành lập bảng số liệu:

B1


B2



Bs

Tổng hàng

A1

m11

m12



m1s

hg1

A2

m 21

m 22



m 2s


hg2













Ar

m r1

m r2



m rs

hgr

cot1

cot2




cots

n

X

Y

Tổng cột

 r s m 2ij

χ = n ∑ ∑
− 1
hg
cot
i
=
1
j
=
1
i
j


Ta sử dụng thống kê:
2


Miền bác H:

{

W = χ 2 : χ 2 ≥ χ (2r −1)( s−1) ( α )

}

VII. So sánh nhiều tỉ lệ (So sánh nhiều xác suất)
Bài toán: Gọi lần lượt là tỉ lệ phần tử mang đặc tính A của s đám đông. Ta có bài
toán kiểm định:
Giả thuyết

H : p1 = p2 = ... = ps

Đối thuyết K: Các tỉ lệ

p1;p2 ;...;ps

không đồng thời bằng nhau.

Giải quyết: Thành lập bảng số liệu:

B1

B2




Bs

Tổng

A1

m11

m12



m1s

hg1

A2

m 21

m 22



m 2s

hg2

Tổng


cot1

cot2



cots

n

X

Y

10


Ở đó,

m1j

là số phần tử mang đặc tính A ở mẫu lấy ra từ đám đông thứ j còn

số phần tử không mang đặc tính A ở mẫu lấy ra từ đám đông thứ j,

 2 s m 2ij

χ = n ∑ ∑
− 1
 i=1 j=1 hg i cot j 

Ta sử dụng thống kê:
2

Miền bác H:

W = { χ 2 : χ 2 ≥ χ s2−1 ( α ) }

11

j = 1;s

m 2j




TƯƠNG QUAN VÀ HỒI QUY
I. Tương quan
1. Hệ số tương quan
• Ta có đánh giá mức độ phụ thuộc tuyến tính giữa X và Y dựa vào

Rất yếu

Yếu

0

Trung bình

0,5


Chặt

ρ

như sau:

Rất chặt

0,7

1

• Khi

ρ = 0 thì ta nói X và Y không tương quan với nhau.

• Nếu

ρ > 0 thì X, Y đồng biến và nếu ρ < 0 thì X, Y nghịch biến.

2. Hệ số tương quan mẫu
Hệ số tương quan mẫu của 2 biến ngẫu nhiên X, Y là:

r ( X,Y ) =

XY − X.Y
SX .SY

Với bảng số liệu:


y1

y2



ys

Tổng hàng

x1

m11

m12



m1s

hg1

x2

m 21

m 22




m 2s

hg2













xr

m r1

m r2



m rs

hgr

cot1


cot2



cots

n

X

Y

Tổng cột

Ta có:


1 r s
XY =  ∑∑ mij x i y j ÷
n  i=1 j=1

12


Ta có dãy thống kê của X:
X

x1


x2



xr

m

hg1

hg2



hgr

X;SX

Ta tính được

Ta có dãy thống kê của Y:
Y

y1

y2



ys


m

cot1

cot2



cots

Ta tính được

Y;SY

Với bảng số liệu:

( X,Y )

( x1;y1 )

( x 2 ;y2 )



( x k ;yk )

m

m1


m2



mk

X

x1

x2



xk

Y

y1

y2



yk

m

m1


m2



mk

Hoặc:

k
1 k
XY = ∑ mi x i yi
n = ∑ mi
n
i =1
i =1
Ta có:
với

Ta cũng lập dãy thống kê của X và Y rồi tính

X;SX ; Y;SY .

II. Hồi quy
Đường hồi quy bình phương trung bình tuyến tính thực nghiệm

Y − Y = r.

(


SY
. X−X
SX

Sai số bình phương trung bình thực nghiệm:
13

)


S2Y/X = SY2 ( 1 − r 2 )
Điều kiện áp dụng tốt:

r ≥ 0,7

14



×