MỘT SỐ KHÁI NIỆM VÀ KÍ HIỆU
1. Khái niệm đám đông – mẫu
Đám đông (tổng thể): là tập hợp tất cả các phần tử mà ta muốn nghiên cứu.
Mẫu: là tập hợp các phần tử lấy ra từ đám đông để nghiên cứu.
Kích thước mẫu: là số phần tử của mẫu, kí hiệu là n.
Dãy thống kê dạng điểm cho dưới dạng tần số:
X
x1
x2
…
xi
…
xk
m
m1
m2
…
mi
…
mk
k
Chú ý:
∑m =n
i =1
i
2. Tham số đám đông – Tham số mẫu
Định nghĩa 1: Giả sử cần nghiên cứu dấu hiệu X của một đám đông có:
E ( X ) = µ ;D ( X ) = σ 2 ; σ ( X ) = σ
Các tham số đám đông:
Tham số
Tên gọi
Kỳ vọng
Ý nghĩa
Giá trị trung bình của X trong đám đông
σ2
Phương sai
Bình phương độ phân tán trong đám đông
Độ lệch tiêu chuẩn
Độ phân tán trong đám đông
µ
σ
Các tham số mẫu:
Tham số
X
S2
2
S$
Tên gọi
Trung bình mẫu
(Giá trị trung bình của X trong mẫu)
Phương sai mẫu
Cách tính
1 k
X = ∑ mi x i
n i=1
1 k
X = ∑ mi x i2
S2 = X 2 − X
n i=1
với
( )
Phương sai mẫu điều chỉnh
2
n 2
S$ =
S
n −1
S
Độ lệch tiêu chuẩn mẫu
S$
Độ lệch tiêu chuẩn mẫu điều chỉnh
S = S2
1
2
S$= S$
2
2
Định nghĩa 2: Giả sử đám đông chỉ có 2 loại đối tượng là các phần tử mang đặc
tính A và các phần tử không mang đặc tính A. Ta có:
+ Tham số p là tỉ lệ phần tử mang đặc tính A trong đám đông.
+ Tham số f là tỉ lệ phần tử mang đặc tính A trong mẫu.
f=
m
n với m là số phần tử mang đặc tính A trong mẫu.
2
BÀI TOÁN ƯỚC LƯỢNG
Phân biệt bài toán ước lượng điểm và bài toán ước lượng khoảng:
+ Không có độ tin cậy: bài toán ước lượng điểm.
+ Có độ tin cậy: bài toán ước lượng khoảng.
I. Bài toán ước lượng điểm
+ Ước lượng giá trị trung bình (ước lượng kỳ vọng
µ ): Tính X rồi kết luận.
+ Ước lượng tỉ lệ (ước lượng xác suất p): Tính f rồi kết luận.
2
$
+ Ước lượng bình phương độ phân tán (ước lượng p/sai σ ): Tính S
2
rồi kết luận.
II. Bài toán ước lượng khoảng
Các bước làm:
+ Xác định bài toán: ước lượng kỳ vọng hay ước lượng xác suất? Nếu là ước lượng
kỳ vọng thì rơi vào trường hợp nào?
+ Viết biểu thức xác định khoảng tin cậy và công thức tính
ε
α
α
u ÷
t n −1 ÷
γ
2
+ Biết độ tin cậy , ta đi tính α = 1 − γ rồi suy ra 2 hay
2
$2 ;S;f
$
X;S
;S;S
+ Tính các tham số mẫu (nếu cần tham số nào thì tính tham số đó):
rồi tính
ε
+ Tìm khoảng tin cậy rồi kết luận.
1. Ước lượng giá trị trung bình (ước lượng kỳ vọng
Khoảng tin cậy đối xứng của
Trường hợp
σ
µ
là
( X − ε;X + ε ) với ε tính như sau:
Công thức tính
đã biết, X có phân phối chuẩn
ε=
hoặc mẫu lớn
σ
µ ):
α σ
u ÷.
2 n
S
α S$
ε = t n −1 ÷.
2 n
n − 1 hoặc
chưa biết, X có phân phối
α
ε
=
t
n
−
1
÷.
chuẩn
2
3
σ
S
α S$
ε = u ÷.
2 n
n − 1 hoặc
chưa biết, X không có phân
α
ε
=
u
÷.
phối chuẩn nhưng mẫu lớn
2
2. Ước lượng tỉ lệ (ước lượng xác suất p):
α f (1− f )
ε = u ÷.
( f − ε ;f + ε ) với 2 n
Khoảng tin cậy đối xứng của p là
4
BÀI TOÁN KIỂM ĐỊNH
Phân biệt với bài toán ước lượng:
+ Bài toán ước lượng: có từ ước lượng, có từ độ tin cậy
+ Bài toán kiểm định: có từ kiểm định, có từ mức ý nghĩa
Các bước làm:
+ Xác định bài toán: giả thuyết H, đối thuyết K, mức ý nghĩa
α.
+ Nêu các điều kiện (nếu có) để đưa ra thống kê.
+ Xác định miền bác bỏ H (miền W)
+ Tính giá trị quan sát của thống kê. Kiểm tra xem giá trị quan sát của thống kê có
thuộc miền W hay không:
• Nếu thuộc thì ta bác bỏ H, chấp nhận K.
• Nếu không thuộc thì chưa bác bỏ được H nên tạm thời chấp nhận H, bác bỏ K
Hai vấn đề chính trong mỗi bài toán kiểm định:
+ Xác định thống kê được sử dụng
+ Xác định miền W
I. Kiểm định giả thuyết về giá trị trung bình (Kiểm định kỳ vọng)
H : µ = µ0
K : µ > µ0
BT1:
Trường hợp
H : µ = µ 0
K : µ < µ0
BT2:
Sử dụng thống kê
H : µ = µ0
K :µ ≠ µ0
BT3:
Miền W
BT1: W = { G : G ≥ u ( α ) }
σ đã biết, X có phân phối
chuẩn hoặc mẫu lớn
X−µ )
(
G=
0
σ
α
BT3: W = G : G ≥ u ÷
2
(X−µ )
T=
0
σ
chưa biết, X có phân
phối chuẩn
σ
BT2 : W = { G : G ≤ − u ( α ) }
n
(
n −1
BT2: W = { T :T ≤ − t n −1 ( α ) }
S
X − µ0
T=
S$
)
BT1: W = { T : T ≥ t n −1 ( α ) }
n
α
BT3: W = T : T ≥ t n −1 ÷
2
BT1: W = { G : G ≥ u ( α ) }
chưa biết, X không có
5
phân phối chuẩn nhưng
mẫu lớn
G=
(X−µ )
0
n −1
BT2 : W = { G : G ≤ − u ( α ) }
n
α
BT3: W = G : G ≥ u ÷
2
S
(X−µ )
G=
0
S$
II. Kiểm định giả thuyết về tỉ lệ (Kiểm định xác suất)
Gọi p là tỉ lệ phần tử mang đặc tính A trong tổng thể.
H : p = p0
K : p > p0
BT1:
H : p = p0
K : p < p0
BT2:
Sử dụng thống kê
Trường hợp
H : p = p0
K : p ≠ p0
BT3:
Miền W
BT1: W = { G : G ≥ u ( α ) }
G=
Mẫu lớn
BT2 : W = { G : G ≤ − u ( α ) }
( f − p0 ) n
p0 ( 1 − p0 )
α
BT3: W = G : G ≥ u ÷
2
III. So sánh hai tỉ lệ (So sánh hai xác suất)
Giả sử ta cần so sánh tỉ lệ phần tử mang đặc tính A của 2 đám đông.
Gọi
p1;p 2
lần lượt là tỉ lệ phần tử mang đặc tính A của 2 đám đông đó.
Ta có các bài toán so sánh:
H : p1 = p 2
K : p1 > p 2
BT1:
Trường hợp
Hai mẫu lớn
H : p1 = p 2
K : p1 < p 2
BT2:
Sử dụng thống kê
G=
H : p1 = p 2
K : p1 ≠ p 2
BT3:
Miền W
f1 − f 2
1 1
f ( 1− f ) + ÷
n1 n 2
Ở đó:
6
BT1: W = { G : G ≥ u ( α ) }
BT2 : W = { G : G ≤ − u ( α ) }
α
BT3: W = G : G ≥ u ÷
2
n1 là kích thước mẫu thứ nhất, n 2
là kích thước mẫu thứ hai.
f1 =
m1
n1 là tỉ lệ phần tử mang đặc tính A của mẫu thứ nhất.
f2 =
m2
n 2 là tỉ lệ phần tử mang đặc tính A của mẫu thứ hai.
f=
m1 + m 2
n1 + n 2 là tỉ lệ phần tử mang đặc tính A chung của cả hai mẫu.
IV. So sánh hai giá trị trung bình (So sánh kỳ vọng)
Giả sử cần so sánh 2 giá trị trung bình của một dấu hiệu nghiên cứu nào đó ở hai
đám đông khác nhau. Gọi X là dấu hiệu cần nghiên cứu ở đám đông thứ nhất, Y là dấu
hiệu cần nghiên cứu ở đám đông thứ hai.
E ( X ) = µ 1;E ( Y ) = µ 2
Kí hiệu
và
D ( X ) = σ 12 ;D ( Y ) = σ 22
Ta có các bài toán so sánh:
H : µ1 = µ 2
K : µ1 > µ 2
BT1:
Trường hợp
σ ;σ
2
1
2
2
H : µ1 = µ 2
K : µ1 < µ 2
BT2:
Sử dụng thống kê
đã biết, X và G =
Y có phân phối
chuẩn hoặc hai
mẫu lớn
σ 12 = σ 22
chưa biết,
X và Y có phân
phối chuẩn
H : µ1 = µ 2
K : µ1 ≠ µ 2
BT3:
Miền W
BT1: W = { G : G ≥ u ( α ) }
X−Y
BT2 : W = { G : G ≤ − u ( α ) }
σ12 σ 22
+
n1 n 2
X − Y)
(
T=
α
BT3: W = G : G ≥ u ÷
2
n1n 2 ( n1 + n 2 − 2 )
( n1 + n 2 ) ( n S
2
1 X
+nS
2
2 Y
)
{
BT2 : W = { T : T ≤ − t
BT1: W = T :T ≥ t n1 +n2 −2 ( α )
n1 + n 2 − 2
( α )}
α
BT3: W = T : T ≥ t n1 + n 2 − 2 ÷
2
BT1: W = { G : G ≥ u ( α ) }
7
}
BT2 : W = { G : G ≤ − u ( α ) }
X−Y
G=
2
X
2
Y
S
S
+
n1 − 1 n 2 − 1
σ 12 ; σ 22
chưa biết, X
và Y không có phân
phối chuẩn nhưng G =
hai mẫu lớn
α
BT3: W = G : G ≥ u ÷
2
X−Y
2
2
S$X S$Y
+
n1 n 2
σ 12 ; σ 22
Trường hợp
chưa biết, X và Y không có phân phối chuẩn nhưng hai mẫu bé
thì ta giải quyết bài toán so sánh kỳ vọng (bài toán 3) bằng tiêu chuẩn hạng của Mann –
Whitney hoặc tiêu chuẩn hạng của Wilcoxon:
+ Nếu số liệu cho theo từng cặp thì sử dụng tiêu chuẩn của Wilcoxon.
+ Nếu số liệu không cho theo từng cặp thì sử dụng tiêu chuẩn của Mann – Whitney.
Lưu ý: Hai tiêu chuẩn này chỉ giải quyết được bài toán 3.
Các bước làm đối với tiêu chuẩn của Wilcoxon:
+ Tính
di ; di
và đếm số giá trị
+ Sắp xếp các
+ Tính
+ Đặt
rank ( di )
T = T+
G=
+ Đặt
+ Tính
di ≠ 0
G qs
thì
với
theo thứ tự từ bé đến lớn.
d i > 0 rồi tính
E( T) =
T − E( T)
D( T)
d i ≠ 0 . Gọi số giá trị d i ≠ 0 là n +
n + ( n + + 1)
4
T + = ∑ rank ( di )
d i >0
;D ( T ) =
n + ( n + + 1) ( 2n + + 1)
24
α
W = G : G ≥ u ÷
2
thì miền bác bỏ H là
rồi kết luận.
Các bước làm đối với tiêu chuẩn của Mann – Whitney:
+ Gộp chung 2 dãy số liệu mẫu và sắp xếp theo thứ tự từ bé đến lớn.
8
+ Tính hạng của các phần tử trong mẫu 1, tức là tính
rank ( x i ) ,i = 1;n1
n1
+ Tính
+ Tính
+ Đặt
R1 = ∑ rank ( x i )
i =1
U1 = n1n 2 +
U = U1 thì
G=
G qs
E( U) =
U − E( U)
D( U)
+ Đặt
+ Tính
n1 ( n1 + 1)
− R1
2
n n ( n + n + 1)
n1n 2
;D ( U ) = 1 2 1 2
2
12
α
W = G : G ≥ u ÷
2
thì miền bác bỏ H là
rồi kết luận.
V. Kiểm định sự phù hợp của số liệu mẫu
Bài toán: Gọi
một đám đông (
p1,p 2 ,...,p k
lần lượt là tỉ lệ phần tử mang đặc tính
A1;A 2 ;...;A k
trong
p1 + p2 + ... + p k = 1 ). Từ đám đông, ta lấy ra mẫu có kích thước n.
Ta có bài toán kiểm định:
Giả thuyết H: Số liệu mẫu phù hợp với k tỉ lệ đã cho.
Đối thuyết K: Số liệu mẫu không phù hợp với k tỉ lệ đã cho.
k
Giải quyết: Ta sử dụng thống kê:
Ở đó:
m1;m 2 ;...;m k
Miền bác H:
χ2 = ∑
( mi − npi )
2
npi
i =1
lần lượt là số phần tử mang đặc tính
A1;A 2 ;...;A k
W = { χ 2 : χ 2 ≥ χ k2 −1 ( α ) }
Chú ý: Điều kiện là
mi ≥ 5;i = 1;k .
VI. Kiểm định tính độc lập của hai dấu hiệu
Bài toán: Giả sử ta có hai dấu hiệu X và Y. Ta có bài toán kiểm định:
9
trong mẫu.
Giả thuyết H: X và Y độc lập nhau; Đối thuyết K: X và Y phụ thuộc nhau.
Giải quyết: Thành lập bảng số liệu:
B1
B2
…
Bs
Tổng hàng
A1
m11
m12
…
m1s
hg1
A2
m 21
m 22
…
m 2s
hg2
…
…
…
…
…
…
Ar
m r1
m r2
…
m rs
hgr
cot1
cot2
…
cots
n
X
Y
Tổng cột
r s m 2ij
χ = n ∑ ∑
− 1
hg
cot
i
=
1
j
=
1
i
j
Ta sử dụng thống kê:
2
Miền bác H:
{
W = χ 2 : χ 2 ≥ χ (2r −1)( s−1) ( α )
}
VII. So sánh nhiều tỉ lệ (So sánh nhiều xác suất)
Bài toán: Gọi lần lượt là tỉ lệ phần tử mang đặc tính A của s đám đông. Ta có bài
toán kiểm định:
Giả thuyết
H : p1 = p2 = ... = ps
Đối thuyết K: Các tỉ lệ
p1;p2 ;...;ps
không đồng thời bằng nhau.
Giải quyết: Thành lập bảng số liệu:
B1
B2
…
Bs
Tổng
A1
m11
m12
…
m1s
hg1
A2
m 21
m 22
…
m 2s
hg2
Tổng
cot1
cot2
…
cots
n
X
Y
10
Ở đó,
m1j
là số phần tử mang đặc tính A ở mẫu lấy ra từ đám đông thứ j còn
số phần tử không mang đặc tính A ở mẫu lấy ra từ đám đông thứ j,
2 s m 2ij
χ = n ∑ ∑
− 1
i=1 j=1 hg i cot j
Ta sử dụng thống kê:
2
Miền bác H:
W = { χ 2 : χ 2 ≥ χ s2−1 ( α ) }
11
j = 1;s
m 2j
là
TƯƠNG QUAN VÀ HỒI QUY
I. Tương quan
1. Hệ số tương quan
• Ta có đánh giá mức độ phụ thuộc tuyến tính giữa X và Y dựa vào
Rất yếu
Yếu
0
Trung bình
0,5
Chặt
ρ
như sau:
Rất chặt
0,7
1
• Khi
ρ = 0 thì ta nói X và Y không tương quan với nhau.
• Nếu
ρ > 0 thì X, Y đồng biến và nếu ρ < 0 thì X, Y nghịch biến.
2. Hệ số tương quan mẫu
Hệ số tương quan mẫu của 2 biến ngẫu nhiên X, Y là:
r ( X,Y ) =
XY − X.Y
SX .SY
Với bảng số liệu:
y1
y2
…
ys
Tổng hàng
x1
m11
m12
…
m1s
hg1
x2
m 21
m 22
…
m 2s
hg2
…
…
…
…
…
…
xr
m r1
m r2
…
m rs
hgr
cot1
cot2
…
cots
n
X
Y
Tổng cột
Ta có:
1 r s
XY = ∑∑ mij x i y j ÷
n i=1 j=1
12
Ta có dãy thống kê của X:
X
x1
x2
…
xr
m
hg1
hg2
…
hgr
X;SX
Ta tính được
Ta có dãy thống kê của Y:
Y
y1
y2
…
ys
m
cot1
cot2
…
cots
Ta tính được
Y;SY
Với bảng số liệu:
( X,Y )
( x1;y1 )
( x 2 ;y2 )
…
( x k ;yk )
m
m1
m2
…
mk
X
x1
x2
…
xk
Y
y1
y2
…
yk
m
m1
m2
…
mk
Hoặc:
k
1 k
XY = ∑ mi x i yi
n = ∑ mi
n
i =1
i =1
Ta có:
với
Ta cũng lập dãy thống kê của X và Y rồi tính
X;SX ; Y;SY .
II. Hồi quy
Đường hồi quy bình phương trung bình tuyến tính thực nghiệm
Y − Y = r.
(
SY
. X−X
SX
Sai số bình phương trung bình thực nghiệm:
13
)
S2Y/X = SY2 ( 1 − r 2 )
Điều kiện áp dụng tốt:
r ≥ 0,7
14