MỘT SỐ KHÁI NIỆM VÀ KÍ HIỆU
1. Khái niệm đám đông – mẫu
Đám đông (tổng thể): là tập hợp tất cả các phần tử mà ta muốn nghiên cứu.
Mẫu: là tập hợp các phần tử lấy ra từ đám đông để nghiên cứu.
Kích thước mẫu: là số phần tử của mẫu, kí hiệu là n.
Dãy thống kê dạng điểm cho dưới dạng tần số:
x1
m1
X
m
k
Chú ý:
�m
i 1
i
x2
m2
xi
mi
…
…
xk
mk
…
…
n
2. Tham số đám đông – Tham số mẫu
Định nghĩa 1: Giả sử cần nghiên cứu dấu hiệu X của một đám đông có:
E X ;D X 2 ; X
Các tham số đám đông:
Tham số
2
Tên gọi
Kỳ vọng
Phương sai
Độ lệch tiêu chuẩn
Ý nghĩa
Giá trị trung bình của X trong đám đông
Bình phương độ phân tán trong đám đông
Độ phân tán trong đám đông
Các tham số mẫu:
Tham số
X
2
S
Tên gọi
Trung bình mẫu
(Giá trị trung bình của X trong mẫu)
Phương sai mẫu
Cách tính
1 k
X �mi x i
n i1
S2 X 2 X
2
S$
Phương sai mẫu điều chỉnh
2
n 2
S$
S
n 1
S
Độ lệch tiêu chuẩn mẫu
S S2
S$
Độ lệch tiêu chuẩn mẫu điều chỉnh
1
2
S$ S$
2
1 k
X �mi x i2
n i1
với
2
Định nghĩa 2: Giả sử đám đông chỉ có 2 loại đối tượng là các phần tử mang đặc
tính A và các phần tử không mang đặc tính A. Ta có:
+ Tham số p là tỉ lệ phần tử mang đặc tính A trong đám đông.
+ Tham số f là tỉ lệ phần tử mang đặc tính A trong mẫu.
f
m
n với m là số phần tử mang đặc tính A trong mẫu.
2
BÀI TOÁN ƯỚC LƯỢNG
Phân biệt bài toán ước lượng điểm và bài toán ước lượng khoảng:
+ Không có độ tin cậy: bài toán ước lượng điểm.
+ Có độ tin cậy: bài toán ước lượng khoảng.
I. Bài toán ước lượng điểm
+ Ước lượng giá trị trung bình (ước lượng kỳ vọng ): Tính X rồi kết luận.
+ Ước lượng tỉ lệ (ước lượng xác suất p): Tính f rồi kết luận.
2
$2
+ Ước lượng bình phương độ phân tán (ước lượng p/sai ): Tính S rồi kết luận.
II. Bài toán ước lượng khoảng
Các bước làm:
+ Xác định bài toán: ước lượng kỳ vọng hay ước lượng xác suất? Nếu là ước lượng
kỳ vọng thì rơi vào trường hợp nào?
+ Viết biểu thức xác định khoảng tin cậy và công thức tính
� �
� �
u� �
t n 1 � �
�2 �
+ Biết độ tin cậy , ta đi tính 1 rồi suy ra �2 �hay
2
$2 ;S;f
$
X;S
;S;S
+ Tính các tham số mẫu (nếu cần tham số nào thì tính tham số đó):
rồi tính
+ Tìm khoảng tin cậy rồi kết luận.
1. Ước lượng giá trị trung bình (ước lượng kỳ vọng ):
X ;X
Khoảng tin cậy đối xứng của là
với tính như sau:
Trường hợp
đã biết, X có phân phối chuẩn
hoặc mẫu lớn
Công thức tính
� �
u� �
.
2
�� n
3
chưa biết, X có phân phối
� � S$
� � S
t n 1 � �
.
t n 1 � �
.
�2 � n
�2 � n 1 hoặc
chuẩn
chưa biết, X không có phân
� � S$
� � S
u� �
.
u� �
.
2
2
n
1
n
�
�
�
�
phối chuẩn nhưng mẫu lớn
hoặc
2. Ước lượng tỉ lệ (ước lượng xác suất p):
� � f 1 f
u� �
.
f
;f
2
n
�
�
Khoảng tin cậy đối xứng của p là
với
4
BÀI TOÁN KIỂM ĐỊNH
Phân biệt với bài toán ước lượng:
+ Bài toán ước lượng: có từ ước lượng, có từ độ tin cậy
+ Bài toán kiểm định: có từ kiểm định, có từ mức ý nghĩa
Các bước làm:
+ Xác định bài toán: giả thuyết H, đối thuyết K, mức ý nghĩa .
+ Nêu các điều kiện (nếu có) để đưa ra thống kê.
+ Xác định miền bác bỏ H (miền W)
+ Tính giá trị quan sát của thống kê. Kiểm tra xem giá trị quan sát của thống kê có
thuộc miền W hay không:
Nếu thuộc thì ta bác bỏ H, chấp nhận K.
Nếu không thuộc thì chưa bác bỏ được H nên tạm thời chấp nhận H, bác bỏ K
Hai vấn đề chính trong mỗi bài toán kiểm định:
+ Xác định thống kê được sử dụng
+ Xác định miền W
I. Kiểm định giả thuyết về giá trị trung bình (Kiểm định kỳ vọng)
BT1:
H : 0
�
�
K : 0
�
BT2:
H : 0
�
�
K : 0
�
Trường hợp
Sử dụng thống kê
đã biết, X có phân phối
X
G
chuẩn hoặc mẫu lớn
0
BT3:
H : 0
�
�
K : � 0
�
Miền W
BT1: W G : G �u
BT2 : W G : G �u
n
�
�
� �
BT3: W �
G : G �u � �
�
�2 �
�
chưa biết, X có phân
BT1: W T : T �t n 1
phối chuẩn
BT2 : W T : T � t n 1
5
T
X
0
�
�
� �
BT3: W �
T : T �t n 1 � �
�
�2 �
�
n 1
S
X 0 n
T X
chưa biết, X không có
S$0 n 1
G
S
phân phối chuẩn nhưng
X 0 n
G
mẫu lớn
S$
BT1: W G : G �u
BT2 : W G : G �u
�
�
� �
BT3: W �
G : G �u � �
�
�2 �
�
II. Kiểm định giả thuyết về tỉ lệ (Kiểm định xác suất)
Gọi p là tỉ lệ phần tử mang đặc tính A trong tổng thể.
BT1:
H : p p0
�
�
K : p p0
�
BT2:
H : p p0
�
�
K : p p0
�
Trường hợp
Sử dụng thống kê
Mẫu lớn
G
BT3:
H : p p0
�
�
K : p �p 0
�
Miền W
BT1: W G : G �u
f p0 n
p0 1 p0
BT2 : W G : G �u
�
�
� �
BT3: W �
G : G �u � �
�
�2 �
�
III. So sánh hai tỉ lệ (So sánh hai xác suất)
Giả sử ta cần so sánh tỉ lệ phần tử mang đặc tính A của 2 đám đông.
Gọi p1 ;p 2 lần lượt là tỉ lệ phần tử mang đặc tính A của 2 đám đông đó.
Ta có các bài toán so sánh:
BT1:
H : p1 p 2
�
�
K : p1 p 2
�
Trường hợp
Hai mẫu lớn
BT2:
H : p1 p 2
�
�
K : p1 p 2
�
Sử dụng thống kê
BT3:
H : p1 p 2
�
�
K : p1 �p 2
�
Miền W
BT1: W G : G �u
BT2 : W G : G �u
6
�
�
� �
BT3: W �
G : G �u � �
�
�2 �
�
f1 f 2
G
�1
1 �
f 1 f � �
�n1 n 2 �
Ở đó:
n1 là kích thước mẫu thứ nhất, n 2 là kích thước mẫu thứ hai.
f1
m1
n1 là tỉ lệ phần tử mang đặc tính A của mẫu thứ nhất.
f2
m2
n 2 là tỉ lệ phần tử mang đặc tính A của mẫu thứ hai.
f
m1 m 2
n1 n 2 là tỉ lệ phần tử mang đặc tính A chung của cả hai mẫu.
IV. So sánh hai giá trị trung bình (So sánh kỳ vọng)
Giả sử cần so sánh 2 giá trị trung bình của một dấu hiệu nghiên cứu nào đó ở hai
đám đông khác nhau. Gọi X là dấu hiệu cần nghiên cứu ở đám đông thứ nhất, Y là dấu
hiệu cần nghiên cứu ở đám đông thứ hai.
2
2
Kí hiệu E X 1;E Y 2 và D X 1 ;D Y 2
Ta có các bài toán so sánh:
BT1:
H : 1 2
�
�
K : 1 2
�
Trường hợp
12 ; 22 đã biết, X và
BT2:
hoặc
BT3:
Sử dụng thống kê
BT1: W G : G �u
BT2 : W G : G �u
n1 n 2
2
1
hai
2
2
�
�
� �
BT3: W �
G : G �u � �
�
�2 �
�
mẫu lớn
H : 1 2
�
�
K : 1 � 2
�
Miền W
XY
Y có phân phối G
chuẩn
H : 1 2
�
�
K : 1 2
�
12 22 chưa biết,
X Y n1n 2 n1 n 2 2
T
n1 n 2 n1SX2 n 2S2Y
X và Y có phân
7
BT1: W T : T �t n1 n2 2
BT2 : W T : T � t n1 n2 2
�
�
� �
BT3: W �
T : T �t n1 n 2 2 � �
�
�2 �
�
phối chuẩn
G
; chưa biết, X
2
1
2
2
và Y không có phân
phối chuẩn nhưng G
hai mẫu lớn
BT1: W G : G �u
XY
2
X
2
Y
S
S
n1 1 n 2 1
BT2 : W G : G �u
XY
�
�
� �
BT3: W �
G : G �u � �
�
�2 �
�
2
2
S$X S$Y
n1 n 2
2
2
Trường hợp 1 ; 2 chưa biết, X và Y không có phân phối chuẩn nhưng hai mẫu bé
thì ta giải quyết bài toán so sánh kỳ vọng (bài toán 3) bằng tiêu chuẩn hạng của Mann –
Whitney hoặc tiêu chuẩn hạng của Wilcoxon:
+ Nếu số liệu cho theo từng cặp thì sử dụng tiêu chuẩn của Wilcoxon.
+ Nếu số liệu không cho theo từng cặp thì sử dụng tiêu chuẩn của Mann – Whitney.
Lưu ý: Hai tiêu chuẩn này chỉ giải quyết được bài toán 3.
Các bước làm đối với tiêu chuẩn của Wilcoxon:
+ Tính d i ; d i và đếm số giá trị d i �0 . Gọi số giá trị d i �0 là n
+ Sắp xếp các
+ Tính
+ Đặt
d i �0 theo thứ tự từ bé đến lớn.
rank d i
T T thì
G
+ Đặt
+ Tính
G qs
với d i 0 rồi tính
E T
T E T
D T
n n 1
4
T �rank di
di 0
;D T
n n 1 2n 1
24
�
�
� �
W�
G : G �u � �
�
�2 �
�
thì miền bác bỏ H là
rồi kết luận.
8
Các bước làm đối với tiêu chuẩn của Mann – Whitney:
+ Gộp chung 2 dãy số liệu mẫu và sắp xếp theo thứ tự từ bé đến lớn.
+ Tính hạng của các phần tử trong mẫu 1, tức là tính
rank x i ,i 1;n1
n1
+ Tính
+ Tính
R1 �rank x i
i 1
U1 n1n 2
+ Đặt U U1 thì
G
G qs
E U
U E U
D U
+ Đặt
+ Tính
n1 n1 1
R1
2
n n n n 2 1
n1n 2
;D U 1 2 1
2
12
�
�
� �
W�
G : G �u � �
�
2
�
�
�
thì miền bác bỏ H là
rồi kết luận.
V. Kiểm định sự phù hợp của số liệu mẫu
Bài toán: Gọi p1 ,p 2 ,..., p k lần lượt là tỉ lệ phần tử mang đặc tính A1;A 2 ;...;A k trong
một đám đông ( p1 p 2 ... p k 1 ). Từ đám đông, ta lấy ra mẫu có kích thước n.
Ta có bài toán kiểm định:
Giả thuyết H: Số liệu mẫu phù hợp với k tỉ lệ đã cho.
Đối thuyết K: Số liệu mẫu không phù hợp với k tỉ lệ đã cho.
Giải quyết: Ta sử dụng thống kê:
k
mi npi
�
2
i 1
2
npi
Ở đó: m1;m 2 ;...;m k lần lượt là số phần tử mang đặc tính A1;A 2 ;...;A k trong mẫu.
Miền bác H:
W 2 : 2 � k2 1
Chú ý: Điều kiện là mi �5;i 1;k .
9
VI. Kiểm định tính độc lập của hai dấu hiệu
Bài toán: Giả sử ta có hai dấu hiệu X và Y. Ta có bài toán kiểm định:
Giả thuyết H: X và Y độc lập nhau; Đối thuyết K: X và Y phụ thuộc nhau.
Giải quyết: Thành lập bảng số liệu:
B1
B2
…
Bs
Tổng hàng
A1
m11
m12
…
m1s
hg1
A2
m 21
m 22
…
m 2s
hg2
…
…
…
…
…
…
Ar
m r1
mr 2
…
m rs
hgr
cot1
cot2
…
cots
n
X
Y
Tổng cột
�r s m 2ij
�
�
�
n�
1�
�
�
�i 1 j1 hg i cot j �
Ta sử dụng thống kê:
2
Miền bác H:
W 2 : 2 �2r 1 s 1
VII. So sánh nhiều tỉ lệ (So sánh nhiều xác suất)
Bài toán: Gọi lần lượt là tỉ lệ phần tử mang đặc tính A của s đám đông. Ta có bài
toán kiểm định:
Giả thuyết H : p1 p 2 ... ps
Đối thuyết K: Các tỉ lệ p1 ;p 2 ;...;ps không đồng thời bằng nhau.
Giải quyết: Thành lập bảng số liệu:
B1
B2
…
Bs
Tổng
A1
m11
m12
…
m1s
hg1
A2
m 21
m 22
…
m 2s
hg2
X
Y
10
Tổng
Ở đó,
m1j
cot1
…
cot2
cots
n
là số phần tử mang đặc tính A ở mẫu lấy ra từ đám đông thứ j còn
số phần tử không mang đặc tính A ở mẫu lấy ra từ đám đông thứ j, j 1;s
2
�
�
�2 s m ij
�
n�
1�
�
�
�i 1 j1 hg i cot j �
Ta sử dụng thống kê:
2
Miền bác H:
W 2 : 2 �s21
11
m 2j
là
TƯƠNG QUAN VÀ HỒI QUY
I. Tương quan
1. Hệ số tương quan
Ta có đánh giá mức độ phụ thuộc tuyến tính giữa X và Y dựa vào như sau:
Rất yếu
Yếu
0
Trung bình
0,5
Chặt
Rất chặt
0,7
1
Khi 0 thì ta nói X và Y không tương quan với nhau.
Nếu 0 thì X, Y đồng biến và nếu 0 thì X, Y nghịch biến.
2. Hệ số tương quan mẫu
Hệ số tương quan mẫu của 2 biến ngẫu nhiên X, Y là:
r X,Y
XY X.Y
SX .SY
Với bảng số liệu:
y1
y2
…
ys
Tổng hàng
x1
m11
m12
…
m1s
hg1
x2
m 21
m 22
…
m 2s
hg2
…
…
…
…
…
…
xr
m r1
mr 2
…
m rs
hgr
cot1
cot2
…
cots
n
X
Y
Tổng cột
12
Ta có:
�
1 �r s
XY �
m
x
y
�� ij i j �
n �i1 j1
�
Ta có dãy thống kê của X:
X
m
Ta tính được X;SX
x1
hg1
x2
hg2
…
…
xr
hgr
y2
cot2
…
…
ys
cots
Ta có dãy thống kê của Y:
Y
m
Ta tính được Y;SY
y1
cot1
Với bảng số liệu:
X,Y
x1; y1
x 2 ; y2
x k ; yk
m2
…
…
m
m1
x1
y1
m1
x2
y2
m2
…
…
…
xk
yk
mk
mk
Hoặc:
X
Y
m
Ta có:
XY
k
1 k
m
x
y
n
mi
�i i i
�
n i 1
i 1
với
Ta cũng lập dãy thống kê của X và Y rồi tính X;SX ; Y;SY .
II. Hồi quy
Đường hồi quy bình phương trung bình tuyến tính thực nghiệm
Y Y r.
SY
. XX
SX
Sai số bình phương trung bình thực nghiệm:
13
S2Y/X SY2 1 r 2
Điều kiện áp dụng tốt: r �0,7
14