Kênh:
Eureka! Uni
Sản xuất:
Hoàng Bá Mạnh
Lý thuyết Xác suất và Thống kê
á 1
HỆ
THỐNG
LÝ
THUYẾT
NEU – Spring 2020
CHÚ Ý KHI IN
In khổ giấy A5 và đóng thành sách để sử dụng hiệu quả hơn ^^
GIỚI THIỆU
Tác giả
Tác giả: Love NeverDies, nghệ danh: Hoàng Bá Mạnh
Năm sinh: 1994
Năm mất: chưa rõ
SĐT: 0986.960.312
Tác phẩm
Đối tượng: Sinh viên khối ngành kinh tế nói chung và sinh viên Kinh tế
Quốc dân nói riêng
Mục tiêu:
-
Ôn theo chương trình học
Luyện tập củng cố theo giáo trình
Ôn tập giữa kì, cuối kì
Chịu trách nhiệm nội dung và giải đáp bởi tác giả
Đôi lời nhắn nhủ tới bạn đọc của tác giả
Đây là tài liệu phục vụ ôn tập nên tôi không khuyến khích các bạn biến
nó thành phao thi -_-! Mặc dù, trong giây phút lầm đường lạc lối, bế tắc
không lối thoát, vẫn có nhưng con chiên làm liều vì cùng quẫn, nhưng
chúng tôi vẫn khẳng định về mục đích đã đề cập phía trên!
Chúc bạn đọc ôn tập hiệu quả và đạt kết quả tốt cho học phần này!
Goodluck!
NEU, Spring 2020
Created 29/03/2020 by Mạnh
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
Mục lục
1.
A-1: Xác suất .................................................................................. 1
1.1.
1.1.1.
Phép thử, biến cố và phân loại ........................................ 1
1.1.2.
Xác suất biến cố ............................................................... 1
1.1.3.
Các phương pháp xác định xác suất biến cố ................. 2
1.1.4.
Nguyên lý xác xuất lớn – nhỏ .......................................... 3
1.1.5.
Định lý nhân ..................................................................... 3
1.1.7.
Hệ quả của định lý cộng – nhân ..................................... 5
1.2.
2.
Biến cố và xác suất biến cố ..................................................... 1
Biến ngẫu nhiên và quy luật phân phối xác suất.................. 5
1.2.1.
Biến ngẫu nhiên và phân loại.......................................... 5
1.2.2.
Quy luật phân phối xác suất ........................................... 6
1.2.3.
Các tham số đặc trưng .................................................... 7
1.3.
Phân phối xác suất thông dụng .............................................. 9
1.4.
Biến ngẫu nhiên 2 chiều rời rạc ........................................... 10
1.4.1.
Biến hai chiều rời rạc .................................................... 10
1.4.2.
Các bảng phân phối xác suất ........................................ 10
1.4.3.
Tương quan tuyến tính .................................................. 11
A-2: Thống kê toán ...................................................................... 12
2.1.
Tổng thể - Mẫu và các tham số ............................................ 12
2.1.1.
Mẫu và Tổng thể ............................................................ 12
2.1.2.
Các tham số đặc trưng .................................................. 12
2.1.3.
Mẫu liệt kê, mẫu phân nhóm, mẫu theo cặp ............... 13
2.1.4.
Tính toán các tham số mẫu ........................................... 13
2.2.
Quy luật phân phối xác suất của các thống kê ................... 13
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
2.3.
Suy diễn thống kê .................................................................. 14
2.3.1.
Suy đoán cho trung bình mẫu X̅................................... 14
2.3.2.
Suy đoán cho tần suất mẫu p̂ ........................................ 15
2.4.
Ước lượng tham số ................................................................ 15
2.4.1.
Ước lượng điểm bằng hàm ước lượng ......................... 16
2.4.2.
Ước lượng bằng khoảng tin cậy .................................... 17
2.5.
Kiểm định giả thuyết............................................................. 19
2.5.1.
Những vấn đề chung ...................................................... 19
2.5.2.
Kiểm định tham số tổng thể .......................................... 21
2.5.3.
Kiểm định phi tham số .................................................. 26
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
1|P a g e
Trang Eureka Uni
1. A-1: Xác suất
1.1.Biến cố và xác suất biến cố
1.1.1. Phép thử, biến cố và phân loại
Bài toán
Phép thử
Mạnh có tình
cảm với V từ
lâu và nhận
thấy đến lúc
phải rõ ràng!
Mạnh
tỏ
tình
với V
/>
Biến cố
Thành
Người yêu V
Friendzone
Bại
Brotherzone
Ngườilạ-zone
Phép thử là một (nhiều) hành động, thao tác xảy ra
Biến cố là kết quả của phép thử
Tùy theo góc nhìn ta có thể đặt biến cố khái quát hoặc bóc tách
thành từng biến cố thành phần nhỏ hơn cho thuận tiện, phù hợp
Biến cố
Chắc chắn
Ngẫu nhiên
Không thể có
Đặc điểm
- Thử là thấy
- Làm là được
- Luôn xuất hiện
- Chưa chắc thấy
- Chưa chắc được
- Xuất hiện hoặc
không
A, B, C, ...
- Không thể thấy
- Không thể được
- Không bao giờ
xuất hiện
Kí hiệu
U (Ω)
V (∅)
1.1.2. Xác suất biến cố
Xác suất biến cố là đại lượng đặc trưng cho sự xuất hiện của biến cố
Kết quả (biến cố) càng dễ xảy ra => xác suất càng lớn
0 ≤ P (A) ≤ 1
P (U ) = 1
P (V ) = 0
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
2|P a g e
Trang Eureka Uni
/>
1.1.3. Cỏc phng phỏp xỏc nh xỏc sut bin c
nh ngha c in
M
Số kết cục thỏa mãn A
=
N Tổng số kết cục duy nhất đồng khả năng
Kt cc: kt qu cú th xy ra khi thc hin phộp th
Duy nht: cỏc kt qu khụng b trựng lp, khụng cú im chung
ng kh nng: Xỏc sut xut hin mi kt cc l nh nhau
Vớ d 1: Tung 1 xỳc xc (cõn i ng cht). Ta thy:
Cú 6 kt cc duy nht ng kh nng (1,2,3,4,5,6)
Trong ú cú 3 kt cc tha món bin c A: mt l chm
=
P (A
)
3
P (A) =
=
0,5
6
Vớ d 2: Tung 2 xỳc xc (cõn i ng cht). Ta thy:
Cú 36 kt cc duy nht ng kh nng
(1-1, 1-2, ..., 1-6, 6-1, ..., 6-6)
Trong ú cú 3 kt cc tha món bin c B: tng s chm
bng 4 (1-3, 3-1, 2-2)
4 1
P (B ) = =
36 9
Cỏc cụng thc gii thớch t hp
Tờn
Kớ hiu
m
Hoỏn v
T hp
n!
C
k
n
Chnh hp
Chnh hp lp
k
n
Ank
A
S cỏch xp n S cỏch ly k S cỏch ly k S cỏch ly k t
phn t
phn t t n
phn t t n n theo th t,
theo th t
cú hon li
S Venn (dng tp hp)
=
Pxanh
15
3
=
15 + 25 8
15
25
Nhúm Xỏc sut v thng kờ Ti liu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
3|P a g e
Trang Eureka Uni
Định nghĩa thống kê về xác suất
/>
n ( A ) Sè phÐp thö cã A xuÊt hiÖn
=
n
Tæng sè phÐp thö
Tần suất
f=
(A)
Xác suất
P ( A ) ≈ f ( A ) khi số phép thử n đủ lớn
1.1.4. Nguyên lý xác xuất lớn – nhỏ
Ng/lý
Biến cố A
Thực tế có thể
- 0,01 là nhỏ?
- 0,99 là lớn?
Xác suất lớn
Xác suất nhỏ
P(A) → 0
P(A) → 1
coi như A luôn xảy ra coi như A không xảy ra
Tùy tình huống mà xác suất coi là lớn hay nhỏ
Ví dụ:
- Tỉ lệ tai nạn xe máy là 0,01 => xác suất không
nhỏ (vì theo đó cứ 100 người điều khiển xe máy
thì có 1 người tai nạn)
1.1.5. Định lý nhân
Biến cố tích: AB
Xuất hiện khi cả A và B xuất hiện
A
AB
B
Phần giao nhau của A và B
Tương tác biến cố
Biến cố
Độc lập
A và B - có giao nhau
- không ảnh hưởng
Biểu
P(AB) = P(A)P(B)
thức
Phụ thuộc
Có điều kiện
- giao hoặc không
- có ảnh hưởng
- có ảnh hưởng nhau - có thứ tự trước-sau
P(AB) ≠ P(A)P(B) P(A|B)=P(AB)/P(B)
P(AB) = P(A)P(B|A) = P(B)P(A|B)
Hệ n biến cố A1, A2, ..., An gọi là:
Độc lập từng đôi:
2 biến cố bất kì độc lập nhau
A1 độc lập A2, Ai độc lập Aj, ...
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
4|P a g e
Trang Eureka Uni
Độc lập toàn phần:
/>
các tổ hợp bất kì (tích – tổng) độc lập nhau
A1A2 độc lập A2A3A4 độc lập A1+A3, ...
1.1.6. Định lý cộng
Biến cố tổng: (A + B)
Xuất hiện khi hoặc A, B , AB xảy ra
A
AB
B
Toàn bộ phần màu xanh
Tương tác biến cố
Biến cố
A và B
Biểu
thức
Xung khắc
- không giao nhau
- có ảnh hưởng
AB = V
P(A+B)
= P(B) + P(B)
Không xung khắc
- có giao nhau
P(AB) ≠ 0
P(A+B)
=P(A)+P(B)–P(AB)
Đối lập
- không giao
- hai nửa của U
B ≡ A̅, A.A̅ = V
A + A̅ = U
P(A) + P(A̅) = 1
Hệ n biến cố A1, A2, ..., An xung khắc từng đôi khi
Hai biến cố bất kì xung khắc nhau: Ai xung khắc Aj (i ≠ j)
Tưởng tác tổng hợp
Biến cố tích
Biến cố tổng
Độc lập
Xung khắc
Phụ thuộc
Đối lập
Không xung khắc
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
5|P a g e
Trang Eureka Uni
1.1.7. Hệ quả của định lý cộng – nhân
/>
Nhóm đầy đủ biến cố Phép thử 1 => H1, H2, H3, ..., Hn, trong đó:
- Chia các trường hợp H H = V , ∀ i ≠ j và ∑ P ( H ) = 1
i
j
i
- Mỗi trường hợp là 1
P ( H i ) là các xác suất tiên nghiệm
biến cố Hi
Công thức XS đầy đủ Phép thử 2 => A xảy ra cùng với các Hi
- nhiều phép thử liên
Khi đó A = ∑ AH i
tiếp (thường là 2)
P (A) ∑
P ( AH i ) ∑ P ( H i ) P ( A | H i )
=
- các kết quả cuối có=
dạng: “nếu X thì Y”
Sau khi A xảy ra, tính ngược lại xác suất của các
Công thức Bayes
Hi
- Giả thiết giống với
P ( H i .A ) P ( H i ) P ( A | H i )
công thức xs đầy đủ
P=
(H i | A) =
P (A)
∑ P ( H i )( A | H i )
- Biến cố được hỏi là
biến cố kèm điều kiện P H | A các xác suất hậu nghiệm
(
Công thức Bernoulli
- n phép thử độc lập
- A xảy ra với P(A) =
p
i
)
Xác suất trong n phép thử, A xảy ra k lần là:
Pk=
( n ; p ) C nk p k (1 − p )
n −k
1.2.Biến ngẫu nhiên và quy luật phân phối xác suất
1.2.1. Biến ngẫu nhiên và phân loại
- Biến số
- Nhận giá trị một
cách ngẫu nhiên
Biến
ngẫu
nhiên
Rời rạc
Liên tục
Liệt kê
hoặc đếm
được hết
giá trị
Không
liệt kê,
đếm
được hết
- 1 giá trị ứng với 1 biến cố
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
6|P a g e
Trang Eureka Uni
/>
1.2.2. Quy luật phân phối xác suất
Giá trị của X
x
Quy luật
Phân phối xác suất
Bảng phân phối
Biến rời rạc
Dòng xi
Dòng pi
p1 + p2 + ...= 1
Xác suất
P(X = x)
Hàm phân bố
Hàm mật độ
Biến liên tục
F(x)
F(x) = P(X
P(a ≤ X < b) =
= F(b) – F(a)
f(x) = F′(x)
f(x) ≥ 0
+∞
∫ f ( x ) dx=1
-∞
P(X=a) = 0
P(a < X < b) =
= ∫ f ( x ) dx
b
a
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
7|P a g e
Trang Eureka Uni
/>
1.2.3. Các tham số đặc trưng
Tham số
Kí hiệu và cách tính
Đơn vị
Diễn giải ý nghĩa
Trung bình
(kỳ vọng)
p 1x 1 + ... + p n x n
E ( X ) = +∞
∫ x .f ( x ) dx
−∞
(đv của X)
- Phản ánh xu hướng trung tâm
- Là con số có được khi loại bỏ sự chênh lệch
các giá trị của X
- Mỗi biến X chỉ có duy nhất một E(X)
Trung vị
md : P ( X ≤ m 0 ) =
0, 5
(đv của X)
- Phản ánh xu hướng trung tâm
- Nằm chính giữa, ngăn PPXS thành 2 nửa
Mốt
m0 : P (=
X m=
p max
0)
(đv của X)
- Phản ánh xu hướng trung tâm
- Giá trị có xác suất bắt gặp lớn nhất
(đv của X)2
- Phản ánh độ phân tán, biến động, đồng đều,
ổn định về mặt giá trị của X (hay các xi)
- Các xi càng sai lệch, phương sai càng lớn
- Trong một số trường hợp, phương sai còn
được gọi là độ rủi ro
(đv của X)
- Về ý nghĩa tương tự Phương sai
2
V
=
( X ) E ( X 2 ) − E ( X )
Phương sai
Độ lệch
chuẩn
Hệ số
biến thiên
p 1x 12 + ... + p n x n2
E ( X 2 ) = +∞ 2
∫ x f ( x ) dx
−∞
σX = V (X )
=
CV
σ
× 100
E (X )
(%)
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
- Đo độ biến động tương đối
- So sánh biến động khi không cùng đơn vị
8|P a g e
Trang Eureka Uni
Hệ số
bất đối xứng
/>
α3 =
α 3= 0 ⇔ đối xứng (trục μ)
µ3
σ3
Không có
α 3 > 0 ⇔ lệch phải (lệch dương)
α 3 < 0 ⇔ lệch trái (lệch âm)
Bổ sung thông tin cho phương sai
Hệ số nhọn
=
α4
µ4
σ4
( > 0)
Không có
α 4 > 3 ⇒ mức tập trung giá trị rất cao
α 4 = 3 ⇒ mức tập trung giá trị trung bình
α 4 < 3 ⇒ mức tập trung giá trị rất thấp
Giá trị tới hạn
mức α
P ( X > xα ) =
α
(đv của X)
x α xác định một xác suất α tương ứng
Tính chất của Kì vọng
Tính chất của phương sai
E(C) = C
V(C) = 0
E(CX) = C.E(X)
V(CX) = C2.V(X)
E(X+Y) = E(X) + E(Y)
V(X+Y) = V(X) + V(Y)
E(XY) = E(X).E(Y)
nếu X độc lập Y
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
9|P a g e
Trang Eureka Uni
/>
1.3.Phân phối xác suất thông dụng
Phân phối
Kí hiệu
Công thức xác suất
Nhị thức
X ~ B(n,p)
P(X = k) = Cnk pk (1 − p)n−1
Poisson
X ~ P(λ)
P(X = k) =
Tham số
E(X) = np
V(X) = np(1-p)
np+p–1 ≤ m0 ≤ np+p
E(X) = V(X) = λ
λ – 1 ≤ m0 ≤ λ
λk −λ
e
k!
b−µ
a−µ
�− Ф�
�
σ
σ
b−µ
P(X < b) = Ф �
�
σ
a−µ
�
P(X > a) = 1 − Ф �
σ
ε
P(|X − µ| < ε) = 2Ф � � − 1
σ
)
P(Z > zα = α ;
z1−α = −zα
P(a < X < b) = Ф �
Chuẩn
X ~ N(μ;σ2)
Chuẩn hóa
Z ~ N(0;1)
Chi
2
χ2 ~ χ2(n)
Student
T ~ T(n)
Fisher
F ~ F(n1, n2)
P�χ2 > χ2α (n)� = α
(n)
P �T > Tα � = α ;
(n1 ,n2 )
P �F > fα
� = α;
(n)
(n)
t1−α = −t α ;
(n ,n2 )
1
f1−α
= 1� (n2 ,n1 )
fα
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
E(X) = μ
V(X) = σ2
α3 = 0
α4 = 3
Chú ý
n ≥ 100
hội tụ chuẩn
λ > 20
hội tụ chuẩn
𝑍𝑍 =
𝑋𝑋 − 𝜇𝜇
𝜎𝜎
thì
𝑍𝑍~𝑁𝑁(0; 1)
n lớn hội tụ chuẩn
(>30)
tα
= zα
n > 30
→ ≈ chuẩn hóa
10 | P a g e
Trang Eureka Uni
/>
1.4.Biến ngẫu nhiên 2 chiều rời rạc
1.4.1. Biến hai chiều rời rạc
Biến ngẫu nhiên 2
chiều rời rạc: (X,Y)
Biến ngẫu nhiên
X rời rạc
Biến ngẫu nhiên
Y rời rạc
Xét cùng lúc (đồng thời)
1.4.2. Các bảng phân phối xác suất
Bảng phân phối xác suất đồng thời
X
- Giá trị xếp tăng dần
x1
x2
…
xn
- pji xác suất đồng thời
Y
- pji = P(X = xi, Y = yj)
y1
p11
p12
…
p 1n
- Tổng các pji = 1
y2
p 21
p 22
…
p 2n
…
…
…
…
…
ym
p m1
pm2
…
p mn
Bảng phân phối xác suất biên
- Bảng của X (Y tương tự)
- pxi = p1i + p2i + ...+ pmi
(cộng dồn xác suất theo cột i)
- Tính được các tham số của X:
X
x1
x2
x3
…
xn
Xác
suất
px1
px 2
px 3
…
p xn
E(X), V(X), ...
Bảng phân phối xác suất có điều kiện
- Điều kiện Y = yj
X|Y=yj
x1
x2
x3
…
xn
- pi = P(X = xi; Y = yj)/P(Y = yj)
Xác
suất
p1
p2
p3
…
pn
=> Các tham số có điều kiện:
E(X|Y = yj) và V(X|Y = yj)
- pi là các xác suất điều kiện
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
11 | P a g e
Trang Eureka Uni
/>
1.4.3. Tương quan tuyến tính
Hiệp phương sai
Kí hiệu
Cov(X,Y) = E(XY) – E(X).E(Y)
Ý nghĩa
Thể hiện tương quan tuyến tính giữa X và Y
Cụ thể
Cov(X,Y) = 0 => X và Y không tương quan
Cov(X,Y) > 0 => X và Y tương quan dương
Cov(X,Y) < 0 => X và Y tương quan âm
Chú ý
Hệ số tương quan
Cov(X, Y)
ρx,y =
σx . σy
Đo mức độ chặt chẽ của tương quan tuyến
tính giữa X và Y
ρx,y = 0 => X và Y không tương quan
ρx,y = ±1 => X và Y tương quan hàm số
tuyến tính
𝜌𝜌𝑥𝑥,𝑦𝑦 → 0 => mức độ tương quan là thấp
𝜌𝜌𝑥𝑥,𝑦𝑦 → ±1 => mức độ tương quan là cao
V(aX+bY) = a2V(X) + b2 V(Y) + 2abCov(X,Y)
E(XY) = p11.x1y1 + p12.x2y1 + ... + p21.x1y2 + ... + pmn.xnym
X, Y không tương quan
X, Y độc lập
Cov(X,Y) = 0
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
12 | P a g e
Trang Eureka Uni
2. Thống kê toán
2.1.Tổng thể - Mẫu và các tham số
2.1.1. Mẫu và Tổng thể
Dấu hiệu
Tổng thể
Mẫu
Chiều cao
sinh viên
NEU
(chưa kể
sừng)
Toàn bộ
sinh viên
NEU
(khoảng
22k cháu)
1000 sinh
viên NEU
/>
Tổng thể
Mẫu
- Tổng thể: tập hợp tất cả phần tử mang dấu hiệu nghiên cứu
- Mẫu: tập hợp hữu hạn phần tử rút ra (một phần) từ tổng thể
- Các phần tử được lấy ngẫu nhiên, độc lập => Mẫu ngẫu nhiên
2.1.2. Các tham số đặc trưng
Kích thước
Trung bình
Trung vị
Mốt
Phương sai
Độ lệch chuẩn
Hệ số
biến thiên
Tham số Tổng thể
N
m, μ (phân phối chuẩn)
md
m0
σ2
σ
CV
=
Hệ số
bất đối xứng
Hệ số nhọn
Tỉ lệ
Thống kê Mẫu
n
X̅, x̅
xd
x0
2 2
S,s
S, s
σ
× 100
m
cv=
s
× 100
x
α3
a3
α4
P = M/N
a4
p̂ = m/n
Trung bình, trung vị và độ cân xứng của phân phối
-
x̅ = xd
x̅ > xd
x̅ < xd
=> a3 = 0
=> a3 > 0
=> a3 < 0
=> đối xứng
=> lệch phải (đồ thị kéo dài về phía +∞)
=> lệch trái (đồ thị kéo dài về phía -∞)
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
13 | P a g e
Trang Eureka Uni
/>
Mẫu liệt kê: x1, x2, x3, ..., xn
hay w = {xi, i=1,2,3,...n}
2.1.3. Mẫu liệt kê, mẫu phân nhóm, mẫu theo cặp
Mẫu theo cặp gồm 2 dấu hiệu X, Y trên cùng một đối tượng:
(x1, y1), (x2, y2), ..., (xn, yn)
Mẫu phân nhóm
hay (xi, yi), i=1,2,3,...,n
Bảng phân phối tần số của k nhóm
X
ni
Dấu hiệu
Tần số
x1
n1
x2
n2
...
...
xk
nk
2.1.4. Tính toán các tham số mẫu
Trung bình mẫu:
x=
n
1
∑x
ni i
hoặc
x=
n
∑n x
ni i i
=1
=1
Trung vị mẫu:
1
xn +xn
x d = x n +1 ( n lÎ )
xd =
2
2
2
2
Mốt mẫu:
Tần suất mẫu:
Hiệp phương sai mẫu:
(n chẵn)
x 0 = x i có ni lớn nhất
n 2
2
x − (x )
Phương sai mẫu: =
s2
Trong đó:
+1
n −1
x2 =
1
n
n
∑ x i2 hoặc
i =1
x2 =
1
n
∑n x
ni i i
2
=1
m
p=
n
cov=
( X ,Y )
Hệ số tương quan mẫu:
=
rx , y
n
n −1
cov ( X ,Y )
=
s x .s y
( xy − x .y )
xy − x . y
x 2 − (x ) . y 2 − ( y )
2
2.2.Quy luật phân phối xác suất của các thống kê
Trung bình mẫu
σ2
X ~ N µ;
n
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
2
14 | P a g e
Trang Eureka Uni
Thống kê
Z =
=
T
/>
(X − µ )
n
σ
(X − µ )
n
S
n − 1) S 2
(
=
~ N ( 0;1)
~ T ( n − 1)
Thống kê
χ
Tần suất mẫu
p (1 − p )
p ~ N p;
với n lớn
n
Thống kê
2
σ2
p − p)
(
Z =
n
p (1 − p )
~ χ 2( n −1)
~ N ( 0;1) với n lớn
2.3.Suy diễn thống kê
Đã biết
Chưa biết, muốn biết
X̅, S2, p̂
(Mẫu)
μ, σ2, p
(Tổng thể)
Tổng thể đã xác định => suy đoán thông tin của mẫu
2.3.1. Suy đoán cho trung bình mẫu X̅
Giả thiết có tổng thể X ~ N(μ;σ2) xác định (biết μ và σ)
σ2
Trung bình mẫu ngẫu nhiên kích thước n lúc này X ~ N µ ;
n
Chuẩn hóa bằng cách đặt: Z =
X −µ
~ N ( 0,1)
σ/ n
Dù chưa thực hiện điều tra chọn mẫu, nhưng ta vẫn có thể đoán biết được
trung bình mẫu sẽ có giá trị giao động trong khoảng nào, tối đa, tối thiểu
bao nhiêu với một xác suất đủ lớn, đủ để tin cậy được.
Bằng cách áp dụng một trong các biểu thức xác suất sau:
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
15 | P a g e
Trang Eureka Uni
P µ −
/>
σ
σ
zα < X < µ +
z α =1 − α
n 2
n 2
σ
P X > µ −
z α =1 − α
n
hoặc
hoặc
σ
P X < µ +
z α =1 − α
n
Trong đó 1 − α là mức xác suất (đủ lớn), thường là 0,9 hoặc 0,95
Các biểu thức trên có được bằng các vận dụng quy luật phân phối xác
suất của X̅ và giá trị tới hạn chuẩn hóa: P ( Z > z α ) =
1−α
2.3.2. Suy đoán cho tần suất mẫu p̂
Giả thiết có tổng thể phân phối A(p) xác định (đã biết p)
p (1 − p )
Với mẫu lớn (n ≥ 100), ta có tần suất mẫu
p ~ N p;
n
p − p)
(
Z =
Chuẩn hóa bằng cách đặt:
n
p (1 − p )
~ N ( 0;1)
Hoàn toàn tương tự như bài toán suy đoán cho X̅, ta cũng có các công
thức suy đoán giá trị cho tần suất mẫu sau:
p (1 − p )
n
P p −
P p > p −
z α < p < p +
2
p (1 − p )
n
p (1 − p )
n
P p < p +
p (1 − p )
n
z α =1 − α
2
z α =1 − α
z α =1 − α
2.4.Ước lượng tham số
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
16 | P a g e
Trang Eureka Uni
/>
Chưa biết, muốn biết
Đã biết
μ, σ2, p
(Tổng thể)
X̅, S2, p̂
(Mẫu)
Tổng thể chưa xác định, dùng thông tin từ mẫu để suy đoán
2.4.1. Ước lượng điểm bằng hàm ước lượng
2.4.1.1.Hàm ước lượng
Giả sử cần ước lượng tham số θ nào đó (có thể là μ, σ, p)
-
Lập mẫu ngẫu nhiên W = (X1, X2, …, Xn)
Chọn lập thống kê G = f ( X 1 ; X 2 ;...; X n )
-
Tìm mẫu cụ thể w = (x1, x2, ...,xn) và thay vào G thu được giá trị
θ= g= f ( x 1 ; x 2 ;...; x n ) chính là ước lượng điểm của θ
Các hàm ước lượng quan trọng cần nhớ:
X =
1
n
n
S2
∑ xi =
i =1
(cho μ)
2
1 n
Xi −X )
(
∑
n − 1 i =1
(cho σ2)
m
p=
n
(cho p)
2.4.1.2.Các tiêu chí đảm bảo tính tin cậy của ước lượng điểm
Rõ ràng với mỗi mẫu khác nhau ta sẽ có giá trị θ� khác nhau trong khi thực
tế chỉ có duy nhất 1 giá trị θ!
=>Điều gì đảm bảo θ� vừa tính là sát thực?
Với ước lượng điểm, ta có các tiêu chí đánh giá độ tốt sau:
Ước lượng không chệch
E(θ�)=θ
Hàm ý: từng giá trị θ�j có thể chênh lệch so với θ nhưng lấy trung
bình thì sẽ không còn lệch nữa!
Ước lượng hiệu quả
Var(θ�) = Varmin
Sự khác biệt giữa các θ�i thể hiện bởi phương sai Var(θ�). Hàm
thống kê nào tính ra các 𝜃𝜃�i càng ít khác biệt càng tốt
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
17 | P a g e
Trang Eureka Uni
/>
Khi θ� là ước lượng không chệch, nếu nó có phương sai nhỏ nhất
thì ta nói θ� là ước lượng hiệu quả cho θ!
Ước lượng vững
lim P�|θ�(n) − θ| < ε� = 1
n→∞
Với ε là số dương bé tùy ý, n là kích thước mẫu để tính ra θ�
Hàm ý rằng, mẫu càng lớn thì càng dễ tìm được 𝜃𝜃� gần với θ
Các ước lượng điểm đảm bảo các tính chất tốt kể trên: X̅, S2, p̂
2.4.2. Ước lượng bằng khoảng tin cậy
Tương tự như việc suy đoán khoảng giá trị cho các tham số mẫu với một
mức xác suất đủ lớn, người ta cũng thực hiện việc suy đoán ngược lại cho
tổng thể bằng một khoảng giá trị (gọi là khoảng tin cậy), với một xác
suất lớn gọi là độ tin cậy
Công việc này gọi là ước lượng bằng khoảng tin cậy!
Tìm khoảng giá trị cho
Xác suất lớn
Suy diễn
X̅, S2, p̂
(mẫu)
Mức xác suất
ƯL khoảng
μ, σ2, p
(tổng thể)
Độ tin cậy
2.4.2.1.Khoảng tin cậy cho trung bình tổng thể μ
Biểu thức tổng quát với độ tin cậy 1 − α , (α1 + α 2 =
α)
S ( n −1)
S ( n −1)
P X −
tα < µ < X +
t α =1 − (α1 + α 2 ) =1 − α
n
n
1
2
Trong đó t α( n ) là giá trị tới hạn Student, t α( >30) = z α
Từ biểu thức tổng quát này, ta rút ra 3 khoảng tin cậy phổ biến là:
Khoảng đối xứng:
X−
S ( n −1)
S ( n −1)
tα < µ < X +
tα
n 2
n 2
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
18 | P a g e
Trang Eureka Uni
/>
Khoảng tối đa:
µ
Khoảng tối thiểu:
µ>X −
S ( n −1)
tα
n
S ( n −1)
tα
n
Độ dài khoảng tin cậy và độ chính xác (sai số) ước lượng
Với khoảng đối xứng, ta có 2 đại lượng sau:
ε=
S ( n −1)
gọi là độ chính xác (hay sai số) ước lượng
tα
n 2
I = 2ε
gọi là độ dài khoảng tin cậy
2.4.2.2.Khoảng tin cậy cho phương sai tổng thể σ2
Biểu thức tổng quát với độ tin cậy 1 − α là:
( n − 1) S 2
n − 1) S 2
(
2
=−
P 2( n −1) < σ <
1 (α1 + α 2 ) =−
1 α
2 ( n −1)
χα
χ
α
1
2
Trong đó χα2( n ) là giá trị tới hạn Khi-bình phương
Từ trên, ta cũng suy ra được khoảng đối xứng, tối đa, tối thiểu cho σ2
2.4.2.3.Khoảng tin cậy cho tần suất (tỷ lệ) tổng thể p
Biểu thức tổng quát với độ tin cậy 1 − α là:
(
)
(
)
p 1 − p
p 1 − p
P p −
z α1 < p < p +
z α2 =1 − α
n
n
Trong đó z α là giá trị tới hạn chuẩn
Từ trên, ta cũng suy ra được khoảng đối xứng, tối đa, tối thiểu cho p
Với khoảng đối xứng, độ chính xác ước lượng là:
độ dài khoảng tin cậy là:
ε=
(
p 1 − p
n
I = 2ε
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
)z
α
2
19 | P a g e
Trang Eureka Uni
2.5.Kiểm định giả thuyết
2.5.1. Những vấn đề chung
/>
Ngoài việc tìm ra khoảng giá trị mà các tham số tổng thể (μ, σ2, p) rơi
vào, người ta còn muốn có những kết luận mạnh hơn, cụ thể hơn cho
chúng thông qua việc so sánh với các giá trị đối chiếu (θ = θ0, θ > θ0, hay
θ < θ0) hay về dạng phân phối của dấu hiệu nghiên cứu (phân phối chuẩn
hay không?), về sự độc lập hay phụ thuộc của các dấu hiệu!
Các yêu cầu trên dẫn ta tới bài toán kiểm định, với hai nhánh lớn là
kiểm định tham số và kiểm định phi tham số!
2.5.1.1.Các thành phần của bài toán kiểm định
Bài toán kiểm định nói chung sẽ có các thành phần sau:
Cặp giả thuyết thống kê (H0 và H1)
H0: giả thuyết gốc, (chứa dấu =, ≥, ≤ với KĐ tham số)
H1: giả thuyết đối, (chứa dấu ≠, <, > với KĐ tham số)
H0 và H1 đối nhau (ngược nhau) và trong khuôn khổ môn học, chỉ xét
H0 là giả thuyết đơn, dạng θ = θ0, cho cả 3 trường hợp:
θ = θ0 , θ ≥ θ0 , θ ≤ θ0
Việc xác định cặp giả thuyết dựa trên yêu cầu (câu hỏi) bài ra
Tiểu chuẩn kiểm định và quy tắc bác bỏ giả thuyết (miền bác bỏ)
-
Tiêu chuẩn kiểm định là 1 hàm thống kê (G) xác định quy luật phân
phối xác suất khi H0 đúng
Miền bác bỏ H0 là tập hợp các giá trị cho kết quả ngược lại với H0,
được xác định dựa trên nguyên lý xác suất nhỏ
Mức ý nghĩa của bài toán kiểm định (α)
Mức ý nghĩa (α) là xác suất mắc sai lầm khi đưa ra kết luận bác bỏ
H0, được cho trước với các giá trị thường là 10%, 5%, 1%
2.5.1.2.Thủ tục kiểm định
Bao gồm các bước:
-
Lập cặp giả thuyết thống kê
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
20 | P a g e
Trang Eureka Uni
-
-
/>
Từ mẫu tính toán các giá trị quan sát (Gqs) và giá trị tới hạn (gα) trong
miền bác bỏ
So sánh Gqs với gα để kết luận:
Nếu thỏa mãn miền bác bỏ
=> “Bác bỏ H0, chấp nhận H1”
Nếu không thỏa mãn
=> “Chưa đủ cơ sở bác bỏ H0”
2.5.1.3.Sai lầm loại I, loại II
Các kết luận thu được từ bài toán kiểm định là không chắc chắn 100%,
nói cách khác là có thể mắc phải sai lầm!
Có hai loại sai lầm mắc phải tương ứng với các kết luận thu được, cụ thể
như sơ đồ sau:
Bác bỏ H0| thực tế nó đúng
=> sai lầm loại I
P(mắc phải) = α (mức ý nghĩa)
Chưa bác bỏ H0| thực tế nó sai
=> sai lầm loại II
P(mắc phải) = β
Sai lầm loại II để lại hậu quả nghiêm trọng hơn
Lực kiểm định:
1–β
2.5.1.4.Kiểm định bằng giá trị xác suất (p-value hay probability)
Một vài đặc điểm về p-value:
-
Là mức độ khẳng định của việc bác bỏ H0
p-value càng nhỏ thì kết luận bác bỏ H0 càng chắc chắn
Quy tắc kết luận, với mức ý nghĩa α
p-value < α
=> bác bỏ H0, nhận H1
p-value ≥ α
=> chưa đủ cơ sở bác bỏ H0
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>
21 | P a g e
Trang Eureka Uni
2.5.2. Kiểm định tham số tổng thể
Tiêu chí
Số
tổng thể
Số mẫu
So sánh
Tham số
Một tham số
1 tổng thể chưa biết
(2 tổng thể: 1 biết, 1 chưa)
1 mẫu (1 n)
Tham số tổng thể θ với giá
trị θ0 cho trước
- θ0 là giá trị đối chiếu
- θ0 có thể là tham số của
tổng thể khác (đã biết)
Trung bình: μ
Phương sai: σ2
Tỉ lệ:
p
/>
Hai tham số
2 tổng thể chưa biết
2 mẫu (2 n: n1 & n2)
2 tham số tổng thể với
nhau: θ1 với θ2
Trung bình: μ1 & μ2
2
Phương sai: 𝜎𝜎1 & 𝜎𝜎22
Tỉ lệ:
p1 & p2
Bảng các công thức kiểm định (trang tiếp theo)
Nhóm Xác suất và thống kê – Tài liệu NEU />Website Eureka! Uni
Youtube Eureka! Uni
/>