Page:
Love NeverDies
Auth:
Hoàng Bá Mạnh
Lý thuyết xác suất và thống kê toán 1
HỆ
THỐNG
LÝ
THUYẾT
VÀ
BÀI
TẬP
NEU – Winter 2019
CHÚ Ý KHI IN
In khổ giấy A5 và đóng thành sách để sử dụng hiệu quả hơn ^^
GIỚI THIỆU
Tác giả
Tác giả: Love NeverDies, nghệ danh: Hoàng Bá Mạnh
Năm sinh: 1994
Năm mất: chưa rõ
SĐT: 0986.960.312
Tác phẩm
Đối tượng: Sinh viên khối ngành kinh tế nói chung và sinh viên Kinh tế
Quốc dân nói riêng
Mục tiêu:
-
Ôn theo chương trình học
Luyện tập củng cố theo giáo trình
Ôn tập giữa kì, cuối kì
Chịu trách nhiệm nội dung và giải đáp bởi tác giả
Đôi lời nhắn nhủ tới bạn đọc của tác giả
Đây là tài liệu phục vụ ôn tập nên tôi không khuyến khích các bạn biến
nó thành phao thi -_-! Mặc dù, trong giây phút lầm đường lạc lối, bế tắc
không lối thoát, vẫn có nhưng con chiên làm liều vì cùng quẫn, nhưng
chúng tôi vẫn khẳng định về mục đích đã đề cập phía trên!
Chúc bạn đọc ôn tập hiệu quả và đạt kết quả tốt cho học phần này!
Goodluck!
NEU, Winter 2019
Created 12/09/2019 by Mạnh
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
Mục lục
PHẦN A: HỆ THỐNG LÝ THUYẾT .................................................. 1
1.
A-1: Xác suất .................................................................................. 1
1.1.
1.1.1.
Phép thử, biến cố và phân loại ........................................ 1
1.1.2.
Xác suất biến cố ............................................................... 1
1.1.3.
Các phương pháp xác định xác suất biến cố ................. 1
1.1.4.
Nguyên lý xác xuất lớn – nhỏ .......................................... 3
1.1.5.
Định lý nhân ..................................................................... 3
1.1.7.
Hệ quả của định lý cộng – nhân ..................................... 4
1.2.
2.
Biến cố và xác suất biến cố ..................................................... 1
Biến ngẫu nhiên và quy luật phân phối xác suất .................. 5
1.2.1.
Biến ngẫu nhiên và phân loại .......................................... 5
1.2.2.
Quy luật phân phối xác suất ........................................... 5
1.2.3.
Các tham số đặc trưng .................................................... 6
1.3.
Phân phối xác suất thông dụng .............................................. 8
1.4.
Biến ngẫu nhiên 2 chiều rời rạc ............................................. 9
1.4.1.
Biến hai chiều rời rạc ...................................................... 9
1.4.2.
Các bảng phân phối xác suất .......................................... 9
1.4.3.
Tương quan tuyến tính .................................................. 10
A-2: Thống kê toán ...................................................................... 11
2.1.
Tổng thể - Mẫu và các tham số ............................................ 11
2.1.1.
Mẫu và Tổng thể ............................................................ 11
2.1.2.
Các tham số đặc trưng .................................................. 11
2.1.3.
Mẫu liệt kê, mẫu phân nhóm, mẫu theo cặp ............... 12
2.1.4.
Tính toán các tham số mẫu ........................................... 12
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
2.2.
Quy luật phân phối xác suất của các thống kê ................... 12
2.3.
Suy diễn thống kê .................................................................. 13
2.3.1.
Suy đoán cho trung bình mẫu X̅ ................................... 13
2.3.2.
Suy đoán cho tần suất mẫu p̂ ........................................ 14
2.4.
Ước lượng tham số ................................................................ 14
2.4.1.
Ước lượng điểm bằng hàm ước lượng ......................... 15
2.4.2.
Ước lượng bằng khoảng tin cậy.................................... 16
2.5.
Kiểm định giả thuyết............................................................. 17
2.5.1.
Những vấn đề chung ...................................................... 17
2.5.2.
Kiểm định tham số tổng thể .......................................... 19
2.5.3.
Kiểm định phi tham số .................................................. 24
PHẦN B: HỆ THỐNG BÀI TẬP ....................................................... 25
1.
B-1: Xác suất ................................................................................ 25
1.1.
Biến cố và xác suất biến cố ................................................... 25
1.1.1.
Dạng 1: Định nghĩa cổ điển ........................................... 25
1.1.2.
Dạng 2: Định lí cộng – nhân.......................................... 27
1.1.3.
Dạng 3: Công thức xác suất đầy đủ, Bayes ................. 28
1.1.4.
Công thức Bernoulli ...................................................... 31
1.1.5.
Bài tập tổng hợp ............................................................. 32
1.1.6.
Đáp án bài tập tổng hợp ................................................ 35
1.2.
Biến ngẫu nhiên và quy luật phân phối xác suất ................ 44
1.2.1.
Dạng 1: Bảng phân phối ................................................ 44
1.2.2.
Dạng 2: Hàm mật độ...................................................... 45
1.2.3.
Dạng 3: Vận dụng tổng hợp .......................................... 46
1.3.
Quy luật phân phối xác suất thông dụng ............................ 48
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
1.3.1.
Dạng 1: Quy luật Nhị thức ............................................ 48
1.3.2.
Dạng 2: Quy luật Poisson .............................................. 49
1.3.3.
Dạng 3: Quy luật Chuẩn ............................................... 50
1.3.4.
Dạng 4: Phân phối xấp xỉ Chuẩn.................................. 51
1.3.5.
Áp dụng giá trị tới hạn .................................................. 52
1.4.
2.
Biến ngẫu nhiên hai chiều rời rạc ........................................ 53
B-2: Thống kê ............................................................................... 55
2.1.
Tính các tham số mẫu ........................................................... 55
2.2.
Suy diễn thống kê .................................................................. 57
2.2.1.
Cho trung bình mẫu ...................................................... 57
2.2.2.
Cho tần suất mẫu ........................................................... 58
2.3.
Ước lượng tham số ................................................................ 58
2.3.1.
Dạng 1: Hàm ước lượng ................................................ 58
2.3.2.
Dạng 2: Ước lượng khoảng tin cậy ............................... 59
2.3.3.
Dạng 3: Tìm kích thước mẫu ........................................ 62
2.4.
Kiểm định tham số ................................................................ 63
2.4.1.
Dạng 1: Kiểm định 1 tham số và p-value ..................... 63
2.4.2.
Dạng 2: Kiểm định 2 tham số và p-value ..................... 65
2.4.3.
Dạng 3: T-test và F-test từ Excel .................................. 67
2.5.
Kiểm định phi tham số.......................................................... 68
2.5.1.
Dạng 1: Kiểm định phân phối chuẩn ........................... 68
2.5.2.
Dạng 2: Kiểm định tính độc lập.................................... 69
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
1
PHẦN A: HỆ THỐNG LÝ THUYẾT
1. A-1: Xác suất
1.1.Biến cố và xác suất biến cố
1.1.1. Phép thử, biến cố và phân loại
Bài toán
Phép thử
Mạnh có tình
cảm với V từ
lâu và nhận
thấy đến lúc
phải rõ ràng!
Mạnh
tỏ
tình
với V
Biến cố
Người yêu V
Thành
Friendzone
Bại
Brotherzone
Ngườilạ-zone
Phép thử là một (nhiều) hành động, thao tác xảy ra
Biến cố là kết quả của phép thử
Tùy theo góc nhìn ta có thể đặt biến cố khái quát hoặc bóc tách
thành từng biến cố thành phần nhỏ hơn cho thuận tiện, phù hợp
Biến cố
Chắc chắn
Ngẫu nhiên
Không thể có
Đặc điểm
- Thử là thấy
- Làm là được
- Luôn xuất hiện
- Chưa chắc thấy
- Chưa chắc được
- Xuất hiện hoặc
không
A, B, C, ...
- Không thể thấy
- Không thể được
- Không bao giờ
xuất hiện
Kí hiệu
U (Ω)
V (∅)
1.1.2. Xác suất biến cố
Xác suất biến cố là đại lượng đặc trưng cho sự xuất hiện của biến cố
Kết quả (biến cố) càng dễ xảy ra => xác suất càng lớn
0 ≤ P ( A) ≤ 1
P (U ) = 1
P(V) = 0
1.1.3. Các phương pháp xác định xác suất biến cố
Định nghĩa cổ điển
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
2
P ( A=
)
Số kết cục thỏa mãn A
M
=
N Tổng số kết cục duy nhất đồng khả năng
Kt cc: kt qu cú th xy ra khi thc hin phộp th
Duy nht: cỏc kt qu khụng b trựng lp, khụng cú im chung
ng kh nng: Xỏc sut xut hin mi kt cc l nh nhau
Vớ d 1: Tung 1 xỳc xc (cõn i ng cht). Ta thy:
Cú 6 kt cc duy nht ng kh nng (1,2,3,4,5,6)
Trong ú cú 3 kt cc tha món bin c A: mt l chm
3
P ( A ) ==
0,5
6
Vớ d 2: Tung 2 xỳc xc (cõn i ng cht). Ta thy:
Cú 36 kt cc duy nht ng kh nng
(1-1, 1-2, ..., 1-6, 6-1, ..., 6-6)
Trong ú cú 3 kt cc tha món bin c B: tng s chm
bng 4 (1-3, 3-1, 2-2)
4 1
P( B) = =
36 9
Cỏc cụng thc gii thớch t hp
Tờn
Kớ hiu
m
Hoỏn v
T hp
Chnh hp
Chnh hp lp
n!
Cnk
Ank
Ank
S cỏch xp n S cỏch ly k S cỏch ly k S cỏch ly k t
phn t
phn t t n
phn t t n n theo th t,
theo th t
cú hon li
S Venn (dng tp hp)
=
Pxanh
15
3
=
15 + 25 8
15
25
nh ngha thng kờ v xỏc sut
n ( A ) Số phép thử có A xuất hiện
Tn sut f=
( A) =
n
Tổng số phép thử
Hong Bỏ Mnh
Group: Xỏc sut v Thng kờ Ti liu NEU
3
Xác suất
P ( A ) ≈ f ( A ) khi số phép thử n đủ lớn
1.1.4. Nguyên lý xác xuất lớn – nhỏ
Ng/lý
Biến cố A
Thực tế có thể
- 0,01 là nhỏ?
- 0,99 là lớn?
Xác suất lớn
Xác suất nhỏ
P(A) → 0
P(A) → 1
coi như A luôn xảy ra coi như A không xảy ra
Tùy tình huống mà xác suất coi là lớn hay nhỏ
Ví dụ:
- Tỉ lệ tai nạn xe máy là 0,01 => xác suất không
nhỏ (vì theo đó cứ 100 người điều khiển xe máy
thì có 1 người tai nạn)
1.1.5. Định lý nhân
Biến cố tích: AB
AB
A
Xuất hiện khi cả A và B xuất hiện
B
Phần giao nhau của A và B
Tương tác biến cố
Biến cố
Độc lập
A và B - có giao nhau
- không ảnh hưởng
Biểu
P(AB) = P(A)P(B)
thức
Phụ thuộc
Có điều kiện
- giao hoặc không
- có ảnh hưởng
- có ảnh hưởng nhau - có thứ tự trước-sau
P(AB) ≠ P(A)P(B)
P(A|B)=P(AB)/P(B)
P(AB) = P(A)P(B|A) = P(B)P(A|B)
Hệ n biến cố A1, A2, ..., An gọi là:
Độc lập từng đôi:
2 biến cố bất kì độc lập nhau
A1 độc lập A2, Ai độc lập Aj, ...
Độc lập toàn phần:
các tổ hợp bất kì (tích – tổng) độc lập nhau
A1A2 độc lập A2A3A4 độc lập A1+A3, ...
1.1.6. Định lý cộng
Biến cố tổng: (A + B)
Xuất hiện khi hoặc A, B , AB xảy ra
A
AB
B
Toàn bộ phần màu xanh
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
4
Tương tác biến cố
Biến cố
A và B
Biểu
thức
Xung khắc
- không giao nhau
- có ảnh hưởng
AB = V
P(A+B)
= P(B) + P(B)
Không xung khắc
- có giao nhau
P(AB) ≠ 0
P(A+B)
=P(A)+P(B)–P(AB)
Đối lập
- không giao
- hai nửa của U
B ≡ A̅, A.A̅ = V
A + A̅ = U
P(A) + P(A̅) = 1
Hệ n biến cố A1, A2, ..., An xung khắc từng đôi khi
Hai biến cố bất kì xung khắc nhau: Ai xung khắc Aj (i ≠ j)
Tưởng tác tổng hợp
Biến cố tích
Biến cố tổng
Độc lập
Xung khắc
Phụ thuộc
Đối lập
Không xung khắc
1.1.7. Hệ quả của định lý cộng – nhân
Nhóm đầy đủ biến cố
- Chia các trường hợp
- Mỗi trường hợp là 1
biến cố Hi
Phép thử 1 => H1, H2, H3, ..., Hn, trong đó:
Hi H j= V, ∀ i ≠ j và
∑ P(H ) = 1
i
P ( Hi ) là các xác suất tiên nghiệm
Công thức XS đầy đủ Phép thử 2 => A xảy ra cùng với các Hi
- nhiều phép thử liên
AHi
Khi đó A =
tiếp (thường là 2)
P ( A) =
P ( AHi )
P ( Hi ) P ( A | Hi )
- các kết quả cuối có =
dạng: “nếu X thì Y”
Sau khi A xảy ra, tính ngược lại xác suất của
Công thức Bayes
các Hi
- Giả thiết giống với
P ( Hi . A )
P ( Hi ) P ( A | Hi )
công thức xs đầy đủ
P=
( Hi | A ) =
P ( A)
∑ P ( Hi )( A | Hi )
- Biến cố được hỏi là
biến cố kèm điều kiện
P ( H | A ) các xác suất hậu nghiệm
∑
∑
∑
i
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
5
Xác suất trong n phép thử, A xảy ra k lần là:
Công thức Bernoulli
- n phép thử độc lập
- A xảy ra với P(A) = p
Pk=
( n; p ) Cnk p k (1 − p )
n−k
1.2.Biến ngẫu nhiên và quy luật phân phối xác suất
1.2.1. Biến ngẫu nhiên và phân loại
- Biến số
Biến
ngẫu
nhiên
- Nhận giá trị một
cách ngẫu nhiên
Rời rạc
Liên tục
Liệt kê
hoặc đếm
được hết
giá trị
Không
liệt kê,
đếm
được hết
- 1 giá trị ứng với 1 biến cố
1.2.2. Quy luật phân phối xác suất
Giá trị của X
x
Quy luật
Phân phối xác suất
Hàm phân bố
Bảng phân phối
Biến rời rạc
Dòng xi
Dòng pi
p1 + p2 + ...= 1
Xác suất
P(X = x)
Hàm mật độ
Biến liên tục
F(x)
F(x) = P(X
P(a ≤ X < b) =
= F(b) – F(a)
f(x) = F′(x)
f(x) ≥ 0
+∞
∫ f ( x ) dx=1
-∞
P(X=a) = 0
P(a < X < b) =
= ∫ f ( x ) dx
b
a
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
6
1.2.3. Các tham số đặc trưng
Tham số
Đơn vị
Kí hiệu và cách tính
Diễn giải ý nghĩa
Trung bình
(kỳ vọng)
p1 x1 + ... + pn x n
E ( X ) = +∞
∫ x. f ( x ) dx
−∞
(đv của X)
- Phản ánh xu hướng trung tâm
- Là con số có được khi loại bỏ sự chênh lệch
các giá trị của X
- Mỗi biến X chỉ có duy nhất một E(X)
Trung vị
md : P ( X ≤ m0 ) =
0, 5
(đv của X)
- Phản ánh xu hướng trung tâm
- Nằm chính giữa, ngăn PPXS thành 2 nửa
Mốt
m0 : P =
pmax
( X m=
0)
(đv của X)
- Phản ánh xu hướng trung tâm
- Giá trị có xác suất bắt gặp lớn nhất
(đv của X)2
- Phản ánh độ phân tán, biến động, đồng đều,
ổn định về mặt giá trị của X (hay các xi)
- Các xi càng sai lệch, phương sai càng lớn
- Trong một số trường hợp, phương sai còn
được gọi là độ rủi ro
(đv của X)
- Về ý nghĩa tương tự Phương sai
( )
2
V ( X ) E X 2 − E ( X )
=
Phương sai
Độ lệch
chuẩn
Hệ số
biến thiên
Hoàng Bá Mạnh
p1 x12 + ... + pn x n2
E ( X 2 ) = +∞ 2
∫ x f ( x ) dx
−∞
σX = V(X )
=
CV
σ
× 100
E(X )
(%)
- Đo độ biến động tương đối
- So sánh biến động khi không cùng đơn vị
Group: Xác suất và Thống kê – Tài liệu NEU
7
Hệ số
bất đối xứng
α3 =
α 3= 0 ⇔ đối xứng (trục μ)
µ3
σ3
α 3 > 0 ⇔ lệch phải (lệch dương)
Không có
α 3 < 0 ⇔ lệch trái (lệch âm)
Bổ sung thông tin cho phương sai
Hệ số nhọn
=
α4
µ4
σ4
( > 0)
α 4 > 3 ⇒ mức tập trung giá trị rất cao
Không có
α 4 = 3 ⇒ mức tập trung giá trị trung bình
α 4 < 3 ⇒ mức tập trung giá trị rất thấp
Giá trị tới hạn
mức α
P ( X > xα ) =
α
xα xác định một xác suất α tương ứng
Tính chất của Kì vọng
Tính chất của phương sai
E(C) = C
V(C) = 0
E(CX) = C.E(X)
V(CX) = C2.V(X)
E(X+Y) = E(X) + E(Y)
V(X+Y) = V(X) + V(Y)
E(XY) = E(X).E(Y)
Hoàng Bá Mạnh
(đv của X)
nếu X độc lập Y
Group: Xác suất và Thống kê – Tài liệu NEU
8
1.3.Phân phối xác suất thông dụng
Phân phối
Kí hiệu
Công thức xác suất
Nhị thức
X ~ B(n,p)
P(X = k) = Cnk pk (1 − p)n−1
Poisson
X ~ P(λ)
P(X = k) =
Tham số
E(X) = np
V(X) = np(1-p)
np+p–1 ≤ m0 ≤ np+p
E(X) = V(X) = λ
λ – 1 ≤ m0 ≤ λ
λk −λ
e
k!
b−µ
a−µ
� − Ф�
�
σ
σ
b−µ
�
P(X < b) = Ф �
σ
a−µ
�
P(X > a) = 1 − Ф �
σ
ε
P(|X − µ| < ε) = 2Ф � � − 1
σ
)
P(Z > zα = α ;
z1−α = −zα
P(a < X < b) = Ф �
Chuẩn
X ~ N(μ;σ2)
Chuẩn hóa
Z ~ N(0;1)
2
χ2 ~ χ2(n)
Student
T ~ T(n)
Fisher
F ~ F(n1, n2)
Chi
Hoàng Bá Mạnh
P�χ2 > χ2α (n)� = α
(n)
P �T > Tα � = α ;
(n1 ,n2 )
P �F > fα
� = α;
(n)
(n)
t1−α = −t α ;
(n ,n2 )
1
f1−α
= 1� (n2 ,n1 )
fα
Group: Xác suất và Thống kê – Tài liệu NEU
E(X) = μ
V(X) = σ2
α3 = 0
α4 = 3
Chú ý
n ≥ 100
hội tụ chuẩn
λ > 20
hội tụ chuẩn
𝑍𝑍 =
𝑋𝑋 − 𝜇𝜇
𝜎𝜎
thì
𝑍𝑍~𝑁𝑁(0; 1)
n lớn hội tụ chuẩn
(>30)
tα
= zα
n > 30
→ ≈ chuẩn hóa
9
1.4.Biến ngẫu nhiên 2 chiều rời rạc
1.4.1. Biến hai chiều rời rạc
Biến ngẫu nhiên
Y rời rạc
Biến ngẫu nhiên
X rời rạc
Biến ngẫu nhiên 2
chiều rời rạc: (X,Y)
Xét cùng lúc (đồng thời)
1.4.2. Các bảng phân phối xác suất
Bảng phân phối xác suất đồng thời
- Giá trị xếp tăng dần
X
x1
x2
…
xn
- pji xác suất đồng thời
Y
- pji = P(X = xi, Y = yj)
y1
p11
p12
…
p1n
- Tổng các pji = 1
y2
p21
p22
…
p2n
…
…
…
…
…
ym
pm1
pm 2
…
pmn
X
x1
x2
x3
…
xn
Xác
suất
px1
px 2
px 3 …
pxn
Bảng phân phối xác suất biên
- Bảng của X (Y tương tự)
- pxi = p1i + p2i + ...+ pmi
(cộng dồn xác suất theo cột i)
- Tính được các tham số của X:
E(X), V(X), ...
Bảng phân phối xác suất có điều kiện
- Điều kiện Y = yj
X|Y=yj
x1
x2
x3
…
xn
- pi = P(X = xi; Y = yj)/P(Y = yj)
Xác
suất
p1
p2
p3
…
pn
=> Các tham số có điều kiện:
E(X|Y = yj) và V(X|Y = yj)
- pi là các xác suất điều kiện
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
10
1.4.3. Tương quan tuyến tính
Hiệp phương sai
Kí hiệu
Cov(X,Y) = E(XY) – E(X).E(Y)
Ý nghĩa
Thể hiện tương quan tuyến tính giữa X và Y
Cụ thể
Cov(X,Y) = 0 => X và Y không tương quan
Cov(X,Y) > 0 => X và Y tương quan dương
Cov(X,Y) < 0 => X và Y tương quan âm
Hệ số tương quan
Cov(X, Y)
ρx,y =
σx . σy
Đo mức độ chặt chẽ của tương quan tuyến
tính giữa X và Y
ρx,y = 0 => X và Y không tương quan
ρx,y = ±1 => X và Y tương quan hàm số
tuyến tính
𝜌𝜌𝑥𝑥,𝑦𝑦 → 0 => mức độ tương quan là thấp
𝜌𝜌𝑥𝑥,𝑦𝑦 → ±1 => mức độ tương quan là cao
V(aX+bY) = a2V(X) + b2 V(Y) + 2abCov(X,Y)
E(XY) = p11.x1y1 + p12.x2y1 + ... + p21.x1y2 + ... + pmn.xnym
Chú ý
X, Y không tương quan
X, Y độc lập
Cov(X,Y) = 0
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
11
2. A-2: Thống kê toán
2.1.Tổng thể - Mẫu và các tham số
2.1.1. Mẫu và Tổng thể
Dấu hiệu
Tổng thể
Mẫu
Chiều cao
sinh viên
NEU
(chưa kể
sừng)
Toàn bộ
sinh viên
NEU
(khoảng
22k cháu)
1000 sinh
viên NEU
Tổng thể
Mẫu
- Tổng thể: tập hợp tất cả phần tử mang dấu hiệu nghiên cứu
- Mẫu: tập hợp hữu hạn phần tử rút ra (một phần) từ tổng thể
- Các phần tử được lấy ngẫu nhiên, độc lập => Mẫu ngẫu nhiên
2.1.2. Các tham số đặc trưng
Tham số
Kích thước
Trung bình
Trung vị
Mốt
Phương sai
Độ lệch chuẩn
Hệ số
biến thiên
Tổng thể
N
m, μ (phân phối chuẩn)
md
m0
σ2
σ
=
CV
Hệ số
bất đối xứng
Hệ số nhọn
Tỉ lệ
σ
× 100
m
Mẫu
n
X̅, x̅
xd
x0
2 2
S,s
S, s
cv
=
s
× 100
x
α3
a3
α4
P = M/N
a4
p̂ = m/n
Trung bình, trung vị và độ cân xứng của phân phối
-
x̅ = xd
x̅ > xd
x̅ < xd
Hoàng Bá Mạnh
=> a3 = 0
=> a3 > 0
=> a3 < 0
=> đối xứng
=> lệch phải (đồ thị kéo dài về phía +∞)
=> lệch trái (đồ thị kéo dài về phía -∞)
Group: Xác suất và Thống kê – Tài liệu NEU
12
2.1.3. Mẫu liệt kê, mẫu phân nhóm, mẫu theo cặp
Mẫu liệt kê: x1, x2, x3, ..., xn
hay w = {xi, i=1,2,3,...n}
Mẫu theo cặp gồm 2 dấu hiệu X, Y trên cùng một đối tượng:
(x1, y1), (x2, y2), ..., (xn, yn)
Mẫu phân nhóm
hay (xi, yi), i=1,2,3,...,n
Bảng phân phối tần số của k nhóm
X
ni
Dấu hiệu
Tần số
x1
n1
x2
n2
...
...
xk
nk
2.1.4. Tính toán các tham số mẫu
Trung bình mẫu:
Trung vị mẫu:
x=
1 n
∑ xi
n i =1
x=
hoặc
1 n
∑ ni xi
n i =1
xn + xn
xd = x n +1 ( n lÎ )
xd =
2
2
2
2
Mốt mẫu:
Tần suất mẫu:
Hiệp phương sai mẫu:
(n chẵn)
x0 = xi có ni lớn nhất
n 2
2
x −(x)
n −1
Phương sai mẫu: =
s2
Trong đó:
+1
x2 =
1 n 2
∑ xi
n i =1
x2 =
hoặc
1 n
∑ ni xi2
n i =1
p = m
n
cov=
( X ,Y )
Hệ số tương quan mẫu:
=
rx , y
(
n
xy − x . y
n −1
cov ( X , Y )
=
sx .sy
)
xy − x . y
x 2 − ( x ) . y2 − ( y )
2
2
2.2.Quy luật phân phối xác suất của các thống kê
Trung bình mẫu
Hoàng Bá Mạnh
σ2
X ~ N µ;
n
Group: Xác suất và Thống kê – Tài liệu NEU
13
Thống kê
Z=
Tần suất mẫu
Thống kê
n
σ
(X − µ)
n
p − p
(
)
Z=
n
~ N ( 0;1)
~ T ( n − 1)
S
n − 1) S 2
(
2
~ χ 2( n −1)
χ =
2
σ
p ~ N p; p (1 − p ) với n lớn
n
T
=
Thống kê
(X − µ)
p (1 − p )
~ N ( 0;1) với n lớn
2.3.Suy diễn thống kê
Đã biết
Chưa biết, muốn biết
X̅, S2, p̂
(Mẫu)
μ, σ2, p
(Tổng thể)
Tổng thể đã xác định => suy đoán thông tin của mẫu
2.3.1. Suy đoán cho trung bình mẫu X̅
Giả thiết có tổng thể X ~ N(μ;σ2) xác định (biết μ và σ)
σ2
Trung bình mẫu ngẫu nhiên kích thước n lúc này X ~ N µ ;
n
Chuẩn hóa bằng cách đặt: Z =
X −µ
σ/ n
~ N ( 0,1)
Dù chưa thực hiện điều tra chọn mẫu, nhưng ta vẫn có thể đoán biết được
trung bình mẫu sẽ có giá trị giao động trong khoảng nào, tối đa, tối thiểu
bao nhiêu với một xác suất đủ lớn, đủ để tin cậy được.
Bằng cách áp dụng một trong các biểu thức xác suất sau:
σ
σ
P µ −
zα < X < µ +
zα =1 − α
n 2
n 2
Hoàng Bá Mạnh
hoặc
Group: Xác suất và Thống kê – Tài liệu NEU
14
σ
P X > µ −
zα =1 − α
n
σ
P X < µ +
zα =1 − α
n
hoặc
Trong đó 1 − α là mức xác suất (đủ lớn), thường là 0,9 hoặc 0,95
Các biểu thức trên có được bằng các vận dụng quy luật phân phối xác
suất của X̅ và giá trị tới hạn chuẩn hóa: P ( Z > zα ) =
1−α
2.3.2. Suy đoán cho tần suất mẫu p̂
Giả thiết có tổng thể phân phối A(p) xác định (đã biết p)
p (1 − p )
Với mẫu lớn (n ≥ 100), ta có tần suất mẫu p ~ N p;
n
Chuẩn hóa bằng cách đặt:
p − p
(
)
Z=
n
p (1 − p )
~ N ( 0;1)
Hoàn toàn tương tự như bài toán suy đoán cho X̅, ta cũng có các công
thức suy đoán giá trị cho tần suất mẫu sau:
P p −
p (1 − p )
n
zα < p < p +
2
P p > p −
p (1 − p )
P p < p +
p (1 − p )
n
n
p (1 − p )
n
zα =1 − α
2
zα =1 − α
zα =1 − α
2.4.Ước lượng tham số
Chưa biết, muốn biết
Đã biết
μ, σ2, p
(Tổng thể)
X̅, S2, p̂
(Mẫu)
Tổng thể chưa xác định, dùng thông tin từ mẫu để suy đoán
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
15
2.4.1. Ước lượng điểm bằng hàm ước lượng
2.4.1.1.Hàm ước lượng
Giả sử cần ước lượng tham số θ nào đó (có thể là μ, σ, p)
-
Lập mẫu ngẫu nhiên W = (X1, X2, …, Xn)
-
Chọn lập thống kê G = f ( X 1 ; X 2 ;...; X n )
-
Tìm mẫu cụ thể w = (x1, x2, ...,xn) và thay vào G thu được giá trị
θˆ= g= f ( x1 ; x2 ;...; xn ) chính là ước lượng điểm của θ
Các hàm ước lượng quan trọng cần nhớ:
X =
1 n
∑ xi
n i =1
=
S2
(cho μ)
2
1 n
Xi − X )
(
∑
n − 1 i =1
(cho σ2)
p = m
n
(cho p)
2.4.1.2.Các tiêu chí đảm bảo tính tin cậy của ước lượng điểm
Rõ ràng với mỗi mẫu khác nhau ta sẽ có giá trị θ� khác nhau trong khi thực
tế chỉ có duy nhất 1 giá trị θ!
=>Điều gì đảm bảo θ� vừa tính là sát thực?
Với ước lượng điểm, ta có các tiêu chí đánh giá độ tốt sau:
Ước lượng không chệch
E(θ�)=θ
Hàm ý: từng giá trị θ�j có thể chênh lệch so với θ nhưng lấy trung
bình thì sẽ không còn lệch nữa!
Ước lượng hiệu quả
Var(θ�) = Varmin
Sự khác biệt giữa các θ�i thể hiện bởi phương sai Var(θ�). Hàm
thống kê nào tính ra các 𝜃𝜃�i càng ít khác biệt càng tốt
Khi θ� là ước lượng không chệch, nếu nó có phương sai nhỏ nhất
thì ta nói θ� là ước lượng hiệu quả cho θ!
Ước lượng vững
lim P�|θ�(n) − θ| < ε� = 1
n→∞
Với ε là số dương bé tùy ý, n là kích thước mẫu để tính ra θ�
Hàm ý rằng, mẫu càng lớn thì θ� càng gần với θ
Các ước lượng điểm đảm bảo các tính chất tốt kể trên: X̅, S2, p̂
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
16
2.4.2. Ước lượng bằng khoảng tin cậy
Tương tự như việc suy đoán khoảng giá trị cho các tham số mẫu với một
mức xác suất đủ lớn, người ta cũng thực hiện việc suy đoán ngược lại cho
tổng thể bằng một khoảng giá trị (gọi là khoảng tin cậy), với một xác
suất lớn gọi là độ tin cậy
Công việc này gọi là ước lượng bằng khoảng tin cậy!
Tìm khoảng giá trị cho
Xác suất lớn
Suy diễn
X̅, S2, p̂
(mẫu)
Mức xác suất
ƯL khoảng
μ, σ2, p
(tổng thể)
Độ tin cậy
2.4.2.1.Khoảng tin cậy cho trung bình tổng thể μ
Biểu thức tổng quát với độ tin cậy 1 − α , (α1 + α 2 =
α)
S ( n −1)
S ( n −1)
P X −
tα1 < µ < X +
tα =1 − (α1 + α 2 ) =1 − α
n
n 2
Trong đó tα( ) là giá trị tới hạn Student, tα(
>30 )
n
= zα
Từ biểu thức tổng quát này, ta rút ra 3 khoảng tin cậy phổ biến là:
Khoảng đối xứng:
Khoảng tối đa:
Khoảng tối thiểu:
X−
S
tα(
n −1)
n
<µ
2
µ
µ>X−
S
n
S
n
S
n
tα(
n −1)
2
tα(
n −1)
tα(
n −1)
Độ dài khoảng tin cậy và độ chính xác (sai số) ước lượng
Với khoảng đối xứng, ta có 2 đại lượng sau:
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
17
ε=
S
n
tα(
n −1)
gọi là độ chính xác (hay sai số) ước lượng
2
gọi là độ dài khoảng tin cậy
I = 2ε
2.4.2.2.Khoảng tin cậy cho phương sai tổng thể σ2
Biểu thức tổng quát với độ tin cậy 1 − α là:
( n − 1) S 2
n − 1) S 2
(
2
P 2( n −1) < σ <
χα
χα22( n −1)
1
=−
1 (α1 + α 2 ) =−
1 α
Trong đó χα ( ) là giá trị tới hạn Khi-bình phương
2 n
Từ trên, ta cũng suy ra được khoảng đối xứng, tối đa, tối thiểu cho σ2
2.4.2.3.Khoảng tin cậy cho tần suất (tỷ lệ) tổng thể p
Biểu thức tổng quát với độ tin cậy 1 − α là:
(
)
(
)
p 1 − p
p 1 − p
P p −
zα1 < p < p +
zα2 =1 − α
n
n
Trong đó zα là giá trị tới hạn chuẩn
Từ trên, ta cũng suy ra được khoảng đối xứng, tối đa, tối thiểu cho p
Với khoảng đối xứng, độ chính xác ước lượng là:
độ dài khoảng tin cậy là:
ε=
(
p 1 − p
n
)z
α
2
I = 2ε
2.5.Kiểm định giả thuyết
2.5.1. Những vấn đề chung
Ngoài việc tìm ra khoảng giá trị mà các tham số tổng thể (μ, σ2, p) rơi
vào, người ta còn muốn có những kết luận mạnh hơn, cụ thể hơn cho
chúng thông qua việc so sánh với các giá trị đối chiếu (θ = θ0, θ > θ0, hay
θ < θ0) hay về dạng phân phối của dấu hiệu nghiên cứu (phân phối chuẩn
hay không?), về sự độc lập hay phụ thuộc của các dấu hiệu!
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
18
Các yêu cầu trên dẫn ta tới bài toán kiểm định, với hai nhánh lớn là
kiểm định tham số và kiểm định phi tham số!
2.5.1.1.Các thành phần của bài toán kiểm định
Bài toán kiểm định nói chung sẽ có các thành phần sau:
Cặp giả thuyết thống kê (H0 và H1)
H0: giả thuyết gốc, (chứa dấu =, ≥, ≤ với KĐ tham số)
H1: giả thuyết đối, (chứa dấu ≠, <, > với KĐ tham số)
H0 và H1 đối nhau (ngược nhau) và trong khuôn khổ môn học, chỉ xét
H0 là giả thuyết đơn, dạng θ = θ0, cho cả 3 trường hợp:
θ = θ0, θ ≥ θ0, θ ≤ θ0
Việc xác định cặp giả thuyết dựa trên yêu cầu (câu hỏi) bài ra
Tiểu chuẩn kiểm định và quy tắc bác bỏ giả thuyết (miền bác bỏ)
-
Tiêu chuẩn kiểm định là 1 hàm thống kê (G) xác định quy luật phân
phối xác suất khi H0 đúng
Miền bác bỏ H0 là tập hợp các giá trị cho kết quả ngược lại với H0,
được xác định dựa trên nguyên lý xác suất nhỏ
Mức ý nghĩa của bài toán kiểm định (α)
Mức ý nghĩa (α) là xác suất mắc sai lầm khi đưa ra kết luận bác bỏ
H0, được cho trước với các giá trị thường là 10%, 5%, 1%
2.5.1.2.Thủ tục kiểm định
Bao gồm các bước:
-
Lập cặp giả thuyết thống kê
Từ mẫu tính toán các giá trị quan sát (Gqs) và giá trị tới hạn (gα) trong
miền bác bỏ
So sánh Gqs với gα để kết luận:
Nếu thỏa mãn miền bác bỏ
=> “Bác bỏ H0, chấp nhận H1”
Nếu không thỏa mãn
=> “Chưa đủ cơ sở bác bỏ H0”
2.5.1.3.Sai lầm loại I, loại II
Các kết luận thu được từ bài toán kiểm định là không chắc chắn 100%,
nói cách khác là có thể mắc phải sai lầm!
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
19
Có hai loại sai lầm mắc phải tương ứng với các kết luận thu được, cụ thể
như sơ đồ sau:
Bác bỏ H0| thực tế nó đúng
=> sai lầm loại I
P(mắc phải) = α (mức ý nghĩa)
Chưa bác bỏ H0| thực tế nó sai
=> sai lầm loại II
P(mắc phải) = β
Sai lầm loại II để lại hậu quả nghiêm trọng hơn
Lực kiểm định:
1–β
2.5.1.4.Kiểm định bằng giá trị xác suất (p-value hay probability)
Một vài đặc điểm về p-value:
-
Là mức độ khẳng định của việc bác bỏ H0
p-value càng nhỏ thì kết luận bác bỏ H0 càng chắc chắn
Quy tắc kết luận, với mức ý nghĩa α
p-value < α
=> bác bỏ H0, nhận H1
p-value ≥ α
=> chưa đủ cơ sở bác bỏ H0
2.5.2. Kiểm định tham số tổng thể
Tiêu chí
Số
tổng thể
Số mẫu
So sánh
Tham số
Một tham số
1 tổng thể chưa biết
(2 tổng thể: 1 biết, 1 chưa)
1 mẫu (1 n)
Tham số tổng thể θ với giá
trị θ0 cho trước
- θ0 là giá trị đối chiếu
- θ0 có thể là tham số của
tổng thể khác (đã biết)
Trung bình: μ
Phương sai: σ2
Tỉ lệ:
p
Hai tham số
2 tổng thể chưa biết
2 mẫu (2 n: n1 & n2)
2 tham số tổng thể với
nhau: θ1 với θ2
Trung bình: μ1 & μ2
2
Phương sai: 𝜎𝜎1 & 𝜎𝜎22
Tỉ lệ:
p1 & p2
Bảng các công thức kiểm định (trang tiếp theo)
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU
20
Kiểm định một tham số
H0–Tiêu chuẩn
H 0 : µ = µ0
T =
(X −µ )
n
0
Kiểm định hai tham số
H1
Miền bác bỏ Wα
{T : T > t }
{T : T > t }
{T : T < −t }
µ ≠ µ0
( n −1)
α /2
µ > µ0
µ < µ0
H0 : σ = σ 0
2
χ =
2
( n − 1) S
σ ≠ σ0
2
σ0
2
σ > σ0
2
2
σ < σ0
2
H 0 : p = p0
p − p
(
)
U =
0
n
p0 (1 − p0 )
2
{χ
{χ
2
2
: χ > χα
2 ( n −1)
2
: χ < χ 1− α
2 ( n −1)
2
p ≠ p0
p ≠ p0
{Z : Z < − z }
α /2
α
α
2
+
n1
2 χ 2 > χα2 (/ 2n −1)
χ : 2
2 ( n −1)
χ < χ 1− α / 2
{Z : Z > z }
{Z : Z > z }
p ≠ p0
2
α
2
X1 − X 2
S1
( n −1)
2
2
T =
( n −1)
α
S
H0–Tiêu chuẩn
=
H 0 : µ1 µ 2 ( n1 , n2 > 30 )
S2
n2
H0 : σ1 = σ 2
2
Miền bác bỏ Wα
H1
µ1 ≠ µ 2
{T : T
µ1 > µ 2
{T : T > z }
µ1 < µ 2
{T : T < − z }
σ1 ≠ σ 2
2
F=
S1
2
2
S2
}
}
σ1 > σ 2
2
2
p1 − p2
Z=
(
p 1− p
) n1 + n1
1
2
F > fα(/n2 −1; n −1)
F :
( n −1; n −1)
F < fα / 2
{F : F > f (
2
1
2
n1 −1; n2 −1)
{F : F < f (
p1 ≠ p2
{Z :
p1 ≠ p2
{Z : Z > z }
p1 ≠ p2
{Z : Z < − z }
2
1
α
σ1 < σ 2
2
H 0 : p1 = p2
α
α
2
2
> zα / 2 }
n1 −1; n2 −1)
α
}
}
Z > zα / 2 }
α
α
Trong kiểm định 2 p: 𝑝𝑝̅ = (𝑛𝑛1 𝑝𝑝
�1 + 𝑛𝑛2 𝑝𝑝
�)
2 ⁄(𝑛𝑛1 + 𝑛𝑛2 ) = (𝑚𝑚1 + 𝑚𝑚2 )⁄(𝑛𝑛1 + 𝑛𝑛2 ) là trung bình của hai tỉ lệ mẫu
Hoàng Bá Mạnh
Group: Xác suất và Thống kê – Tài liệu NEU