Trần Quốc Chiến: Lý thuyết xác suất và thống kê toán học
CHƯƠNG 5
THỐNG KÊ MÔ TẢ
I. KHÔNG GIAN MẪU
Để nghiên cứu tính chất nào đó của các vật thể của một tập hợp lớn, người ta
thường lấy một số vật thể để nghiên cứu, rồi từ đó rút ra kết luận cho tất cả vật thể
trong tập hợp.
+ Ví dụ. Để xác định tuổi thọ của một loại bóng đèn, người ta không thể thử nghiệm
tất cả bóng đèn, mà chỉ thử nghiệm một số bóng rồi suy ra tuổi thọ chung (tất nhiên
với độ tin cậy nào đó).
• Định nghĩa. Tập hợp tất cả vật thể ban đầu gọi là tập tổng thể. Mẫu là tập con các
vật thể lấy ra từ tập tổng thể. Số phần tử của mẫu gọi là cỡ mẫu.
Bằng phương pháp nào đó có thể lấy ra nhiều mẫu khác nhau cùng cỡ mẫu.
Tập hợp tất cả các mẫu cùng cỡ mẫu của một tập tổng thể gọi là không gian mẫu ,
và mỗi mẫu được coi là một điểm của không gian mẫu.
Muốn cho từ mẫu lấy được có thể suy ra chính xác tính chất của tập tổng thể thì
mẫu phải tiêu biểu. Mẫu được coi là tiêu biểu nếu người ta lấy mấu một cách ngẫu
nhiên, tức là mọi phần tử của tập tổng thể có thể rơi vào mẫu với xác suất như
nhau (có thể chọn hú hoạ hoặc sinh số ngẫu nhiên bằng máy tính).
Mẫu có hai tính chất: lặp hoặc không lặp và có thứ tự hoặc không có thứ tự. Gọi
N là số tất cả vật thể, n là cỡ mẫu.
Mẫu có lặp có thứ tự là một chỉnh hợp lặp chập n từ N phần tử và số mẫu là
N
n
Mẫu không lặp có thứ tự là một chỉnh hợp không lặp chập n từ N phần tử và số
mẫu n là
A(N, n) = N(N−1) … (N−n+1)
Mẫu có lặp không thứ tự là một tổ hợp lặp chập n từ N phần tử và số mẫu là
C(N+n−1, n)
Mẫu không lặp không thứ tự là một tổ hợp chập n từ N phần tử và số mẫu là
C(N, n)
Thống kê mô tả 1
Trần Quốc Chiến: Lý thuyết xác suất và thống kê toán học
Nếu N lớn và n nhỏ thì tỉ lệ số mẫu lặp và không lặp xấp xỉ 1, như vậy việc lấy
mẫu lặp và không lặp cũng cho kết quả gần như nhau.
Bây giờ giả sử tính chất của vật thể cần nghiên cứu là đại lượng ngẫu nhiên X.
Khi đó mỗi mẫu cỡ n sẽ cho kết quả là bộ (X
1
, X
2
, …, X
n
). Ta nói là đã lấy mẫu
(X
1
, X
2
, …, X
n
)
từ đại lượng ngẫu nhiên X.
Mẫu (X
1
, X
2
, …, X
n
) được phân lớp theo một trong hai cách sau:
(i) Phân lớp đơn:
{(x
i
, n
i
) | 1 ≤ i ≤ k }
với x
1
< x
2
< … < x
k
và n
i
là tần số xuất hiện x
i
, i=1,…,k, ∑n
i
= n
(ii) Phân lớp ghép:
{([a
i
, a
i+1
), n
i
) | 1 ≤ i ≤ k }
với a
1
< a
2
< … < a
k
và n
i
là số x
i
rơi vào khoảng [a
i
; a
i+1
), i=1,…,k, ∑n
i
= n.
Ghi chú: Phân lớp ghép chỉ áp dụng cho X là biến ngẫu nhiên liên tục.
Thống kê mô tả 2
Trần Quốc Chiến: Lý thuyết xác suất và thống kê toán học
II. BIỂU DIỄN PHÂN PHỐI MẪU
1. Trường hợp phân lớp đơn.
Cho đại lượng ngẫu nhiên X, n ∈ N. Giả sử ta có mẫu cỡ n với phân lớp đơn
{(x
i
, n
i
) | 1 ≤ i ≤ k },
với x
1
< x
2
< … < x
k
và n
i
là tần số xuất hiện x
i
, i=1,…,k, ∑n
i
= n.
• Tần suất của x
i
là đại lượng
n
n
i
, i=1,…,k.
Bảng phân phối tần suất của X có dạng
x
1
x
2
… x
i
… x
k
n
n
1
n
n
2
…
n
n
i
…
n
n
k
• Biểu đồ tần suất được biểu diễn trên mặt phẳng toạ độ bằng các đoạn thẳng biểu
diễn tần suất.
n
i
/n
. . . . . . . . . .
x
1
x
2
0 x
i-1
x
i
x
i+1
x
k-1
x
k
• Đa giác tần suất là đường gấp khúc (màu xanh) nối các đỉnh trên của các đoạn
thẳng tần suất.
n
i
/n
. . . . . . . . . .
x
1
x
2
0 x
i-1
x
i
x
i+1
x
k-1
x
k
Thống kê mô tả 3
Trần Quốc Chiến: Lý thuyết xác suất và thống kê toán học
• Tần suất tích luỹ là hàm phân phối mẫu sau:
F
n
(x) =
≥
−=<≤
<
+
=
∑
k
jj
j
i
i
xx
kjxxx
n
n
xx
,1
1,...,1,,
,0
1
1
1
Đồ thị có dạng bậc thang
1
. . . .
. . . .
x
1
x
2
0 x
i-1
x
i
x
i+1
x
k-1
x
k
Ghi chú: F
n
(x) là tần suất sự kiện X ≤ x, còn hàm phân phối F(x) là xác suất sự
kiện X ≤ x. Vậy theo luật số lớn yếu (Định lý Bernoulli) ta có
)()( xFxF
P
n
n
∞→
→
∀ x ∈ R,
tức là
∀ ε > 0, ∀ x ∈ R, P(|F
n
(x) − F(x)| < ε) → 1 khi n → ∞.
2. Trường hợp phân lớp ghép.
Cho đại lượng ngẫu nhiên liên tục X, n ∈ N. Giả sử ta có mẫu cỡ n với phân lớp
ghép
{([a
i
, a
i+1
), n
i
) | 1 ≤ i ≤ k }
với a
1
< a
2
< … < a
k
và n
i
là số x
i
rơi vào khoảng [a
i
; a
i+1
), i=1,…,k, ∑n
i
= n.
• Tần suất của lớp ghép i, tức khoảng [a
i
; a
i+1
) là đại lượng
n
n
i
, i=1,…,k.
Các giá trị trong lớp [a
i
; a
i+1
) được xấp xỉ bằng trị trung bình
2
1+
+
ii
aa
Thống kê mô tả 4
Trần Quốc Chiến: Lý thuyết xác suất và thống kê toán học
Bảng phân phối tần suất của X có dạng
[a
i
; a
i+1
)
2
1+
+
ii
aa
n
i
n
n
i
[a
1
; a
2
)
:
:
:
[a
k
; a
k+1
)
2
21
aa +
:
:
2
1+
+
kk
aa
n
1
:
:
:
n
k
n
n
1
:
:
n
n
k
• Tổ chức đồ tần suất là cách biểu diễn tần suất trên mặt phẳng toạ độ trong đó tần
suất
n
n
i
được biểu diễn bằng hình chữ nhật đáy [a
i
; a
i+1
) và chiều cao là
)(
1 ii
i
aan
n
−
+
, i = 1, …, k.
. . . . . . . . . .
a
1
a
2
0 a
i-1
a
i
a
i+1
a
k-1
a
k
a
k+1
• Đa giác tần suất là đường gấp khúc (màu xanh) nối các trung điểm đáy trên của
các hình chữ nhật kề nhau trên tổ chức đồ tần suất.
Đoạn ngoài cùng bên trái nối trung điểm [a
1
; a
2
) với điểm m
0
trên trục hoành
cách a
1
một khoảng bằng nửa đoạn [a
1
; a
2
).
Đoạn ngoài cùng bên phải nối trung điểm [a
k
; a
k+1
) với điểm m
k+1
trên trục hoành
cách a
k+1
một khoảng bằng nửa đoạn [a
k
; a
k+1
).
Thống kê mô tả 5
Trần Quốc Chiến: Lý thuyết xác suất và thống kê toán học
. . . . . . . . . .
m
0
a
1
a
2
0 a
i-1
a
i
a
i+1
a
k-1
a
k
a
k+1
m
k+1
• Hàm tần suất tích luỹ là hàm phân phối mẫu có đường cong tần suất tích luỹ là
đường gấp khúc nối các điểm
(a
1
, 0), (a
2
,
n
n
1
), (a
3
,
n
nn
21
+
), . . . , (a
j+1
,
∑
≤ ji
i
n
n
), . . . , (a
k+1
, 1)
Đồ thị có dạng
1
. . . . . . . . . .
a
1
a
2
0 a
i-1
a
i
a
i+1
a
k-1
a
k
a
k+1
Thống kê mô tả 6
Trần Quốc Chiến: Lý thuyết xác suất và thống kê toán học
III. CÁC THAM SỐ ĐẶC TRƯNG
1. Các tham số vị trí.
Cho đại lượng ngẫu nhiên X, n ∈ N, và mẫu cỡ n của X.
a) Trị trung bình mẫu.
(i) Trường hợp mẫu phân lớp đơn
{(x
i
, n
i
) | 1 ≤ i ≤ k },
với x
1
< x
2
< … < x
k
và n
i
là tần số xuất hiện x
i
, i=1,…,k, ∑n
i
= n.
Ký hiệu tần suất của x
i
là f
i
=
n
n
i
, i=1,…,k. Ta định nghĩa các trị trung bình sau:
− Trung bình cộng hay kỳ vọng mẫu:
∑∑
==
===
k
i
ii
k
i
iia
xfxn
n
xm
11
1
− Trung bình hình học :
∏∏
==
==
k
i
f
i
n
k
i
n
ig
ii
xxm
11
− Trung bình điều hoà:
∑∑
==
==
k
i
i
i
k
i
i
i
h
x
f
x
n
n
m
11
1
1
1
− Trung bình bình phương:
∑∑
==
==
k
i
ii
k
i
iiq
xfxn
n
m
1
2
1
2
..
1
(i) Trường hợp mẫu phân lớp ghép.
{([a
i
, a
i+1
), n
i
) | 1 ≤ i ≤ k }
với a
1
< a
2
< … < a
k+1
và n
i
là số x
i
rơi vào khoảng [a
i
; a
i+1
), i=1,…,k, ∑n
i
= n.
Ký hiệu tần suất của lớp ghép i, tức khoảng [a
i
; a
i+1
) là f
i
=
n
n
i
, i=1,…,k. Ta
định nghĩa các trị trung bình tương tự như trường hợp mẫu phân lớp đơn với x
i
thay bằng c
i
=
2
1+
+
ii
aa
.
− Trung bình cộng hay kỳ vọng mẫu:
Thống kê mô tả 7
Trần Quốc Chiến: Lý thuyết xác suất và thống kê toán học
∑∑
==
===
k
i
ii
k
i
iia
cfcn
n
xm
11
1
b) Trung vị mẫu.
(i) Trường hợp mẫu phân lớp đơn
{(x
i
, n
i
) | 1 ≤ i ≤ k },
với x
1
< x
2
< … < x
k
và n
i
là tần số xuất hiện x
i
, i=1,…,k, ∑n
i
= n.
Trung vị mẫu , ký hiệu med, là số đứng giữa dãy x
1
, x
2
, …, x
k
xác định như sau.
Xếp n trị x
i
theo thứ tự như sau
x
1
, x
1
, …, x
1
, …, x
i
, x
i
, …, x
i
, …, x
k
, x
k
, …, x
k
n
1
n
i
n
k
Khi đó, nếu n = 2.m+1 lẻ thì med là phần tử ở vị trí thứ m+1, nếu n = 2.m chẵn
thì med là trung bình cộng của phần tử ở vị trí thứ m và phần tử ở vị trí thứ m+1
+ Ví dụ 1: Cho mẫu cỡ 9 sau
3; 4; 4; 5; 6; 8; 8; 10; 11
Ở đây n = 9 = 2*4 + 1. Vậy med là phần tử thứ 5 (=4+1), tức med = 6
+ Ví dụ 2: Cho mẫu cỡ 100 sau
171; …; 171; 174; …; 174; 177; …; 177; 180; …; 180; 183; …; 183
6 17 41 27 9
Ở đây n = 100 = 2*50. Vậy med là trung bình cộng của phần tử thứ 50 và phần
tử thứ 51, tức med = (177+177)/2 = 177.
(ii) Trường hợp mẫu phân lớp ghép
{([a
i
; a
i+1
), n
i
) | 1 ≤ i ≤ k },
với a
1
< a
2
< … < a
k+1
và n
i
là số x
i
rơi vào khoảng [a
i
; a
i+1
), f
i
=
n
n
i
, i=1,…,k, n =
∑n
i
.
Trung vị mẫu , ký hiệu med, là giá trị mà tại đó hàm tần suất tích luỹ F bằng ½,
tức F(med) = ½.
med được xác định như sau:
Thống kê mô tả 8
Trần Quốc Chiến: Lý thuyết xác suất và thống kê toán học
− Tìm khoảng [a
h;
a
h+1
) chứa med thoả
p
h−1
=
∑∑
≤−≤
≤<
hi
i
hi
i
ff
2
1
1
= p
h
− Trung vị med được tính từ phương trình
h
h
hh
h
hh
h
f
p
pp
p
aa
amed
1
1
1
1
5.05.0
−
−
−
+
−
=
−
−
=
−
−
⇒
med = a
h
+
( )
hh
h
h
aa
f
p
−
−
+
−
1
1
5.0
+ Ví dụ: Cân 100 thanh niên ta có bảng tần suất lớp ghép sau
[a
i
; a
i+1
) 59.5 − 62.5 62.5 − 65.5 65.5 − 68.5 68.5 − 71.5 71.5 − 74.5
f
i
5% 18% 42% 27% 8%
Vì
p
2
= 5% + 18% < ½ < 5% + 18% + 42% = 65% < p
3
nên khoảng chứa med là khoảng thứ 3
[a
3
; a
4
) = [65.5; 68.5).
Suy ra
med = 65.5 +
%42
%235.0 −
(68.5 − 65.5) = 65.5 + (27/42).3 = 67.4 (kg)
c) Mode mẫu.
(i) Trường hợp mẫu phân lớp đơn
{(x
i
, n
i
) | 1 ≤ i ≤ k },
với x
1
< x
2
< … < x
k
và n
i
là tần số xuất hiện x
i
, i=1,…,k, ∑n
i
= n.
Mode mẫu là x
m
(1≤m≤k) có tần số n
m
lớn nhất (có thể có nhiều mode)ẫu
+ Ví dụ. Mẫu cỡ 13
x
i
2 5 7 9 10 11 18
n
i
2 1 1 3 2 3 1
có hai mode là 9 và 11.
Thống kê mô tả 9
Trần Quốc Chiến: Lý thuyết xác suất và thống kê toán học
(ii) Trường hợp mẫu phân lớp ghép
{([a
i
; a
i+1
), n
i
) | 1 ≤ i ≤ k },
với a
1
< a
2
< … < a
k+1
và n
i
là số x
i
rơi vào khoảng [a
i
; a
i+1
), f
i
=
n
n
i
, i=1,…,k, n =
∑n
i
.
mode được xác định như sau:
− Tìm khoảng [a
h;
a
h+1
) có tần số lớn nhất (có thể có nhiều khoảng như vậy).
− mode được tính theo công thức
mode = a
h
+
( )
hh
hhhh
hh
aa
nnnn
nn
−
−+−
−
+
+−
−
1
11
1
)()(
+ Ví dụ: Cân 100 thanh niên ta có bảng tần suất lớp ghép sau
[a
i
; a
i+1
) 59.5 − 62.5 62.5 − 65.5 65.5 − 68.5 68.5 − 71.5 71.5 − 74.5
f
i
5% 18% 42% 27% 8%
Vì lớp [65.5; 68.5) có tần suất lớn nhất nên mode được tính như sau
Mode = 65.5 +
27421842
1842
−+−
−
(68.5 − 65.5) = 67.34
2. Các tham số phân tán
Cho đại lượng ngẫu nhiên X, n ∈ N. Giả thiết X có mẫu cỡ n hoặc phân lớp đơn
{(x
i
, n
i
) | 1 ≤ i ≤ k },
với x
1
< x
2
< … < x
k
và n
i
là tần số xuất hiện x
i
, i=1,…,k, ∑n
i
= n, hoặc phân lớp
ghép
{([a
i
; a
i+1
), n
i
) | 1 ≤ i ≤ k },
với a
1
< a
2
< … < a
k+1
và n
i
là số x
i
rơi vào khoảng [a
i
; a
i+1
), c
i
=
2
1+
+
ii
aa
, i=1,…,k,
n = ∑n
i
.
Thống kê mô tả 10