Giaso trình Thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.08 MB, 97 trang )

Chương 1
MỘT SỐ PHÂN PHỐI XÁC SUẤT QUAN TRỌNG

1.0.1. Phân phối Bernoulli
Định nghĩa 1.1.
Biến ngẫu nhiên rời rạc X được gọi là có phân phối Bernoulli với tham số
p (0 < p < 1) nếu X có hàm mật độ xác suất
p(x; p) =

px (1 − p)1−x
0

nếu x ∈ {0, 1}
nếu x ∈ {0, 1}

Kí hiệu: X ∼ Ber(p).
Ví dụ 1.2. Chọn ngẫu nhiên 1 sinh viên. Đặt
X=

1
0

nếu sinh viên đó hút thuốc lá
nếu sinh viên đó không hút thuốc lá

Nếu có 20% sinh viên hút thuốc lá thì hàm mật độ xác suất của X là

0.8 if x = 0
p(x) = 0.2 if x = 1

0

if x ∈ {0; 1}
Nếu X ∼ Ber(p) thì E(X) = p và V ar(X) = p(1 − p).

1.0.2. Phân phối nhị thức
Biến ngẫu nhiên rời rạc X được gọi là có phân phối nhị thức với tham số n
và p (n ∈ N \ {0}, 0 < p < 1) nếu X có hàm mật độ xác suất
p(x; n, p) =

Cnx pk (1 − p)n−x
0

x ∈ {0, 1, 2, ..., n}

nếu trái lại.

Kí hiệu: X ∼ Bin(n, p).
1

Giáo trình xác suất và thống kê

Ví dụ 1.3. Trong một quần thể heo tính mẫn cảm đối với một bệnh được xác
định bởi một locus gene gồm hai alen: B và b. Heo có kiểu gen bb sẽ có bệnh,
Bb và BB không bệnh. Tần số của alen B = b = 0.5. Nếu một heo đực và một
heo nái đều có kiểu gen Bb giao phối với nhau và sinh ra một lứa 10 heo con.
Hãy tính: a) Số heo con có khả năng mang bệnh
b) Xác xuất để không có heo con nào bệnh.
c) Xác suất để ít nhất có một heo con bị bệnh.
d) Xác suất để có đúng một nửa đàn heo bị bệnh.
(i) Nếu X1 , X2 , ..., Xn là các biến ngẫu nhiên độc lập và có cùng phân phối

Ber(p), thì
S = X1 + X2 + ... + Xn ∼ Bin(n, p).

(ii) Cho X ∼ Bin(n, p), khi đó E(X) = np và V ar(X) = np(1 − p).

Ví dụ 1.4. Giả sử ở một siêu thị có đến 75% khách hàng thanh toán bằng thẻ
tín dụng. Chọn ngẫu nhiên 10 khách hàng của siêu thị đó, gọi X là số khách
hàng thanh toán bằng thẻ tín dụng, khi đó X ∼ Bin(10; 0.75). Do đó ta có
E(X) = np = 7.5, V ar(X) = np(1 − p) = 1.875.
Ví dụ 1.5. Một sinh viên cần hoàn thành một bài kiểm tra gồm 5 câu hỏi trắc
nghiệm. Xác suất trả lời đúng mỗi câu hỏi của sinh viên đó là như nhau và bằng
0.65. Mỗi câu trả lời đúng được 4 điểm và mỗi câu trả lời sai bị trừ 2 điểm. Tính
số điểm trung bình sinh viên đó đạt được.
Đặt X = số câu hỏi sinh viên đó trả lời đúng, X ∼ Bin(5; 0.65).
Đặt Y = số điểm sinh viên đó đạt được, Y = 4X − 2(5 − X) = 6X − 10.
Số điểm trung bình sinh viên đó đạt được là
E(Y ) = 6E(X) − 10 = 6(5.0.65) − 10 = 9.5.

1.0.3. Phân phối chuẩn
Định nghĩa 1.6. Biến ngẫu nhiên liên tục X được gọi là có phân phối chuẩn
với tham số µ và σ 2 (−∞ < µ < ∞ and σ > 0) nếu X có hàm mật độ xác suất
(x−µ)2
1
f (x; µ, σ) = √ e− 2σ2 , x ∈ R.
σ 2π

Kí hiệu: X ∼ N (µ; σ 2 ).

2

Giáo trình xác suất và thống kê
Phân phối chuẩn tắc

Biến ngẫu nhiên chuẩn có tham số µ = 0 và σ = 1 được gọi là phân phối
chuẩn tắc. Một biến ngẫu nhiên có phân phối chuẩn tắc được kí hiệu bởi Z .
Hàm mật độ xác suất của Z là
x2
1
f (x; 0, 1) = ϕ(x) = √ e− 2 ;
2π

Hàm phân phối xác suất của Z , kí hiệu Φ(x), là
x

x

1
ϕ(t)dt = √
2π

Φ(x) =
−∞

t2

e− 2 dt.
−∞

Các giá trị của Φ(x) được cho ở Bảng I.

Chú ý Φ(−x) = 1 − Φ(x), ∀x ∈ R.
Tính Φ(x) bằng máy tính Casio

1) CASIO FX570MS:
- Vào Mode tìm SD: Mode→Mode→1 (SD);
- Shift→ 3 (Distr) →1;
- Nhập x.
2) CASIO FX570ES:
- Vào Mode tìm 1-Var: Mode→3 (Stat)→1 (1-Var)→ AC
- Shift→ 1(Stat)→ 7 (Distr) →1;
- Nhập x.
Ví dụ 1.7. Tính Φ(1, 96), Φ(−1, 65)

3

Giáo trình xác suất và thống kê

Định lý 1.8. Cho X ∼ N (µ, σ 2 ). Khi đó
(i) E(X) = µ, V ar(X) = σ 2 .
X −µ
∼ N (0; 1).
σ
(iii) Cho X1 , X2 , ..., Xn là các biến ngẫu nhiên độc lập và có cùng phân phối

(ii) Z =

chuẩn với tham số µ σ 2 khi đó
S = X1 + X2 + ... + Xn ∼ N (nµ; nσ 2 ) và X =

(iv) P (X < a) = P (X ≤ a) = Φ(

X1 + X2 + ... + Xn
∼ N (µ; σ 2 /n).
n

a−µ
).
σ

(v) Với α < β ,
P (α < X < β) = P (α ≤ X ≤ β) = Φ(

α−µ
β−µ
) − Φ(
).
σ
σ

Ví dụ 1.9. Cho X ∼ N (1; 4). Tính P (X < 3, 5), P (X > 0), P (0.5 < X ≤ 2, 5).
3, 5 − 1
) = Φ(1, 25) = 0.8944;
2
P (X > 0) = 1 − P (X ≤ 0) = 1 − Φ(−0.5) = Φ(0.5) = 0.6915;
P (0.5 < X ≤ 2, 5) = Φ(0.75) − Φ(−0.25) = 0.3721.

Giải. P (X < 3, 5) = Φ(

Ví dụ 1.10. Chiều cao của nam thanh niên trưởng thành ở Việt Nam có phân

phối chuẩn N (µ; 0.12 ). Chọn ngẫu nhiên 100 nam thanh niên trưởng thành. Tính
xác suất sai số tuyệt đối giữa chiều cao trung bình của một 100 nam thanh niên
được chọn µ không vượt quá 0.03.
Giải. Đặt Xk là chiều cao của nam thanh niên thứ k th (k = 1, 2, ..., 100). Khi đó,
X=

X1 + X2 + ... + X100
100

có phân phối chuẩn N (µ; 0.012 ). Do đó
P (|X − µ| < 0.03) = 2Φ(3) − 1 = 0.9974.

1.1. Phân bố Student
1.2. Các định lí giới hạn
1.2.1. Luật số lớn
Định lý 1.11. (Law of Large numbers) Cho {Xn , n ≥ 1} là dãy biến ngẫu nhiên
độc lập, cùng phân phối xác suất với kì vọng chung = µ và phương sai chung σ 2 .
4

Giáo trình xác suất và thống kê

Khi đó, với mọi ε > 0,
1
lim P (|
n→∞
n

n

Xk − µ| ≤ ε) = 1.
k=1

Nói cách khác, với n đủ lớn ta có
X=

X1 + X2 + ... + Xn
≈ E(X).
n

1.2.2. Định lí giới hạn trung tâm
Định lý 1.12. (Law of Large numbers) Cho {Xn , n ≥ 1} là dãy biến ngẫu nhiên
độc lập, cùng phân phối xác suất với kì vọng chung = µ và phương sai chung σ 2 .
Khi đó
S − nµ
lim P ( √
< x) = Φ(x) x ∈ R,
n→∞

nσ

trong đó S = X1 + X2 + ... + Xn .
Nói cách khác, với n đủ lớn ta có
S = X1 + X2 + ... + Xn ≈ N (nµ; nσ 2 ),

và
X=

X1 + X2 + ... + Xn
≈ N (µ; σ 2 /n).

n

Ví dụ 1.13. Một thang máy vận chuyển hàng hóa lớn có thể vận chuyến mỗi
lần tối đa 9800 kg. Giả sử mỗi lô hàng có 49 thùng hàng cần được vận chuyển.
Kinh nghiệm cho thấy trọng lượng mỗi thùng hàng là biến ngẫu nhiên có kì vọng
µ = 205 kg và độ lệch chuẩn σ = 15 kg. Tính xác suất thang máy có thể vẫn
chuyển được một lô hàng được chọn ngẫu nhiên gồm 49 thùng hàng như trên?
Giải. Đặt Xi = trọng lượng thùng hàng thứ i. Ta có E(Xi ) = µ = 205, V ar(Xi ) =
σ 2 = 152 với i = 1, 2, ..., 49. Vì vậy
P (S = X1 + ... + X49 < 9800) ≈ Φ(

9800 − 49.205
√
) = Φ(−2.33) = 0.0099.
49.15

5

Chương 2
THỐNG KÊ MÔ TẢ

2.1. Khái niệm mẫu và tổng thể
Trước hết ta xét ví dụ sau: để điều tra chiều cao của thanh niên Việt Nam
từ 18 tuổi đến 25 tuổi, người điều tra phải lập danh sách tất cả thanh niên Việt
Nam có độ tuổi từ 18 đến 25. Ứng với mỗi thanh niên, ghi chiều cao của thanh
niên đó. Khi đó:
- Tập hợp toàn bộ thanh niên Việt Nam có độ tuổi từ 18 đến 25 được gọi là tổng
thể (population).
- Mỗi thanh niên được điều tra được gọi là phần tử của tổng thể.

- Vì số lượng thanh niên có độ tuổi từ 18 đến 25 trên cả nước là rất lớn nên ta
không thể điều tra hết được mà chỉ chọn ra 1 tập hợp con để điều tra. Tập hợp
con được chọn ra đó được gọi là một mẫu (sample), số phần tử của mẫu được
gọi là kích thước mẫu, tập tất cả các giá trị chiều cao của các cá thể trong mẫu
được gọi là mẫu số liệu(sample data).

a)Tổng thể là tập hợp tất cả các phần tử có chung một tính chất X nào đó
mà chúng ta đang quan tâm nghiên cứu.
b) Mẫu là một tập con của tổng thể được chọn ra đề nghiên cứu. Số phần tử
của mẫu được gọi là kích thước mẫu.
c) Nếu mỗi phần tử của tổng thể có tính chất X là một số thực thì X được gọi
là biến số, tập các giá trị X của mẫu được gọi là mẫu số liệu.

6

Giáo trình xác suất và thống kê

2.2. Các số đặc trưng của một mẫu số liệu
2.2.1. Trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu
Cho {x1 , x2 , ..., xn } là mẫu số liệu của biến số X .
1) Trung bình mẫu, kí hiệu là x, được tính theo công thức:
x=

n

1
x1 + x2 + ... + xn
=
n

n

xi .
i=1

2) Phương sai mẫu, kí hiệu là s2 , được tính theo công thức:
n

1
s =
n−1
2

1
(xi − x) =
n−1

n

2

i=1

x2i − nx2 .
i=1

3) Độ lệch chuẩn mẫu.
√
s=

s2

=

1
n−1

n

x2i − nx2 .
i=1

Ví dụ 2.1. Giả sử ta có mẫu số liệu về chiều cao (mét) của 10 sinh viên một
trường đại học như sau:
1,75

1,69

1,73

1,77

1,68

1,73

1,77

1,70

1,74

1,71

Tính trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu.
Chú ý 2.2.
1) Mẫu số liệu cho dạng bảng phân bố tần số rời rạc
X
ni

x1
n1

x2
n2

... xm
... nm

- Kích thước mẫu: n = n1 + n2 + ... + nm .

1 m
n i xi .
n i=1
m
1
ni x2i − nx2 .
- Phương sai mẫu: s2 =
n − 1 i=1

- Trung bình mẫu: x =

2)Mẫu số liệu cho dạng bảng phân bố tần số liên tục
7

Giáo trình xác suất và thống kê

X a0 − a1 a1 − a2 ... am−1 − am
n1
n2
...
nm

trong đó ak−1 − ak = [ak−1 ; ak ).

ni

Đặt xk =

ak−1 + ak
ta được
2

X
ni

x1
n1

x2
n2

... xm
... nm

ta đưa về Chú ý 1 để tính x, s2 và s.
Ví dụ 2.3. Chọn ngẫu nhiên 100 sợi dây thép trong một kho hàng người ta thu
được mẫu số liệu về chiều dài như sau:
X(mét) 1, 90 − 1, 94 1, 94 − 1, 98 1, 98 − 2, 02 2, 02 − 2, 06 2, 06 − 2, 10
ni

15

25

30

20

10

Tính trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu.

2.2.2. Trung vị mẫu
Sắp xếp mẫu số liệu theo thứ tự tăng dần, giả sử x1 < x2 < ... < nn . Trung vị
mẫu, kí hiệu x˜, xác định bởi
x˜ =

nếu n lẻ

x n+1
2
x n2 + x n2 +1

nếu n chẵn.

2

2.3. Biểu đồ
2.3.1. Biểu đồ phân bố tần số (Histogram)
Cho (x1 , x2 , ..., xn ) là mẫu số liệu của biến số X .
1. Trường hợp 1: X là biến số rời rạc.
Lập bảng phân bố tần số rời rạc của số liệu đã cho như sau:
X
ni

x∗1
n1

x∗2
n2

... x∗m
... nm

Sử dụng hệ trục tọa độ Descartes vuông góc để với trục hoành là các khoảng
giá trị x∗1 , x∗2 , ..., x∗m , trục tung là tần số (hoặc tần số tương đối).
Ví dụ 2.4. Trong 1 cuộc thi game online có 27 màn được tổ chức có 19383 game
thủ tham gia. Kết quả cho bởi bảng sau

8

Giáo trình xác suất và thống kê

Vượt
Vượt
Số
Tần số
Số
Tần số
qua màn game thủ tương đối qua màn game thủ tương đối
0
20
0.0010
14
569
0.0294
1
72
0.0037
15
393
0.0203
2
209
0.0108
16
253

0.0131
3
527
0.0272
17
171
0.0088
4
1048
0.0541
18
97
0.0050
5
1457
0.0752
19
53
0.0027
6
1988
0.1026
20
31
0.0016
7
2256
0.1164
21
19

0.0010
8
2403
0.1240
22
13
0.0007
9
2256
0.1164
23
5
0.0003
10
1967
0.1015
24
1
0.0001
11
1509
0.0779
25
0
0.0000
12
1230
0.0635
26
1

0.0001
13
834
0.0430
27
1
0.0001

2. Trường hợp 2: X là biến số liên tục.
Lập bảng phân bố tần số liên tục.
X [a0 ; a1 ) [a1 ; a2 ) ... [am−1 ; am )
n1
n2
...
nm

ni

Trong đó, số khoảng cần chia tốt nhất là từ 5 đến 20 khoảng, có thể chọn xấp
xỉ bằng

√

n (hoặc 1 + log2 (n)). Nếu ta chia dữ liệu thành m khoảng thì độ dài

mỗi khoảng xấp xỉ (max{xk } − min{xk })/m.
Sử dụng hệ trục tọa độ Descartes vuông góc với trục hoành là các khoảng
giá trị [ak−1 ; ak ), trục tung là tần số (hoặc tần số tương đối).
Ví dụ 2.5. Nghiên cứu sức chịu nén của mẫu hợp kim Nhôm-Liti mới sản xuất
(hợp kim sử dụng làm vật liệu chế tao máy bay) người ta thử nghiệm 80 mẫu

và thu được số liệu sau (đơn vị pound/inch2 )
9

Giáo trình xác suất và thống kê

105
97
245
163
207
134
218
199
160
196
Vì n = 80,

221
154
228
131
180
178
157
151
175
201
√

183
153
174
154
190
76
101
142
149
200

186
174
199
115
193
167
171
163
87
176

121
120
181
160
194
184
165
145

160
150

181
168
158
208
133
135
172
171
237
170

180
167
176
158
156
229
158
148
150
118

143
141
110
133
123

146
169
158
135
149

80 ≈ 9 nên ta sẽ chia số liệu thành 9 khoảng, mỗi khoảng có độ

dài d = (max{xi } − min{xi })/9 ≈ 20. Từ đó ta có bảng phân bố tần số liên tục:
Lớp
70 − 90
90 − 110
110 − 130
130 − 150
150 − 170

Tần số
2
3
6
14
22

Lớp
170 − 190
190 − 210
210 − 230
230 − 250

Tần số

17
10
4
2

Do đó, biểu đồ histogram như sau:

2.3.2. Biểu đồ thân-lá(Stem-and-Leaf Plots)
Biểu đồ này tương tự histogram, chỉ khác ở chỗ chúng trình bày giá trị dữ
liệu thay vì dùng các cột. Biểu đồ thân - lá gồm 3 thành phần là phần thân
(gồm một hoặc 2 chữ số đầu của một số liệu) và phần lá (gồm những chữ số còn
lại) và tần số, thường chỉ dùng cho các nhóm dữ liệu nhỏ. Để tạo biểu đồ thân
- lá ta làm như sau:
(1) Chia mỗi số liệu xk thành 2 phần: phần thân gồm một hoặc 2 chữ số đầu,
phần lá là những chữ số còn lại;
10

Giáo trình xác suất và thống kê

(2) Ghi phần thân thành một cột;
(3) Mỗi số liệu xk ghi lại phần lá ứng với phần thân trên cùng một hàng;
(4) Với mỗi xk ghi lại phần lá trên hàng của cột 2 ứng với phần thân;
(5) Ghi tần số trên cột thứ 3 (số phần lá ứng với phần thân).
(Tốt nhất chia số liệu từ 5 đến 20 thân)
Ví dụ 2.6. Vẽ biểu đồ thân - lá trong ví dụ 2.5
Lấy phần thân là các số 7, 8, 9, ..., 24, khi đó ta được biểu đồ Thân - Lá như
sau:

2.4. Biểu đồ xác suất chuẩn (Normal probability plots)

Giả sử mẫu số liệu của biến số X đã sắp thứ tự tăng dần:
x1 ≤ x2 ≤ x3 ≤ ... ≤ xn .

Hàm phân phối tần số thực nghiệm của X được xác định như sau
F (x) =

số phần tử của mẫu số liệu n

.

Do có đúng j − 1 phần tử của mẫu số liệu bé hơn xj và có đúng j phần tử của
mẫu bé hơn hoặc bằng xj nên
F (xj ) =

j−1
j − 0, 5
≈
.
n
n

11

Giáo trình xác suất và thống kê

Nếu biến số X có phân bố chuẩn N (µ; σ 2 ) thì
xj − µ
j − 0, 5

)≈
σ
n
xj − µ
j
−
0,
5
⇔
≈ Φ−1 (
) = zj .
σ
n

P (X < xj ) = Φ(

Từ đó ta có xj = σzj + µ. Tức là các điểm (zj ; xj ) với j = 1, 2, ..., n nằm trên
đường thẳng
x ≈ σz + µ.

Do đó nếu (zj ; xj ) với j = 1, 2, ..., n nằm trên đường thẳng thì có thể xem biến số
X có phân bố chuẩn

Biểu đồ xác suất chuẩn là tập hợp các điểm có tọa độ (xi ; zi ) for i = 1, 2, ..., n
trên hệ trục tọa độ Descartes vuông góc Ozx. Trong đó
Φ(zj ) =

j − 0, 5
.
n

Ví dụ 2.7. Xây dựng biểu đồ xác suất chuẩn của số liệu sau.

176 183 185 190 191 192 201 205 214 220
.

j

xj

1
2
3
4
5
6
7
8
9
10

176
183
185
190
191
192
201
205
214

220

j − 0, 5
n

0.05
0.15
0.25
0.35
0.45
0.55
0.65
0.75
0.85
0.95

zj = Φ−1 (

j − 0, 5
)
n

-1.64
-1.04
-0.67
-0.39
-0.13
0.13
0.39
0.67

1.04
1.64

Biểu đồ xác suất chuẩn là

12

Giáo trình xác suất và thống kê

2.5. Chọn mẫu ngẫu nhiên
2.5.1. Chọn mẫu từ tổng thể hữu hạn
Giả sử tổng thể cần nghiên cứu có kích thước N , ta cần chọn ra 1 mẫu có
kích thước n.
Định nghĩa 2.8. Một mẫu ngẫu nhiên đơn giản kích thước n được chọn ra từ
1 tổng thể kích thước N là mẫu được chọn sao cho mỗi mẫu kích thược n được
chọn có xác suất như nhau.
Mẫu ngẫu nhiên đơn giản kích thước n sẽ được kí hiệu là (X1 , X2 , ..., Xn ). Do
các phần tử được chọn vào mẫu là ngẫu nhiên nên X1 , X2 , ..., Xn là các biến ngẫu
nhiên.
Có hai phương phương pháp chọn mẫu ngẫu nhiên cơ bản: chọn mẫu ngẫu nhiên
có hoàn lại và chọn mẫu ngẫu nhiên không hoàn lại.
a) Chọn mẫu ngẫu nhiên có hoàn lại: mỗi phần tử được chọn ngẫu nhiên vào
mẫu sau khi ghi lại thông tin cần nghiên cứu được trả lại tổng thể. Như vậy mỗi
phần tử có thể được chọn nhiều hơn 1 lần vào mẫu. Các phần tử được chọn vào
mẫu là độc lập.
Để minh họa ta xét ví dụ: tổng thể Ω = {a, b, c}, ta cần chọn 1 mẫu có kích
thước n = 2 theo phương pháp chọn mẫu có hoàn lại.

13

Giáo trình xác suất và thống kê

Mẫu X1 X2
1
a
a
2
a
b
3
a
c
4
b
a
5
b
b
6
b
c
7
c
a
8
c
b
9

c
c
Nhận xét: Nếu (X1 , X2, ..., Xn ) là mẫu được chọn theo phương pháp có hoàn lại
thì X1 , X2 , ..., Xn là các biến ngẫu nhiên độc lập và có cùng phân bố với tổng
thể.
b) Chọn mẫu ngẫu nhiên không hoàn lại: mỗi phần tử được chọn vào mẫu sẽ
không trả lại tổng thể. Như vậy mỗi phần tử sẽ được chọn không quá 1 lần. Các
phần tử được chọn vào mẫu là không độc lập.
Ví dụ: tổng thể Ω = {a, b, c}, ta cần chọn 1 mẫu có kích thước n = 2 theo phương
pháp chọn mẫu không hoàn lại.
Mẫu X1 X2
1
a
b
2
a
c
3
b
a
4
b
c
5
c
a
6
c
b
Nếu (X1 , X2, ..., Xn ) là mẫu được chọn theo phương pháp không hoàn lại thì

X1 , X2 , ..., Xn là các biến ngẫu nhiên không độc lập và có cùng phân bố với tổng

thể. Tuy nhiên trong trường hợp tổng thể có kích thước N lớn hơn rất nhiều so
với kích thước mẫu n, thường được giả thiết n/N ≤ 0, 05, thì X1 , X2 , ..., Xn gần
như độc lập.
Nói chung, khi tổng thể có kích thước N rất lớn thì không có khác biệt đáng
kể giữa hai phương pháp chọn mẫu trên. Và trên thực tế phương pháp chọn mẫu
không hoàn lại được áp dụng nhiều hơn. Trong phạm vi giáo trình này chúng
tôi luôn giả thiết n/N ≤ 0, 05.
Để áp dụng phương pháp chọn mẫu ngẫu nhiên không hoàn lại ta có thể sử
dụng bảng số ngẫu nhiên hoặc sử dụng phần mềm máy tính.

14

Giáo trình xác suất và thống kê

2.5.2. Chọn mẫu từ tổng thể vô hạn
Trong một số trường hợp ta cần chọn mẫu kích thước n từ 1 tổng thể có
vô hạn phần tử (N = ∞). Chẳng hạn chọn một mẫu các sản phẩm được sản
xuất bởi một nhà máy; chọn một mẫu là khách hàng vào một cửa hàng;...Đối
với trường hợp tổng thể có vô hạn phần tử, một mẫu ngẫu nhiên (X1 , X2 , ..., Xn )
được chọn phải thỏa mãn các điều kiện sau:
1) Các phần tử được chọn vào mẫu là ngẫu nhiên.
2) Mỗi phần tử phải được chọn độc lập nhau.
Với cách chọn mẫu thỏa mãn 2 điều kiện trên thì mẫu ngẫu nhiên (X1 , X2 , ..., Xn )
là các đại lượng ngẫu nhiên độc lập và có cùng phân bố với tổng thể.

2.6. Mẫu ngẫu nhiên
Cho X là một biến số của 1 tổng thể cần nghiên cứu. Vì việc chọn các phần

tử từ tổng thể vào mấu là ngẫu nhiên nên X là biến ngẫu nhiên. Từ các nhận
xét trong phương pháp chọn mẫu ngẫu nhiên ta đưa ra định nghĩa mẫu ngẫu
nhiên như sau.
Định nghĩa 2.9. Cho X là một biến số của một tổng thể. Một mẫu ngẫu nhiên
kích thước n là n biến ngẫu nhiên (X1 , X2 , ..., Xn ) thỏa mãn 2 điều kiện sau:
1. X1 , X2 , ..., Xn là các biến ngẫu nhiên độc lập.
2. Xk có cùng phân bố xác suất với X với mọi k = 1, 2, ..., n.
Hiểu một cách đơn giản thì mẫu ngẫu nhiên là mẫu được chọn ngẫu nhiên.

2.7. Phân bố của trung bình mẫu
Trong mục này ta sẽ nghiên cứu phân bố của trung bình mẫu. Trước hết ta
xét ví dụ sau:
Ví dụ 2.10. Cho tổng thể Ω = {1, 2, 3, 4, 5, 6}. Tìm phân bố của trung bình mẫu
có kích thước n = 2 chọn theo phương pháp có hoàn lại.
Kí hiệu (X1 , X2 ) là mẫu ngẫu nhiên. Ta có bảng các giá trị của (X1 , X2 )

15

Giáo trình xác suất và thống kê
X2
X1

1
2
3
4
5
6

1

2

3

4

5

6

(1;1)
(2;1)
(3;1)
(4;1)
(5;1)
(6;1)

(1;2)
(2;2)
(3;2)
(4;2)
(5;2)
(6;2)

(1;3)
(2;3)
(3;3)
(4;3)

(5;3)
(6;3)

(1;4)
(2;4)
(3;4)
(4;4)
(5;4)
(6;4)

(1;5)
(2;5)
(3;5)
(4;5)
(5;5)
(6;5)

(1;6)
(2;6)
(3;6)
(4;6)
(5;6)
(6;6)

Như vậy ta có 36 giá trị của mẫu ngẫu nhiên (X1 , X2 ) nên sẽ có 36 giá trị trung
bình mẫu. Bảng phân bố tần số của trung bình mẫu:
X
ni

1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6

1 2 3 4 5 6 5 4 3 2 1

Biểu đồ tần số của trung bình mẫu:

Nhận xét: Trung bình mẫu X có hình dáng phân bố chuẩn.
Định lý 2.11. Nếu (X1 , X2 , ...., Xn ) là mẫu ngẫu nhiên lấy từ tổng thể có phân
bố chuẩn N (µ; σ 2 ) thì
X=

1
(X1 + X2 + ... + Xn )
n
σ
n

cũng có phân bố chuẩn với kì vọng E(X) = µ và độ lệch chuẩn SD(X) = √ .
Trong trường hợp tổng thể không có phân bố chuẩn thì ta chọn mẫu có kích
thước n > 30, khi đó áp dụng Định lí giới hạn trung tâm ta có X có xấp xỉ phân
√

bố chuẩn với kì vọng µ và độ lệch chuẩn σ/ n.
Định lý 2.12. Nếu (X1 , X2 , ...., Xn ) là mẫu ngẫu nhiên lấy từ tổng thể có phân
bố chuẩn N (µ; σ 2 ) thì biến ngẫu nhiên
X −µ
√
S/ n
16

Giáo trình xác suất và thống kê

có phân phối Student n − 1 bậc tự do (Tn−1 ).

17

Giáo trình xác suất và thống kê

BÀI TẬP
2.1. Công ty bao bì Hải Pack đang nhập lô hàng 20.000 bao hạt nhựa của một
nhà cung cấp quen. Dữ liệu quá khứ cho thấy khối lượng của các bao hạt nhựa
này tuân theo luật phân phối chuẩn với phương sai 36(kg 2 ). Chọn ngẫu nhiên
25 bao hạt nhựa để cân thu được giá trị trung bình là 96 Kg/bao Với độ tin cậy
95% hãy ước lượng khoảng tin cậy đối xứng khối lượng trung bình của 20.000
bao hạt nhựa này.
2.2. Doanh số của một cửa hàng là đại lượng ngẫu nhiên phân phối chuẩn với
độ lệch chuẩn là 2 triệu đồng/tháng. Điều tra ngẫu nhiên doanh số của 600 cửa
hàng có quy mô tương tự nhau tìm được doanh số trung bình là 8,5 triệu. V ới
độ tin cậy 95% hãy ước lượng doanh số trung bình của các cửa hàng thuộc quy
mô đó.
2.3. Để nghiên cứu nhiệt độ trung bình trong tháng 4 ở thành phố A, người
ta theo dõi trong 10 địa điểm và thu được số liệu sau:
24,1

27,2

26,7

23,6

26,4

25,8

27,3

23,2

26,9

27,1

Với độ tin cậy 95% hãy ước lượng khoảng nhiệt độ trung bình trong tháng 4 của
thành phố trên. Biết nhiệt độ trung bình trong 1 tháng là đại lượng ngẫu nhiên
phân phối chuẩn.
2.4. Với độ tin cậy 95%, hãy ước lượng khoảng lượng xăng hao phí trung bình
cho một ô tô chạy từ A đến B nếu chạy thử 30 lần trên đoạn đường này người
ta ghi nhận được lượng xăng hao phí như sau:
Lượng xăng hao phí (lít) Tần số
[9, 6; 9, 8)
[9, 8; 10, 0)
[10, 0; 10, 2)
[10, 2; 10, 4)
[10, 4; 10, 6)

3
5
10
8
4

Biết rằng lượng xăng hao phí là đại lượng ngẫu nhiên tuân theo quy luật chuẩn.
2.5. Để định mức thời gian gia công một chi tiết máy, người ta theo dõi ngẫu
nhiên quá trình gia công 25 chi tiết và thu được số liệu sau:
18

Giáo trình xác suất và thống kê

Thời gian gia công (phút) Tần số
[15; 17)
[17; 19)
[19; 21)
[21; 23)
[23; 25)
[25; 27)

1
3
4
12
3
2

Bằng khoảng tin cậy đối xứng hãy ước lượng khoảng thời gian gia công trung
bình một chi tiếu máy với độ tin cậy 1 − α = 0, 95. Giả thiết thời gian gia công
chi tiết máy là đại lượng ngẫu nhiên tuân theo phân phối chuẩn.
2.6. Kiểm tra ngẫu nhiên 16 viên thuốc từ một lô thuốc mới nhập về tìm
được độ phân tán thực nghiệm của thành phần chính trong mỗi viên thuốc là
s2 = 0, 0075gr2 . Với độ tin cậy 95% hãy ước lượng khoảng đối xứng độ phân tán

của thành phần chính trong mỗi viên thuốc của cả lô thuốc đó. Biết trọng lượng
thành phần chính trong mỗi viên thuốc có phân phối theo quy luật chuẩn.
2.7. Để nghiên cứu độ ổn định của một máy gia công, người ta lấy ngẫu nhiên
25 chi tiết do máy đó gia công, đem đo và thu được các kích thước như sau:
24,1

27,2

26,7

23,6

26,4

25,8

27,3

23,2

26,9

27,1

22,7

26,9

24,8

24,0

23,4

24,5

26,1

25,9

25,4

22,9

26,4

25,4

23,3

23,0

24,3

Với độ tin cậy 95% hãy ước lượng độ phân tán của kích thước các chi tiết do
máy đó gia công. Biết kích thước chi tiết được gia công là đại lượng ngẫu nhiên
phân phối chuẩn.
2.8. Hãy ước lượng tỷ lệ chính phẩm của một nhà máy bằng khoảng tin cậy
đối xứng với độ tin cậy 0,95 biết rằng kiểm tra 100 sản phẩm của nhà máy thì

thấy có 10 phế phẩm.
2.9. Mở 200 hộp của một kho đồ hộp, người ta thấy có 28 hộp bị biến chất.
Với độ tin cậy 0,95, bằng khoảng tin cậy đối xứng, hãy ước lượng tỷ lệ đồ hộp
biến chất ở trong kho.

19

Giáo trình xác suất và thống kê

2.10. Trong đợt vận động bầu cử tổng thống người ta phỏng vấn ngẫu nhiên
1600 cử tri thì được biết 960 người trong số đó sẽ bỏ phiếu cho ứng cử viên A.
Với độ tin cậy 90%, ứng cử viên A sẽ chiếm được tỷ lệ phiếu bầu trong khoảng
nào?
2.11. Nhà máy A sản xuất 1 loại sản phẩm. Để ước lượng tỉ lệ thành phẩm
người ta chọn ngẫu nhiên 400 sản phẩm và chia thành 40 nhóm để kiểm tra.
Kết quả thu được như sau
Số thành phẩm trong nhóm 1 2 3 4 5 6 7 8 9 10
Số nhóm
2 1 3 6 8 10 4 5 1 0
Với độ tin cậy 90% hãy ước lượng khoảng tỉ lệ thành phẩm của nhà máy.

20

Chương 3
ƯỚC LƯỢNG THAM SỐ

3.1. Ước lượng điểm
3.1.1. Ước lượng điểm và hàm ước lượng

Một biến số X của một tổng thể có các số đặc trưng của nó như kì vọng,
phương sai,...Các số đặc trưng này sẽ được gọi chung là tham số. Nói chung, các
số đặc trưng của một biến số thường khó biết được chính xác giá trị của nó là
bao nhiêu. Giả sử ta có một mẫu số liệu của X là (x1 , x2 , ..., xn ). Khi đó để ước
lượng kì vọng µ của X ta có thể sử dụng trung bình mẫu. Tuy nhiên ta có thể
sử dụng 1 hàm khác để ước lượng. Chẳng hạn, ta có thể sử dụng
θˆ = max{x1 , x2 , ..., xn }

để ước lượng µ.

Ước lượng điểm của tham số θ dựa trên mẫu số liệu (x1 , x2 , ..., xn ) là một giá
trị phù hợp θˆ được tính trên mẫu số liệu trên.
ˆ 1 , x2 , ..., xn ).
θˆ = θ(x

3.1.2. Ước lượng không chệch
ˆ 1 , X2 , ..., Xn )
Giả sử (X1 , X2 , ..., Xn ) là mẫu ngẫu nhiên. Hàm ước lượng θˆ = θ(X
ˆ = θ. Ngược lạị, ta
được gọi là ước lượng không chệch đối với tham số θ nếu E(θ)
ˆ − θ gọi là độ chệch của ước lượng.
gọi θˆ là ước lượng chệch và E(θ)

21

Giáo trình xác suất và thống kê

3.1.3. Ước lượng không chệch của kì vọng và phương sai
Cho biến số X của 1 tổng thể có E(X) = µ, V ar(X) = σ 2 . Với (X1 , X2 , ..., Xn )

là mẫu ngẫu nhiên lấy từ tổng thể trên. . Khi đó
X1 + X2 + ... + Xn
là ước lượng không chệch của µ.
n
n
1
S2 =
(Xi − X)2 là ước lượng không chệch của σ 2 .
n − 1 i=1

X=

3.1.4. Ước lượng không chệch tỉ lệ
Giả sử p là tỉ lệ phần tử có tính chất A nào đó trong 1 tổng thể (chẳng hạn
tỉ lệ phế phẩm do 1 dây chuyền sản xuất,...). Ta sẽ sử dụng phân bố Bernoulli
để mô tả bằng cách mỗi phần tử của của tổng thể được gán bởi 1 nếu có tính
chất A và được gán bởi 0 nếu không có tính chất A. Chọn ngẫu nhiên 1 phần
tử của tổng thể đó, ta đặt
X=

1,
0,

nếu phần tử đó có tính chất A
nếu phần tử đó không có tính chất A.

Khi đó X có phân bố Bernoulli với tham số p.

Cho biến số X của 1 tổng thể có phân phối Bernoulli với tham số p. Gọi
(X1 , X2 , ..., Xn ) là mẫu ngẫu nhiên lấy từ tổng thể này. Khi đó

X1 + X2 + ... + Xn
Pˆ =
n

là một ước lượng không chệch của tham số p.

3.2. Ước lượng khoảng kì vọng
Cho biến số X của một tổng thể có E(X) = µ chưa biết, ước lượng khoảng
của µ có dạng l < µ < u. Đề tìm l và u ta tiến hành các bước như sau:
(1) Cho trước một số α ∈ (0; 1) gọi là mức ý nghĩa;
(2) Với mẫu ngẫu nhiên (X1 , X2 , ..., Xn ), tìm hai hàm n biến
L = L(X1 , X2 , ..., Xn )
22

Giáo trình xác suất và thống kê
U = U (X1 , X2 , ..., Xn )

sao cho
P (L < µ < U ) = 1 − α.

(3) Nếu kết quả chọn mẫu ngẫu nhiên thu được mẫu số liệu (x1 , x2 , ..., xn ) thì
thay X1 = x1 , X2 = x2 , ..., Xn = xn vào L và U ta được l = L(x1 , x2 , ..., xn ),
u = U (x1 , x2 , ..., xn ). Khi đó ước lượng khoảng cần tìm là l < µ < u.
1 − α gọi là độ tin cậy của ước lượng.

3.2.1. X ∼ N (µ; σ 2 ) với σ 2 đã biết
Bài toán: Cho biến số X của một tổng thể có phân bố chuẩn N (µ; σ 2 ) với µ
chưa biết và σ 2 đã biết. Tìm ước lượng khoảng của µ.
Nếu (X1 , X2 , ..., Xn ) là mẫu ngẫu

nhiên lấy từ tổng thể trên thì
X ∼ N (µ;

σ2
)
n

do đó
Z=

X −µ
√ ∼ N (0; 1).
σ/ n
Hình 3.1

Với α ∈ (0; 1), gọi z α2 thỏa mãn
1
√
2π

∞

x2

e− 2 dx =
zα

α
α
⇔ z α2 = Φ−1 (1 − ).

2
2

2

Khi đó ta có
X −µ
√ < z α2 ) = 1 − α
σ/ n
σ
σ
X − z α2 √ < µ < X + z α2 √
n
n

P (−z α2 <
⇔P

= 1 − α.

Từ đó ta có định nghĩa:

23

Giáo trình xác suất và thống kê

Định nghĩa 3.1. Cho biến số X của một tổng thể có phân bố chuẩn N (µ; σ 2 )
với µ chưa biết và σ 2 đã biết. Nếu x là trung bình mẫu của một mẫu ngẫu
nhiên kích thước n lấy từ tổng thể thì với độ tin cậy 1 − α, ước lượng khoảng

của µ là
σ
σ
x − z α2 √ < µ < x + z α2 √ ,
n
n

trong đó z α2 = Φ−1 (1 − α2 ).
Ví dụ 3.2. Trọng lượng (kg) sản phẩm của công ty A có phân phối chuẩn
N (µ; σ 2 ) với σ = 1 (kg). Chọn ngẫu nhiên 25 sản phẩm người ta tính được trung

bình mẫu x = 50, 1 (kg). Với độ tin cậy 95% hãy ước lượng khoảng trọng lượng
trung bình của sản phẩm công ty A.
Giải. α = 0, 05 suy ra z α2 = z0,025 = 1, 96
σ
1
z α2 √ = 1, 96 √ = 0, 4.
n
25

Ước lượng khoảng trọng lượng trung bình của sản phẩm: 49, 7 < µ < 50, 5.

Chọn cỡ mẫu
Từ công thức ước lượng khoảng µ ta thấy rằng sai số của ước lượng |x − µ|
σ
n

bé hơn hoặc bằng zα/2 . Do đó với độ tin cậy 1 − α, nếu muốn có ước lượng µ
có sai số không vượt quá ∆ cho trước thì ta cần chọn cỡ mẫu n thỏa mãn
z α2

σ
<∆
n

tương đương với
n>

z α2 σ
∆

2

.

Khoảng tin cậy một phía
Khoảng tin cậy đối xứng trong trường hợp l = ∞ hoặc u = ∞, thay z α2 bởi
zα ta thu được khoảng tin cậy một phía như sau:

24

Giáo trình xác suất và thống kê

Với độ tin cậy 1 − α ước lượng khoảng tối đa của µ là
σ
µ < x + zα √ ,
n

với độ tin cậy 1 − α, ước lượng khoảng tối thiểu của µ là

σ
µ > x − zα √ .
n

3.2.2. X ∼ N (µ; σ 2 ) với σ 2 chưa biết
Bài toán: Cho biến số X của một tổng thể có phân bố chuẩn N (µ; σ 2 ) với µ
chưa biết và σ 2 chưa biết. Tìm ước lượng khoảng của µ.
Nếu (X1 , X2 , ..., Xn ) là mẫu ngẫu
nhiên lấy từ tổng thể trên thì theo
Định lí 2.12 ta có biến ngẫu nhiên
T =

X −µ
√
S/ n

có phân bố Student n − 1 bậc tự do.
Với mức ý nghĩa α lấy giá trị tn−1; α2

Hình 3.2

sao cho
P (Tn−1 ≥ tn−1; α2 ) = α

trong đó Tn−1 là phân bố Student n − 1 bậc tự do. Khi đó ta có
P
⇔P

−tn−1; α2 <

X −µ
√ < tn−1; α2
S/ n

=1−α

S
S
X − tn−1; α2 √ < µ < X − tn−1; α2 √
n
n

= 1 − α.

Vì vậy ta định nghĩa ước lượng khoảng của µ cho trường hợp chưa biết phương
sai như sau:

25

Giaso trình Thống kê

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về