25 26
OPEN (1, FILE = ‘bang1_1.tke’)
READ (1, *)
READ (1, *) z1, v1
2 READ (1, *) z2, v2
IF (z.GE.z1.AND.z.LE.z2) THEN
v = v1+(v2-v1)/(z2-z1)*(z-z1)
CLOSE (1)
GOTO 1
ELSE
z1 = z2
v1 = v2
GOTO 2
ENDIF
ENDIF
1 TraB1_1 = v
RETURN
END
Chương 2
NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT
XỬ LÝ SỐ LIỆU QUAN TRẮC
Giả sử cần nghiên cứu đại lượng ngẫu nhiên
X
nào đó mà luật
phân bố của nó chưa biết trước đích xác, phải xác định quy luật đó từ thí
nghiệm hay kiểm tra bằng thực nghiệm giả thuyết về một quy luật nào
đó. Khi đó, người ta làm một loạt thí nghiệm với đại lượng ngẫu nhiên
X
và trong mỗi thí nghiệm (quan trắc), đại lượng
X
nhận một giá trị
nhất định. Tập hợp các số liệu quan trắc của đại lượng được gọi là tập
hợp thống kê đơn giản hay chuỗi thống kê đơn giản. Thông thường, tập
hợp thống kê đơn giản được trình bày dưới dạng bảng.
2.1. Hàm phân bố thống kê
Hàm phân bố thống kê của đại lượng ngẫu nhiên
X
là tần suất của
sự kiện
xX
<
trong chuỗi thống kê đó
(
)
(
)
xXPxF <=
∗∗
. (2.1)
Để tìm giá trị của hàm phân bố thống kê ứng với
x
cho trước chỉ
cần đếm số quan trắc mà trong đó đại lượng
X
nhận giá trị nhỏ hơn
x
và chia cho tổng số quan trắc đã thực hiện n .
Hàm phân bố thống kê của đại lượng ngẫu nhiên bất kỳ - rời rạc hay
liên tục - sẽ là một hàm bậc thang gián đoạn (hình 2.1). Khi tăng số quan
27 28
trắc n , theo định lý Becnuli, với
x
bất kỳ tần suất sự kiện xX
<
tiến
dần tới xác suất (hội tụ về xác suất) của sự kiện đó. Do đó, khi tăng
n
hàm phân bố thống kê
)(xF
∗
sẽ tiến tới hàm phân bố thực thụ )(xF của
đại lượng ngẫu nhiên
X
.
x
F*(x)
1
Hình 2.1. Biểu diễn hàm phân bố thống kê
Nếu số quan trắc lớn (cỡ vài trăm quan trắc) tập hợp thống kê đơn
giản sẽ cồng kềnh và ít trực quan, người ta phải sơ lược xử lý nó và xây
dựng “chuỗi thống kê” dưới dạng bảng như sau:
Khoảng trị
i
I
2
; xx
1 3
; xx
2
4
; xx
3
. . .
1+i
; xx
i
. . .
1+kk
xx ;
Tần suất
∗
i
p
∗
1
p
∗
2
p
∗
3
p
. . .
∗
i
p
. . .
∗
k
p
và dựa vào bảng này mà xây dựng tổ chức đồ (histogram) (hình 2.2). Khi
tăng số quan trắc tổ chức đồ sẽ là đồ thị của hàm mật độ phân bố đại
lượng ngẫu nhiên
X
.
Từ chuỗi thống kê hay tổ chức đồ, có thể nhận được đồ thị gần đúng
của hàm phân bố thống kê (hình 2.3).
x
p
Hình 2.2. Tổ chức đồ thống kê
x
F*(x)
1
Hình 2.3. Đồ thị gần đúng của hàm phân bố thống kê
Đối với các phân bố thống kê người ta cũng tính được các đặc trưng
bằng số tương tự như với các đặc trưng bằng số của các đại lượng ngẫu
nhiên:
- Trung bình số học (hay trung bình thống kê) của các giá trị quan
trắc của đại lượng ngẫu nhiên:
[]
n
x
Xm
n
i
i
x
∑
=
∗∗
==
1
M . (2.2)
29 30
- Phương sai thống kê:
[]
(
)
n
mx
XD
n
i
xi
x
∑
=
∗
∗∗
−
==
1
2
D . (2.3)
Khi đã xác định được phân bố thống kê, có thể giải quyết bài toán là
trơn, tức chọn đường cong phân bố lý thuyết đều đặn về phương diện nào
đó mô tả tốt nhất phân bố thống kê đó. Biểu thức giải tích của đường
cong phân bố được chọn phụ thuộc vào một số tham số, do đó, nhiệm vụ
là trơn là chọn hợp lý các tham số
đó. Một trong những phương pháp
chọn hợp lý là phương pháp mômen, theo phương pháp này một số đặc
trưng bằng số quan trọng nhất (các mômen) của phân bố lý thuyết được
cho bằng các đặc trưng thống kê tương ứng. Thí dụ, nếu muốn mô tả
phân bố của đại lượng ngẫu nhiên
X
bằng phân bố chuẩn
()
2
2
2
2
1
σ
πσ
mx
exf
−
−
=
)(
thì người ta chọn
∗
=
x
mm và
∗∗
=== DD
σσ
.
2.2. Sự phù hợp của phân bố lý thuyết và phân bố thống kê
Giả sử phân bố thống kê đã được là trơn bằng một đường cong lý
thuyết
)(xf nào đó. Dù đường cong lý thuyết này được chọn tốt thế nào
chăng nữa cũng không tránh khỏi những sai khác nào đó. Vậy xuất hiện
câu hỏi: những sai khác này là ngẫu nhiên liên quan tới số lượng quan
trắc hạn chế hay những sai khác này là đáng kể và liên quan tới việc chọn
sai đường cong lý thuyết. Để trả lời câu hỏi này cần “những tiêu chuẩn
phù hợp”. Tư tưởng của việc sử dụng các tiêu chuẩ
n phù hợp như sau:
Trên cơ sở dữ liệu thống kê đã có, cần kiểm tra một giả thuyết
H
rằng đại lượng ngẫu nhiên
X
có hàm phân bố )(xF . Để chấp nhận hoặc
bác bỏ giả thuyết
H
, người ta xét đại lượng U đặc trưng cho mức độ
bất phù hợp của phân bố lý thuyết và phân bố thống kê. Đại lượng
U có
thể được chọn theo những cách khác nhau, thí dụ, đó có thể là tổng các
bình phương của độ lệch giữa xác suất lý thuyết
i
p và tần suất tương
ứng
∗
i
p hay tổng của những bình phương độ lệch đó nhưng với những hệ
số tỷ trọng nào đó, hay độ lệch cực đại của hàm phân bố thống kê
)(xF
∗
và hàm lý thuyết
)(xF
Giả sử đại lượng
U đã chọn được theo một cách nào đó. Rõ ràng
U sẽ là một đại lượng ngẫu nhiên. Quy luật phân bố của nó phụ thuộc
vào quy luật phân bố của đại lượng ngẫu nhiên
X
và vào số lượng quan
trắc
n . Giả sử quy luật phân bố này đã được biết. Nhờ dữ liệu thống kê
thấy rằng đại lượng đặc trưng mức độ sai khác
U nhận giá trị u . Sai
khác này là do những nguyên nhân ngẫu nhiên hay do có sự khác nhau
đáng kể giữa phân bố lý thuyết và thống kê, tức do giả thuyết
H
sai?
Muốn giải đáp câu hỏi này người ta giả thiết rằng giả thuyết
H
đúng và
tính xác suất mà do những nguyên nhân ngẫu nhiên liên quan tới số
lượng quan trắc còn thiếu mà đại lượng
U không nhỏ hơn giá trị u đã
thấy qua quan trắc, tức tính xác suất của sự kiện
uU ≥ .
Nếu xác suất này rất nhỏ, thì phải bác bỏ giả thuyết
H
; nếu xác
suất này đáng kể thì người ta công nhận rằng các số liệu quan trắc không
mâu thuẫn với giả thuyết
H
.
2.2.1. Tiêu chuẩn
2
χ
Trong một số phương pháp chọn U , quy luật phân bố của U có
31 32
những tính chất rất đơn giản và khi
n đủ lớn thực tế nó không phụ thuộc
vào hàm
)(xF . Tiêu chuẩn
2
χ
của Pierson là một trong những tiêu
chuẩn phù hợp được ứng dụng nhiều nhất.
Giả sử thực hiện n quan trắc độc lập. Kết quả quan trắc được dẫn
tới
k khoảng giá trị và cho dưới dạng chuỗi thống kê (bảng phân bố tần
suất). Đòi hỏi kiểm tra xem những dữ liệu quan trắc này có phù hợp với
giả thiết rằng đại lượng ngẫu nhiên
X
có quy luật phân bố )(xF đã cho
không.
Biết quy luật phân bố lý thuyết
)(xF
, có thể tính những xác suất lý
thuyết của sự kiện
X
rơi vào từng khoảng giá trị:
k
ppp , , ,
21
.
Bây giờ ta chọn làm mức độ sai khác giữa phân bố lý thuyết và
thống kê một tổng như sau
()
∑
=
∗
−=
k
i
iii
ppCU
1
2
. (2.4)
Các hệ số tỷ trọng
i
C (tỷ trọng của các khoảng giá trị) có ý nghĩa là
những độ lệch ứng với những khoảng giá trị khác nhau không nên xem là
ngang hàng nhau về mức ý nghĩa, cùng một độ lệch
ii
pp −
∗
có thể ít
đáng kể khi bản thân xác suất
i
p lớn nhưng rất đáng kể khi
i
p nhỏ.
Pierson đã chứng minh rằng nếu lấy
i
i
p
n
C =
,
thì với
n lớn, luật phân bố của
U
có những tính chất rất đơn giản: nó
thực tế không phụ thuộc vào hàm
)(xF và số quan trắc
n
, mà chỉ phụ
thuộc vào số những khoảng giá trị
k , cụ thể khi n tăng quy luật này sẽ
dần tới phân bố
2
χ
1
. Vậy
(
)
∑
=
∗
−
==
k
i
i
ii
p
pp
nU
1
2
2
χ
,
hoặc, vì
n
m
p
i
i
=
∗
,
−
i
m số lượng các quan trắc trong các khoảng giá trị
i , nên
(
)
∑
=
−
==
k
i
i
ii
np
npm
U
1
2
2
χ
. (2.5)
Phân bố
2
χ
phụ thuộc vào tham số
r
, gọi là số bậc tự do.
Số bậc tự do
r
bằng số các khoảng giá trị k trừ đi số các điều kiện
liên hệ mà
∗
i
p phải tuân theo (số các điều kiện ràng buộc). Thí dụ về các
điều kiện ấy có thể là:
1)
∑
=
∗
=
k
i
i
p
1
1
nếu ta đòi hỏi sao cho tổng các tần số thống kê phải
bằng đơn vị;
1
Phân bố
2
χ
với r bậc tự do là phân bố của tổng các bình phương của r đại
lượng ngẫu nhiên độc lập, từng đại lượng trong số chúng tuân theo luật phân bố
chuẩn với kỳ vọng toán học bằng không và phương sai bằng đơn vị. Phân bố này
được đặc trưng bởi hàm mật độ
⎪
⎪
⎩
⎪
⎪
⎨
⎧
⎟
⎠
⎞
⎜
⎝
⎛
<
>
Γ
=
−−
00
0
2
2
1
2
1
2
2
u
uu
r
uk
ur
r
r
e
khi
khi
)(
trong đó
∫
∞
−−
−=Γ
0
1
)( dtet
t
α
α
hàm Gamma.
33 34
2)
∑
=
∗
=
k
i
xii
mpx
1
~
nếu ta chọn phân bố lý thuyết sao cho các giá trị
trung bình lý thuyết và thống kê phải trùng nhau;
3)
(
)
∑
=
∗∗
=−
k
i
xixi
Dpmx
1
2
~
nếu ngoài ra phương sai lý thuyết và
phương sai thống kê cũng phải trùng nhau.
Người ta đã lập sẵn các bảng phân bố
2
χ
(bảng 2.1 là một trong số
các bảng đó). Dùng các bảng này có thể đối với từng giá trị
2
χ
và số bậc
tự do
r
tìm được xác suất
p
của sự kiện: đại lượng phân bố theo quy
luật
2
χ
vượt quá giá trị này.
Phân bố
2
χ
cho phép đánh giá mức độ phù hợp của phân bố lý
thuyết và thống kê. Giả thiết đại lượng
X
đúng là phân bố theo quy luật
)(xF . Khi đó xác suất p xác định từ bảng này sẽ là xác suất của sự
kiện: do những nguyên nhân ngẫu nhiên đơn thuần, sai khác của phân bố
lý thuyết và thống kê tính theo biểu thức (2.5) sẽ không nhỏ hơn giá trị
2
χ
mà ta thực thấy trong chuỗi quan trắc. Nếu xác suất này rất nhỏ (nhỏ
đến mức sự kiện với xác suất như vậy có thể xem như thực tế không khả
dĩ), thì phải xem kết quả quan trắc mâu thuẫn với giả thuyết
H
rằng quy
luật phân bố của đại lượng
X
là
)(xF
. Cần phải bác bỏ giả thuyết như
là một giả thuyết không hiện thực. Nếu xác suất
p
khá lớn, ta có thể
công nhận những khác biệt giữa phân bố lý thuyết và thống kê là không
đáng kể, ngẫu nhiên. Giả thuyết
H
có thể xem là hiện thực hoặc ít ra là
không mâu thuẫn với dữ liệu quan trắc.
Bảng 2.1. Những giá trị
2
χ
phụ thuộc vào
r
và p
p
r
0,99 0,98 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001
1 0,000 0,001 0,004 0,016 0,064 0,148 0,455 1,074 1,642 2,71 3,84 5,41 6,64 10,83
2 0,020 0,040 0,103 0,211 0,446 0,713 1,386 2,41 3,22 4,60 5,99 7,82 9,21 13,82
3 0,115 0,185 0,352 0,584 1,005 1,424 2,37 3,66 4,64 6,25 7,82 9,84 11,34 16,27
4 0,297 0,429 0,711 1,064 1,649 2,20 3,36 4,88 5,99 7,78 9,49 11,67 13,28 18,46
5 0,554 0,752 1,145 1,610 2,34 3,00 4,35 6,06 7,29 9,24 11,07 13,39 15,09 20,5
6 0,872 1,134 1,635 2,20 3,07 3,83 5,35 7,23 8,56 10,64 12,59 15,03 16,81 22,5
7 1,239 1,564 2,17 2,83 3,82 4,67 6,35 8,38 9,80 12,02 14,07 16,62 18,48 24,3
8 1,646 2,03 2,73 3,49 4,59 5,53 7,34 9,52 11,03 13,36 15,51 18,17 20,1 26,1
9 2,09 2,53 3,32 4,17 5,38 6,39 8,34 10,66 12,24 14,68 16,92 19,68 21,7 27,9
10 2,56 3,06 3,94 4,86 6,18 7,27 9,34 11,78 13,44 15,99 18,31 21,2 23,2 29,6
11 3,05 3,61 4,58 5,58 6,99 8,15 10,34 12,90 14,63 17,28 19,68 22,6 24,7 31,3
12 3,57 4,18 5,23 6,30 7,81 9,03 11,34 14,01 15,81 18,55 21,0 24,1 26,2 32,9
13 4,11 4,76 5,89 7,04 8,63 9,93 12,34 15,12 16,98 19,81 22,4 25,5 27,7 34,6
14 4,66 5,37 6,57 7,79 9,47 10,82 13,34 16,22 18,15 21,1 23,7 26,9 29,1 36,1
15 5,23 5,98 7,26 8,35 10,31 11,72 14,34 17,32 19,31 22,3 25,0 28,3 30,6 37,7
16 5,81 6,61 7,96 9,31 11,15 12,62 15,34 18,42 20,5 23,5 26,3 29,6 32,0 39,3
17 6,41 7,26 8,67 10,08 12,00 13,53 16,34 19,51 21,6 24,8 27,6 31,0 33,4 40,8
18 7,02 7,91 9,39 10,86 12,86 14,44 17,34 20,6 22,8 26,0 28,9 32,3 34,8 42,3
19 7,63 8,57 10,11 11,65 13,72 15,35 18,34 21,7 23,9 27,2 30,1 33,7 36,2 43,8
20 8,26 9,24 10,85 12,44 14,58 16,27 19,34 22,8 25,0 28,4 31,4 35,0 37,6 45,3
21 8,90 9,92 11,59 13,24 15,44 17,18 20,3 23,9 26,2 29,6 32,7 36,3 38,9 46,8
22 9,54 10,60 12,34 14,04 16,31 18,10 21,3 24,9 27,3 30,8 33,9 37,7 40,3 48,3
23 10,20 11,29 13,09 14,85 17,19 19,02 22,3 26,0 28,4 32,0 35,2 39,0 41,6 49,7
24 10,86 11,99 13,85 15,66 18,06 19,94 23,3 27,1 29,6 33,2 36,4 40,3 43,0 51,2
25 11,52 12,70 14,61 16,47 18,94 20,9 24,3 28,2 30,7 34,4 37,7 41,7 44,3 52,6
26 12,20 13,41 15,38 17,29 19,82 21,8 25,3 29,2 31,8 35,6 38,9 42,9 45,6 54,1
27 12,88 14,12 16,15 18,11 20,7 22,7 26,3 30,3 32,9 36,7 40,1 44,1 47,0 55,5
28 13,56 14,85 16,93 18,94 21,6 23,6 27,3 31,4 34,0 37,9 41,3 45,4 48,3 56,9
29 14,26 15,57 17,71 19,77 22,5 24,6 28,3 32,5 35,1 39,1 42,6 46,7 49,6 58,3
30 14,95 16,31 18,49 20,6 23,4 25,5 29,3 33,5 36,2 40,3 43,8 48,0 50,9 59,7
35 36
2.2.2. Sơ đồ ứng dụng tiêu chuẩn
2
χ
để đánh giá sự phù hợp
1) Xác định độ sai khác
2
χ
theo công thức (2.5).
2) Xác định số bậc tự do
r
như là số khoảng giá trị k trừ đi số liên
hệ
s
: skr
−
= .
3) Theo
r
và
2
χ
nhờ bảng 2.1 tìm xác suất
p
của sự kiện: đại
lượng có phân bố
2
χ
với
r
bậc tự do vượt quá giá trị
2
χ
đã tính được.
Nếu
p
rất nhỏ, giả thuyết bị bác bỏ (trong thực tế nếu
p
nhỏ hơn 0,1 thì
nên kiểm tra lại thí nghiệm); nếu
p
khá lớn, có thể xem giả thuyết không
mâu thuẫn với thực đo.
Khi sử dụng tiêu chuẩn
2
χ
, không những chỉ tổng số quan trắc n
đủ lớn mà cả số quan trắc
i
m trong từng khoảng giá trị cũng phải đủ lớn.
Trong thực tế tính toán, nên có trong mỗi khoảng giá trị không ít hơn 5 −
10 quan trắc, khi số đó ít hơn thì nên nhóm một số khoảng giá trị lại với
nhau.
Thí dụ: 1) Cho chuỗi thống kê gồm 500 quan trắc đã được nhóm
thành các khoảng giá trị và được ghi vào bảng như sau:
Khoảng
i
I
−4; −3 −3; −2 −2; −1 −1; 0
i
m
6 25 72 133
∗
i
p
0,012 0,050 0,144 0,266
Khoảng
i
I
0; 1 1; 2 2; 3 3; 4
i
m
120 88 46 10
∗
i
p
0,240 0,176 0,092 0,020
2) Là trơn phân bố này bằng quy luật chuẩn
2
2
2
)(
2
1
)(
σ
πσ
mx
exf
−
−
= .
Tính: trung bình thống kê theo công thức (2.2) được
1680,=
∗
x
m ,
phương sai thống kê theo công thức (2.3) được 0982,=
∗
x
D . Chọn các
tham số
∗
=
x
mm và
∗
=
x
D
2
σ
:
1680,
=
m
và
4481,
=
σ
. Biểu thức phân
bố chuẩn sẽ là:
)448,1(2
)168,0(
2
2
2448,1
1
)(
−
−
=
x
exf
π
.
Dùng bảng phân bố chuẩn (bảng 1.1) để tính các trị số của hàm
)(xf
tại các đầu mút của các khoảng giá trị:
x
−4 −3 −2 −1
0123 4
)( xf
0,004 0,025 0,090 0,199 0,274 0,234 0,124 0,041 0,008
Theo số liệu bảng này dựng tổ chức đồ và đường cong là trơn của
nó lên cùng một đồ thị.
3) Kiểm tra sự phù hợp giữa phân bố lý thuyết với phân bố thống
kê: Dùng quy luật chuẩn lý thuyết
)(xf trên đây, tìm các xác suất rơi vào
những khoảng giá trị theo công thức:
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−
−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−
=
∗
+
∗
σσ
φφ
mxmx
p
ii
i
1
;
ở đây
−
+1
,
ii
xx biên của các khoảng giá trị. Sau đó lập bảng ( 500=n ):
Khoảng
i
I
−4; −3 −3; −2 −2; −1 −1; 0
0; 1 1; 2 2; 3 3; 4
i
m
6 25 72 133 120 88 46 10
i
np
6,2 26,2 71,2 122,2 131,8 90,5 38,2 10,5
37 38
Theo công thức (2.5), tính
(
)
943
8
1
2
2
,=
−
=
∑
=i
i
ii
np
npm
χ
.
Tính số bậc tự do
8=k ,
s
(số liên hệ) = 3 (ở đây dùng quy luật
chuẩn, lấy cả 3 điều kiện). Vậy
538
=
−=r
. Theo bảng 2.1 tìm được:
với
5=r , 943
2
,=
χ
thì 560,=
p
.
Xác suất 560,
=
p
không nhỏ. Vậy giả thuyết rằng đại lượng quan
trắc có phân bố chuẩn với
1680,=m và 4481,
=
σ
có thể xem là hiện
thực.
2.2.3. Tiêu chuẩn phù hợp của Kolmogorov
Kolmogorov A. N. đã dùng giá trị cực đại của mô đun hiệu giữa
hàm phân bố thống kê )(xF
∗
và hàm phân bố lý thuyết
)()( max xFxFD −=
∗
làm mức độ bất phù hợp giữa chúng. Chọn như vậy có lợi là rất dễ tính
D
và
D
có quy luật phân bố khá đơn giản. Kolmogorov đã chứng minh
được rằng dù đại lượng ngẫu nhiên
X
có hàm phân bố như thế nào thì
khi tăng không ngừng số quan trắc độc lập
n , xác suất của bất đẳng thức
λ
≥nD
sẽ tiến tới giới hạn
∑
∞
−∞=
−
−−=
k
kk
eP
22
2
11
λ
λ
)()(
. (2.6)
Những giá trị của xác suất
)(
λ
P tính theo công thức (2.6) dẫn
trong bảng 2.2.
Bảng 2.2. Những giá trị của xác suất )(
λ
P phụ thuộc vào
λ
λ
)(
λ
P
λ
)(
λ
P
λ
)(
λ
P
0,0 1,000 0,7 0,711 1,4 0,040
0,1 1,000 0,8 0,544 1,5 0,022
0,2 1,000 0,9 0,393 1,6 0,012
0,3 1,000 1,0 0,270 1,7 0,006
0,4 0,997 1,1 0,178 1,8 0,003
0,5 0,964 1,2 0,112 1,9 0,002
0,6 0,864 1,3 0,068 2,0 0,001
Sơ đồ sử dụng tiêu chuẩn Kolmogorov: Dựng hàm phân bố thống kê
)(xF
∗
và hàm phân bố lý thuyết )( xF , xác định D cực đại. Sau đó xác
định đại lượng
nD=
λ
và theo bảng 2.2 tìm xác suất )(
λ
P . Nếu xác
suất
)(
λ
P rất nhỏ thì phải bác bỏ giả thuyết, nếu xác suất )(
λ
P khá lớn
thì có thể xem giả thuyết phù hợp với số liệu quan trắc.
Tiêu chuẩn Kolmogorov đơn giản hơn so với tiêu chuẩn
2
χ
nên
người ta ưa dùng. Nhược điểm: chỉ dùng trong trường hợp hàm
)( xF
hoàn toàn biết trước từ những lập luận lý thuyết, tức biết trước cả dạng và
những tham số trong nó. Trường hợp này ít gặp trong thực tế. Thường từ
suy luận lý thuyết ta chỉ biết trước dạng tổng quát của hàm
)( xF , còn
những tham số bằng số của nó được xác định theo tài liệu thống kê.
Trong khi dùng tiêu chuẩn Pierson, điểm này đã được tính đến bằng cách
giảm số bậc tự do của phân bố
2
χ
. Tiêu chuẩn Kolmogorov không tính
đến điều đó. Nếu cứ dùng tiêu chuẩn Kolmogorov trong những trường
hợp mà các tham số của phân bố lý thuyết được ước lượng theo số liệu
thống kê, thì tiêu chuẩn này sẽ cho những giá trị xác suất
)(
λ
P
rõ ràng
lớn hơn; vì vậy chúng ta sẽ có thể chấp nhận nhầm giả thuyết.
39 40
2.3. Khái niệm về ước lượng tham số của phân bố
Để xác định quy luật phân bố, cần có tài liệu thống kê đủ rộng rãi cỡ
vài trăm quan trắc. Nhưng trong thực tế nhiều khi chúng ta chỉ có những
tài liệu quan trắc khá hạn chế, cỡ vài chục số đo. Khối lượng tài liệu này
không đủ để tìm ra quy luật thống kê, nhưng có thể sử dụng để nhận một
vài thông tin về
đại lượng ngẫu nhiên, thí dụ, tính một số đặc trưng bằng
số quan trọng nhất như kỳ vọng toán học, phương sai, một vài mômen
bậc cao hơn.
Ta sẽ xét những bài toán về xác định các đặc trưng mà quy luật phân
bố phụ thuộc vào chúng, theo một lượng quan trắc hạn chế. Một tham số
bất kỳ tính được theo chuỗi quan trắc hạn chế sẽ chứa yếu tố
ngẫu nhiên.
Giá trị ngẫu nhiên gần đúng này được gọi là ước lượng của tham số. Thí
dụ về ước lượng của kỳ vọng toán học là trung bình số học các giá trị
quan trắc. Sai số (chênh lệch giữa ước lượng và tham số) sẽ càng lớn nếu
số quan trắc càng ít. Cần phải chọn ước lượng sao cho các sai số có thể
cực tiểu.
Có những đòi hỏi để
đảm bảo cho ước lượng, với một ý nghĩa nào
đó, có chất lượng. Thí dụ, nếu ta đòi hỏi sao cho ước lượng
a
~
khi tăng
số quan trắc phải tiến dần tới tham số
a thì ước lượng a
~
đó có tính chất
vững chắc; nếu ước lượng a
~
không có xu hướng vượt quá
a hay nhỏ
hơn
a một cách hệ thống, thì ước lượng a
~
có tính chất không chệch;
nếu ước lượng không chệch
a
~
có phương sai so với các ước lượng khác
là nhỏ nhất thì ước lượng
a
~
có tính chất hữu hiệu.
2.4. Ước lượng của kỳ vọng toán học và phương sai
Người ta chứng minh được rằng ước lượng của kỳ vọng toán học mà
chúng ta dùng là trung bình số học các giá trị quan trắc
*
m tính theo
công thức (2.2)
n
x
mm
n
i
i
∑
=
==
1
*
~
(2.7)
là ước lượng vững chắc, không chệch và trong trường hợp đại lượng
X
phân bố chuẩn là hữu hiệu.
Ước lượng của phương sai
D là phương sai thống kê
*
D tính theo
công thức (2.3)
()
n
mx
D
n
i
i
∑
=
∗
−
=
1
2
~
là vững chắc nhưng không có tính chất không chệch. Vậy nếu dùng
*
D
thay cho
D ta sẽ phạm một sai số hệ thống nào đó về phía nhỏ hơn D .
Người ta loại trừ độ chệch này bằng cách nhân
*
D với
1
−
n
n
, tức có
công thức của ước lượng của D như sau
1
1
2
−
−
=
∑
=
n
mx
D
n
i
i
)
~
(
~
(2.8)
hay
1
2
1
2
−
⎟
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎜
⎝
⎛
−=
∑
=
n
n
m
n
x
D
n
i
i
~
~
. (2.9)
2.5. Khoảng tin cậy và xác suất tin cậy
Kiểu ước lượng như trong mục 2.4 gọi là ước lượng điểm. Nhiều khi
41 42
đòi hỏi không chỉ tìm giá trị bằng số phù hợp của tham số
a , mà phải
đánh giá độ chính xác và độ tin cậy của nó, phải biết nếu thay tham số a
bằng ước lượng điểm
a
~
thì có thể dẫn tới những sai số nào và có thể hy
vọng rằng những sai số ấy không vượt quá một giới hạn cho trước với
mức độ chắc chắn nào.
Những bài toán kiểu như vậy đặc biệt cần thiết khi số lượng quan
trắc nhỏ, ước lượng điểm
a
~
ở mức độ lớn sẽ là ngẫu nhiên và phép thay
thế gần đúng
a bằng a
~
có thể dẫn tới những sai số nghiêm trọng.
Để có khái niệm về độ chính xác và độ tin cậy của ước lượng
a
~
,
trong toán học thống kê dùng khoảng tin cậy và xác suất tin cậy.
Giả sử đối với tham số
a đã nhận được ước lượng không chệch a
~
.
Bây giờ cần đánh giá sai số có thể có khi dùng ước lượng đó. Ta đặt ra
một xác suất đủ lớn
β
nào đó (thí dụ, 99095090 , ;, ;,
=
β
) sao cho sự
kiện với xác suất
β
có thể xem là thực tế đáng tin, và tìm một giá trị
ε
sao cho
()
βε
=<−
~
aaP
. (2.10)
Khi đó phạm vi của các giá trị sai số khả dĩ xuất hiện khi thay
a bằng a
~
sẽ chỉ là
ε
± ; những sai số lớn hơn về giá trị tuyệt đối sẽ chỉ xuất hiện
với xác suất nhỏ
β
α
−
=
1. Viết lại (2.10) thành
()
β
ε
ε
=
+
<<− aaaP
~
~
, (2.11)
đẳng thức (2.11) có nghĩa là: với xác suất
β
, giá trị chưa biết của tham
số
a
nằm trong khoảng
)
~
;
~
(
ε
ε
β
+
−= aaI . (2.12)
Ở đây cần chú ý rằng đại lượng
a không ngẫu nhiên, mà chính
khoảng
β
I ngẫu nhiên ( a
~
ngẫu nhiên, và
ε
2 ngẫu nhiên vì
ε
được tính
theo các số liệu quan trắc). Vì vậy trong trường hợp này nên giải thích
đại lượng
β
là xác suất của sự kiện: khoảng ngẫu nhiên
β
I phủ lên
điểm a trên trục số (hình 2.4).
0
1
a
a
a
~
2
a
β
I
Hình 2.4. Biểu diễn khoảng tin cậy
Xác suất
β
gọi là xác suất tin cậy, còn khoảng
β
I gọi là khoảng tin
cậy. Những ranh giới của khoảng
β
I :
ε
−
=
aa
~
1
và
ε
+
=
aa
~
2
gọi là
những ranh giới tin cậy.
Ta xét vấn đề tìm các ranh giới tin cậy
1
a và
2
a :
Giả sử đối với tham số
a có ước lượng không chệch a
~
. Nếu như ta
biết trước luật phân bố của đại lượng a
~
, thì bài toán tìm khoảng tin cậy
sẽ đơn giản: chỉ cần tìm một giá trị
ε
sao cho
(
)
βε
=<−
~
aaP .
Khó khăn là ở chỗ luật phân bố của ước lượng
a
~
phụ thuộc vào luật
phân bố của đại lượng
X
và do đó, phụ thuộc vào những tham số chưa
biết của nó (cụ thể vào chính tham số
a ).
Để khắc phục khó khăn này, có thể sử dụng một phương pháp gần
đúng thô thiển như sau: thay những tham số chưa biết trong biểu thức của
ε
bằng những ước lượng điểm. Khi số lượng quan trắc khá lớn (khoảng
3020 ÷ ), thì phương pháp này thường cho những kết quả tạm thoả mãn.
43 44
2.5.1. Khoảng tin cậy đối với kỳ vọng toán học
Giả sử thực hiện
n
thí nghiệm độc lập với đại lượng ngẫu nhiên
X
, các đặc trưng của nó - kỳ vọng toán học m và phương sai D chưa
biết. Đối với những tham số này đã nhận được những ước lượng:
1
1
2
1
−
−
==
∑∑
==
n
mX
D
n
X
m
i
i
n
i
i
)
~
(
~
;
~
.
Phải dựng khoảng tin cậy
β
I ứng với xác suất tin cậy
β
cho kỳ vọng
toán học
m của đại lượng
X
.
Khi giải bài toán này ta nhớ lại rằng đại lượng
m
~
là tổng của n đại
lượng ngẫu nhiên
i
X độc lập và phân bố như nhau, và do đó, theo định
lý tới hạn trung tâm, khi
n đủ lớn luật phân bố của nó gần trùng với luật
phân bố chuẩn. Trong thực tế, thậm chí với số lượng các số hạng không
lớn lắm (khoảng
2010
÷
), luật phân bố của tổng có thể xem gần đúng là
chuẩn. Vậy ta sẽ xuất phát từ chỗ đại lượng
m
~
phân bố theo luật chuẩn.
Các đặc trưng của luật này - kỳ vọng toán học và phương sai tuần tự bằng
m
và
nD /
. Giả sử đại lượng D đã biết, và ta tìm đại lượng
β
ε
sao cho
(
)
βε
β
=<−
~
mmP .
Biến đổi vế trái của đẳng thức trên đây bằng cách dùng các công
thức (1.25), (1.26), (1.28) và (1.29):
(
)
(
)
.
~
~
~~~
~~~~
121 −
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
Φ=
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
Φ+−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
Φ=
=
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−Φ−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
Φ=
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−−
Φ−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−+
Φ=
=+<<−=<−
∗∗∗
∗∗∗∗
mmm
mmmm
mmmm
mmmPmmP
σ
ε
σ
ε
σ
ε
σ
ε
σ
ε
σ
ε
σ
ε
εεε
βββ
ββββ
βββ
Vậy
β
σ
ε
β
=−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
Φ
∗
12
~
m
,
trong đó:
−
Φ
∗
tích phân xác suất; −= nD
m
/
~
σ
độ lệch bình phương
trung bình của ước lượng
m
~
.
Từ đó ta tìm được giá trị của
β
ε
:
⎟
⎠
⎞
⎜
⎝
⎛
+
Φ=
∗
2
1
arg
~
β
σε
β
m
, (2.13)
trong đó
(
)
−Φ
∗
xarg hàm ngược của hàm
(
)
x
∗
Φ , tức giá trị của đối số
mà ứng với nó hàm phân bố chuẩn bằng
x
.
Bảng 2.3. Những trị số
β
t tương ứng với xác suất tin cậy
β
β
β
t
β
β
t
β
β
t
β
β
t
0,80 1,282 0,86 1,475 0,91 1,694 0,97 2,169
0,81 1,310 0,87 1,513 0,92 1,750 0,98 2,325
0,82 1,340 0,88 1,554 0,93 1,810 0,99 2,576
0,83 1,371 0,89 1,597 0,94 1,880 0,9973 3,000
0,84 1,404 0,90 1,643 0,95 1,960 0,999 3,290
0,85 1,439 0,96 2,053
45 46
Phương sai
D mà qua nó ta biểu diễn
m
~
σ
chưa được biết trước. Ta
có thể dùng ước lượng
D
~
thay cho nó, vậy ta có
nD
m
/
~
~
=
σ
. (2.14)
Như vậy, bài toán dựng khoảng tin cậy đã được giải một cách gần
đúng
)
~
;
~
(
βββ
ε
ε
+
−= mmI . (2.15)
Để tránh nội suy ngược trong bảng hàm
)(x
∗
Φ khi tính
β
ε
, người
ta lập một bảng chuyên dụng giúp tính các trị số của đại lượng
⎟
⎠
⎞
⎜
⎝
⎛
+
Φ=
∗
2
1
arg
β
β
t (2.16)
tùy thuộc vào trị số của
β
(bảng 2.3). Khi đó, khoảng tin cậy được biểu
diễn dưới dạng
)
~
;
~
(
~~
mm
tmtmI
σ
σ
βββ
+
−= . (2.17)
Như vậy đại lượng
β
t
chính là số lần độ lệch bình phương trung
bình cần phải đặt về phía bên trái và bên phải kể từ tâm tản mạn để cho
xác suất rơi vào khoảng đó bằng
β
.
Thí dụ 2.1: Có 20 quan trắc về đại lượng
X
viết thành bảng như
sau:
i
i
x
i
i
x
i
i
x
i
i
x
1 10,5 6 10,6 11 10,6 16 10,9
2 10,8 7 10,9 12 11,3 17 10,8
3 11,2 8 11,0 13 10,5 18 10,7
4 10,9 9 10,3 14 10,7 19 10,9
5 10,4 10 10,8 15 10,8 20 11,0
Hãy tìm ước lượng m
~
của kỳ vọng toán học m của đại lượng
X
và dựng khoảng tin cậy ứng với xác suất tin cậy
80,
=
β
.
Giải:
.0564,0/
~
064,0
~
78,10
~
~
==⇒=
=
nDD
m
m
σ
Theo bảng 2.3, với 80,
=
β
tìm được 2821,
=
β
t ,
072,0.
~
=
=
m
t
σ
ε
ββ
.
Các ranh giới tin cậy sẽ là:
.,,
~
;,,
~
85100720
71100720
2
1
=+=
=
−
=
mm
mm
Vậy khoảng tin cậy:
).85,10 ;71,10(
=
β
I
2.5.2. Khoảng tin cậy đối với phương sai
Bài toán về khoảng tin cậy đối vơi phương sai cũng được giải tương
tự. Giả sử thực hiện
n
thí nghiệm độc lập về đại lượng ngẫu nhiên
X
với các tham số
m
và D chưa biết, đối với phương sai D ta tính được
ước lượng không chệch:
1
1
2
−
−
=
∑
=
n
mX
D
n
i
i
)
~
(
~
, (2.18)
trong đó
n
X
m
n
i
i
∑
=
=
1
~
.
47 48
Yêu cầu dựng gần đúng khoảng tin cậy cho phương sai.
Từ công thức (2.18) thấy rằng đại lượng
D
~
là tổng n đại lượng
ngẫu nhiên dạng
1
2
−
−
n
mX
i
)
~
(
. Những đại lượng ấy không phải là độc lập,
vì trong mỗi đại lượng đều có mặt
m
~
phụ thuộc vào tất cả
i
X . Tuy
nhiên, người ta có thể chỉ ra rằng khi tăng
n
luật phân bố của tổng chúng
cũng dần tới luật chuẩn. Thực tế với
3020
÷
=n đã có thể xem là chuẩn.
Ta cũng giả thiết như vậy và tìm các đặc trưng của luật phân bố này:
kỳ vọng toán học và phương sai. Vì ước lượng
D
~
không chệch, nên
DDM =]
~
[ .
Việc tính
]
~
[ DD rất phức tạp nên ở đây chỉ dẫn ra biểu thức cuối cùng:
2
4
1
31
D
nn
n
n
DD
)(
]
~
[
−
−
−=
μ
, (2.19)
trong đó
−
4
μ
mô men tâm bậc bốn của đại lượng
X
.
Để dùng biểu thức này, cần phải đưa vào đó những trị số của
4
μ
và
D (dù là những trị số gần đúng). Thay cho D có thể sử dụng ước lượng
của nó
D
~
. Về nguyên tắc mô men tâm bậc bốn
4
μ
cũng có thể thay thế
bằng ước lượng của nó, thí dụ, bằng đại lượng sau:
n
mX
n
i
i
∑
=
∗
−
=
1
4
4
)
~
(
μ
, (2.20)
nhưng thay thế như vậy sẽ cho độ chính xác không cao, vì nhìn chung với
số lượng thí nghiệm hạn chế, các mô men bậc cao xác định với sai số lớn.
Tuy nhiên, trong thực tế thường là dạng của luật phân bố của đại lượng
X
được biết trước, chỉ không biết trước các tham số của phân bố đó mà
thôi. Khi đó có thể biểu diễn
4
μ
qua D .
Thí dụ, trường hợp thường gặp nhất - đại lượng
X
phân bố theo
luật chuẩn; khi đó mô men tâm bậc bốn được biểu diễn qua phương sai
như sau
2
4
3D=
μ
và công thức (2.19) sẽ cho kết quả
22
1
33
D
nn
n
D
n
DD
)(
]
~
[
−
−
−=
hay
2
1
2
D
n
DD
−
=]
~
[ . (2.21)
Trong (2.21) thay D chưa biết bằng ước lượng của nó, ta được
2
1
2
D
n
D
~
]
~
[ D
−
= ,
từ đó
D
n
D
~
~
1
2
−
=
σ
. (2.22)
Trong một số trường hợp luật phân bố khác, người ta cũng có công
thức biểu thị
4
μ
qua D . Nhưng khi dạng của luật phân bố của đại lượng
X
chưa biết, nếu không có cơ sở đặc biệt nào để khẳng định là nó khác
rõ rệt so với luật chuẩn (có độ nhọn dương hoặc âm đáng kể), thì vẫn cứ
nên sử dụng công thức (2.22) để nhận định về
D
~
σ
.
Tóm lại, nếu giá trị định hướng
D
~
σ
đã tìm được bằng cách nào đó,
thì có thể dựng khoảng tin cậy cho phương sai tương tự như cho kỳ vọng
toán học. Ta viết
(
)
βε
β
=<−
~
DDP
49 50
hay, vì
Dm
D
=
~
:
.arg
)
~
(
~
~
~
~
~
~
⎟
⎠
⎞
⎜
⎝
⎛
+
Φ=⇒=−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
Φ⇒
=
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−−
Φ−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−+
Φ⇒
=+<<−
∗∗
∗∗
2
1
12
β
σεβ
σ
ε
β
σ
ε
σ
ε
βεε
β
β
ββ
ββ
D
D
D
D
D
D
mDmD
DDDP
Vậy khoảng tin cậy của phương sai là
)
~
;
~
(
~~
DD
tDtDI
σσ
βββ
+−= , (2.23)
ở đây đại lượng
⎟
⎠
⎞
⎜
⎝
⎛
+
Φ=
∗
2
1
β
β
t tuỳ thuộc vào xác suất tin cậy
β
đã
định cũng được tìm theo bảng 2.3.
Thí dụ 2.2: Tìm gần đúng khoảng tin cậy 80 % cho phương sai của
đại lượng ngẫu nhiên
X
qua thí dụ trước (thí dụ 2.1), nếu biết rằng đại
lượng
X
phân bố theo luật gần với luật chuẩn.
Giải: đại lượng
β
t , cũng giống như trong thí dụ 2.1, được tìm nhờ
bảng 2.3 theo
80,
=
β
bằng
2821,
=
β
t .
Theo công thức (2.22)
020700640
120
2
,, .
~
=
−
=
D
σ
.
Theo công thức (2.23) khoảng tin cậy của phương sai bằng
)091,0;037,0(=
β
I .
Khoảng tin cậy tương ứng của độ lệch bình phương trung bình là
)30,0;19,0( .
2.5.3. Những phương pháp chính xác dựng khoảng tin cậy cho
các tham số của đại lượng ngẫu nhiên phân bố chuẩn
Để tìm chính xác những khoảng tin cậy nhất thiết phải biết trước
dạng của luật phân bố đại lượng ngẫu nhiên
X
, trong khi đó nếu dùng
các phương pháp gần đúng thì điều đó không cần thiết.
Ý tưởng của các phương pháp chính xác như sau: Một khoảng tin
cậy bất kỳ của ước lượng
a
~
được tìm từ điều kiện biểu thị xác suất thực
hiện những bất đẳng thức nào đó mà ước lượng
a
~
có mặt trong đó. Luật
phân bố của ước lượng
a
~
trong trường hợp tổng quát phụ thuộc vào
chính những tham số chưa biết của đại lượng
X
. Tuy nhiên, đôi khi có
thể chuyển đổi trong các bất đẳng thức từ đại lượng ngẫu nhiên
a
~
sang
một hàm nào đó của các giá trị quan trắc
n
xxx , , ,
21
, và luật phân bố
của hàm đó không phụ thuộc vào các tham số chưa biết, mà chỉ phụ thuộc
vào số lượng thí nghiệm
n
và dạng của luật phân bố của đại lượng
X
.
Những đại lượng ngẫu nhiên kiểu như vậy đóng vai trò quan trọng trong
toán học thống kê, chúng đã được nghiên cứu kỹ nhất đối với trường hợp
đại lượng
X
phân bố chuẩn.
Thí dụ, người ta chứng minh được rằng nếu đại lượng ngẫu nhiên
X
phân bố chuẩn, thì đại lượng ngẫu nhiên
D
mm
nT
~
~
−
= , (2.24)
trong đó
1
1
2
1
−
−
==
∑∑
==
n
mX
D
n
X
m
n
i
i
n
i
i
)
~
(
~
;
~
,
51 52
tuân theo luật phân bố Student với
1−n bậc tự do; mật độ phân bố của
luật này có dạng
()
()
2
2
2
1
2
1
1
1
)1(
)(
n
n
n
n
n
t
n
tS
−
−
−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−
+
Γ−
Γ
=
π
, (2.25)
ở đây
−
Γ )( x
hàm Gamma:
∫
∞
−−
=Γ
0
1
)( udeux
ux
.
Cũng đã chứng minh được rằng đại lượng ngẫu nhiên
D
Dn
V
~
)1( −
= (2.26)
có phân bố
2
χ
với 1
−
n bậc tự do, mật độ biểu thị bằng công thức:
()
.0 khi 0
0 khi
2
1
)(
2
v
2
1
2
1
2
1
1
⎪
⎩
⎪
⎨
⎧
<
>
Γ
=
−
−
−
−
−
v
vev
vk
n
n
n
n
(2.27)
Bây giờ ta xét cách sử dụng các luật phân bố trên đây để xây dựng
khoảng tin cậy cho các tham số
m
~
và D
~
.
Giả sử đã thực hiện n thí nghiệm độc lập với đại lượng ngẫu nhiên
X
phân bố theo luật chuẩn với các tham số chưa biết m và D . Đối với
những tham số này ta đã nhận được các ước lượng
1
)
~
(
~
;
~
1
2
1
−
−
==
∑∑
==
n
mX
D
n
X
m
n
i
i
n
i
i
.
Đòi hỏi dựng khoảng tin cậy cho hai tham số ứng với xác suất tin cậy
β
.
Trước hết dựng khoảng tin cậy cho kỳ vọng toán học. Đương nhiên
ta lấy khoảng này đối xứng qua
m
~
, ký hiệu
β
ε
là nửa độ dài của
khoảng. Đại lượng
β
ε
cần lấy sao cho thoả mãn điều kiện
(
)
βε
β
=<−
~
mmP . (2.28)
Ta sẽ chuyển từ đại lượng ngẫu nhiên
m
~
ở vế trái đẳng thức này thành
đại lượng ngẫu nhiên
T
phân bố theo luật Student. Muốn vậy cần nhân
hai vế của bất đẳng
β
ε
<−
~
mm với đại lượng dương
D
n
~
:
β
ε
β
~
~
~
=
⎟
⎟
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎜
⎜
⎝
⎛
<
−
n
DD
mmn
P
hay
β
n
D
TP
~
=
⎟
⎟
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎜
⎜
⎝
⎛
<
β
ε
. (2.29)
Ta tìm một số
β
t sao cho
β
β
=< ) ( tTP . (2.30)
Đại lượng
β
t được tìm từ điều kiện
β
β
β
β
)( ) (
1
==<
∫
−
−
t
t
n
dttStTP
. (2.31)
Từ công thức (2.25) thấy rằng
)(tS
n 1−
là hàm chẵn, vì vậy (2.31) sẽ
53 54
cho
∫
=
−
β
β
t
n
tdtS
0
1
)( 2 . (2.32)
Đẳng thức (2.32) xác định đại lượng
β
t tùy thuộc vào
β
. Nếu có
bảng giá trị của tích phân
∫
−
=Ψ
x
n
dttSx
0
1
)( 2)(
,
thì có thể tìm được đại lượng
β
t bằng cách nội suy ngược trong bảng đó.
Tuy nhiên nên lập trước bảng giá trị
β
t (bảng 2.4). Trong bảng này dẫn
các giá trị
β
t phụ thuộc vào
β
và số bậc tự do 1
−
n . Khi đã xác định
được
β
t theo bảng 2.4 và cho
~
n
D
t
ββ
ε
= , (2.33)
ta tìm được nửa độ dài của khoảng tin cậy
β
I và bản thân khoảng đó:
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
+−=
~
~
;
~
~
n
D
tm
n
D
tmI
βββ
. (2.34)
Thí dụ 2.3: Thực hiện 5 thí nghiệm độc lập với đại lượng ngẫu nhiên
X
phân bố chuẩn với các tham số chưa biết m và
σ
: kết quả thí
nghiệm dẫn trong bảng sau:
i
1 2 3 4 5
i
x
−2,5 3,4 −2,0 1,0 2,1
Tìm ước lượng m
~
cho kỳ vọng và dựng khoảng tin cậy 90 % cho nó
(tức khoảng tin cậy ứng với xác suất tin cậy
90,
=
β
).
Giải: Ta có
6640 ,
~
;,
~
==
Dm .
Theo bảng 2.4 với 41
=
−
n và 90,
=
β
tìm được
132,
=
β
t ,
từ đó
452,
~
≈=
n
D
t
ββ
ε
.
Khoảng tin cậy sẽ là:
(
)
(
)
852052 , ;,
~
;
~
−
=
+
−
=
βββ
ε
ε
mmI .
Thí dụ 2.4: Đối với điều kiện thí dụ 1, nếu giả thiết rằng
X
có phân
bố chuẩn, hãy tìm khoảng tin cậy chính xác.
Giải: Theo bảng 2.4, tìm với 191
=
−
n và 80,
=
β
, được
3281,
=
β
t ,
từ đó
075,0
~
≈=
n
D
t
ββ
ε
So sánh với kết quả của thí dụ 2.1, thấy rằng sự sai khác rất không
đáng kể:
(
)
85107110 , ;,
=
β
I .
55 56
Bảng 2.4. Những giá trị
β
t thoả mãn đẳng thức
β
β
=
∫
−
t
n
tdtS
0
1
2 )(
phụ thuộc vào
β
và 1
−
n
β
1−n
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,95 0,98 0,99 0,999
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,080 6,31 12,71 31,8 63,7 336,6
2 142 289 445 617 0,816 1,061 1,336 1,886 2,92 4,30 6,96 9,92 31,6
3 137 277 424 584 765 0,978 1,250 1,638 2,35 3,18 4,54 5,84 12,94
4 134 271 414 569 741 941 1,190 1,533 2,13 2,77 3,75 4,60 8,61
5 132 267 408 559 727 920 1,156 1,476 2,02 2,57 3,36 4,03 6,86
6 131 265 404 553 718 906 1,134 1,440 1,943 2,45 3,14 3,71 5,96
7 130 263 402 549 711 896 1,119 1,415 1,895 2,36 3,00 3,50 5,40
8 130 262 399 546 706 889 1,108 1,397 1,860 2,31 2,90 3,36 5,04
9 129 261 398 543 703 883 1,100 1,383 1,833 2,26 2,82 3,25 4,78
10 129 260 397 542 700 879 1,093 1,372 1,812 2,23 2,76 3,17 4,59
11 129 260 396 540 697 876 1,088 1,363 1,796 2,20 2,72 3,11 4,49
12 128 259 395 539 695 873 1,083 1,356 1,782 2,18 2,68 3,06 4,32
13 128 259 394 538 694 870 1,079 1,350 1,771 2,16 2,65 3,01 4,22
14 128 258 393 537 692 868 1,076 1,345 1,761 2,14 2,62 2,98 4,14
15 128 258 393 536 691 866 1,074 1,341 1,753 2,13 2,60 2,95 4,07
16 128 258 392 535 690 865 1,071 1,337 1,746 2,12 2,58 2,92 4,02
17 128 257 392 534 689 863 1,069 1,333 1,740 2,11 2,57 2,90 3,96
18 127 257 392 534 688 862 1,067 1,330 1,734 2,10 2,55 2,88 3,92
19 127 257 391 533 688 861 1,066 1,328 1,729 2,09 2,54 2,86 3,88
20 127 257 391 533 687 860 1,064 1,325 1,725 2,09 2,53 2,84 3,85
21 127 257 391 532 686 859 1,063 1,323 1,721 2,08 2,52 2,83 3,82
22 127 256 390 532 686 858 1,061 1,321 1,717 2,07 2,51 2,82 3,79
23 127 256 390 532 685 858 1,060 1,319 1,714 2,07 2,50 2,81 3,77
24 127 256 390 531 685 857 1,059 1,318 1,711 2,06 2,49 2,80 3,74
25 127 256 390 531 684 856 1,058 1,316 1,708 2,06 2,48 2,79 3,72
26 127 256 390 531 684 856 1,058 1,315 1,706 2,06 2,48 2,78 3,71
27 127 256 389 531 684 855 1,057 1,314 1,703 2,05 2,47 2,77 3,69
28 127 256 389 530 683 855 1,056 1,313 1,701 2,05 2,47 2,76 3,67
29 127 256 389 530 683 854 1,055 1,311 1,699 2,04 2,46 2,76 3,66
30 127 256 389 530 683 854 1,055 1,310 1,697 2,04 2,46 2,75 3,65
40 126 255 388 529 681 851 1,050 1,303 1,684 2,02 2,42 2,70 3,55
60 126 254 387 527 679 848 1,046 1,296 1,671 2,00 2,39 2,66 3,46
120 126 254 386 526 677 845 1,041 1,289 1,658 1,980 2,36 2,62 3,37
∞
0,126 0,253 0,385 0,524 0,674 0,842 1,036 1,282 1,645 1,960 2,33 2,58 3,29
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,95 0,98 0,99 0,999
1−n
β
Dựng khoảng tin cậy cho phương sai:
Ta xét ước lượng không chệch của phương sai
1
1
2
−
−
=
∑
=
n
mX
D
n
i
i
)
~
(
~
và biểu diễn đại lượng ngẫu nhiên
D
~
qua đại lượng
V
như ở công thức
(2.26) có phân bố
2
χ
:
1
−
=
n
D
VD
~
. (2.35)
Biết quy luật phân bố của đại lượng
V , có thể tìm khoảng
β
i mà nó
rơi vào với xác suất cho trước
β
.
Quy luật phân bố
)(vk
n 1−
của đại lượng V có dạng như trên hình
2.5.
Xuất hiện câu hỏi: chọn khoảng
β
i như thế nào? Nếu như quy luật
phân bố của
V
đối xứng (như quy luật chuẩn hay quy luật Student) thì
đương nhiên lấy khoảng
β
i đối xứng qua kỳ vọng toán học. Trong
trường hợp đang xét, quy luật
)(vk
n 1−
không đối xứng. Ta quy ước chọn
khoảng
β
i sao cho các xác suất của việc đại lượng
V
rơi ra ngoài ranh
giới của khoảng về phía bên phải và phía bên trái (các diện tích bị gạch
chéo trên hình 2.5) bằng nhau và bằng
2
1
2
βα
−
= .
Để dựng khoảng tin cậy
β
i với tính chất trên, ta dùng bảng 2.1,
trong đó dẫn các số
2
χ
sao cho
pVP => )(
2
χ
57 58
đối với đại lượng
V có phân bố
2
χ
với r bậc tự do. Trong trường hợp
đang xét
1
−
= nr . Ấn định 1−= nr và tìm trong dòng tương ứng của
bảng 2.1 hai giá trị
2
χ
: một giá trị ứng với xác suất
2
1
α
=p ; giá trị khác
ứng với xác suất
2
1
2
α
−=p . Ký hiệu những giá trị ấy là
2
1
χ
và
2
2
χ
.
Khoảng
β
i có đầu trái là
2
2
χ
, đầu phải là
2
1
χ
.
0
v
β
i
)(
1
vk
n−
Hình 2.5. Hình dạng của phân bố
)(
1
vk
n−
Với xác suất
2
α
,
2
1
χ
>V ; với xác suất
2
1
α
− ,
2
2
χ
>V . Suy ra với
xác suất
2
11
α
+− thì
2
2
χ
<V . Vậy muốn cho V nằm ở bên ngoài
β
i ,
tức
2
1
χ
>V hay
2
2
χ
<V xác suất sẽ là
α
α
α
=+
22
. Vậy
V
sẽ nằm ở
bên trong
β
i với xác suất
β
α
=−1.
Bây giờ ta tìm theo khoảng
β
i khoảng tin cậy
β
I cho phương sai
với các ranh giới
1
D và
2
D phủ lên điểm D với xác suất
β
:
β
=
<
<
)(
21
DDDP
.
Ta dựng khoảng ) ;(
21
DDI
=
β
phủ lên điểm D khi và chỉ khi đại
lượng
V rơi vào khoảng
β
i .
Khoảng
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−−
=
2
2
2
1
11
χχ
β
)(
~
;
)(
~
nDnD
I
(2.36)
sẽ thỏa mãn điều kiện đó. Thật vậy, các bất đẳng thức
D
nD
<
−
2
1
1
χ
)(
~
;
D
nD
>
−
2
2
1
χ
)(
~
tương đương với các bất đẳng thức
2
1
χ
<V ;
2
2
χ
>V ,
mà những bất đẳng thức này lại được thỏa mãn với xác suất
β
. Như vậy
khoảng tin cậy cho phương sai được biểu diễn bằng công thức (2.36).
Thí dụ 2.5: Tìm khoảng tin cậy cho phương sai trong điều kiện thí
dụ 2.2 nếu biết rằng đại lượng
X
có phân bố chuẩn.
Giải: Ta có 80,
=
β
; 20,
=
α
; 10
2
,=
α
.
Theo bảng 2.1 ta tìm được với
191
=
−
=
nr
đối với
10
2
1
,==
α
p
227
2
1
,=
χ
;
đối với
90
2
1
2
,=−=
α
p 6511
2
2
,=
χ
.
Theo công thức (2.36) tìm khoảng tin cậy cho phương sai
59 60
), ;,( 10400450=
β
I .
Khoảng tin cậy tương ứng cho độ lệch bình phương trung bình:
(0,21; 0,32). Khoảng này chỉ khác một chút so với kết quả đã nhận được
ở thí dụ 2.2.
2.6. Ước lượng xác suất theo tần suất
Trong thực tế thường người ta phải ước lượng xác suất chưa biết
p
của sự kiện
A
theo tần suất *p của nó qua n thí nghiệm độc lập.
Bây giờ ta xem tần suất của sự kiện
A
qua n thí nghiệm độc lập là
tung bình số học của các giá trị quan trắc của đại lượng
X
mà đại lượng
này trong mỗi thí nghiệm riêng nhận giá trị 1 nếu sự kiện
A
xảy ra và
nhận giá trị 0 nếu sự kiện
A
không xảy ra:
n
X
p
n
i
i
∑
=
=
1
* . (2.37)
Ta biết rằng kỳ vọng toán học của đại lượng
X
bằng p ; phương
sai của nó bằng
pq
, trong đó
p
q −= 1. Kỳ vọng toán học của trung
bình số học cũng bằng p , tức ước lượng
*p cho p là ước lượng không
chệch.
Phương sai của đại lượng
*p bằng
[]
n
pq
pD =*
. (2.38)
Có thể chứng minh được rằng phương sai này là nhỏ nhất có thể có,
tức ước lượng
*p là ước lượng hữu hiệu.
Tóm lại, có thể nhận tần suất
*p làm ước lượng điểm cho xác suất
chưa biết
p
.
Bây giờ ta xét vấn đề về độ chính xác và độ tin cậy của ước lượng
trên, tức về việc dựng khoảng tin cậy.
Bài toán này là một trường hợp bộ phận của bài toán về khoảng tin
cậy của kỳ vọng toán học đã xét ở mục trước, song nó được xem xét một
cách riêng biệt vì ở đây có nét đặc thù: đại lượng
X
là đại lượng ngẫu
nhiên rời rạc chỉ với hai giá trị có thể có là 0 và 1. Ngoài ra, kỳ vọng toán
học của nó p và phương sai
)( pppq
−
=
1 liên quan với nhau bằng mối
liên hệ hàm. Điều này làm đơn giản bài toán dựng khoảng tin cậy.
1)
Xét trường hợp đơn giản nhất, khi số thí nghiệm n khá lớn, còn
xác suất p không quá lớn mà cũng không quá bé
. Khi đó có thể cho rằng
tần suất
*p là đại lượng ngẫu nhiên có phân bố gần chuẩn (theo định lý
giới hạn trung tâm đối với các số hạng phân bố như nhau). Các tính toán
cho thấy rằng có thể sử dụng giả thiết đó thậm chí với các
n không rất
lớn: chỉ cần cả hai đại lượng
np và nq lớn hơn 4. Ta sẽ coi như những
điều kiện này thỏa mãn và tần suất
*p
phân bố theo quy luật chuẩn. Các
tham số của quy luật này sẽ là:
pm
p
=
*
;
n
pq
p
*
=
σ
. (2.39)
Đầu tiên ta hãy giả sử
p
đã biết. Ta định ra xác suất tin cậy
β
và
tìm khoảng ) ,(
ββ
ε
ε
+
−
pp sao cho đại lượng *p rơi vào khoảng này
với xác suất
β
:
(
)
βε
β
=<− * ppP . (2.40)
Vì
*p
phân bố chuẩn nên vế trái của (2.40) có thể biểu diễn qua
các giá trị của hàm phân bố chuẩn:
61 62
()
β
σ
ε
ε
β
β
=−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
Φ=<−
∗
12
*
*
p
ppP
,
từ đó
⎟
⎠
⎞
⎜
⎝
⎛
+
Φ=
∗
2
1
β
σε
β
arg
*p
,
ở đây −Φ
∗
arg hàm ngược của hàm phân bố chuẩn
∗
Φ
.
Ta cũng dùng kí hiệu
⎟
⎠
⎞
⎜
⎝
⎛
+
Φ=
∗
2
1
β
β
argt .
Khi đó
*
p
t
σ
ε
ββ
= , (2.41)
ở đây
β
t được xác định theo bảng 2.4.
Như vậy, với xác suất
β
có thể khẳng định rằng
n
pq
tpp *
β
<− . (2.42)
Thực tế chúng ta chưa biết đại lượng
p
; nhưng bất đẳng thức (2.42)
sẽ có xác suất
β
không tùy thuộc vào việc ta đã biết hay chưa biết p.
Khi đã nhận được từ thí nghiệm giá trị cụ thể của tần suất
*p , có thể
dùng bất đẳng thức (2.42) tìm khoảng
β
I phủ lên điểm p với xác suất
β
. Thật vậy, ta biến đổi bất đẳng thức này thành dạng
()
)( *
pp
n
t
pp −<− 1
2
2
β
. (2.43)
Các ranh giới tin cậy
1
p và
2
p có thể tìm từ (2.43) bằng cách thay
dấu bất đẳng thức bằng dấu đẳng thức. Giải phương trình bình phương
nhận được đối với
p
ta được hai nghiệm:
⎪
⎪
⎪
⎪
⎪
⎭
⎪
⎪
⎪
⎪
⎪
⎬
⎫
+
+
−
++
=
+
+
−
−+
=
.
t
1
)(1
*
;
t
1
)(1
*
2
2
n
n
t
n
p*p*
t
n
t
p
p
n
n
t
n
p*p*
t
n
t
p
p
β
β
β
β
β
β
β
β
2
22
2
2
22
1
4
1
2
1
4
1
2
1
(2.44)
Khoảng tin cậy cho xác suất
p sẽ là
) ,(
21
ppI
=
β
.
Nhận thấy rằng khi tăng
n
các đại lượng
n
t
2
β
và
2
2
4
1
n
t
β
trong các
công thức (2.44) tiến tới 0, do đó
⎪
⎪
⎭
⎪
⎪
⎬
⎫
−
+=
−
−=
.
*)(*
*
,
*)(*
*
n
pp
tpp
n
pp
tpp
β
β
1
1
2
1
(2.45)
Những công thức này cũng có thể nhận được ngay nếu dùng cách
gần đúng như khi dựng khoảng tin cậy cho kỳ vọng toán học ở mục
trước, tức cho giá trị của
p chưa biết bằng *p rồi xác định ngay
*p
σ
trong (2.41) một cách gần đúng. Các công thức (2.45) có thể sử dụng khi
n lớn (bằng khoảng vài trăm) nếu p không quá lớn hay quá nhỏ (thí dụ
khi
np và nq bằng khoảng 10 hoặc lớn hơn).
63 64
Thí dụ 2.6: Thực hiện 200 thí nghiệm; tần suất sự kiện
A
thấy bằng
340,* =p . Dựng khoảng tin cậy 85 % cho xác suất sự kiện (tính theo cả
hai công thức (2.44) và (2.45)).
Giải: 850,
=
β
; theo bảng 2.3, tìm được 4391,
=
β
t .
Theo công thức gần đúng (2.45):
), ;,( 38802920=
β
I .
Theo công thức (2.44):
), ;,( 38902940=
β
I .
Hai kết quả không khác nhau một cách đáng kể.
2)
Khi số thí nghiệm ít (cũng như nếu xác suất p rất lớn hay rất
nhỏ)
thì không thể xem tần số phân bố chuẩn được nữa. Trong trường
hợp này người ta dựng khoảng tin cậy xuất phát từ quy luật phân bố
chính xác của tần số. Có thể dễ dàng khẳng định rằng đây là phân bố nhị
thức. Thật vậy, số lần xuất hiện sự kiện
A
trong n thí nghiệm phân bố
theo quy luật nhị thức: xác suất của việc sự kiện A xuất hiện đúng
m
lần bằng
mnmm
nnm
qpCP
−
=
,
, (2.46)
(
! )( !
!
mnm
n
C
m
n
−
=
), còn tần suất *p chính là số lần xuất hiện sự kiện
chia cho số lần thí nghiệm.
Xuất phát từ phân bố này có thể dựng khoảng tin cậy
β
I tương tự
như ta đã làm trong trường hợp
n lớn.
Giả sử ta đã biết xác suất
p và bây giờ tìm khoảng tần suất (
*
1
p ,
*
2
p ) mà với xác suất
α
β
−= 1 tần suất sự kiện *p rơi vào trong
khoảng đó.
Đối với trường hợp
n lớn ta đã sử dụng quy luật phân bố chuẩn và
đã lấy khoảng tin cậy là đối xứng qua kỳ vọng toán học. Phân bố nhị thức
(2.46) không đối xứng. Hơn nữa, vì tần suất
− đại lượng ngẫu nhiên rời
rạc, có thể không tồn tại một khoảng mà xác suất rơi vào đó đúng bằng
β
. Vì vậy, ta sẽ lấy khoảng ) ,(
**
21
pp như là một khoảng nhỏ mà xác
suất rơi về phía trái và phía phải nó sẽ lớn hơn
2
α
.
Biên dưới
1
p của “khoảng tin cậy” sẽ được xác định bằng cách giải
phương trình sau đây theo
p
:
2
1
α
=−
∑
=
−
n
npm
mnmm
n
ppC
*
)( . (2.47)
Biên trên
2
p xác định bằng cách giải phương trình sau đây theo p :
2
1
0
α
=−
∑
=
−
*
)(
np
m
mnmm
n
ppC
. (2.48)
Để không phải giải các phương trình (2.47) và (2.48) từng lần một
người ta có thể lập bảng (hay biểu diễn đồ thị) nghiệm của chúng ứng với
một số giá trị
β
điển hình. Thí dụ, trong cuốn sách Теория
вероятностией и математическая статистика в технике
của И. В.
Дунин-Барковский và Н. В. Смирнов có các bảng
1
p và
2
p ứng với
950,=
β
và 990,
=
β
. Hình 2.6 là thí dụ biểu thị bằng đồ thị nghiệm của
(2.47) và (2.48) cho trường hợp 90,
=
β
(lấy từ cuốn sách Теория
вероятностией
của Е. С. Вентцель).
Để tìm khoảng tin cậy
β
I theo đồ thị ta đặt trên trục hoành giá trị
tần số *p tìm được theo quan trắc, vẽ qua điểm này một đường thẳng
song song với trục tung, cắt các đường cong ứng với n đã cho ở hai
điểm. Tung độ của hai điểm ấy sẽ là giới hạn tin cậy
1
p và
2
p .
65 66
Hình 2.6. Đồ thị của nghiệm phương trình 2.47
Thí dụ 2.7: Tìm khoảng tin cậy
) ,(
21
ppI
β
đối với xác suất của
một sự kiện nếu trong 50 lần quan trắc tần suất của nó bằng
40,*
=
p .
Xác suất tin cậy
90,
=
β
.
Giải: Theo hình 2.6, với
40,* =p
và 50
=
n ta tìm được
280
1
,≈p ; 520
2
,
≈
p .
Sử dụng phương pháp khoảng tin cậy, có thể giải gần đúng một bài
toán khác quan trọng trong thực hành: số quan trắc phải bằng bao nhiêu
để với xác suất tin cậy
β
sai số gặp phải khi thay thế xác suất bằng tần
suất không vượt quá một giá trị cho trước?
Khi giải bài toán như vậy ta cũng có thể sử dụng hình 2.6, chỉ cần
dựng lại nó: biểu diễn các giới hạn tin cậy như là các hàm của số lượng
quan trắc
n .
Thí dụ 2.8: đã thực hiện quan trắc 25 lần, trong đó thấy hiện tượng
A xảy ra 12 lần. Tìm gần đúng số lần quan trắc n cần thiết để sao cho
với xác suất 90,
=
β
sai số do thay thế xác suất bằng tần suất không vượt
quá 20 %.
Giải: Ta xác định sai số tới hạn cho phép:
10096048020 ,,,,
≈
=
⋅
=
Δ
.
Dùng các đường cong trên hình 2.6 dựng đồ thị mới: trên trục hoành
đặt những số lượng quan trắc
n khác nhau, trên trục tung − các ranh giới
tin cậy của xác suất (hình 2.7).
Hình 2.7. Đồ thị để xác định số lần quan trắc n
theo xác suất và ranh giới tin cậy
Đường thẳng trung bình song song với trục hoành ứng với tần suất
quan trắc
480
25
12
,* ==p
. Phía trên và phía dưới của đường này vẽ các
đường
)(np
1
và
)(np
2
(tra theo hình 2.6). Bên cạnh đường thẳng
67 68
480,=
p
đặt dải hẹp sai số cho phép 20 %. Từ hình này thấy rằng n
bằng khoảng 100.
Nhận thấy rằng sau khi thực hiện số lượng quan trắc cần thiết, có thể
cần kiểm tra lại độ chính xác của việc xác định xác suất theo tần suất, bởi
vì trong trường hợp tổng quát sẽ nhận được giá trị mới của tần suất
*p
khác so với giá trị tính được theo những quan trắc cũ. Do đó, số lượng
quan trắc lại một lần nữa có thể tăng lên. Tuy nhiên, phép xấp xỉ bậc nhất
nhận được theo phương pháp vừa mô tả có thể dùng làm kế hoạch tạm
thời khi bố trí loạt quan trắc.
Trường hợp xác suất rất nhỏ. Công thức để tính giới hạn trên khi xác
suất rất nhỏ (
0
=
*p qua n quan trắc):
n
p
β
−−= 11
2
.
Sự kiện
A
với xác suất nhỏ p không gặp thấy qua n quan trắc. Số
lượng thí nghiệm
n
phải bằng bao nhiêu để cho ranh giới trên của xác
suất của sự kiện bằng giá trị
2
p cho trước:
)( lg
)( lg
2
1
1
p
n
−
−
=
β
.
Thí dụ, với 950,
=
β
và 050
2
,=p , 59458
≈
≈
,n .
Cũng có thể sử dụng các công thức gần đúng sau đây:
n
p
)( ln
β
−−
≈
1
2
;
2
1
p
n
)( ln
β
−
−≈ .
Phụ lục chương 2
A. Mã Fortran của thủ tục tra bảng phân bố
2
χ
(bảng 2.1)
C Cho phép thực hiện hai kiểu tra bảng: thuận và ngược
C Tham số nguyên
0
=
ic : từ số bậc tự do )(n và xác suất )(xs tra ra
C giá trị
2
χ
. Tham số 1
=
ic : từ n và
2
χ
tra
C ra xác suất
x
s
. Nếu 30>n có thể ngoại suy.
SUBROUTINE TraB21 (ic, n, xs, chi)
REAL p(14), d1(14),d2(14), chi
PRINT ‘(” Số bậc tự do: “,\)’
READ *, n
IF (ic.EQ.0) THEN
PRINT ‘(” Xác suất: “,\)’
READ *, xs
ELSE
PRINT ‘(1X,”Giá trị ChiSQ: “,\)’
READ *, chi
ENDIF
OPEN(9, FILE = ’Bang2_1.tke’)
READ(9,*)
READ(9,*) (p(i), i=1, 14)
IF (n.LE.30) THEN
DO i = 1,n
READ(9,*) k, (d1(j), j=1, 14)
ENDDO
ELSE
DO i=1,28
69 70
READ(9,*)
ENDDO
READ(9,*) k, (d1(j), j=1, 14)
READ(9,*) k, (d2(j), j=1, 14)
DO j=1,14
d1(j) = d1(j)+(d2(j)-d1(j))*(n-29)
ENDDO
ENDIF
CLOSE(9)
IF (ic.GT.0) THEN
xs = chi
d2 = p
p = d1
d1 = d2
ENDIF
IF (ic.EQ.0) THEN
IF (xs.GT.p(1)) THEN
j=1
ELSE IF (xs.LT.p(14)) THEN
j=13
ELSE
j=1
4 IF (xs.LE.p(j).AND.xs.GE.p(j+1)) GOTO 5
j=j+1
GOTO 4
ENDIF
ELSE
IF (xs.LT.p(1)) THEN
j=1
ELSE IF (xs.GT.p(14)) THEN
j=13
ELSE
j=1
6 IF (xs.GE.p(j).AND.xs.LE.p(j+1)) GOTO 5
j=j+1
GOTO 6
ENDIF
ENDIF
5 chi=d1(j)+(d1(j+1)-d1(j))*(xs-p(j))/(p(j+1)-p(j))
IF (chi.LT.0.0) chi = 0.0
PRINT *
IF (ic.EQ.0) THEN
PRINT ‘(” ChiSQ = “, F6.2)’, chi
ELSE
PRINT ‘(” Xác suất = “, F6.3)’, chi
ENDIF
RETURN
END
B. Mã Fortran của hàm tra bảng phân bố Kolmogorov (bảng 2.2)
C Đối số của hàm là lamda )0,20,0(
÷
λ
C Giá trị hàm là
)(
λ
P
FUNCTION TraB22 (lam)
REAL lam, l1, l2, pl1, pl2
IF (lam.GT.2.0) THEN
Trab2_2 = 0.0
71 72
ELSE
OPEN (9, FILE = ’Bang2_2.tke’)
READ (9, *)
READ (9, *) l1, pl1
2 READ (9, *) l2, pl2
IF (lam.GE.l1.AND.lam.LE.l2) GOTO 1
l1 = l2
pl1 = pl2
GOTO 2
1 CLOSE (9)
TraB22 = pl1+(pl2-pl1)*(lam-l1)/(l2-l1)
ENDIF
RETURN
END
C. Mã Fortran của hàm tra bảng 2.3
C Đối số của hàm là xác suất tin cậy
)999,08,0(
÷
β
C Giá trị hàm là
β
t theo bảng 2.3
C Hàm cho phép ngoại suy ra ngoài khoảng trên.
FUNCTION Tbeta (beta)
REAL b1, tb1, b2, tb2
OPEN (9, FILE = ’Bang2_3.tke’)
READ (9,*)
READ (9,*) b1, tb1
2 READ (9,*) b2, tb2
IF (b2.GE.beta.OR.b2.EQ.0.999) GOTO 1
b1 = b2
tb1 = tb2
GOTO 2
1 Tbeta = tb1+(tb2-tb1)/(b2-b1)*(beta-b1)
RETURN
END
D. Mã Fortran của hàm tra bảng 2.4
C Theo 1
−
n (biến n ) và
β
(biến beta) hàm này tra ra giá trị
β
t
C thỏa
mãn đẳng thức (2.32)
β
β
=
∫
−
t
n
tdtS
0
1
)( 2
FUNCTION TraB24 (n, beta)
INTEGER n1, n2
REAL b(13), t(13), d(13)
OPEN(9, FILE = 'BangTK\bang2_4.TKE')
READ(9,*)
READ(9,*) (b(j), j=1, 13)
IF (n.GT.120) THEN
DO i=1, 33
READ(9,*)
ENDDO
READ(9,*) (t(j), j=1, 13)
ELSE
READ(9,*) n1, (t(j), j=1, 13)
1 READ(9,*) n2, (d(j),j=1, 13)
IF (n2.GE.n) GOTO 2
n1 = n2
t = d
GOTO 1
2 CLOSE(9)
73 74
DO j=1, 13
t(j)= t(j)+(d(j)-t(j))/(n2-n1)*(n-n1)
ENDDO
ENDIF
IF (beta.LT.b(1)) THEN
j=1
ELSE IF (beta.GT.b(13)) THEN
j=12
ELSE
j=1
3 IF (beta.GE.b(j).AND.beta.LE.b(j+1)) GOTO 4
j=j+1
GOTO 3
ENDIF
4 TraB24 = t(j)+(t(j+1)-t(j))*(beta-b(j))
* /(b(j+1)-b(j))
RETURN
END
Chương 3
KHÁI NIỆM VỀ HỆ CÁC ĐẠI LƯỢNG NGẪU NHIÊN
VÀ ỨNG DỤNG
3.1. Hệ các đại lượng ngẫu nhiên
Trong nhiều bài toán thực tế, các kết quả thí nghiệm được mô tả
bằng hai hoặc nhiều hơn đại lượng ngẫu nhiên. Người ta thường biểu
diễn hệ hai đại lượng ngẫu nhiên
X
, Y bằng một điểm ngẫu nhiên trên
mặt phẳng với tọa độ
x
và y (hình 3.1).
0
Y
y
x
X
Hình 3.1. Điểm ngẫu nhiên
0
(x,y)
y
x
0
Hình 3.2. Góc phần tư ứng với xác
suất
),( yxF
Xác suất cùng thực hiện hai bất đẳng thức
x
X
<
và
y
Y
< được
gọi là
hàm phân bố hệ hai đại lượng ngẫu nhiên ) ,( YX :