Tải bản đầy đủ (.pdf) (82 trang)

PHƯƠNG PHÁP THỐNG KÊ TRONG HẢI DƯƠNG HỌC - Phạm Văn Huấn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.2 MB, 82 trang )

PHƯƠNG PHÁP THỐNG KÊ TRONG
HẢI DƯƠNG HỌC
Phạm Văn Huấn

Từ khóa: Đại lượng ngẫu nhiên, luật phân bố, phân bố thống kê, là trơn phân bố, tiêu chuẩn phù hợp, ước lượng tham số, xác suất tin
cậy, khoảng tin cây, hệ các đại lượng ngẫu nhiên, quá trình ngẫu nhiên, tương quan, phương pháp bình phương nhỏ nhất, khai triển phổ,
phân tích điều hòa, là trơn, chu trình tuần hoàn, trung bình trượt, phân tích thống kê các quan trắc khí tượng, hải dương học.

Tài liệu trong Thư viện điện tử Trường Đại học Khoa học Tự nhiên có thể được sử dụng cho mục đích học tập và nghiên cứu
cá nhân. Nghiêm cấm mọi hình thức sao chép, in ấn phục vụ các mục đích khác nếu không được sự chấp thuận của nhà xuất
bản và tác giả.


ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Lời nói đầu
Giáo trình Phương pháp thống kê trong hải dương học phục vụ cho
môn học cùng tên với thời lượng hai tín chỉ trong chương trình đào tạo cử
nhân ngành Hải dương học ở Trường Đại học Khoa học Tự nhiên, Đại
học Quốc gia Hà Nội.

Phạm Văn Huấn

PHƯƠNG PHÁP THỐNG KÊ
TRONG HẢI DƯƠNG HỌC

Nhà xuất bản Đại học Quốc gia Hà Nội - 2010

Cuốn sách chọn giới thiệu một cách tóm tắt những khái niệm,


phương pháp cơ bản của lý thuyết thống kê toán học hay được sử dụng
trong phân tích số liệu quan trắc hải dương học và được sắp xếp thành
năm chương theo nhóm vấn đề. Đầu mỗi chương thường ôn lại những
khái niệm và công thức cơ bản từ toán học thống kê, sau đó giới thiệu sự
ứng dụng thông qua các thí dụ để rèn luyện thói quen hiểu ý nghĩa thực tế
của khái niệm và kỹ năng thực hành tính toán cụ thể của sinh viên. Cuối
mỗi chương có phụ lục gồm các đoạn mã chương trình máy tính chính là
nhằm mục đích đó. Những thí dụ ứng dụng phương pháp thống kê trong
hải dương học chưa bao quát hết những vấn đề hải dương học thống kê,
mới chỉ giới thiệu ở mức độ giúp cho sinh viên bước đầu biết áp dụng các
khái niệm và phương pháp, tính toán đúng theo các công thức liên quan,
chưa dành chú ý nhiều đến cách đặt vấn đề, lý giải kết quả phân tích và ý
nghĩa thực tế của mỗi bài toán. Nội dung sách cũng chưa bao gồm những
kết quả nghiên cứu biển và đại dương theo hướng thống kê trong hải
dương học trên thế giới và ở Việt Nam. Sinh viên ngành hải dương học sẽ
thấy những khía cạnh này trong các môn học cơ sở khác của ngành như
hải dương học khu vực, thông tin và dự báo khí tượng thủy văn biển,
thủy triều, sóng... và các bài báo khoa học, sách chuyên khảo về biển.
Tác giả


MỤC LỤC
Chương 1 – Khái niệm về đại lượng ngẫu nhiên
1.1. Những đại lượng ngẫu nhiên và luật phân bố
1.2. Luật phân bố chuẩn
1.3. Quantil phân bố
1.4. Một số luật phân bố khác
1.4.1. Phân bố chuẩn loga
1.4.2. Phân bố của tập mẫu các giá trị cực trị (phân bố
Gumbel)

Phụ lục chương 1
Chương 2 – Những khái niệm cơ bản của lý thuyết xử lý sô liệu
quan trắc
2.1. Hàm phân bố thống kê
2.2. Sự phù hợp của phân bố lý thuyết và phân bố thống kê
2.2.1. Tiêu chuẩn χ 2
2.2.2. Sơ đồ ứng dụng tiêu chuẩn χ 2 để đánh giá sự phù hợp
2.2.3. Tiêu chuẩn phù hợp của Kolmogorov
2.3. Khái niệm về ước lượng tham số của phân bố
2.4. Ước lượng của kỳ vọng toán học và phương sai
2.5. Khoảng tin cậy và xác suất tin cậy
2.5.1. Khoảng tin cậy đối với kỳ vọng toán học
2.5.2. Khoảng tin cậy đối với phương sai
2.5.3. Các phương pháp chính xác dựng khoảng tin cậy cho
các tham số của đại lượng ngẫu nhiên phân bố chuẩn
2.6. Ước lượng xác suất theo tần suất
Phụ lục chương 2
Chương 3 – Khái niệm về hệ các đại lượng ngẫu nhiên và ứng
dụng
3.1. Hệ các đại lượng ngẫu nhiên
3.2. Các đặc trưng số của hệ hai đại lượng ngẫu nhiên.
Mômen tương quan. Hệ số tương quan
3.3. Phép là trơn các mối phụ thuộc thực nghiệm bằng phương

5
5
14
19
20
20

25
28
34
34
37
38
43
45
47
47
48
51
54
58

pháp bình phương nhỏ nhất
Phụ lục chương 3
Chương 4 – Những khái niệm cơ bản của lý thuyết hàm ngâu
nhiên và ứng dụng
4.1. Các đặc trưng của hàm ngẫu nhiên
4.2. Khái niệm về hàm ngẫu nhiên dừng
4.3. Tính chất egođic của những hàm ngẫu nhiên dừng
4.5. Khai triển phổ hàm ngẫu nhiên dừng trên khoảng thời
gian hữu hạn
Phụ lục chương 4
Chương 5 - Ứng dụng lý thuyết hàm ngẫu nhiên vào phân tích số
liệu hải dương học
5.1. Phân tích chuỗi thời gian trong hải dương học
5.1.1. Phân tích các chu trình tuần hoàn
5.1.2. Xác định các chu trình tuần hoàn bằng phương pháp

phân tích điều hòa
5.2. Phổ phương sai của chuỗi thời gian
5.3. Loại bỏ chu trình tuần hoàn khỏi chuỗi thời gian
5.3.1. Loại bỏ chu trình tuần hoàn bằng phân tích điều hòa
5.3.2. Loại bỏ biến trình năm từ chuỗi quan trắc năm
5.3.3. Loại bỏ chu trình tuần hoàn và phân tích các chu trình
không tuần hoàn trong thực tế xử lý số liệu
5.4. Hàm tương quan và hàm phổ đối với chuỗi thời gian các
yếu tố hải dương học
Phụ lục chương 5
Tài liệu tham khảo

67
76
82
82
85
90
3

4

105
109
109
111
112
115
128
132

132
134
136
143
145
145
148
149
153
157
161


Chương 1

Hàm phân bố là đặc trưng vạn năng nhất của đại lượng ngẫu nhiên.
Nó tồn tại cho cả các đại lượng ngẫu nhiên rời rạc lẫn liên tục. Hàm phân
bố có tính chất là hàm không giảm, tức F ( x 2 ) ≥ F ( x1 ) nếu x 2 > x1 ,

KHÁI NIỆM VỀ ĐẠI LƯỢNG NGẪU NHIÊN

bằng không ở âm vô cùng (F ( −∞) = 0 ) và bằng một ở dương vô cùng

1.1. Những đại lượng ngẫu nhiên và luật phân bố

(F (+∞) = 1) .

Đại lượng ngẫu nhiên là đại lượng mà trong thử nghiệm có thể nhận
một giá trị nào đó không biết trước cụ thể. Những giá trị có thể có của đại
lượng ngẫu nhiên rời rạc có thể được kể ra từ trước. Những giá trị có thể

có của đại lượng ngẫu nhiên liên tục không thể kể ra trước được và chúng
phân bố liên tục trên một khoảng nào đó.
Đối với đại lượng ngẫu nhiên rời rạc X , nếu ta biết xác suất P của
từng giá trị có thể có của nó x1 , x 2 , ..., x n , tức biết

P ( X = x1 ) = p1 ;

P ( X = x 2 ) = p 2 ; ...;

P ( X = xn ) = pn ;

Φ ( x) = P ( X ≥ x) = 1 − F ( x)

(1.2)

cho biết xác suất vượt quá giá trị x nào đó.
Hàm phân bố của đại lượng ngẫu nhiên rời rạc bất kỳ luôn luôn là
một hàm bậc thang gián đoạn. Trong thực tế thông thường hàm phân bố
của đại lượng ngẫu nhiên liên tục là hàm liên tục.
Khi giải những bài toán thực tế nhiều khi đòi hỏi tính xác suất của
sự kiện đại lượng ngẫu nhiên rơi vào khoảng giá trị từ x đến x + Δx :

⎛ n

⎜ ∑ pi = 1⎟
⎝ i =1


P ( x < X < x + Δx) = F ( x + Δx) − F ( x)


thì ta nói rằng đại lượng ngẫu nhiên ấy hoàn toàn đã được xác định về
phương diện xác suất. Mối liên hệ giữa các giá trị có thể có của đại lượng
ngẫu nhiên và những xác suất tương ứng của chúng được gọi là luật phân
bố của đại lượng ngẫu nhiên. Luật phân bố có thể được cho bởi bảng
phân bố hoặc đa giác phân bố.
Đối với đại lượng ngẫu nhiên liên tục, chúng ta không thể kể ra hết
tất cả các giá trị có thể có, hơn nữa từng giá trị riêng biệt của đại lượng
ngẫu nhiên liên tục thường có xác suất bằng không, nên người ta cho
phân bố bằng hàm phân bố F (x) :

F ( x) = P ( X < x )

Trong thực tế, nhiều khi cần xác định xác suất P ( X ≥ x) , khi đó
thay vì hàm phân bố F(x) người ta sử dụng hàm độ đảm bảo Φ (x) :

(1.1)

Người ta còn gọi F (x) là hàm phân bố tích phân hay luật phân bố
tích phân.
5

hoặc xác suất trung bình đối với một đơn vị độ dài trong khoảng giá trị
đó

F ( x + Δx) − F ( x)
.
Δx
Nếu Δx → 0 thì

lim Δx→0


F ( x + Δx) − F ( x)
= F ′( x) = f ( x) .
Δx

(1.3)

Hàm f (x) (đạo hàm của hàm phân bố) đặc trưng cho mật độ mà
các giá trị của đại lượng ngẫu nhiên phân bố ở điểm đã cho. Hàm này
được gọi là mật độ phân bố (hay “mật độ xác suất”) của đại lượng ngẫu
nhiên. Đôi khi người ta còn gọi hàm f (x) là hàm phân bố vi phân hoặc
6


n

luật phân bố vi phân của đại lượng ngẫu nhiên liên tục X .

x p + x 2 p 2 + ... + x n p n
m x = M[ X ] = 1 1
=
p1 + p 2 + ... + p n

Xác suất giá trị của đại lượng ngẫu nhiên X rơi vào khoảng từ α
đến β sẽ bằng
β

P (α < X < β ) = ∫ f ( x)dx

(1.4)


α

Có thể biểu thị hàm mật độ phân bố qua hàm phân bố bằng công
thức (1.3). Ngược lại, có thể biểu thị hàm phân bố qua hàm mật độ

∑x p
i =1
n

i

∑p
i =1

i

n

= ∑ xi p i . (1.6)
i =1

i

Như vậy, kỳ vọng toán học của đại lượng ngẫu nhiên là tổng của các
tích của tất cả các giá trị có thể có của đại lượng ngẫu nhiên với những
xác suất của các giá trị ấy.

(1.5)


Kỳ vọng toán học có liên quan với trung bình số học. Giả sử chúng
ta thực hiện N thí nghiệm độc lập, trong mỗi lần thí nghiệm đại lượng
X nhận giá trị xác định: giả sử giá trị x1 xuất hiện m1 lần, giá trị x2

Mật độ phân bố là hàm không âm ( f ( x) ≥ 0) , tích phân của hàm

xuất hiện m2 lần, nói chung, giá trị xi xuất hiện mi lần. Công thức tính

x

F ( x) =

∫ f ( x)dx .

−∞



mật độ với các giới hạn vô cùng bằng một (



f ( x) dx = 1 ). Như vậy,

trung bình số học các giá trị quan trắc đại lượng X sẽ là

M ∗[ X ] =

−∞


đường cong phân bố luôn luôn nằm trên trục hoành, diện tích đầy đủ giới
hạn bởi đường cong phân bố và trục hoành bằng một.
Thứ nguyên của hàm phân bố F ( x) giống như xác suất không có
thứ nguyên, thứ nguyên của mật độ phân bố f (x) nghịch đảo với thứ
nguyên của đại lượng ngẫu nhiên.
Trong nhiều vấn đề thực tế, không nhất thiết phải đặc trưng đại
lượng ngẫu nhiên một cách đầy đủ bằng hàm phân bố F (x) mà chỉ cần
chỉ ra những tham số bằng số riêng biệt ở mức độ nào đó đặc trưng cho
những nét chủ yếu của đại lượng ngẫu nhiên. Đó là những đặc trưng số
của đại lượng ngẫu nhiên:
1) Kỳ vọng toán học (giá trị trung bình) của đại lượng ngẫu nhiên:

= x1

n
n
m
m
m1
m
+ x 2 2 + ... + x n n = ∑ xi i = ∑ xi p i* .
N
N
N
N
i =1
i =1

trong đó pi∗ =


(1.7)

mi
là tần suất (hay xác suất thống kê).
N

Như vậy, trung bình số học của các giá trị quan trắc của đại lượng
ngẫu nhiên bằng tổng của các tích của tất cả các giá trị có thể có của đại
lượng ngẫu nhiên với tần suất của những giá trị đó.
Đối với đại lượng ngẫu nhiên liên tục X kỳ vọng toán học tính theo
công thức

m x = M[ X ] =

Nếu đại lượng ngẫu nhiên rời rạc X có các giá trị có thể có
x1 , x 2 , ..., x n với xác suất p1 , p 2 , ..., p n thì kỳ vọng toán học của đại



∫ x f ( x) dx .

(1.8)

−∞

2) Mốt của đại lượng ngẫu nhiên là giá trị hay xảy ra nhất của nó.

lượng ngẫu nhiên sẽ bằng
7


x1 m1 + x 2 m 2 + ... + x n m n x1 m1 + x 2 m 2 + ... + x n m n
=
m1 + m 2 + ... + m n
N

8


Cụm từ “hay xảy ra nhất” chỉ hoàn toàn chính xác đối với các đại lượng
ngẫu nhiên rời rạc, đối với đại lượng ngẫu nhiên liên tục thì mốt là giá trị
mà tại đó mật độ xác suất cực đại. Người ta ký hiệu mốt bằng chữ M.
Trên hình 1.1 biểu diễn mốt của các đại lượng ngẫu nhiên rời rạc và liên
tục.

n

α s [X ] = ∑ xis p i .

Đối với đại lượng ngẫu nhiên liên tục X , mômen gốc bậc s là tích
phân


α s [X ] =

pi

(1.9)

i =1


∫x

s

f ( x) dx .

(1.10)

−∞

f(x)

Từ các công thức (1.9) và (1.10) thấy rằng kỳ vọng toán học chính
là mômen gốc bậc một.

0

M

x

Các công thức (1.9) và (1.10) có thể thống nhất thành một công thức
chung cho cả các đại lượng ngẫu nhiên rời rạc lẫn liên tục là

x
0

α s [X ] = M [X s ]

M


Hình 1.1. Biểu diễn mốt của các đại lương ngẫu nhiên rời rạc và liên tục

Trong trường hợp tổng quát thì mốt và kỳ vọng toán học của đại
lượng ngẫu nhiên không trùng nhau. Khi nào phân bố là đối xứng và có
mốt (tức có một mốt) và tồn tại kỳ vọng toán học thì kỳ vọng toán học
trùng với mốt và tâm đối xứng của phân bố.
3) Trung vị của đại lượng ngẫu nhiên (thường chỉ dùng cho đại
lượng liên tục) là giá trị Me của nó sao cho

(1.11)

Như vậy, mômen gốc bậc s của đại lượng ngẫu nhiên X là kỳ
vọng toán học của mũ bậc s của đại lượng ngẫu nhiên đó.
5) Đại lượng ngẫu nhiên

o

X

nhận được bằng công thức
o

X = X − mx

(1.12)

P ( X < Me) = P( X > Me) .

gọi là đại lượng ngẫu nhiên quy tâm tương ứng của đại lượng X . Dễ

dàng thấy rằng kỳ vọng toán học của đại lượng ngẫu nhiên quy tâm bằng
không.

Trên đồ thị phân bố, trung vị là hoành độ của điểm mà diện tích giới
hạn bởi đường cong phân bố bị chia làm đôi. Trong trường hợp phân bố
đối xứng có mốt thì trung vị trùng với kỳ vọng toán học và mốt.

Các mômen của đại lượng ngẫu nhiên quy tâm được gọi là các
mômen tâm. Mômen tâm bậc s của đại lượng ngẫu nhiên X là kỳ vọng
toán học của luỹ thừa bậc s của đại lượng ngẫu nhiên quy tâm tương ứng

4) Các mômen:

o s

μ s [ X ] = M[ X ] = M[( X − m x ) s ] .

Mômen gốc bậc s của đại lượng ngẫu nhiên rời rạc X là tổng dạng

Đối với đại lượng ngẫu nhiên rời rạc:

9

10

(1.13)


n


μ s = ∑ ( x i − m x )s p i ,

(1.14)

i =1

còn đối với đại lượng ngẫu nhiên liên tục:

μs =



∫ (x − m )

s

x

f ( x) dx .

(1.15)

−∞

Rõ ràng đối với đại lượng ngẫu nhiên bất kỳ mômen tâm bậc một
bằng không.
Tồn tại các công thức liên hệ giữa các mômen tâm và gốc như sau:

μ1 = 0,




μ 2 = α 2 − m x2 ,

3 ⎬
μ 3 = α 3 − 3m xα 2 + 2m x ,⎪
.................................... ⎪⎭

Phương sai của các đại lượng ngẫu nhiên là đặc trưng phân tán, tản
mạn của những giá trị đại lượng ngẫu nhiên xung quanh kỳ vọng toán
học của nó.
7) Phương sai có thứ nguyên bình phương của đại lượng ngẫu nhiên.
Để đặc trưng rõ hơn độ tản mạn người ta dùng một đại lượng có thứ
nguyên trùng với thứ nguyên của đại lượng ngẫu nhiên gọi là độ lệch
bình phương trung bình σ [ X ] (hay ký hiệu bằng σ x ):

σ [ X ] = D[ X ] .

(1.20)

Phương sai và độ lệch bình phương trung bình có thể tính theo
mômen gốc bậc hai α 2 và kỳ vọng toán học bằng các công thức:

D x = α 2 − m x2 ,

⎫⎪

σ x = D x = α 2 − m x2 . ⎪⎭

(1.16)


(1.21)

8) Mômen tâm bậc ba μ 3 dùng để đặc trưng tính bất đối xứng của

6) Mômen tâm bậc hai là đặc trưng đặc biệt quan trọng trong số các
mômen khác, được ký hiệu là D [ X ] (hoặc Dx ) và thường gọi là

phân bố. Nếu phân bố đối xứng đối với kỳ vọng toán học thì μ 3 (và tất

phương sai:

cả các mômen bậc lẻ) bằng không (xét theo cấu trúc của các công thức
(1.14) và (1.15)).

o 2

D[ X ] = μ 2 = M[ X ] .

(1.17)

Như vậy, phương sai của đại lượng ngẫu nhiên X là kỳ vọng toán
học của bình phương đại lượng ngẫu nhiên quy tâm tương ứng.
Các công thức để tính trực tiếp phương sai của các đại lượng ngẫu
nhiên rời rạc và liên tục tuần tự là:
n

D [ X ] = ∑ ( xi − m x ) p i ,
2


(1.18)

i =1



D[ X ] =

∫ (x − m )
x

2

f ( x) dx .

(1.19)

Mômen tâm bậc ba có thứ nguyên lập phương đại lượng ngẫu nhiên.
Người ta dùng đại lượng

Sk =

(1.22)

không có thứ nguyên để đặc trưng cho tính bất đối xứng của phân bố,
được gọi là hệ số bất đối xứng. Khi S k > 0 ta có phân bố bất đối xứng
dương (đường cong 1), khi S k < 0 − bất đối xứng âm (đường cong 2)
trên hình 1.2.

−∞


11

μ3
σ3

12


f (x)
Ex < 0
Ex = 0
Ex > 0

x
0

Hình 1.2. Các đường cong phân bố bất đối xứng

9) Mômen tâm bậc bốn dùng để đặc trưng “độ dốc”, tức mức độ
đỉnh nhọn hay đỉnh dẹt của phân bố. Người ta dùng đại lượng gọi là độ
nhọn E x của đại lượng ngẫu nhiên liên quan với mômen bậc bốn như

Hình 1.3. Các đường cong phân bố có độ nhọn khác nhau

10) Nhiều khi người ta sử dụng những mômen tuyệt đối (gốc và
tâm) mà trong số đó thường dùng nhất là mômen tâm tuyệt đối bậc một:

sau:


Ex =

μ4
−3.
σ4



nhiên thì tỷ số



(1.223)

Đối với luật phân bố chuẩn rất quan trọng và thường gặp trong tự

μ4
= 3 , nên độ nhọn E x = 0 . Những phân bố có đỉnh
σ4

nhọn hơn so với phân bố chuẩn thì E x > 0 , những phân bố có đỉnh dẹt
hơn so với phân bố chuẩn sẽ có E x < 0 (xem hình 1.3).

13



γ 1 = M ⎢ X ⎥ = M [ X − mx ],
o




(1.24)

gọi là độ lệch trung bình số học, cũng đặc trưng cho độ tản mạn.
1.2. Luật phân bố chuẩn

Trong lý thuyết xác suất người ta đặc biệt quan tâm tới một kiểu luật
phân bố gọi là luật phân bố chuẩn (hay phân bố Gauss). Đây là kiểu phân
bố thường gặp nhất trong thực tế. Người ta đã chứng minh được rằng
tổng của một số lượng đủ lớn các đại lượng ngẫu nhiên độc lập (hoặc phụ
thuộc ít) tuân theo những quy luật phân bố bất kỳ nào đó sẽ xấp xỉ tuân
theo quy luật chuẩn và điều này được thể hiện càng chính xác nếu lấy
tổng của càng nhiều các đại lượng ngẫu nhiên. Điều hạn chế chủ yếu là
các đại lượng ngẫu nhiên được cộng lại phải có vai trò đều nhau và tương
đối nhỏ trong tổng chung.
14


Quy luật phân bố chuẩn được đặc trưng bởi mật độ xác suất dạng:

f ( x) =

1

σ 2π

e




( x −m ) 2
2σ 2

,

(1.25)

trong đó m − kỳ vọng toán học của đại lượng ngẫu nhiên X , σ − độ
lệch bình phương trung bình của nó.

theo công thức truy hồi μ s = ( s − 1)σ 2 μ s − 2 ; S k = 0; E x = 0 .
Để tính được xác suất mà đại lượng ngẫu nhiên X tuân theo quy
luật chuẩn với các tham số m và σ rơi vào khoảng giá trị từ α tới β
phải dùng công thức tổng quát

P (α < X < β ) = F ( β ) − F (α ) ,

(1.26)

trong đó F ( x) − hàm phân bố của đại lượng ngẫu nhiên X tính theo
công thức (1.5):
x

F ( x) =

∫ f ( x) dx = σ

σ


Đường cong phân bố theo luật chuẩn có dạng hình đồi đối xứng

1

σ 2π

ứng với

2

e − t hay e

2σ 2

dx .

−∞

x−m

1

σ

∫e






t2
2

dt .

(1.27)

−∞

2

− t2

(tích phân xác suất) đã lập thành bảng.

Thí dụ, nếu ta dùng hàm

φ ∗ ( x) =

1


x



2

e


− t2

dt ,

(1.28)

−∞

thì ta tính

⎛ x−m⎞
F ( x) = φ ∗ ⎜
⎟.
⎝ σ ⎠

Tính toán các đặc trưng bằng số của phân bố chuẩn cho các kết quả
sau: μ 0 = 1; μ1 = 0 (và tất cả các mômen bậc lẻ bằng không);

Do đó

μ 2 = σ 2 ; μ 4 = 3σ 4 ; μ 6 = 15σ 6 ; nói chung các mômen bậc s tính
15

( x−m) 2

Tích phân (1.27) không biểu thị được bằng các hàm cơ bản, nhưng
có thể tính nó qua hàm đặc biệt biểu thị tích phân xác định của biểu thức

hoành độ x = m . Xa dần m mật độ phân bố giảm đi và khi x → ± ∞
đường cong tiệm cận dần tới trục hoành. Điểm m là tâm đối xứng của

phân bố, gọi là tâm tản mạn; tham số σ là đặc trưng tản mạn. Khi σ
tăng thì tung độ cực đại giảm và đường cong phân bố trở nên phẳng hơn,
duỗi dài theo trục hoành, ngược lại, khi σ giảm đường cong phân bố nhô
cao lên trên, đồng thời co hẹp hai bên lại.



= t có thể dẫn tích phân trên tới dạng

F ( x) =

Hình 1.4. Đồ thị hàm mật độ phân bố chuẩn

(hình 1.4). Tung độ cực đại của đường cong bằng

x−m

∫e



−∞

Nếu thay biến

x

1

16


(1.29)


⎛β −m⎞
∗⎛α − m ⎞
P (α < X < β ) = φ ∗ ⎜
⎟.
⎟ −φ ⎜
⎝ σ ⎠
⎝ σ ⎠

(1.30)

Như vậy, chúng ta đã biểu thị xác suất của đại lượng ngẫu nhiên X
phân bố theo luật chuẩn với các tham số bất kỳ rơi vào khoảng giá trị cho
trước từ α đến β qua hàm phân bố quy chuẩn φ * ( x) ứng với luật

suy ra

⎛E⎞
2φ ∗ ⎜ ⎟ − 1 = 0,5 ,
⎝σ ⎠
do đó

φ ∗ ⎛⎜ E ⎞⎟ = 0,75 .

phân bố chuẩn đơn giản nhất có các tham số tuần tự là m = 0 và σ = 1 .
Hàm φ * ( x) đã được bảng hóa và các giá trị của nó có ở các sách giáo


⎝σ ⎠

khoa về lý thuyết xác suất và toán thống kê bất kỳ, ở các tài liệu chuyên
khảo và các cẩm nang toán học. Bảng 1.1 là một dạng thuộc loại các bảng
đó.

f (x)

Độ lệch xác suất. Trong nhiều ứng dụng lý thuyết xác suất người ta
thường dùng một đặc trưng tản mạn gọi là độ lệch xác suất, ký hiệu bằng
E.
Độ lệch xác suất của đại lượng ngẫu nhiên X phân bố theo luật
chuẩn là nửa độ dài của một đoạn đối xứng qua tâm tản mạn mà xác suất
rơi vào đó bằng 0,5 (xem hình 1.5).
Có thể viết

m−E m m+E

0

x

Hình 1.5. Biểu diễn độ lệch xác suất

P ( X − m < E ) = 0,5

Theo bảng giá trị của hàm φ ∗ ta tìm ngược lại được

E


hay

σ

P (m − E < X < m + E ) = 0,5 .
Dùng công thức (1.30) ta có:

= 0,674 → E = 0,674σ .

(1.31)

Ý nghĩa của E là với số lượng lớn thí nghiệm về trung bình sẽ có
một nửa số giá trị của đại lượng ngẫu nhiên X lệch khỏi m vượt quá E
và một nửa - nhỏ hơn E . Vì vậy E còn được gọi là độ lệch trung tâm.

⎛E⎞
⎛ E⎞
P (m − E < X < m + E ) = φ ∗ ⎜ ⎟ − φ ∗ ⎜ − ⎟ .
⎝σ ⎠
⎝ σ⎠
Theo tính chất của hàm φ *

φ ∗ ( x) = 1 − φ ∗ ( − x) ,
17

18



Bảng 1.1. Bảng các giá trị của tích phân xác suất φ ( x ) =


x

-3,9
-3.8
-3,7
-3,6
-3,5
-3,4
-3,3
-3,2
-3,1
-3,0
-2,9
-2,8
-2,7
-2,6
-2,5
-2,4
-2,3
-2,2
-2,1
-2,0

φ*

0,000048
0,000072
0,000108
0,000159

0,000233
0,000337
0,000483
0,000687
0,000968
0,001350
0,001866
0,002555
0,003467
0,004661
0,006210
0,008198
0,010724
0,013903
0,017864
0,022750

x

-1,9
-1,8
-1,7
-1,6
-1,5
-1,4
-1,3
-1,2
-1,1
-1,0
-0,9

-0,8
-0,7
-0,6
-0,5
-0,4
-0,3
-0,2
-0,1

1


x



x p . Để kí hiệu các giá trị x p trong trường hợp này trong toán học thống

2

e

− t2

dt

kê sử dụng thuật ngữ quantil, cũng có những sách gọi là điểm phần trăm
(percentage point) của phân bố.
Vậy quantil-p hay quantil-p% (nếu p cho bằng %) là giá trị của đại
lượng ngẫu nhiên x p ứng với giá trị đã cho của xác suất không vượt quá


−∞

φ*

x

φ*

x

φ*

0,028717
0,035930
0,044565
0,054799
0,066807
0,080757
0,096801
0,115070
0,135666
0,158655
0,184060
0,211855
0,241964
0,274253
0,308538
0,344578
0,382089

0,420740
0,460172

0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0

0,500000
0,539828
0,579260
0,617911
0,655422

0,691462
0,725747
0,758036
0,788145
0,815940
0,841345
0,864334
0,884930
0,903199
0,919243
0,933193
0,945201
0,955435
0,964070
0,971283
0,977250

2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,3

3,4
3,5
3,6
3,7
3,8
3,9

0,982136
0,986097
0,989276
0,991802
0,993790
0,995339
0,996533
0,997445
0,998134
0,998650
0,999032
0,999313
0,999517
0,999663
0,999767
0,999841
0,999892
0,999928
0,999952

1.3. Quantil phân bố
Trong mục 1.1 ta đã định nghĩa hàm phân bố tích phân F (x) , theo
đó đối với x bất kì có thể xác định được xác suất sự kiện đại lượng ngẫu

nhiên X nhận các giá trị không lớn hơn x (gọi là xác suất không vượt
quá). Trong nhiều trường hợp thực tế cần giải quyết bài toán ngược lại:
theo một xác suất không vượt quá cho trước F ( x) = p xác định giá trị
19

F ( x) = p .

Tương tự với các quantil, trong khí tượng, thủy văn người ta sử
dụng các tung độ − pˆ của đường cong độ đảm bảo (1.2). Tung độ đường
cong độ đảm bảo là giá trị của đại lượng ngẫu nhiên X (kí hiệu bằng xˆ p )
ứng với xác suất vượt quá Φ ( x) = pˆ .
Vì Φ ( x) = 1 − F ( x) (công thức 1.2) nên p và pˆ liên hệ bằng
công thức

pˆ = 1 − p hay (nếu p cho bằng %) pˆ = 100 − p .

(1.32)

1.4. Một số luật phân bố khác
1.4.1. Phân bố chuẩn loga

Nhiều yếu tố khí tượng thủy văn có thể được xem như các đại lượng
ngẫu nhiên có phân bố bất đối xứng dương. Đó là do những yếu tố đó
thường có những giá trị luôn lớn hơn không hoặc một giới hạn dưới nào
đó, nhưng không có giới hạn trên về lý thuyết. Trong những trường hợp
đó phân bố của đại lượng ngẫu nhiên không tuân theo luật phân bố
chuẩn.
Tuy nhiên thường phân bố bất đối xứng có thể dẫn tới phân bố
chuẩn bằng cách đổi biến thành logarit của nó.
Đại lượng ngẫu nhiên không âm X được gọi là phân bố chuẩn loga

nếu như logarit của nó

Z = ln X
20


phân bố theo luật chuẩn.

1 ⎛⎜ σ x2 ⎞⎟
+1
ln
2 ⎜ m2 ⎟
⎝ x ⎠
⎛σ2 ⎞
ln ⎜ x +1 ⎟
⎜ 2 ⎟
⎝ mx ⎠

ln x − ln m x −

Hàm phân bố đối với đại lượng ngẫu nhiên X trong trường hợp này
có dạng



F ( x) = ⎨
⎪ F (u ) =


u


1


∫e



s2
2

x>0

ds

trong đó

u=

z − mz

σz

z = ln x .

;

(1.34)

x≤0

x>0

(1.35)

Như vậy phân bố chuẩn loga được xác định bằng hai tham số: m z

và σ z . Đại lượng m z là kì vọng toán học của đại lượng ngẫu nhiên Z,
còn σ z − độ lệch bình phương trung bình của nó.

x > 0 . (1.37)

nhận được qua m x và σ x theo các công thức (1.36). Sự khác biệt sẽ

Trong thực tế thường là phân bố thực của đại lượng ngẫu nhiên
nghiên cứu không được biết, nên có thể có hai phương án tính toán:
1) ước lượng m z và σ z thực hiện theo chuỗi giá trị của đại lượng
ngẫu nhiên Z;
2) theo chuỗi giá trị của đại lượng ngẫu nhiên X ước lượng mx và

σ x , sau đó theo các công thức (1.36) xác định m z và σ z .


⎛σ
D z = σ z2 = ln⎜⎜
+ 1⎟⎟

⎝m
2
x
2

x


1 ⎛σ 2
m z = ln m x −
= ln m x − ln⎜⎜ x2 + 1⎟⎟
2
2 ⎝ mx


e

Nếu luật phân bố của đại lượng ngẫu nhiên X chưa biết và phân bố
chuẩn loga được sử dụng để xấp xỉ phân bố thực nghiệm của X thì các trị
số mz và σ z đối với đại lượng ngẫu nhiên Z có thể khác với m z và σ z

Phương sai, độ lệch bình phương trung bình và kì vọng toán học của
các đại lượng ngẫu nhiên X và Z liên hệ với nhau bằng các biểu thức:

σ z2

⎛σ

2π ln ⎜⎜
+ 1⎟⎟
⎝m

2
x
2

x

càng lớn nếu luật phân bố của đại lượng ngẫu nhiên X càng khác với
phân bố chuẩn loga.

Hàm mật độ phân bố chuẩn loga có dạng:

0


u2

f ( x) = ⎨ 1
1
2
⎪σ x f (u ) = σ x 2π e
z
⎩ z

x

(1.33)

−∞

1

f ( x) =

x≤0


0

(1.36)

Hệ số bất đối xứng của phân bố chuẩn loga xác định theo công thức

σx

⎛σ
+ ⎜⎜ x
S =3
mx ⎝ mx


⎟⎟


3

Mod và trung vị của đại lượng ngẫu nhiên X có phân bố chuẩn
loga bằng
2

M = e ( mz −σ z )

Sử dụng (1.34), (1.36), (1.37) có thể viết lại biểu thức hàm mật độ
xác suất phân bố chuẩn loga (1.35) như sau:
21


(1.38)

Me = e
22

mz

(1.39)
(1.40)


Bảng 1.2. Lưu lượng lũ năm sông Đà trạm Hòa Binh thời kỳ 1929-2002 (a)

Đồ thị hàm mật độ xác suất và hàm phân bố chuẩn loga có dạng như
trên hình 1.6.

Năm
1929
1930
1931
1932
1933
1934
1935
1936
1937
1938
1939
1940
1941

1042
1943

0.06
0.05
0.04
0.03
0.02
0.01
5.0

7.5

10.0

12.5

15.0

17.5

20.0

Hình 1.6. Hàm mật độ xác suất theo quy luật chuẩn loga với

m x = 11,5; σ x = 2,25

Năm
1960
1961

1962
1963
1964
1965
1966
1967
1968
1969
1970

Thí dụ 1.2: Cho bảng số liệu quan trắc lưu lượng lũ năm sông Đà
tại Hòa Bình (bảng 1.2a). Giả sử phân bố của lưu lượng này có dạng phân
bố chuẩn loga, xác định hàm mật độ phân bố đó.
Giải: Tính trực tiếp các đặc trưng thống kê (chương 2) của đại lượng
ngẫu nhiên X theo bảng 1.2:
~ = 1763,0; σ~ = 270,07 .
m
x

Thế các giá trị này vào (1.37) ta được biểu thức hàm mật độ phân bố
của đại lượng ngẫu nhiên X như sau:
1
f ( x) =
e
0,4 x

Năm

Q


Năm

Q

Năm

Q

Năm

Q

1670
2140
1430
1500
1820
2230
1820
1880
1630
1740
1260
1650
1950
1950
1860

1944
1945

1946
1947
1948
1949
1950
1951
1952
1953
1954
1955
1956
1957
1958

2430
1300
1890
1940
1980
2030
1630
1640
1850
1520
1930
1750
1790
2100
2130


1959
1960
1961
1961
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973

1340
1760
1810
1550
1760
1810
1830
2140
2180
1720
1600
1330
1210
1940

2180

1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988

1980
2260
1900
1710
1760
1440
1780
1470
1690
1520
1560
1360

1480
1940
1730

1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
1001
2001

1660
1500
1940
1840
2060
1540
1390
1890
1940
1490
1750

1240
1790
2250

Mực nước biển tối cao năm trạm Hòn Dấu thời kỳ 1960-2014 (b)

Xác suất theo quy luật phân bố chuẩn loga được xác định theo bảng
phân bố chuẩn tiêu chuẩn (bảng 1.1), nhưng thay vì đại lượng ngẫu nhiên
nghiên cứu X người ta xét đại lượng Z = ln X .

x

Q

ln x − 7 , 49
0 ,15

và đồ thị hàm mật độ phân bố chuẩn loga này có dạng như trên hình 1.7.
23

24

H

Năm

H

Năm


H

Năm

H

Năm

H

347
351
347
361
384
392
386
392
400
392
380

1971
1972
1973
1974
1975
1976
1977
1978

1979
1980
1981

392
400
383
376
354
370
351
358
356
366
366

1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992

367
396

392
421
385
389
372
391
392
398
401

1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003

362
374
374
368
365
368
369
380

387
378
400

2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014

398
418
403
408
405
397
388
389
389
423
392


q − mod của đại lượng ngẫu nhiên X, bằng


q = m x − 0,45σ x ;

(1.44)

α = 1,28 / σ x .

(1.45)

Trong thực tế thay vì phương trình (1.43) người ta sử dụng phương
trình giải ra đối với x :
yˆ p
xˆ p = q +
.
(1.46)

α

Giá trị yˆ p có thể xác định từ (1.42) sau hai lần lấy logarit
Hình 1.7. Đồ thị hàm mật độ phân bố chuẩn loga
đối với lưu lượng sông Đà tại Hòa Bình

Có những biến thể khác của biến đổi chuẩn loga, ví dụ Alexeev đề
xuất biến đổi Z = ln( X − a) , trong đó a − tham số bổ sung (tham số thứ

ba). Phân bố này được gọi là phân bố chuẩn loga ba tham số; phân bố này
có giới hạn dưới bằng a .

100 − p ⎞


yˆ p = − ln⎜ − ln

100 ⎠


trong đó p − độ đảm bảo cho bằng %. Trong bảng 1.3 dẫn các giá trị yˆ p
ứng với một số giá trị độ đảm bảo hay sử dụng trong thực hành.

Bảng 1.3. Các giá trị

1.4.2. Phân bố của tập mẫu các giá trị cực trị (phân bố Gumbel)

Luật phân bố Gumbel thường áp dụng đối với đại lượng ngẫu nhiên
mô tả các đặc trưng cực trị của các yếu tố khí tượng thủy văn, ví dụ nhiệt
độ không khí hoặc nước tối cao, tối thấp năm tại trạm, mực nước biển tối
cao, tối thấp năm, lưu lượng sông tối cao, tối thấp năm...
Hàm phân bố Gumbel có dạng
F ( x) = P ( X ≤ x) = e − e

−y

(1.41)

hay hàm độ đảm bảo
Φ ( x) = P ( X ≥ x) = 1 − e

−e− y

(1.42)


y = α ( x − q) ;

yˆ p

pˆ %

yˆ p

pˆ %

yˆ p

0,01
0,1
0,5
1
5

9,09
6,89
5,29
4,60
2,97

10
20
30
50
70


2,25
1,50
1,03
0,37
-0,19

80
90
95
99,0
99,9

-0,48
-0,83
-1,10
-1,53
-1,93

Các biểu thức (1.44), (1.45) liên hệ các tham số q và α với mx và
σ x khi n → ∞ . Đối với tập thống kê gồm n hữu hạn giá trị Gumbel đề

(1.43)
25

yˆ p ứng với một số độ đảm bảo khác nhau

pˆ %

xuất các công thức


với

(1.47)

26


1

α

=

σx
,
σy

q = mx −

(1.48)

α , q được tính theo các công thức (1.48), (1.49), trong đó y và σ y xác
định theo bảng 1.4 tùy thuộc vào n.

y

α

.


(1.49)

Thí dụ 1.3: Xác định hàm mật độ phân bố và mực nước tối cao 1%
độ đảm bảo ( H 1% ) theo số liệu bảng 1.2b sử dụng luật phân bố Gumbel.

Các tham số y và σ y được xác định tùy theo độ dài chuỗi phân tích

Giải: 1) Tính m x và σ x : m x = 382,6; σ x = 18,6 .

(bảng 1.4).

2) Tra bảng 1.4 ứng với n = 55 được y = 0,5505 ; σ y = 1,1685 .

Tính tới công thức (1.43), biểu thức của hàm mật độ xác suất phân
bố Gumbel có dạng

3) Tính α và q theo các công thức (1.48-1.49):

f ( x ) = αe

−α ( x − q ) − e − α ( x − q )

.

α = 0,06; q = 373,4 .

(1.50)

Viết ra hàm mật độ, hàm phân bố và hàm độ đảm bảo:


Từ (1.50) thấy rằng miền các giá trị có thể của đại lượng ngẫu nhiên
X là khoảng (−∞, + ∞) . Phân bố này đơn trị xác định bằng các tham số
m x và σ x .
Bảng 1.4. Những giá trị trung bình của các tham số
theo độ dài chuỗi

y và σ y

y

σy

n

y

σy

20
22
24
26
28
30
32
34
36
38

0,524

0,527
0,530
0,532
0,534
0,536
0,538
0,540
0,541
0,542

1,063
1,076
1,086
1,096
1,105
1,112
1,119
1,126
1,131
1,136

40
42
44
46
48
50
52
54
56

58

0,544
0,545
0,546
0,547
0,548
0,548
0,549
0,550
0,551
0,552

1,141
1,146
1,150
1,154
1,157
1,161
1,164
1,167
1,170
1,172

n
60
65
70
75
80

85
90
95
100



y

σy

0,552
0,554
0,555
0,556
0,557
0,558
0,559
0,559
0,560
0,577

1,175
1,180
1,185
1,190
1,194
1,197
1,201
1,204

1,206
1,282

−0 , 06 ( x − 373, 4 )

;

Φ ( x) = P ( X ≥ x) = 1 − e −e

F ( x) = e − e

−0 , 06 ( x − 373, 4 )

−0 , 06 ( x − 373, 4 )

Đồ thị các hàm phân bố và hàm mật độ phân bố được biểu diễn trên
hình 1.8.
4) Theo công thức (1.47) hoặc bảng 1.3 xác định yˆ p : yˆ 1% = 4,60 .

n (theo Gumbel)

n

f ( x) = 0,06 e −0,06( x −373, 4) −e

5) Theo công thức (1.46) tính lưu lượng tính toán:
4,6
H 1% = 364,0 +
= 451 cm.
0,03


Để xác định hàm mật độ xác suất Gumbel của đại lượng ngẫu nhiên
X với số lượng n khá lớn các giá trị ta có thể tính m x và σ x , sử dụng các
công thức (1.44), (1.45) tính α , q và thế vào công thức (1.50). Khi n nhỏ
27

28


f(x) F(x)

σ [cX ] = c σ [ X ] .

1.0

5. KVTH của tổng các đại lượng nhẫu nhiên (ĐLNN):
0.8

M[ X + Y ] = M[ X ] + M[Y ]
(đúng đối với tổng của nhiều số hạng).

0.6

6. KVTH của hàm tuyến tính của một số đối số ngẫu nhiên:
X 1 , X 2 , ..., X n :

0.4

⎡n


⎡n

M ⎢∑ a i X i + b ⎥ = M ⎢∑ a i X i ⎥ + M[b] =
⎣ i =1

⎣ i =1


0.2
0.0

350

360

370

380

390

400

410

420

x

n


n

∑ M[a X ] + b = ∑ a M[X ] + b.
i =1

Hình 1.8. Tổ chức đồ, hàm mật độ (xanh) và hàm phân bố Gumbel (đỏ)
đối với mực nước tối cao năm trạm Hòn Dấu

i

i

i =1

i

i

7. Phương sai của tổng các ĐLNN:

D[ X + Y ] = D[ X ] + D[Y ] + 2 K xy ,
⎤ n
⎡n
D ⎢∑ X i ⎥ = ∑
⎣ i =1 ⎦ i =1

Phụ lục chương 1
A. Những định lý về các đặc trưng số


n

∑K
j =1

ij

.

Nếu các ĐLNN không tương quan lẫn nhau:

1. Kỳ vọng toán học (KVTH) của hằng số bằng chính hằng số:

⎤ n
⎡n
D ⎢∑ X i ⎥ = ∑ D[X i ] .
⎣ i =1 ⎦ i =1

M[c] = c .
2. Phương sai của đại lượng không ngẫu nhiên:

8. Phương sai của hàm tuyến tính của một số ĐLNN:

D[c] = 0 .

⎤ n
⎡n
D ⎢∑ ai X i + b ⎥ = ∑ ai2 D[ X i ] .
⎣ i =1
⎦ i =1


3. Đưa đại lượng không ngẫu nhiên ra ngoài dấu KVTH:

M[cX ] = cM[ X ] .

9. KVTH của tích các ĐLNN:

4. Đưa đại lượng không ngẫu nhiên ra ngoài dấu phương sai:

M[ XY ] = M[ X ] × M[Y ] + K xy ,

D[cX ] = c 2 D[ X ] ,

Nếu X và Y không tương quan:
29

30


M[ XY ] = M[ X ] × M[Y ] ,

bằng np , còn phương sai bằng npq , với q = 1 − p .

⎤ n
⎡ n
M ⎢∏ X i ⎥ = ∏ M[ X i ] .
⎣ i =1
⎦ i =1

Chứng minh: Xem ĐLNN trên là tổng của các ĐLNN X 1 , X 2 ,

..., X n biểu thị số lần xuất hiện sự kiện A tuần tự trong thí nghiệm thứ
nhất, thứ hai, ..., thứ n . Vậy chúng chỉ có thể có hai giá trị: bằng 0 nếu
sự kiện A không xảy ra trong lần thí nghiệm i ( i = 1, 2, ..., n ), bằng 1

10. Phương sai của tích các ĐLNN:

D[ XY ] = D[ X ]D[Y ] + m x2 D[Y ] + m y2 D[ X ] ,

nếu A xảy ra. Vậy X 1 , X 2 , ..., X n phân bố như nhau và độc lập, quy

D[ X&Y& ] = D[ X& ]D[Y& ] .

luật phân bố của từng ĐLNN trong chúng có dạng sau:
giá trị
xác suất

B. Kỳ vọng toán học và phương sai của một số đại lượng ngẫu nhiên
Định lý 1: Nếu X 1 , X 2 , ..., X n − những đại lượng ngẫu nhiên
phân bố như nhau, KVTH của từng ĐLNN trong số chúng bằng a , thì
KVTH của tổng các ĐLNN đó bằng na , còn KVTH của trung bình số
học bằng a :

0

1

q

p


Ta tìm KVTH của từng X i theo công thức tính KVTH (công thức
(1.5)):

M[ X 1 ] = M[ X 2 ] = ... = M[ X n ] = 0 ⋅ q + 1 ⋅ p = p .

M[ X 1 + X 2 + ... + X n ] = M[ X 1 ] + M[ X 2 ] + ... + M[ X n ] = na .

D[ X 1 ] = D[ X 2 ] = ... = D[ X n ] = (0 − p ) 2 ⋅ q + (1 − p ) 2 ⋅ p

1
⎡ X + X 2 + ... + X n ⎤ 1
M⎢ 1
= M[ X 1 + X 2 + ... + X n ] = na = a .

n
n
⎦ n


= p 2 q + q 2 p = pq ( p + q ) = pq
(theo công thức (1.17)).
Do đó:

Định lý 2: Nếu X 1 , X 2 , ..., X n − những ĐLNN phân bố như nhau,

M[ X ] = M[ X 1 + X 2 + ... + X n ] = np .

phương sai của từng ĐLNN bằng σ 2 , thì phương sai của tổng bằng
nσ 2 , còn phương sai của trung bình số học bằng σ 2 / n :


D[ X 1 + X 2 + ... + X n ] = D[ X 1 ] + D[ X 2 ] + ... + D[ X n ] = nσ 2 ,
1
⎡ X + X 2 + ... + X n ⎤ 1
D⎢ 1
= 2 D[ X 1 + X 2 + ... + X n ] = 2 nσ 2 = σ 2 / n .

n
n

⎦ n
Định lý 3: KVTH của ĐLNN phân bố theo quy luật nhị thức, tức
của số lần xuất hiện sự kiện A trong n thí nghiệm độc lập, mà trong
từng thí nghiệm sự kiện ấy có thể xuất hiện với xác suất không đổi p ,
31

D[ X ] = D[ X 1 + X 2 + ... + X n ] = npq .
Định lý 4: KVTH của tần suất của sự kiện A trong n thí nghiệm
độc lập, mà trong từng thí nghiệm sự kiện A có thể xảy ra với xác suất
không đổi p , bằng chính xác suất p , còn phương sai bằng pq / n .
Chứng minh: Tần suất của sự kiện A trong n thí nghiệm có thể
được xem như trung bình số học của các ĐLNN X 1 , X 2 , ..., X n phân bố
như nhau, độc lập:
32


p* =

X 1 + X 2 + ... + X n
,
n


D. Mã Fortran của chương trình con tra giá trị hàm tích phân xác
suất theo đối số ( x − m x ) / σ x theo bảng 1.1 (công thức (1.28))
C Từ x , m , σ (s) tra xác suất phân bố F ( x) = φ * (( x − m) / σ ) , φ * − tích phân
C xác suất (bảng 1.1), được lưu trong file BANG1_1.TKE với quy cách ghi như
C sau: một dòng tiêu đề trên cùng, nối tiếp sau từng cặp đối số và hàm φ * , giá
C trị nhỏ nhất của đối số: -3,99, lớn nhất: 3,99.

⎡ X + X 2 + ... + X n ⎤
M p = M⎢ 1

n


1
= M[X 1 + X 2 + ... + X n ]
n
1
1
= (M[ X 1 ] + M[ X 2 ] + ... + M[X n ]) = np = p.
n
n
⎡ X + X 2 + ... + X n ⎤
D p * = D⎢ 1

n


1
1

pq
= 2 D[X 1 + X 2 + ... + X n ] = 2 npq =
n
n
n

[ ]
*

[ ]

hay

σ = pq / n .
C. Mã Fortran của chương trình con tính giá trị hàm mật độ xác suất
của phân bố chuẩn theo công thức (1.24)

C m và s là kỳ vọng toán học và độ lệch chuẩn
FUNCTION Gauss(m,s,x)
PARAMETER (pi=3.141593)
REAL x, m, s
x = (x-m)/s
x = -0.5*x*x
Gauss = 1.0/(s*sqrt(2*pi))*exp(x)
RETURN
END
33

FUNCTION TraB1_1 (x, m, s)
REAL x, m, s, z, v, z1, z2, v1, v2

z = (x-m)/s
IF (z.LT.-3.99) THEN
v=0.000003
ELSE IF (z.GT.3.99) THEN
v=0.999967
ELSE
OPEN (1, FILE = ‘bang1_1.tke’)
READ (1, *)
READ (1, *) z1, v1
2
READ (1, *) z2, v2
IF (z.GE.z1.AND.z.LE.z2) THEN
v = v1+(v2-v1)/(z2-z1)*(z-z1)
CLOSE (1)
GOTO 1
ELSE
z1 = z2
v1 = v2
GOTO 2
ENDIF
ENDIF
1 TraB1_1 = v
RETURN
END
34


liên tục - sẽ là một hàm bậc thang gián đoạn (hình 2.1). Khi tăng số quan
trắc n , theo định lý Becnuli, với x bất kỳ tần suất sự kiện X < x tiến
dần tới xác suất (hội tụ về xác suất) của sự kiện đó. Do đó, khi tăng n

hàm phân bố thống kê F ∗ ( x ) sẽ tiến tới hàm phân bố thực thụ F ( x ) của
đại lượng ngẫu nhiên X .
F*(x)

Chương 2

1

NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT
XỬ LÝ SỐ LIỆU QUAN TRẮC
Giả sử cần nghiên cứu đại lượng ngẫu nhiên X nào đó mà luật
phân bố của nó chưa biết trước đích xác, phải xác định quy luật đó từ thí
nghiệm hay kiểm tra bằng thực nghiệm giả thuyết về một quy luật nào
đó. Khi đó, người ta làm một loạt thí nghiệm với đại lượng ngẫu nhiên
X và trong mỗi thí nghiệm (quan trắc), đại lượng X nhận một giá trị
nhất định. Tập hợp các số liệu quan trắc của đại lượng được gọi là tập
hợp thống kê đơn giản hay chuỗi thống kê đơn giản. Thông thường, tập
hợp thống kê đơn giản được trình bày dưới dạng bảng.
2.1. Hàm phân bố thống kê
Hàm phân bố thống kê của đại lượng ngẫu nhiên X là tần suất của
sự kiện X < x trong chuỗi thống kê đó

F ∗ (x ) = P ∗ ( X < x ) .

(2.1)

Để tìm giá trị của hàm phân bố thống kê ứng với x cho trước chỉ
cần đếm số quan trắc mà trong đó đại lượng X nhận giá trị nhỏ hơn x
và chia cho tổng số quan trắc đã thực hiện n .
Hàm phân bố thống kê của đại lượng ngẫu nhiên bất kỳ - rời rạc hay

35

x
Hình 2.1. Biểu diễn hàm phân bố thống kê

Nếu số quan trắc lớn (cỡ vài trăm quan trắc) tập hợp thống kê đơn
giản sẽ cồng kềnh và ít trực quan, người ta phải sơ lược xử lý nó và xây
dựng “chuỗi thống kê” dưới dạng bảng như sau:
Khoảng trị I i
Tần suất


pi

x1 ; x2

x2 ; x3

x3 ; x4


p1


p2


p3

...


xi ; xi +1

...


pi

...
...

x k ; x k +1


pk

và dựa vào bảng này mà xây dựng tổ chức đồ (histogram) (hình 2.2). Khi
tăng số quan trắc tổ chức đồ sẽ là đồ thị của hàm mật độ phân bố đại
lượng ngẫu nhiên X .
Từ chuỗi thống kê hay tổ chức đồ, có thể nhận được đồ thị gần đúng
của hàm phân bố thống kê (hình 2.3).
36


- Phương sai thống kê:

p

∑ (xi − m∗x )
n


Dx∗ = D∗ [ X ] =

Hình 2.2. Tổ chức đồ thống kê

F*(x)
1

f ( x) =

- Trung bình số học (hay trung bình thống kê) của các giá trị quan
trắc của đại lượng ngẫu nhiên:
n

.

.

(2.3)

σ



e

( x − m )2
2σ 2

D = σ∗ =


D∗ .

2.2. Sự phù hợp của phân bố lý thuyết và phân bố thống kê

Đối với các phân bố thống kê người ta cũng tính được các đặc trưng
bằng số tương tự như với các đặc trưng bằng số của các đại lượng ngẫu
nhiên:

n



1

m = m∗x và σ =

Hình 2.3. Đồ thị gần đúng của hàm phân bố thống kê

i =1

n

thì người ta chọn

x

m∗x = M∗ [ X ] =

i =1


Khi đã xác định được phân bố thống kê, có thể giải quyết bài toán là
trơn, tức chọn đường cong phân bố lý thuyết đều đặn về phương diện nào
đó mô tả tốt nhất phân bố thống kê đó. Biểu thức giải tích của đường
cong phân bố được chọn phụ thuộc vào một số tham số, do đó, nhiệm vụ
là trơn là chọn hợp lý các tham số đó. Một trong những phương pháp
chọn hợp lý là phương pháp mômen, theo phương pháp này một số đặc
trưng bằng số quan trọng nhất (các mômen) của phân bố lý thuyết được
cho bằng các đặc trưng thống kê tương ứng. Thí dụ, nếu muốn mô tả
phân bố của đại lượng ngẫu nhiên X bằng phân bố chuẩn

x

∑ xi

2

(2.2)

Giả sử phân bố thống kê đã được là trơn bằng một đường cong lý
thuyết f (x) nào đó. Dù đường cong lý thuyết này được chọn tốt thế nào
chăng nữa cũng không tránh khỏi những sai khác nào đó. Vậy xuất hiện
câu hỏi: những sai khác này là ngẫu nhiên liên quan tới số lượng quan
trắc hạn chế hay những sai khác này là đáng kể và liên quan tới việc chọn
sai đường cong lý thuyết. Để trả lời câu hỏi này cần “những tiêu chuẩn
phù hợp”. Tư tưởng của việc sử dụng các tiêu chuẩn phù hợp như sau:
Trên cơ sở dữ liệu thống kê đã có, cần kiểm tra một giả thuyết H

37


38


rằng đại lượng ngẫu nhiên X có hàm phân bố F ( x ) . Để chấp nhận hoặc

vào hàm F (x) . Tiêu chuẩn χ 2 của Pierson là một trong những tiêu

bác bỏ giả thuyết H , người ta xét đại lượng U đặc trưng cho mức độ
bất phù hợp của phân bố lý thuyết và phân bố thống kê. Đại lượng U có
thể được chọn theo những cách khác nhau, thí dụ, đó có thể là tổng các
bình phương của độ lệch giữa xác suất lý thuyết p i và tần suất tương

chuẩn phù hợp được ứng dụng nhiều nhất.

ứng pi∗ hay tổng của những bình phương độ lệch đó nhưng với những hệ

Giả sử thực hiện n quan trắc độc lập. Kết quả quan trắc được dẫn
tới k khoảng giá trị và cho dưới dạng chuỗi thống kê (bảng phân bố tần
suất). Đòi hỏi kiểm tra xem những dữ liệu quan trắc này có phù hợp với
giả thiết rằng đại lượng ngẫu nhiên X có quy luật phân bố F (x) đã cho

số tỷ trọng nào đó, hay độ lệch cực đại của hàm phân bố thống kê F ∗ ( x )
và hàm lý thuyết F ( x ) ...

không.

Giả sử đại lượng U đã chọn được theo một cách nào đó. Rõ ràng
U sẽ là một đại lượng ngẫu nhiên. Quy luật phân bố của nó phụ thuộc
vào quy luật phân bố của đại lượng ngẫu nhiên X và vào số lượng quan
trắc n . Giả sử quy luật phân bố này đã được biết. Nhờ dữ liệu thống kê

thấy rằng đại lượng đặc trưng mức độ sai khác U nhận giá trị u . Sai
khác này là do những nguyên nhân ngẫu nhiên hay do có sự khác nhau
đáng kể giữa phân bố lý thuyết và thống kê, tức do giả thuyết H sai?
Muốn giải đáp câu hỏi này người ta giả thiết rằng giả thuyết H đúng và
tính xác suất mà do những nguyên nhân ngẫu nhiên liên quan tới số
lượng quan trắc còn thiếu mà đại lượng U không nhỏ hơn giá trị u đã
thấy qua quan trắc, tức tính xác suất của sự kiện

thuyết của sự kiện X rơi vào từng khoảng giá trị:

U ≥ u.

Biết quy luật phân bố lý thuyết F ( x ) , có thể tính những xác suất lý
p1, p2 , ..., pk .
Bây giờ ta chọn làm mức độ sai khác giữa phân bố lý thuyết và
thống kê một tổng như sau
k

)

2

.

(2.4)

i =1

Các hệ số tỷ trọng C i (tỷ trọng của các khoảng giá trị) có ý nghĩa là
những độ lệch ứng với những khoảng giá trị khác nhau không nên xem là

ngang hàng nhau về mức ý nghĩa, cùng một độ lệch p i∗ − p i có thể ít
đáng kể khi bản thân xác suất p i lớn nhưng rất đáng kể khi p i nhỏ.
Pierson đã chứng minh rằng nếu lấy
n
Ci =
,
pi

Nếu xác suất này rất nhỏ, thì phải bác bỏ giả thuyết H ; nếu xác
suất này đáng kể thì người ta công nhận rằng các số liệu quan trắc không
mâu thuẫn với giả thuyết H .
2.2.1. Tiêu chuẩn χ

(

U = ∑ C i pi∗ − pi

thì với n lớn, luật phân bố của U có những tính chất rất đơn giản: nó
thực tế không phụ thuộc vào hàm F ( x) và số quan trắc n , mà chỉ phụ

2

Trong một số phương pháp chọn U , quy luật phân bố của U có
những tính chất rất đơn giản và khi n đủ lớn thực tế nó không phụ thuộc
39

thuộc vào số những khoảng giá trị k , cụ thể khi n tăng quy luật này sẽ

40



dần tới phân bố χ 2 1. Vậy
k

U = χ2 = n ∑

(p


i

i =1

hoặc, vì

pi∗

− pi
pi

)

2)

i =1

2

,


i , nên
k

(mi − npi )2

i =1

npi



.

(2.5)

Phân bố χ phụ thuộc vào tham số r , gọi là số bậc tự do.

điều kiện ấy có thể là:
k

= 1 nếu ta đòi hỏi sao cho tổng các tần số thống kê phải

i =1

bằng đơn vị;
Phân bố χ 2 với r bậc tự do là phân bố của tổng các bình phương của r đại
lượng ngẫu nhiên độc lập, từng đại lượng trong số chúng tuân theo luật phân bố
chuẩn với kỳ vọng toán học bằng không và phương sai bằng đơn vị. Phân bố này
được đặc trưng bởi hàm mật độ
1





kr (u) = ⎨ 2

⎪⎩ 0


trong đó Γ(α ) =

∫t

α −1 − t

e

1
r
2

⎛r⎞
Γ⎜ ⎟
⎝2⎠

r
u
−1 −
u2 e 2


∑ (~x i − m ∗x )
k

i =1

2

pi∗ = D x nếu ngoài ra phương sai lý thuyết và

phương sai thống kê cũng phải trùng nhau.

khi

u>0

khi

u<0

các bảng đó). Dùng các bảng này có thể đối với từng giá trị χ 2 và số bậc
tự do r tìm được xác suất p của sự kiện: đại lượng phân bố theo quy
luật χ 2 vượt quá giá trị này.

Số bậc tự do r bằng số các khoảng giá trị k trừ đi số các điều kiện
liên hệ mà pi∗ phải tuân theo (số các điều kiện ràng buộc). Thí dụ về các

∑ pi∗

3)


Người ta đã lập sẵn các bảng phân bố χ 2 (bảng 2.1 là một trong số

2

1)

= m x nếu ta chọn phân bố lý thuyết sao cho các giá trị

trung bình lý thuyết và thống kê phải trùng nhau;

m
= i , mi − số lượng các quan trắc trong các khoảng giá trị
n

U = χ2 =

k

∑ ~x i pi∗

Phân bố χ 2 cho phép đánh giá mức độ phù hợp của phân bố lý
thuyết và thống kê. Giả thiết đại lượng X đúng là phân bố theo quy luật
F (x) . Khi đó xác suất p xác định từ bảng này sẽ là xác suất của sự
kiện: do những nguyên nhân ngẫu nhiên đơn thuần, sai khác của phân bố
lý thuyết và thống kê tính theo biểu thức (2.5) sẽ không nhỏ hơn giá trị
χ 2 mà ta thực thấy trong chuỗi quan trắc. Nếu xác suất này rất nhỏ (nhỏ
đến mức sự kiện với xác suất như vậy có thể xem như thực tế không khả
dĩ), thì phải xem kết quả quan trắc mâu thuẫn với giả thuyết H rằng quy
luật phân bố của đại lượng X là F ( x ) . Cần phải bác bỏ giả thuyết như
là một giả thuyết không hiện thực. Nếu xác suất p khá lớn, ta có thể

công nhận những khác biệt giữa phân bố lý thuyết và thống kê là không
đáng kể, ngẫu nhiên. Giả thuyết H có thể xem là hiện thực hoặc ít ra là
không mâu thuẫn với dữ liệu quan trắc.

dt − hàm Gamma.

0

41

42


Bảng 2.1. Những giá trị χ

2

2.2.2. Sơ đồ ứng dụng tiêu chuẩn χ 2 để đánh giá sự phù hợp

phụ thuộc vào r và p
p

r

1) Xác định độ sai khác χ 2 theo công thức (2.5).

0,99 0,98 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001
1
2
3

4
5

0,000 0,001 0,004 0,016 0,064 0,148 0,455 1,074 1,642
0,020 0,040 0,103 0,211 0,446 0,713 1,386 2,41 3,22
0,115 0,185 0,352 0,584 1,005 1,424 2,37 3,66 4,64
0,297 0,429 0,711 1,064 1,649 2,20 3,36 4,88 5,99
0,554 0,752 1,145 1,610 2,34 3,00 4,35 6,06 7,29

6 0,872 1,134 1,635 2,20 3,07
7 1,239 1,564 2,17 2,83 3,82
8 1,646 2,03 2,73 3,49 4,59
9 2,09 2,53 3,32 4,17 5,38
10 2,56 3,06 3,94 4,86 6,18
4,58
5,23
5,89
6,57
7,26

3,83
4,67
5,53
6,39
7,27

2,71 3,84 5,41 6,64
4,60 5,99 7,82 9,21
6,25 7,82 9,84 11,34
7,78 9,49 11,67 13,28

9,24 11,07 13,39 15,09

10,83
13,82
16,27
18,46
20,5

5,35 7,23 8,56 10,64 12,59 15,03 16,81
6,35 8,38 9,80 12,02 14,07 16,62 18,48
7,34 9,52 11,03 13,36 15,51 18,17 20,1
8,34 10,66 12,24 14,68 16,92 19,68 21,7
9,34 11,78 13,44 15,99 18,31 21,2 23,2

22,5
24,3
26,1
27,9
29,6

11
12
13
14
15

3,05
3,57
4,11
4,66

5,23

3,61
4,18
4,76
5,37
5,98

5,58 6,99 8,15 10,34 12,90 14,63 17,28 19,68
6,30 7,81 9,03 11,34 14,01 15,81 18,55 21,0
7,04 8,63 9,93 12,34 15,12 16,98 19,81 22,4
7,79 9,47 10,82 13,34 16,22 18,15 21,1 23,7
8,35 10,31 11,72 14,34 17,32 19,31 22,3 25,0

16
17
18
19
20

5,81
6,41
7,02
7,63
8,26

6,61 7,96 9,31 11,15 12,62 15,34 18,42
7,26 8,67 10,08 12,00 13,53 16,34 19,51
7,91 9,39 10,86 12,86 14,44 17,34 20,6
8,57 10,11 11,65 13,72 15,35 18,34 21,7

9,24 10,85 12,44 14,58 16,27 19,34 22,8

22,6
24,1
25,5
26,9
28,3

24,7
26,2
27,7
29,1
30,6

31,3
32,9
34,6
36,1
37,7

20,5
21,6
22,8
23,9
25,0

23,5
24,8
26,0
27,2

28,4

26,3
27,6
28,9
30,1
31,4

29,6
31,0
32,3
33,7
35,0

32,0
33,4
34,8
36,2
37,6

39,3
40,8
42,3
43,8
45,3

21 8,90 9,92 11,59 13,24 15,44 17,18
22 9,54 10,60 12,34 14,04 16,31 18,10
23 10,20 11,29 13,09 14,85 17,19 19,02
24 10,86 11,99 13,85 15,66 18,06 19,94

25 11,52 12,70 14,61 16,47 18,94 20,9

20,3
21,3
22,3
23,3
24,3

23,9
24,9
26,0
27,1
28,2

26,2
27,3
28,4
29,6
30,7

29,6
30,8
32,0
33,2
34,4

32,7
33,9
35,2
36,4

37,7

36,3
37,7
39,0
40,3
41,7

38,9
40,3
41,6
43,0
44,3

46,8
48,3
49,7
51,2
52,6

26
27
28
29
30

25,3
26,3
27,3
28,3

29,3

29,2
30,3
31,4
32,5
33,5

31,8
32,9
34,0
35,1
36,2

35,6
36,7
37,9
39,1
40,3

38,9
40,1
41,3
42,6
43,8

42,9
44,1
45,4
46,7

48,0

45,6
47,0
48,3
49,6
50,9

54,1
55,5
56,9
58,3
59,7

12,20 13,41 15,38 17,29 19,82
12,88 14,12 16,15 18,11 20,7
13,56 14,85 16,93 18,94 21,6
14,26 15,57 17,71 19,77 22,5
14,95 16,31 18,49 20,6 23,4

21,8
22,7
23,6
24,6
25,5

2) Xác định số bậc tự do r như là số khoảng giá trị k trừ đi số liên
hệ s : r = k − s .
3) Theo r và χ 2 nhờ bảng 2.1 tìm xác suất p của sự kiện: đại
lượng có phân bố χ 2 với r bậc tự do vượt quá giá trị χ 2 đã tính được.

Nếu p rất nhỏ, giả thuyết bị bác bỏ (trong thực tế nếu p nhỏ hơn 0,1 thì
nên kiểm tra lại thí nghiệm); nếu p khá lớn, có thể xem giả thuyết không
mâu thuẫn với thực đo.
Khi sử dụng tiêu chuẩn χ 2 , không những chỉ tổng số quan trắc n
đủ lớn mà cả số quan trắc m i trong từng khoảng giá trị cũng phải đủ lớn.
Trong thực tế tính toán, nên có trong mỗi khoảng giá trị không ít hơn 5 −
10 quan trắc, khi số đó ít hơn thì nên nhóm một số khoảng giá trị lại với
nhau.
Thí dụ: 1) Cho chuỗi thống kê gồm 500 quan trắc đã được nhóm
thành các khoảng giá trị và được ghi vào bảng như sau:
−4; −3

−3; −2

−2; −1

−1; 0

mi

6

25

72

133


pi


0,012

0,050

0,144

0,266

Khoảng I i

0; 1

1; 2

2; 3

3; 4

mi

120

88

46

10



pi

0,240

0,176

0,092

0,020

Khoảng I i

2) Là trơn phân bố này bằng quy luật chuẩn
43

44


f ( x) =

1

σ



e




( x −m)2
2σ 2

Theo công thức (2.5), tính χ 2 =

.

Tính: trung bình thống kê theo công thức (2.2) được m ∗x = 0,168 ,

phương sai thống kê theo công thức (2.3) được
tham số m =

m∗x

và σ

2

=

D x∗

D x∗

= 2,098 . Chọn các

: m = 0,168 và σ = 1,448 . Biểu thức phân

bố chuẩn sẽ là:


f ( x) =



1
1,448 2π

e

( x − 0 ,168 ) 2
2 (1, 448 2 )

8

(mi − npi )2

i =1

npi



= 3,94 .

Tính số bậc tự do k = 8 , s (số liên hệ) = 3 (ở đây dùng quy luật
chuẩn, lấy cả 3 điều kiện). Vậy r = 8 − 3 = 5 . Theo bảng 2.1 tìm được:
với r = 5 , χ 2 = 3,94 thì p = 0,56 .

Xác suất p = 0,56 không nhỏ. Vậy giả thuyết rằng đại lượng quan
trắc có phân bố chuẩn với m = 0,168 và σ = 1,448 có thể xem là hiện

thực.

.

2.2.3. Tiêu chuẩn phù hợp của Kolmogorov

Dùng bảng phân bố chuẩn (bảng 1.1) để tính các trị số của hàm
f ( x ) tại các đầu mút của các khoảng giá trị:
x
f ( x)

0
1
2
3
4
−4
−3
−2
−1
0,004 0,025 0,090 0,199 0,274 0,234 0,124 0,041 0,008

Theo số liệu bảng này dựng tổ chức đồ và đường cong là trơn của
nó lên cùng một đồ thị.
3) Kiểm tra sự phù hợp giữa phân bố lý thuyết với phân bố thống
kê: Dùng quy luật chuẩn lý thuyết f ( x ) trên đây, tìm các xác suất rơi vào

Kolmogorov A. N. đã dùng giá trị cực đại của mô đun hiệu giữa
hàm phân bố thống kê F ∗ ( x ) và hàm phân bố lý thuyết


D = max F ∗ ( x ) − F ( x )
làm mức độ bất phù hợp giữa chúng. Chọn như vậy có lợi là rất dễ tính
D và D có quy luật phân bố khá đơn giản. Kolmogorov đã chứng minh
được rằng dù đại lượng ngẫu nhiên X có hàm phân bố như thế nào thì
khi tăng không ngừng số quan trắc độc lập n , xác suất của bất đẳng thức

những khoảng giá trị theo công thức:

pi = φ

D n≥λ

x − m⎞
⎛ x − m⎞
⎟⎟ ;
⎜⎜ i+1
⎟⎟ − φ ∗ ⎜⎜ i
σ
⎝ σ ⎠



∗⎛

sẽ tiến tới giới hạn

ở đây xi , xi +1 − biên của các khoảng giá trị. Sau đó lập bảng ( n = 500 ):
Khoảng I i

−4; −3 −3; −2 −2; −1


−1; 0

0; 1

1; 2

2; 3

3; 4

mi

6

25

72

133

120

88

46

10

np i


6,2

26,2

71,2

122,2

131,8

90,5

38,2

10,5

45

P (λ ) = 1 −



2 2

∑ ( −1) k e −2 k λ

.

(2.6)


k = −∞

Những giá trị của xác suất P ( λ ) tính theo công thức (2.6) dẫn
trong bảng 2.2.
Sơ đồ sử dụng tiêu chuẩn Kolmogorov: Dựng hàm phân bố thống kê
46


F ∗ ( x ) và hàm phân bố lý thuyết F ( x ) , xác định D cực đại. Sau đó xác
định đại lượng λ = D n và theo bảng 2.2 tìm xác suất P ( λ ) . Nếu xác
suất P ( λ ) rất nhỏ thì phải bác bỏ giả thuyết, nếu xác suất P ( λ ) khá lớn
thì có thể xem giả thuyết phù hợp với số liệu quan trắc.
Bảng 2.2. Những giá trị của xác suất

P ( λ ) phụ thuộc vào λ

λ

P (λ )

λ

P (λ )

λ

P (λ )

0,0


1,000

0,7

0,711

1,4

0,040

0,1

1,000

0,8

0,544

1,5

0,022

0,2

1,000

0,9

0,393


1,6

0,012

0,3

1,000

1,0

0,270

1,7

0,006

0,4

0,997

1,1

0,178

1,8

0,003

0,5


0,964

1,2

0,112

1,9

0,002

0,6

0,864

1,3

0,068

2,0

0,001

Tiêu chuẩn Kolmogorov đơn giản hơn so với tiêu chuẩn χ 2 nên
người ta ưa dùng. Nhược điểm: chỉ dùng trong trường hợp hàm F ( x )
hoàn toàn biết trước từ những lập luận lý thuyết, tức biết trước cả dạng và
những tham số trong nó. Trường hợp này ít gặp trong thực tế. Thường từ
suy luận lý thuyết ta chỉ biết trước dạng tổng quát của hàm F ( x ) , còn
những tham số bằng số của nó được xác định theo tài liệu thống kê.
Trong khi dùng tiêu chuẩn Pierson, điểm này đã được tính đến bằng cách

giảm số bậc tự do của phân bố χ 2 . Tiêu chuẩn Kolmogorov không tính
đến điều đó. Nếu cứ dùng tiêu chuẩn Kolmogorov trong những trường
hợp mà các tham số của phân bố lý thuyết được ước lượng theo số liệu
thống kê, thì tiêu chuẩn này sẽ cho những giá trị xác suất P ( λ ) rõ ràng
lớn hơn; vì vậy chúng ta sẽ có thể chấp nhận nhầm giả thuyết.
47

2.3. Khái niệm về ước lượng tham số của phân bố
Để xác định quy luật phân bố, cần có tài liệu thống kê đủ rộng rãi cỡ
vài trăm quan trắc. Nhưng trong thực tế nhiều khi chúng ta chỉ có những
tài liệu quan trắc khá hạn chế, cỡ vài chục số đo. Khối lượng tài liệu này
không đủ để tìm ra quy luật thống kê, nhưng có thể sử dụng để nhận một
vài thông tin về đại lượng ngẫu nhiên, thí dụ, tính một số đặc trưng bằng
số quan trọng nhất như kỳ vọng toán học, phương sai, một vài mômen
bậc cao hơn.
Ta sẽ xét những bài toán về xác định các đặc trưng mà quy luật phân
bố phụ thuộc vào chúng, theo một lượng quan trắc hạn chế. Một tham số
bất kỳ tính được theo chuỗi quan trắc hạn chế sẽ chứa yếu tố ngẫu nhiên.
Giá trị ngẫu nhiên gần đúng này được gọi là ước lượng của tham số. Thí
dụ về ước lượng của kỳ vọng toán học là trung bình số học các giá trị
quan trắc. Sai số (chênh lệch giữa ước lượng và tham số) sẽ càng lớn nếu
số quan trắc càng ít. Cần phải chọn ước lượng sao cho các sai số có thể
cực tiểu.
Có những đòi hỏi để đảm bảo cho ước lượng, với một ý nghĩa nào
đó, có chất lượng. Thí dụ, nếu ta đòi hỏi sao cho ước lượng a~ khi tăng
số quan trắc phải tiến dần tới tham số a thì ước lượng a~ đó có tính chất
vững chắc; nếu ước lượng a~ không có xu hướng vượt quá a hay nhỏ
~ có tính chất không chệch;
hơn a một cách hệ thống, thì ước lượng a
~ có phương sai so với các ước lượng khác

nếu ước lượng không chệch a
~ có tính chất hữu hiệu.
là nhỏ nhất thì ước lượng a
2.4. Ước lượng của kỳ vọng toán học và phương sai

Người ta chứng minh được rằng ước lượng của kỳ vọng toán học mà
chúng ta dùng là trung bình số học các giá trị quan trắc m * tính theo
công thức (2.2)
48


×