Tải bản đầy đủ (.pdf) (31 trang)

Phân tích thống kê trong thủy văn ( ĐH Quốc Gia HN ) - Chương 3 doc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (827.06 KB, 31 trang )



66

Chơng III
Kiểm định các giả thiết thống kê
3.1.Khái niệm
3.1.1. Một số khái niệm về kiểm dịnh giả thiết thống kê
Nh ở chơng 1 đã trình bày, cơ sở để áp dụng các phơng pháp thống kê là chuỗi
phải đồng nhất và ngẫu nhiên. Hơn nữa khi áp dụng các đờng tần suất lý luận để mô
tả phân bố của các đại lợng này phải đảm bảo sự phù hợp của giữa đờng lý luận và
đờng kinh nghiệm. Chúng ta đã giả thiết rằng chuỗi quan trắc thoả mãn các tiêu
chuẩn này để tiến hành các tính toán tiếp theo. Đó chính là các giả thiết thống kê. Tuy
nhiên chuỗi quan trắc là một mẫu từ tổng thể, do tác động của nhiều nhân tố nên có
thể cha phản ảnh đúng bản chất của tổng thể. Chính vì vậy cần tiến hành kiểm định
các giả thiết trên.
Vậy giả thiết thống kê là gì? Đó là giả thiết đa ra để xem xét có công nhận hay
không một kết luận về thống kê. Nói riêng đó là giả thiết về tính đồng nhất, tính ngẫu
nhiên và tính phù hợp với đờng tần suất nào đó của chuỗi quan trắc thuỷ văn. Kiểm
định giả thiết thống kê là thủ tục để đánh giá xem giả thiết đúng hay sai và để có thể
chấp nhận hay bác bỏ giả thiết đó.
Trong thủ tục kiểm định thống kê chúng ta cần biết một số khái niệm sau:
- Giả thiết không (Null Hypothesis-H
0
)
Giả thiết không là giả thiết ban đầu đa ra để kiểm định. Thờng giả thiết thiên
về sự công nhận.
- Giả thiết chệch (nghịch) (Anternative-Hypothesis)
Giả thiết chệch là giả thiết ngợc lại với giả thiết không H
0
, giả thiết không công


nhận.
- Mức ý nghĩa (Level of significance)
Mức ý nghĩa là xác suất (khá nhỏ) khi loại bỏ không chính xác giả thiết H
0
, hay
còn gọi là xác suất sai lầm loại 1.
Ngợc lại với mức ý nghĩa là mức tin cậy: = 1-.
Giá trị càng nhỏ thì mức tin cậy càng lớn, giới hạn tin cậy càng mở rộng, càng ít
phạm sai lầm loại 1, nhng lại tăng sai lầm loại 2.
- Miền tới hạn - Miền tin cậy: Mỗi chỉ tiêu xác định một tập hợp (miền) tới hạn
mà nếu giá trị lựa chọn rơi vào đó thì giả thiết H
0
bị bác bỏ. Phần bù của miền tới hạn
gọi là miền tin cậy.
Miền tới hạn đợc chọn sao cho xác suất rơi vào nó của chỉ tiêu xem xét là lớn
nhất, khi đó giả thiết chệch đối lập với giả thiết H
0
đợc chấp nhận.
- Biên tới hạn - Biên tin cậy


67

Biên tin cậy là giới hạn của miền tin cậy, là ranh giới giữa miền tới hạn và miền
tin cậy . Nó phụ thuộc dạng phân bố của chỉ tiêu và mức ý nghĩa .
- Bậc tự do (Degree of Freedom): là số giá trị độc lập có thể xác định đợc, chính
bằng dung lợng mẫu trừ đi số ràng buộc:
Y = n -(h+1),
trong đó h là số thông số, n là dung lợng mẫu.
- Các chỉ tiêu thống kê hay viết gọn là thống kê (Statistic) là chỉ tiêu để so sánh

khi kiểm định.
3.1.2.Các bớc kiểm định giả thiết thống kê
Quá trình kiểm định bao gồm các bớc sau:
1). Xác lập giả thiết không H
0

2). Chọn mức ý nghĩa , thờng chọn 1, 2, 5 và 10%.
Khi kiểm định sẽ có 4 trờng hợp xảy ra:
- Giả thiết là đúng và đợc chấp nhận.
- Giả thiết đúng nhng bị loại bỏ với mức , khi đó ta đã phạm sai lầm loại 1.
- Giả thiết sai và bị loại bỏ.
- Giả thiết sai nhng đợc chấp nhận với mức , khi đó ta đã phạm sai lầm loại
2.
3). Xác định miền tới hạn và biên tới hạn: Điều này phụ thuộc vào dạng phân bố
của chỉ tiêu và mức ý nghĩa.
4). Tính chỉ tiêu thống kê theo tài liệu quan trắc.
5). So sánh chỉ tiêu với biên tới hạn và kết luận chấp nhận hay loại bỏ giả thiết
H
0
.
3.2. Kiểm định các giả thiết thống kê
Có nhiều giả thiết thống kê cần kiểm định, nhng trong thuỷ văn thờng tiến
hành kiểm định tính đồng nhất, tính ngẫu nhiên của chuỗi và tính phù hợp của đờng
lí luận với đờng kinh nghiệm. Sau đây chúng ta sẽ tiến hành với từng giả thiết.
3.2.1. Kiểm định tính đồng nhất của chuỗi
Chuỗi thuỷ văn đa vào trong tính toán phải đảm bảo tính đồng nhất. Có nhiều
nguyên nhân, cả tự nhiên và nhân tạo, làm cho tính đồng nhất của chuỗi bị phá hoại.
Tuy nhiên phân tích bản chất vật lý của các đặc trng thuỷ văn hoặc các nhân tố hình
thành nó để chỉ ra sự đồng nhất là không đủ, vì chỉ mới là định tính. Hợp lý hơn cần
sử dụng phơng pháp thống kê, nó cho phép đánh giá tính đồng nhất của các chuỗi

quan trắc trong dạng định lợng. Hơn nữa cũng cần đánh giá tính đồng nhất của
chuỗi khi không có thông tin về nguồn gốc gây ra sự không đồng nhất, khi đó phơng
pháp thống kê sẽ là duy nhất. Mặt khác cũng có thể nguyên nhân vật lý đã biết nhng
không rõ ràng, và theo quan điểm thực tế có thể không tính đến, các phơng pháp
thống kê sẽ cho ta câu trả lời hợp lý nhất. Phơng pháp thống kê còn cho phép kiểm
định tính đồng nhất của các chuỗi theo không gian khi cần kết hợp chúng trong một
khu vực địa vật lý đồng nhất.


68

Có nhiều chỉ tiêu thống kê đợc dùng để đánh giá tính đồng nhất của các thông số
phân bố mẫu, nói riêng là giá trị trung bình và phơng sai.
a. Đồng nhất về giá trị trung bình
Thờng bắt đầu áp dụng cho trờng hợp chuỗi có phân bố chuẩn
*. Chỉ tiêu phân bố chuẩn z
Coi trị số trung bình có phân bố chuẩn. Khi chuỗi gốc có phân bố chuẩn hay có
dung lợng rất lớn. Chúng ta thực hiện theo các bớc kiểm định giả thiết thống kê.
- Giả sử có 2 chuỗi x và y. Xác lập giả thiết H
0
:
yx
.
- Giả sử 2 chuỗi x và y có dung lợng mẫu n
x
và n
y
, khi đó chỉ tiêu phân bố chuẩn
có dạng:
)( xy

xy
z




, (3.1)
trong đó:
y
y
x
x
xy
nn
2
2
)(





, (3.2)

x

y
là các giá trị trung bình của mẫu;
x


y
là các khoảng lệch chuẩn
của mẫu.
- Chọn mức ý nghĩa , thờng chọn = 5%=0,05.
- Xác định miền tới hạn. Tra bảng phân bố chuẩn (phụ lục 2.7) với q=1/2 (vì phân
bố đối xứng) đợc giá trị z
th
. Với = 0,05 ta có z
th
= 1,96.
- Tính chỉ tiêu z từ tài liệu quan trắc theo công thức (3.1).
- So sánh: Nếu
th
zz
thì ta chấp nhận giả thiết không H
0
, tức là có
yx
. Khi
đó có thể đa vào cùng một chuỗi để tính toán.
Ngợc lại, giả thiết H
0
bị bác bỏ và ta tiếp nhận giả thiết chệch
y
x

.
Sau này với các chỉ tiêu kiểm định khác, không trình bày lại các bớc kiểm định
nh trên mà chỉ đa ra các chỉ tiêu cần tính và giá trị tới hạn để so sánh. Tuy nhiên
phải nhớ rằng các bớc tiến hành kiểm định phải đầy đủ nh đã nêu.

*. Chỉ tiêu Student
Khi chuỗi không dài thì chỉ tiêu phân bố chuẩn không dủ mạnh, cần phải áp dụng
chỉ tiêu khác, trong đó có chỉ tiêu Student. Chỉ tiêu này xuất phát từ phân bố Student
hay phân bố t, do W.S.Gosset sử dụng lần đầu trong một bài toán thống kê (1908)
(hình 3.1).







Hình 3.1: Phân bố Student


69

Khi áp dụng chỉ tiêu này, phải thừa nhận phơng sai là đồng nhất:


yx

với

là phơng sai của tổng thể. Tính đồng nhất của phơng sai sẽ xem xét ở phần
sau.
Chỉ tiêu có dạng:
yx
yxyx
yyxx

nn
nnnn
nn
xy
t





)( 2
22

, (3.3)
hoặc:
,
d
S
yx
t


(3.4)
yx
yx
cd
nn
nn
SS



, (3.5)
2
11
22
2



yx
yyxx
c
nn
nn
S
)()(

. (3.6)
Các ký hiệu nh đã nêu ở trên.
Giá trị tới hạn

t
đợc tra theo bảng Student (phụ lục 3.1) ứng với số bậc tự do:

= n
x
+ n
Y
-2 và mức ý nghĩa . Lu ý rằng chỉ tiêu student đối xứng nên cần tra bảng
phụ lục (3.1) với q= /2. Sau đây là một số giá trị t ứng với


=:
(%) 5 1 0,1
t

1,96 2,58 3,29

Các bớc kiểm định vẫn tiến hành nh trên. 2 chỉ tiêu phân bố chuẩn và Student
là những chỉ tiêu có tham số, áp dụng cho chuỗi quan trắc có phân bố chuẩn.
*. Chỉ tiêu cho nhiều chuỗi
Trong trờng hợp kiểm định nhiều chuỗi đồng thời, dùng chỉ tiêu Student dới
dạng:
2
2
m
m
mymn
nmy
t



)(
, (3.7)
trong đó:

xx
y
m
m



, (3.8)
với
x
là trung bình chung của toàn bộ n quan trắc:



n
i
i
xx
1




k
j
i
mn
1
, còn
m
x

giá trị trung bình theo mẫu quan trắc thứ m, có độ lệch lớn nhất so với trung bình
chung; k là số mẫu quan trắc; là khoảng lệch chuẩn của chuỗi chung.
Nếu t ứng với y

m
nằm trong miền tin cậy với mức ý nghĩa thì giá trị trung bình
các mẫu
m
x
là đồng nhất.
Lu ý rằng chúng ta cũng phải thừa nhận các khoảng lệch chuẩn (phơng sai) của
các mẫu
m
là đồng nhất.


70

Ví dụ 3.1: Cho số liệu Q

năm trạm Hoà Bìnhsông Đà (bảng 1.7) từ 1956 đến
2002. Kiểm tra tính đồng nhất của chuỗi số liệu theo chỉ tiêu Student, biết rằng hồ
chứa Hoà Bình bắt đầu hoạt động từ năm 1986.
Ta chia chuỗi số liệu làm 2 phần, phần 1 từ 1956 đến 1985 gồm 30 số hạng, phần
2 gồm 17 số hạng còn lại.
- Xác lập giả thiết H
0
: 2 chuỗi đồng nhất về giá trị trung bình:
yx
.
- Giả thiết phơng sai của 2 chuỗi là đồng nhất:


yx

.
- Tính chỉ tiêu Student từ chuỗi quan trắc theo công thức (3.3) đợc: t=0,04.
- Chọn mức ý nghĩa =5%.
- Tra bảng Student với mức ý nghĩa đã chọn và số bậc tự do

=n
x
+n
y
-2=45, có
t
th
=2,014.
- So sánh thấy rằng t<t
th
, nh vậy giả thiết H
0
đợc chấp nhận và kết luận rằng
chuỗi Q

năm trạm Hoà Bìnhsông Đà từ 1956 đến 2002 là đồng nhất.
*. Chỉ tiêu Wilcoxon
Chỉ tiêu này thờng dùng để chấp nhận 2 mẫu vào cùng một tổng thể (mẫu
chung), có thể cháp nhận cho cả 2 vị trí khác nhau (không gian) và cho 2 thời khoảng
khác nhau (thời gian).
Chỉ tiêu khá nhạy đối với trung bình mẫu, nhng không phản ứng với phơng sai
mẫu, nên thờng dùng để đánh giá trung bình mẫu.
Tiêu chuẩn này căn cứ trên việc thống kê số lợng nghịch thế xuất hiện do thuật
toán sau:
1). Các giá trị quan trắc của 2 mẫu sắp xếp trong một chuỗi chung theo thứ tự

(giảm dần hay tăng dần).
Ví dụ: y
1
x
1
x
2
y
2
y
3
y
4
x
3
y
5
y
6
x
4
, (a)
hay: x
1
x
2
x
3
y
1

y
2
x
4
y
3
y
4
x
5
y
5
, (b)
trong đó x
i
là các giá trị của chuỗi 1, còn y
i
là các giá trị của chuỗi 2.
2). Nếu một giá trị x nào đó (hay y) xuất hiện sau giá trị y (hay x) thì cặp này hình
thành một nghịch thế. Nh vậy trong dãy (a), x
1
hình thành một nghịch thế (với y
1
) và
x
2
cũng hình thành một nghịch thế (với y
1
), x
3

hình thành 4 nghịch thế (với y
1
, y
2
, y
3

y
4
), còn x
4
hình thành 6 nghịch thế (với y
1
, y
2
, y
3
, y
4
, y
5
và y
6
). Tơng tự, trong chuỗi (b)
y
1
và y
2
hình thành 3 nghịch thế (với x
1

, x
2
, x
3
), y
3
và y
4
hình thành 4 nghịch thế, còn y
5

hình thành 5 nghịch thế.
3). Lý thuyết [4,32] cho thấy rằng khi dung lợng mẫu không nhỏ hơn 10 thì số
nghịch thế có phân bố gần chuẩn với kỳ vọng là:
2
nm
M
n
.

, (3.9)
và phơng sai là:
)(
.
1
12
nm
nm
D
n

, (3.10)
trong đó: m và n là số các số hạng của chuỗi x và y.
4). Miền tới hạn đợc xác định trong phạm vi:


71



u
mnnmnm
U
12
1
2
)(

, (3.11)
trong đó u

đợc xác định theo bảng phân bố chuẩn với mức ý nghĩa (=0,05 thì
u

=2,58).
hoặc:

uqu
uqu
tMu
tMu





)(
)(
với
uu
D

, (3.12)
t
P
là khoảng lệch chuẩn hoá ứng với mức ý nghĩa (q=1/2 vì khoảng tin cậy đối
xứng). Ví dụ với = 0,1 có q=0,05 và thu dợc t
q
= 2,58, còn với = 0,05 nhận đợc t
q
=
1,96.
5). So sánh, nếu U tính đợc nằm trong miền tới hạn thì giả thiết không H
0
bị bác
bỏ, chuỗi không đồng nhất.
Còn ngợc lại thì giả thiết không H
0
đợc chấp nhận và chuỗi đồng nhất.
Chỉ tiêu này chỉ thích hợp khi so sánh 2 mẫu hoặc từng cặp mẫu trong nhiều điểm
có cảnh quan đồng nhất. Với số mẫu lớn hơn 2 thì rất phức tạp và kém hiệu quả.
Chỉ tiêu Wilcoxon là chỉ tiêu không tham số có thể áp dụng cho chuỗi gốc có phân

bố bất kỳ.
Ví dụ 3.2: Cũng với số liệu Q

năm trạm Hoà Bìnhsông Đà (bảng 1.7) từ 1956 đến
2002. Kiểm tra tính đồng nhất của chuỗi số liệu theo chỉ tiêu Wilcoxon.
Chúng ta cũng làm theo các bớc nh trên, nhng không nhắc lại lần lợt các
bớc, mà chỉ tiến hành các bớc chủ yếu:
- 2 chuỗi đã chia đợc gộp vào làm một và sắp xếp theo thứ tự giảm dần, đánh dấu
phân biệt số hạng của chuỗi 1 và 2.
- Tính số nghịch thế theo phơng pháp đã trình bày (bảng 3.1)
Từ bảng (3.1) ta có tổng số nghịch thế là: U
t
=248.
- Tính kỳ vọng và phơng sai của phân bố số nghịch thế theo các công thức (3.9)
và (3.10), nhận đợc : M
u
=255; D
u
=2040;
u
=45,16.
Bảng 3.1: Tính số nghịch thế U của chuỗi Q trạm Hoà Bìnhsông Đà
TT Năm Q
năm
U TT Năm Q
năm
U
1 1989 1124 25 1976 (1720) 8
2 1992 1231 26 1974 (1740) 8
3 1987 1259 27 1990 1747

4 1980 (1260) 3 28 1984 (1750) 9












21 1969 (1630) 7 45 1999 2154
22 1985 (1650) 7 46 2002 2170
23 1972 (1690) 7 47 1971 (2180) 17
24 1991 1708 Tổng số 248
Ghi chú: Nhứng số trong dấu ngoặc đơn là của chuỗi x
- Với =5%, ta có t
q
=1,96.


72

- Xác định miền tới hạn theo (3.11):

u
mnnmnm
U

12
1
2
)(

=
582
12
117301730
2
1730
,
)(

=395,2.
hoặc theo (3.12): Hai giá trị tới hạn của U tính theo (3.12) là : U
1
=166 và U
2
=343.
- So sánh với U
t
tính đợc ta thấy nó thoả mãn điều kiện (3.11) hoặc (3.12), nh
vậy giả thiết H
0
đợc chấp nhận và kết luận chuỗi Q

năm của trạm Hoà Bình-sông Đà
đồng nhất
*. Chỉ tiêu theo dấu

Chỉ tiêu này cũng đợc áp dụng để kiểm định tính đồng nhất. Trong trờng hợp này chỉ
xem xét dấu của sự chênh lệch giữa các số hạng của 2 chuỗi x và y:
R
i
= x
i
- y
i
.
Ta coi rằng số số hạng nh nhau và bằng n.
R
i
= x
i
- y
i
:




0 y- x nếu(-) dấu mang
x nếu)( dấu mang
ii
i

0
i
y
(3.14)

Xác định số trờng hợp mang dấu cộng (K
n
+) và số trờng hợp mang dấu trừ (K
n
-). Lấy số
trờng hợp nhỏ nhất trong (K
n
+) và (K
n
-), ta đợc K
n
().
Xác định giá trị tới hạn:
1
2
1


nk
n
m
kn,
, (3.15)
k đợc tra bảng, với = 5% = 0,05 thì k = 0,98.
So sánh: Nếu K
n
(+) <
kn
m
,

thì chuỗi không đồng nhất;
Nếu K
n
(+) >
kn
m
,
thì chuỗi đồng nhất.
Chỉ tiêu theo dấu cũng là chỉ tiêu không tham số có thể áp dụng cho chuỗi gốc có
phân bố bất kỳ. Tuy nhiên chỉ tiêu này ít dùng.
b. Đồng nhất về phơng sai
Khi kiểm định theo chỉ tiêu Student đã thừa nhận phơng sai của các chuỗi là
đồng nhất và bằng phơng sai tổng thể. Tuy nhiên cũng cần đánh giá làm rõ điều này.
Việc kiểm định đợc tiến hành bằng các chỉ tiêu sau đây.
*. Chỉ tiêu Fisher
Hiện nay trong thuỷ văn thờng dùng chỉ tiêu Fisher hay tỷ số phơng sai để
kiểm định về phơng sai. Chỉ tiêu xuất phát từ hàm mật độ xác suất do Fisher đa ra
(1941) (hình 3.2), có dạng:
2
2
y
x
F



, (3.16)
trong đó:
x


là phơng sai lớn (lớn hơn) có số bậc tự do
1
xx
n

;
y

là phơng sai
nhỏ có
1
yy
n

; n
x
và n
y
là số số hạng của 2 chuỗi x và y.
Để xác định chỉ tiêu tới hạn F
th
, sử dụng bảng phân phối Fisher với số bậc tự do
yx
v,

và 2 phơng sai
x

,
y


ứng với mức ý nghĩa . Bảng tra đợc đa ra trong phụ
lục (3.3). Sau đây là một số giá trị ứng với số bậc tự do là

yx
v

:
(%) 1 5 10
F
th
6,63 3,84 2,23


73









Hình 3.2: Phân bố Fisher
Đây là tiêu chuẩn tham số nên yêu cầu chuỗi gốc phải có phân bố chuẩn. Vì trong
kiểm định luôn có
x

>

y

nên gọi là kiểm định chặn một đầu.
Các bớc kiểm định cũng thực hiện nh ở phần đầu chơng. Sau khi tính đợc F
t
và F
th
, tiến hành so sánh nếu thấy
th
FF
thì chấp nhận giả thiết không và kết luận
phơng sai 2 chuỗi đồng nhất.
Còn nếu
th
FF
thì phơng sai 2 chuỗi không đồng nhất.
Ví dụ 3.3: Theo số liệu bảng (2.6), kiểm định phơng sai chuỗi Q
max
trạm Hoà
Bình-sông Đà.
- Chia chuỗi thành 2 phần nh đã thực hiện ở các ví dụ kiểm định trớc đây.
- Tính phơng sai 2 chuỗi thành phần đợc :D
x
=
2
x

=2506 và D
y
=

2
y

=2313.
- Tính chỉ tiêu Fisher theo công thức (3.16) đợc F
t
=1,174.
- Tra bảng Fisher (phụ lục 3.2A,B) với mức ý nghĩa 5% và các phơng sai thành
phần vừa tính, ta nhận đợc F
th
=2,198. Cũng có thể tính bằng hàm trong Excel.
- So sánh thấy rằng F
t
<F
th
do đó phơng sai của 2 thành phần và cả chuỗi là đồng
nhất.
*. Chỉ tiêu cho nhiều chuỗi
Trờng hợp khi kiểm định cho nhiều chuỗi ngời ta dùng chỉ tiêu:

22
2
2
1
2
max
2

K
G





, (3.17)
trong đó:
max

: phơng sai lớn nhất trong các chuỗi;
k

, ,,
21
phơng sai của các
chuỗi thành phần.
Lu ý rằng chỉ tiêu này áp dụng cho các chuỗi cùng dung lợng.
Ngời ta cũng sử dụng kiểm định Bartlett cho phơng sai [10], khi mà số chuỗi lớn hơn 2.
Đó là một áp dụng đặc biệt của kiểm định
2
và cho bởi phơng trình:

,log)()(lg,














m
k
kk
m
k
kk
snns
1
2
1
22
1130262

(3.18)
trong đó:
2
k
s
là phơng sai trung bình của các mẫu; m là số mẫu; n
k
là dung lợng của mẫu thứ
k và
2
k
s

là phơng sai mẫu thứ k:


74









k
k
k
k
k
n
i
i
k
n
xx
s
K
1
1 1
2
2

, (3.19)
với k là số mẫu hay số phơng sai đợc ớc tính.
Khi các mẫu có cùng dung lợng n
k
= n thì phơng trình (3.18) dẫn tới:


222
130262
kkk
ssnn loglg)(,

(3.20)

2
tính theo (3.18), (3.20) bị lệch nên phải hiệu chỉnh bằng cách chia nó cho một hằng số
C:
C
hc
2
2



, trong đó:
























)(
)(
1
1
1
1
13
1
1
k
k
n

nk
C
(3.21)
So sánh
2
hc

với giá trị tới hạn tra từ bảng
2
(Phụ lục 3.4), nếu
22
thhc


thì chấp nhận
H
0
với mức ý nghĩa đã chọn, nghĩa là các chuỗi đồng nhất.
Trớc khi kiểm định Bartlett nên tiến hành kiểm định theo chỉ tiêu Fisher cho phơng sai
lớn nhất và nhỏ nhất, nếu nó thoả mãn đồng nhất thì mới tiến hành theo Bartlett. Nếu không
thoả mãn thì không cần tính tiếp, vì ít nhất đã không đồng nhất ở 2 chuỗi có phơng sai lớn
nhất và nhỏ nhất vừa kiểm định và dĩ nhiên tất cả các chuỗi sẽ không đồng nhất.
Các ví dụ trình bày chỉ kiểm định cho các thời đoạn khác nhau của chuỗi số liệu
tại cùng một vị trí (đồng nhất về thời gian), tuy nhiên các chỉ tiêu cũng có thể áp dụng
cho các chuỗi ở các vị trí khác nhau trong một khu vực địa vật lý đồng nhất (đồng nhất
về không gian).
c. Xây dựng đờng tần suất khi mẫu không đồng nhất
Trong một số trờng hợp chuỗi quan trắc thu đợc là không đồng nhất. Khi đó các phơng
pháp xây dựng đờng tần suất đã trình bày ở chơng 2 không thực hiện đợc. Tuy nhiên muốn
tận dụng các thông tin đã có từ số liệu quan trắc, chúng ta phải xây dựng đờng tần suất cho

chuỗi không đồng nhất. Có nhiều phơng pháp đợc giới thiệu, nhng phơng pháp đơn giản
và đủ chính xác là của Velicanov và Brokovits [32]. Đây là phơng pháp bán đồ giải. Cơ sở của
phơng pháp nh sau.
Đờng tần suất của chuỗi không đồng nhất đợc coi là tổng có trọng số của các chuỗi đồng
nhất thành phần:

k
kk
nnn
xPnxPnxPn
xP




)( )()(
)(
'
21
2211
, (3.22)
trong đó:
)(
'
xP
là tần suất lí luận chung của toàn bộ chuỗi không đồng nhất; P
1
(x),
P
2

(x), ,P
k
(x) là tần suất của các chuỗi đồng nhất thành phần; n là dung lợng chung;
n=n
1
+n
2
+ +n
k;
n
1
,

n
2
, ,n
k
là dung lợng các chuỗi thành phần.
Để chứng mình công thức (3.22) chúng ta xem xét một trờng hợp đơn giản, khi có 2 chuỗi
thành phần, khi đó (3.22) có dạng sau:
21
2211
nn
xPnxPn
xP



)()(
)(

'
(3.23)


75

Xác suất để biến x thuộc chuỗi thành phần thứ nhất P
1
(x), bằng
n
n
nn
n
1
21
1


, tơng tự
xác suất để x thuộc chuỗi thành phần thứ hai P
2
(x), bằng
n
n
2
.
Xác suất để giá trị cụ thể x
i
với tần suất P
1

(x
i
) thuộc chuỗi P
1
(x), theo định lý nhân xác
suất sẽ là:
21
1
nn
n

P
1
(x
i
).
Vì giá trị cụ thể x
i
bất kỳ có thể thuộc chuỗi thứ nhất hoặc thứ 2 nên xác suất xuất hiện
của giá trị cụ thể x
i
trong toàn chuỗi không đồng nhất, theo định lý cộng xác suất, là:

)()()(
'
xP
nn
n
xP
nn

n
xP
i 2
21
2
1
21
1




(3.24)
Khái quát cho k chuỗi thành phần không đồng nhất nhận đợc biểu thức (3.22). Các bớc
làm cụ thể tiến hành theo ví dụ sau đây.
Ví dụ 3.4 [32]: Cho chuỗi dòng chảy năm của trạm Xakmara sông Xakmara gồm 80 năm.
Ngời ta thấy rằng dòng chảy thời kỳ nhiều nớc và ít nớc là không đồng nhất. Yêu cầu xây
dựng đờng tần suất lí luận tổng hợp.
Chia toàn bộ chuỗi thành 2 chuỗi thành phần theo các thời kỳ. Nh vậy chuỗi lu lợng
năm nhiều nớc có 68 số hạng, còn chuỗi năm ít nớc gồm 12 số hạng.
Xây dựng các đờng cong tần suất cho toàn bộ 80 năm số liệu và cho từng chuỗi thành
phần theo đờng tần suất Kritski-Menkel khi C
s
=C
v
nh đã trình bày ở chơng 2.
Xây dựng đờng tần suất tổng hợp tiến hành nh sau. Từ 80 số hạng của chuỗi chung và
các chuỗi thành phần (68 và 12) tính đợc tỷ trọng xác suất:

n

n
nn
n
xP
1
21
1
1


)(
=
80
68
=0,85;

n
n
nn
n
xP
2
21
2
2


)(
=
80

12
= 0,15.
Bảng 3.2: Sơ đồ tính toán đờng lí luận cho chuỗi không đồng nhất
Qmax trạm Xakmara sông Xakmara
Chuỗi thành phần 1 Chuỗi thành phần 2 Môđun
(l/skm
2
)

P
1
(x
i
)

0,85.P
1
(x
i
)

P
2
(x
i
)

0,15.P
2
(x

i
)

Tần suất tổng
cộng
)(
'
xP

12 0,01 0,008 0,18 0,027 0,033
10 0,04 0,034 14,5 2,18 2,21
8 1,00 0,85 83,5 12,53 13,38
6 9,30 7,90 99,91

14,87 22,77
4 36,0 30,6 99,99

15,0 45,6
2 81,5 69,3 99,99

15,0 84,3
Tính tần suất tổng hợp của toàn chuỗi
)(
'
xP
cho các giá trị lu lợng nằm trong khoảng
dao động của chuỗi số liệu quan trắc (bảng 3.2).
Dựa theo kết quả tính từ bảng (3.2) xây dựng đợc đờng tần suất lí luận tổng hợp cho
mẫu không đồng nhất gồm 80 số hạng nh hình (3.3).



76

Trên hình (3.2) thấy rằng đờng tần suất tổng hợp III phù hợp với tập hợp điểm kinh
nghiệm hơn là đờng tần suất xây dựng cho toàn bộ 80 năm số liệu.
Cần lu ý rằng nguyên nhân phá vỡ tính đồng nhất là muôn màu muôn vẻ. Trong từng
trờng hợp cần tìm ra nguyên nhân chính để phân chia thành các chuỗi thành phần có tính
đồng nhất và đánh giá theo các chỉ tiêu thống kê đầy đủ.
Trong thực tế có khi gặp trờng hợp các chuỗi thành phần có cùng dung lợng. Đối với mỗi
chuỗi xây dựng đờng tần suất nh ở chơng 2. Để có đờng tần suất tổng hợp ta tính tần suất
tổng hợp theo công thức của Kritski-Menkel:

2121
ppppP
'
(3.25)
Sau đó tiến hành các bớc nh đã trình bày ở trên












1 - Các điểm thực nghiệm ứng với các chuỗi đồng nhất.

2 - Các điểm thực nghiệm của toàn chuỗi các đờng tần suất Kriski - Menkel với Cs = Cv;
I - Thành phần thứ nhất M = 3,64; Cv = 0,46; h = 68, Cs = Cv; II - Thành phần thứ hai M = 3,64,
Cv = 0,11; n = 12; Cs = Cv;
3 - Đờng tần suất tổ hợp dựa vào tổng xác suất có tỷ trọng của I và II - IV. Đờng tần suất tổ
hợp theo toàn những chuỗi quan trắc đợc M = 4,45; Cv = 0,56; n = 80; Cs = Cv
Hình 3.3: Đờng tần suất chuỗi không đồng nhất và các chuỗi thành phần Qnăm
trạm Xakmara sông Xakmara

3.2.2. Kiểm định tính ngẫu nhiên
Chúng ta đã giả thiết rằng chuỗi số liệu quan trắc mang tính ngẫu nhiên, tuy vậy
điều này không phải luôn luôn đúng cho tất cả các chuỗi số liệu thuỷ văn. Nhiều khi
chúng có mối liên hệ bên trong nh dòng chảy tháng, tuần, ngày v.v., thậm chí dòng
chảy năm. Và cũng có khi biểu hiện tính xu thế, chu kỳ. Vì vậy trớc khi áp dụng các
phơng pháp thống kê cũng cần kiểm tra tính ngẫu nhiên của chuỗi số liệu.
Có nhiều chỉ tiêu khác nhau để kiểm định giả thiết này.
a. Chỉ tiêu điểm ngoặt
Trong một chuỗi quan trắc x
i
(i=1,2, ,n) sẽ xuất hiện một điểm ngoặt P tại thời
gian i nếu, hoặc x
i
lớn hơn x
i-1
và x
i+1
, hoặc x
i
nhỏ hơn x
i-1
và x

i+1
.


77

Có 6 khả năng sau đây trong một chuỗi (hình 3.4)[10]:
x
i-1
>x
i
>x
i+1
P = 0
(2) x
i-1
>x
i+1
>x
i
P = 1
(3) x
i
>x
i-1
>x
i+1
P = 1
(4) x
i

>x
i+1
>x
i-1
P = 1
(5) x
i+1
>x
i-1
>x
i
P = 1
(6) x
i+1
>x
i
>x
i-1
P = 0.
6 trờng hợp trên có xác suất xuất hiện bằng
nhau và các điểm ngoặt xuất hiện trong các
trờng hợp từ (2) đến (5), nghĩa là số trờng
hợp có điểm ngoặt ngẫu nhiên chiếm 4/6 = 2/3
trờng hợp.





Hình 3.4: Các trờng hợp xuất hiện điểm ngoặt


Vì không xét đợc điểm ngoặt tại i =1 và i = n nên kỳ vọng (số điểm ngoặt có thể
xét đợc) trong cả chuỗi (n-2) điểm là:
)()( 2
3
2
nPE
, (3.26)
và phơng sai của số điểm ngoặt:
90
2916
2


n
PPD )()(

(3.27)
Đặt:
)(
)(
P
PEP
Z



, (3.28)
Độ đo của Z coi nh độ lệch chuẩn; P là số điểm ngoặt thực của chuỗi. Từ số liệu
quan trắc tính đợc Z.

Tra phân bố chuẩn với mức ý nghĩa (tra với q=/2).
Nếu
tht
ZZ
thì giả thiết không H
0
về tính ngẫu nhiên đợc chấp nhận. Ngợc
lại, giả thiết H
0
bị bác bỏ.
Ví dụ 3.5: Cho chuỗi số liệu Q
năm
trạm Lai Châu, sông Đà từ 1959-2003 (bảng 2.3,
chơng 2), yêu cầu kiểm định tính ngẫu nhiên theo chỉ tiêu điểm ngoặt.
- Tiến hành xác định số điểm ngoặt của chuỗi quan trắc (bảng 3.3), chữ số có gạch
chân là điểm ngoặt
Tổng số điểm ngoặt của chuỗi thực đo là P=31.


1

X
i-1
X
i
X
i+1
i-1 i i+1

2

X
i-1
X
i
X
i+1
i-1 i i+1

3

X
i-1
X
i
X
i+1
i-1 i i+1
4




X
i-1
X
i
X
i+1
i-1 i i+1




5
6



X
i-1
X
i
X
i+1
X
i-1
X
i
X
i+1

i-1 i i+1 i-
1 i i+1


78

Bảng 3.3: Xác định số điểm ngoặt của Q năm trạm Lai châu-sông Đà
Năm

Q

max
Năm Q
max
Năm Q
max
Năm Q
max
1959

1180 1975 946 1985 1220 1996 1400
1960

1020 1976 1160 1986 1240 1997 1260
1961

1090 1977 1050 1987 980 1998 1260
1962

989 1978 926 1988 1070 1999 1510
1963

745 1979 961 1989 811 2000 1190
1964

990 1980 762 1990 1370 2001 1340
1965

1130 1981 1350 1991 1330 2002 1380



2003 1320

- Xác định kỳ vọng và phơng sai và chỉ tiêu điểm ngoặt:
E(P)=2/3(n-2)=2/3(45-2)=2/3.43=28,67,






90
294516
90
2916
2
xn
PPD )()(

7,68,






5441
332
687
672831
21

,
,
,
,
)(
)(
/
P
PEP
Z

1,509.
- Với mức ý nghĩa =5%, tra bảng với q=/2=2,5% có Z
th
=1,96.
- So sánh thấy Z<Z
th
, nh vậy giả thiết H
0
về tính ngẫu nhiên đợc chấp nhận.
b.Chỉ tiêu Neyman
Có thể dùng chênh lệch giữa các số hạng liên tiếp trong chuỗi để đánh giá tính
ngẫu nhiên của nó. Từ đó chỉ tiêu Neyman có dạng:
2
2



*


, (3.29)
trong đó:
2
1
1
1
2
12
1
)(
)(
*






n
ii
xx
n

, (3.30)
còn khoảng lệch chuẩn, nh đã biết, là:






n
i
xx
n
1
22
1
1
)(


có phân bố chuẩn khi n>20. Giá trị tới hạn với mức ý nghĩa là:
1
1


n
u



, (3.31)
trong đó u

tra bảng phân bố chuẩn với mức ý nghĩa ( = 5% thì u

= 1,96).
-So sánh nếu




thì nó ở khu vực tới hạn và giả thiết không H
0
bị loại bỏ,
nghĩa là chuỗi không ngẫu nhiên.
Còn nếu



thì

giả thiết H
0
đợc chấp nhận và chuỗi là ngẫu nhiên.
Mức độ lệch khỏi đơn vị (1) của là độ đo đánh giá tính ngẫu nhiên. Phân tích
thấy rằng [32] khi =1 (hoặc xấp xỉ) thì chuỗi đợc chấp nhận là ngẫu nhiên. Càng xa
1 thì tính ngẫu nhiên càng kém.


79

Các tính toán cho thấy [32] với chuỗi dòng chảy năm có dung luợng n>40, thì hầu
hết có trong miền tới hạn với mức ý nghĩa , chứng tỏ chuỗi không ngẫu nhiên, còn
với chuỗi dòng chảy lớn nhất 1 nên chuỗi là ngẫu nhiên. Điều này phù hợp với
phân tích vật lý.
Bảng (3.4) cho ta thấy một số giá trị của dòng chảy năm và dòng chảy lớn nhất
một số sông.
Bảng 3.4: Trị số của dòng chảy năm và lớn nhất một số sông
Dòng chảy năm Dòng chảy lớn nhất
Trạm Sông Số năm



Trạm Sông Số năm

Volgagrat Volga 55 0,59 Volgagrat Volga 55 0,95
Xmalinski Neman 147 0,78 Xmalinski Neman 147 0,99
Hoà Bình Đà 47 Hoà Bình Đà 47
Hà Nội Hồng 47 Hà Nội Hồng 47

c. Chỉ tiêu tơng quan hạng Kendal (chỉ tiêu ).
Cho dãy x
i
( i =1,N). Xác định số lần P trong toàn bộ cặp quan trắc mà
j
x
> x
i
(j>i). Các cặp
quan trắc lần lợt có thể là nh sau (số sau lớn hơn số trớc):
i = 1, j =2,3,4, N;
i = 2, j =3,4,5, N;
i = 3, j =4,5,6, N;

i = N-1, j = N.
Số khả năng của các cặp nh thế đạt lớn nhất khi có một dãy tăng liên tục. Khi đó ta có P
= (N+1) + (N-2)+ +2+1, tức là tổng một cấp số cộng và bằng
2
1
N
N )(

. Nếu dãy quan trắc
diễn ra hoàn toàn ngợc lại thì P = 0, nh vậy với một chuỗi bất kỳ sẽ có:

4
1)(
)(


NN
PE
, (3.32)
và:
P
E
PEP )(


, (3.33)
trong đó: P là số trờng hợp thực tế mà số hạng sau lớn hơn số hạng trớc.
Nếu
2
1)(

NN
P
là xu thế tăng, còn P 0 là xu thế giảm.
Khi dãy là ngẫu nhiên hoàn toàn thì có kỳ vọng là E() = 0,
và phơng sai:
)(
)(

)(
19
522



NN
N
D

, (3.34)
Chỉ tiêu:
)(


Z
, (3.35)
có phân bố chuẩn khi N tăng.
Giá trị Z đợc tra từ phân bố chuẩn với mức ý nghĩa ( = 5%, Z
th
= 1,96).


80

-Nếu
tht
ZZ
thì giả thiết H
0

đuợc chấp nhận và chuỗi là ngẫu nhiên (không có xu thế
tăng hay giảm).
d. Chỉ tiêu độ dài nhóm năm nhiều và ít nớc
Chúng ta công nhận khái niệm "nhóm năm" là một đoạn bất kỳ gồm các phần tử của cùng
một loại. Độ dài nhóm năm là số phần tử có trong nhóm đó. Thờng ngời ta coi nhóm năm
nhiều nớc (ký hiệu là a) gồm các phần tử có lợng dòng chảy lớn hơn hoặc bằng dòng chảy
trung bình nhiều năm (hay chuẩn), còn nhóm năm ít nớc (ký hiệu là b) gồm các phần tử có
dòng chảy nhỏ hơn chuẩn. Tiến hành so sánh giữa độ dài và số nhóm năm của chuỗi thực đo
với độ dài và số nhóm năm lý thuyết của chuỗi ngẫu nhiên thuần tuý để nhận định về tính
ngẫu nhiên của chuỗi.
Ký hiệu số nhóm năm của a có độ dài i là r
1,i
; số nhóm năm của b là r
2,i
, r
i
=r
1,i
+r
2,i
là tổng số
nhóm năm có độ dài i.
Gọi



1
1
11
n

i
ik
rB
,,
là số nhóm năm của a có độ dài lớn hơn k;



1
1
22
n
i
ik
rB
,,
là số nhóm năm
của b có độ dài lớn hơn k. B
k
=B
1,k
+B
2,k
là tổng số nhóm năm có độ lớn hơn k. Những giá trị lý
thuyết của thông số nghiên cứu đa ra trong bảng (3.5) và (3.6)
Bảng 3.5: Số năm dài nhất n để có bất dẳng thức trong bảng với xác suất 5%
Độ dài nhóm năm B
k
1 B
1,k

1 và B
2,k
1 B
1,k
1
5 10 16 10
6 14 32 18
7 22 64 28
8 34 120 48
9 54 230 80
10 86 130
11 140 230
12 230 420
Bảng 3.6: Số nhóm năm B trong chuỗi ngẫu nhiên với độ dài n khác nhau
P
B
(%)

10 20 30 40 50 60 80 100 120 140 160 180 200
5 3 6 11 15 19 24 33 42 51 60 70 79 88
95 8 15 20 26 32 37 48 59 70 81 91 102 113
2,5 2 6 10 14 18 22 31 40 49 58 68 77 86
97,5 9 15 21 27 33 39 50 61 72 83 93 104 115
Tiến hành nghiên cứu mức độ ngẫu nhiên của các chuỗi thực đo trên một số sông có độ dài
lớn nhất trên các khu vực địa lý khác nhau cho thấy tổng số thực tế nhóm năm có độ dài khác
nhau nhỏ hơn giá trị lý thuyết khá nhiều. Ví dụ ở sông Neva trạm Petrokreposti có số nhóm
năm là 8, trong khi theo lí thuyết nó là 54. Số nhóm năm thực tế với độ dài nhỏ (i=1-3) nhỏ hơn
giá trị lý thuyết, còn số nhóm năm với độ dài lớn ((i=5-15) lớn hơn lí thuyết thực sự. Sự khác
biệt này càng tăng khi tăng độ dài nhóm năm. Điều đó chứng tỏ rằng các chuỗi dòng chảy năm
nói chung không phải là chuỗi ngẫu nhiên độc lập, và trong chuỗi đó có chứa những dao động

chu kỳ vợt ra khỏi tính chất của một chuỗi ngẫu nhiên thuần tuý.


81

Tuy nhiên trên cơ sở so sánh giữa thực tế và lí thuyết cho từng sông cụ thể cần đánh giá
xem ở mức độ nào thì sự khác biệt là thật sự hoặc có thể bỏ qua để coi chúng là chuỗi ngẫu
nhiên thuần tuý. Ví dụ theo kết quả từ [7] thấy rằng với sông Mêkông thì sự khác biệt còn
đáng kể nhng với các sông khác của Việt nam, sự khác biệt này không lớn và có thẻ coi chuỗi
dòng chảy năm của chúng là ngẫu nhiên.

3.2.3. Kiểm định tính phù hợp
Kiểm địmh này áp dụng đối với đờng tần suất. Để đánh giá sự phù hợp của tài
liệu thực nghiệm với mỗi đờng tần suất nào đó phải tiến hành so sánh. Trong chơng
2 đa giới thiệu phơng pháp đánh giá bằng cách so sánh 2 đờng thực nghiệm và lí
luận, nếu thấy có sự tơng ứng là phù hợp. Tuy nhiên việc so sánh bằng mắt còn mang
tính chủ quan. Vì vậy cần có phơng pháp khách quan hơn. Các chỉ tiêu so sánh trình
bày dới đây cho phép đánh giá sự phù hợp về mặt định lợng.
a.Chỉ tiêu
2


Đây là chỉ tiêu thờng dùng nhất để đánh giá sự phù hợp của đờng thực nghiệm
với bất kỳ phân bố nào. Chỉ tiêu đợc biểu thị bằng công thức:





k

i
i
ii
p
pp
N
1
2
2
)(
'

, (3.36)
trong đó:
'
i
p
: Tần số thực nghiệm trong khoảng i;
i
p
: Tần số lý thuyết hay kỳ vọng
trong khoảng i; k: Số khoảng chia tần suất; N: Dung lợng mẫu quan trắc.
Công thức (3.36) do Karl Pearson đề xuất. Ông cũng cho rằng luật phân bố của
2

không phụ thuộc vào phân bố của chuỗi gốc khi n lớn, mà chỉ phụ thuộc số bậc tự do
1 rk

, trong đó r là số thông số tự do, thờng là 3 (đó là
x

, C
v
, C
s
) (hình 3.5).


Hình 3.5: Phân bố

2
Tần số lý luận hay kỳ vọng trong khoảng i:
)( pEp
i

thờng lấy là:

const
k
N
pE )(
(3.37)
Để tiến hành tính toán tiến hành theo các bớc sau:


82

1). Chia khoảng tần suất từ 0 -100% ra thành k khoảng đều nhau có tần suất lí
luận mỗi khoảng là
k
N

pE )(
. Số lớp k đợc chọn phụ thuộc vào N, theo nh bảng
sau:
N 50 200-400 1000
k 8-10 20 30
Chuỗi số liệu thuỷ văn thờng ngắn vì vậy nên chọn các khoảng không đều để xác
suất lý thuyết rơi vào mỗi khoảng là không đổi.
Khi chia chuỗi thành k cấp thì khoảng giá trị của đại lợng ngẫu nhiên x cũng
đợc chia thành k cấp.
2). Từ đờng lý luận ứng với các khoảng tần suất đã chia xác định các khoảng
biến đổi của đại lợng x. Tiến hành thống kê số điểm thực nghiệm trong mỗi khoảng i
của x ta đợc p
i
.
3). Xác định
2

theo công thức (3.36).
Vì lấy
const
k
N
pE )(
nên chỉ tiêu

2

thờng biểu diễn dới dạng:




k
i
i
Np
N
k
1
22
)(

(3.38)
Khi chia lớp thì số lớp nên lấy k 5 và tần số kỳ vọng trong mỗi lớp ít nhất là 5.
Với mức ý nghĩa , tra bảng
2

(phụ lục 3.3) với số bậc tự do

đợc
2
th

.Ví dụ với

= 1 và = 5% có
2
th

=3,841.
4). So sánh: nếu

2

<
2
th

thì chấp nhận H
0
, tức

là đờng phân bố thực nghiệm phù
hợp với đờng phân bố lý luận.
Với cùng một chuỗi quan trắc chỉ tiêu
2

có thể dùng để so sánh các dạng đờng lí
luận. Đờng nào cho giá trị
2

nhỏ hơn thì nó phù hợp hơn với đờng thực nghiệm.
Chỉ tiêu
2

kém nhạy, với chuỗi dung lợng nhỏ (N<100), nó chấp nhận mọi dạng
phân bố là phù hợp, mặc dù biết là chúng không phù hợp, còn với chuỗi dung lợng lớn
thì lại bác bỏ mọi dạng phân bố. Để khắc phục nhợc điểm này, thờng lấy khác
nhau. Khi N tăng thì tăng theo.
Ví dụ 3.6: Kiểm định tính phù hợp của đờng tần suất Kritski-Mekel với chuỗi số
liệu dòng chảy lớn nhất năm của trạm Hoà bình trên sông Đà (bảng 3.7)
Giả sử có đờng tần suất Kritski-Menkel với các thông số đã chọn:

max
Q
=9598
m
3
/s;


2399 m
3
/s; C
v
=0,25, C
s
=3C
v
.
Chia đòng tần suất thành 8 cấp đều nhau (bảng 3.7), nghĩa là:
E(p)=
k
N
=
8
47
=5,9.
Xác định khoảng chia của các cấp Q
max
tơng ứng với các cấp của đờng tần suất lí
luận đã chọn. Thống kê tần suất kinh nghiệm theo từng khoảng (bảng 3.7).



83


Bảng 3.7: Kiểm định chuỗi Qmax trạm Hoà Bình-sông Đà theo đờng Kritski-Menkel
TT Khoảng
tần suất
E(p) Khoảng Q
max
(m3/s)
p
i
p
i
2
1
12,5
5,9
12000
6 36
2
12,5 P 25,0
5,9 12000-10600 6 36
3
25,0 P 37,5
5,9 10600-10000 6 36
4
37,5 P 50,0
5,9 10000-9780 6 36
5

50,0 P 62,5
5,9 9780-8830 6 36
6
62,5 P 75,0
5,9 8830-8230 6 36
7
75,0 P 87,5
5,9 8230-7110 6 36
8
87,5 P 100
5,9
7110
5 25

Thay các số liệu vào công thức (3.38) để tính
2





k
i
i
Np
N
k
1
22
)(


=



8
1
2
47
47
8
i
i
p )(
=0,149
Tra bảng
2

với mức ý nghĩa =5% và số bặc tự do
1 rk

=8-3-1=5, đợc
2
th

=
9,488
So sánh thấy
2


<
2
th

, nên chấp nhận giả thiết H
0
, đờng tần suất Kritski-Mekel
với các thông số đã chọn là phù hợp với thực nghiệm.
b. Chỉ tiêu Smirnov-Kolmogorov
Để đo sự phù hợp giữa đờng tần suất lí luận và kinh nghiệm Smirnov-
Kolmogorov đề nghị dùng chênh lệch lớn nhất về tần suất giữa 2 đờng tần suất lí
luận và kinh nghiệm. Tại mỗi giá trị x của đại lợng ngẫu nhiên có tần suất lí luận P
và tần suất kinh nghiệm P'. Chênh lệch lớn nhất của chúng sẽ là:

xx
PPD
'
max
, (3.39)
trong đó:
'
x
P
là tần suất thực nghiệm (ứng với mỗi x);
x
P
là tần suất lý luận.
Với mức ý nghĩa , tra bảng Kolmogrov dới đây (bảng 3.8) đợc giá trị tới hạn

th

.
Cũng có thể sử dụng chỉ tiêu Smirnov-Kolmogrov theo công thức:

nD

, (3.40)
trong đó: n là dung lợng mẫu.
và tra bảng phân bố Kolmogorov đợc giá trị
th

.
So sánh nếu
th
D
hoặc
th


thi H
0
đợc chấp nhận và 2 đờng tần suất lí
luận và thực nghiệm là phù hợp.
Thuật toán tiến hành theo chỉ tiêu Smirnov-Kolmogrov khá đơn giản.Nó không
xét đến số tham số (bậc tự do) của hàm phân bố lí luận nên hàm nào có nhiều tham số


84

sẽ phù hợp hơn. Tuy nhiên chỉ tiêu này không sử dụng hết thông tin vì chỉ xét khoảng
lệch lớn nhất. Nhiều khi chấp nhận phù hợp trong khi rõ ràng là không phù hợp.

Bảng 3.8: Giá trị thống kê cho th
n

0,20 0,10 0,05 0,02
10 0,32 0,37 0,41 0,49
15 0,27 0,30 0,34 0,40
20 0,23 0,26 0,29 0,36
30 0,19 0,22 0,24 0,29
40 0,17 0,19 0,21 0,25
50 0,15 0,17 0,19 0,23
50
n
071,

n
221,

n
361,

n
631,


Ví dụ 3.7: Với chuỗi dòng chảy lớn nhất trạm Hoà Bình sông Đà ở trên (bảng 2.6),
kiểm định sự phù hợp của đờng kinh nghiệm với đờng tần suất Kritski-Mekel đã
chọn ở ví dụ (2.6) theo chỉ tiêu Smirnov-Kolmogrov.
Từ đờng tần suất kinh nghiệm và lí luận (hình 2.14) ta có khoảng lệch tần suất
lớn nhất tơng ứng với giá trị lu lợng Q
max

=12400m
3
/s (K=1,29) là :
xx
PPD
'
max
=
3388514 ,,max D
=6,53%=0,065.
Với =5% n=47, tra bảng (3.8) ta đợc
th
=0,195.
So sánh thấy rằng D=0,065 <
th
=0,195, nh vậy giả thiết H
0
đợc chấp nhận và
đờng tần suất đã chọn phù hợp với đờng thực nghiệm.
c. Chỉ tiêu
2

n

Chỉ tiêu này lấy tổng bình phơng độ lệch tần suất giữa các điểm, nên khác với
chỉ tiêu Smirnov-Kolmogrov, nó tận dụng đợc nhiều thông tin hơn từ chuỗi số liệu đo
đạc. Chỉ tiêu có dạng:

2
1

2



n
i
ii
ppn
*

, (3.41)
trong đó: n trong dấu tổng là dung lợng mẫu;
'
i
p

i
p
là tần suất trên đờng thực
nghiệm và lí luận của các điểm quan trắc thứ i.
Với n>40 thì phân bố
2

n
gần đến một phân bố đợc xác định theo bảng (3.9),
không phụ thuộc và đờng tần suất lí thuyết đã chọn.

Bảng 3.9: Phân bố
2


n

(%)
30 20 10 5 3 2 1 0,1
2

n
0,1843 0,2412 0,3473 0,4614 0,5489

0,6198 0,7435

1,1679


Với mức ý nghĩa , tra bảng
2

n
đợc giá trị
2
th
n




85

So sánh: Nếu
22

th
nn


thì giả thiết H
0
đợc chấp nhận và đờng lí luận là phù
hợp.
Nếu
22
th
nn


thì giả thiết H
0
bị bác bỏ, đờng tần suất lí luận không phù
hợp.
Ví dụ: 3.8. Cho số liệu dòng chảy lớn nhất trạm Thợng Nhật, sông Hơng từ năm
1983-2005 (bảng 3.10). Kiểm định sự phù hợp của đờng tần suất Kritski-Menkel theo
chỉ tiêu
2

n
.
Thực hiện các bớc sau:
- Xây dựng đờng tần suất Kritski-Menkel theo phơng pháp thích hợp nh ví dụ
ở chơng 2, đợc các tần suất tơng ứng với các giá trị Q
max
(bảng 3.10).

Bảng 3.10: Đánh giá sự phù hợp đờng tần suất Kritski-Menkel của Qmax
trạm Thợng Nhật, s.Hơng
TT Năm Q
max
'
i
P

P
i
2

n

1 1983 654 3,8 0,9928 0,000788
2 1984 460 7,7 14,114 0,00411
3 1998 443 11,5 16,720 0,00272
4 2000 433 15,4 18,254 0,000814









22 1987 175 84,6 83,451 0,000132
23 1979 121 88,5 88,428 0,000000518


24 1991 118 92,3 93,427 0,000127
25 2003 92,1 96,2 96,842 0,00000412
=
0,073769

- Tính toán các giá trị
2

n
theo công thức (3.41), kết quả ở cột 6 bảng (3.10).
- Tra bảng (3.9) với mức ý nghĩa =5% đợc
2
th
n

=0,4614 lớn hơn
2

n
= 0,073769.
Nh vậy giả thiết H
0
đợc chấp nhận và đờng tần suất lí luận Kritski-Menkel phù
hợp.
Tuy nhiên việc tính toán phức tạp hơn. Đồng thời cũng nh chỉ tiêu Smirnov-
Kolmogrov, khi thay các thông số của tổng thể bằng các thông số mẫu, chỉ tiêu
2

n
sẽ

đa đến khả năng chấp nhận giả thiết H
0
nhiều hơn ngay cả khi không đủ cơ sở để kết
luận đờng lí luận phù hợp với đờng thực nghiệm.
3.3. Ước lợng các thông số thống kê
Các thông số thống kê đóng một vai trò quan trọng trong xây dựng đờng tần suất
lý luận. Vì các thông số đợc xác định theo mẫu hữu hạn nên có sai số. Giá trị gần
đúng xác định theo mẫu gọi là thông số ớc lợng. Những giá trị này cần phải tiệm
cận đến các giá trị đúng của nó, tức là giá trị ứng với chuỗi tổng thể có độ dài vô hạn.


86

Ví dụ trung bình số học xác định theo phơng pháp mômen càng chính xác nếu độ dài
chuỗi đo đạc càng dài. Trong chơng 1 chúng ta đã đề cập đến phơng pháp lấy mẫu,
tức là xác định độ dài cần thiết để có đợc các thông số đảm bảo độ chính xác. Tuy
nhiên điều này không phải lúc nào cũng làm đợc, độ dài chuỗi số liệu đo đạc hiện nay
thờng không quá 100 năm. Với độ dài này thì giá trị hệ số bất dối xứng C
s
xác định
đợc thờng không đảm bảo độ chính xác. Sai số khi xác định các thông số sẽ dẫn đến
sai số của đờng tần suất và hệ quả là các đặc trng thuỷ văn thiết kế xác định theo
tần suất sẽ sai lệch. Trong chơng 2, khi xây dựng đờng tần suất, chúng ta cũng giới
thiệu một số phơng pháp xác định các thông số thống kê cơ bản
x
, Cv, C
s
. Tuy nhiên
các thông số khác cha đề cập tới. Do vậy chúng ta phải đánh giá tính đúng đắn và độ
tin cậy của các thông số đợc xác định bởi chuỗi đo đạc có độ dài hữu hạn theo lý

thuyết ớc lợng. Các thông số đợc coi là đúng là phải có ý nghĩa thống kê, tức là
phải thoả mãn một số điều kiện nhất định.
3.3.1. Điều kiện đối với các thông số thống kê
Các thông số đợc coi là có ý nghĩa thống kê phải thoả mãn các điều kiện sau:
-Vững: Tức là hội tụ theo xác suất đến giá trị thực khi n tăng lên vô hạn:


1
21



aaPLimhayaxxxa
n
n
n
'), ,,('
, (3.42)
trong đó: a là giá trị thông số xác định từ mẫu có dung lơng n (x
1
, x
2
, , x
n
); a là giá
trị đúng;

là giá trị đủ nhỏ cho phép.
Ước lợng của giá trị trung bình và phơng sai theo phơng pháp mômen là ớc
lợng vững.

- Không chệch: Nghĩa là không tồn tại sai số hệ thống trong thông số với n bất kỳ,
nói cách khác kỳ vọng của nó phải trùng với giá trị thực:
aaM )(
'
, (3.43)
Nếu M(a) < a thì thông số chệch âm.
Ngợc lại thông số chệch dơng nếu M(a) > a.
Ước lợng của trung bình số học theo mômen là không chệch, nhng ớc lợng
của phơng sai là chệch âm. Muốn giá trị xác định đợc không chệch phải tiến hành
hiệu chỉnh. Ký hiệu ớc lợng của phơng sai là S
2
, nh vậy theo phơng pháp mômen
ta có:
n
xx
S
n
i
i
2
1
2
)(




(3.44)
Kỳ vọng của phơng sai là:
22

1

n
n
SM

)(
(3.45)
Nh vậy giá trị không chệch sau khi hiệu chỉnh sẽ là:

1
2
22




n
xx
S
i
kc
)(

, (3.46)
đúng nh công thức (1.32a) đã nêu trong chơng 1. Tuy nhiên thực tế thấy rằng khi
dung lợng mẫu n < 30 thì phải hiệu chỉnh, còn khi n > 30 thì không cần.


87


- Hiệu quả: Phơng sai của thông số tồn tại và không vợt quá một cực tiểu lý
thuyết:
2
min
'
ln
1
)(









a
nM
n
aD


, (3.47)
trong đó:

là hàm mật độ của phân bố; n là dung lợng mẫu.
Chi tiết hơn có thể xem trong [4].
Trong thuỷ văn điều kiện này thờng dùng để so sánh các ớc lợng theo các

phơng pháp khác nhau, khi đó ta có độ hiệu quả e:
)(
)(
'
'
2
1
aD
aD
e
, (3.48)
trong đó:
'
1
a

'
2
a
là các ớc lợng theo các phơng pháp khác nhau của thông số a.
Nếu e < 1 thì
'
1
a
hiệu quả hơn, còn nếu e >1 thì
'
2
a
hiệu quả hơn.
Ví dụ: ớc lợng cho kỳ vọng có thể là trung bình số học hoặc số giữa. Khoảng

lệch của trung bình số học là:
n
X
X



(3.49)
Khoảng lệch của số giữa là:
n
X
M
e
2
2




(3.50)
Từ đó có:
640
2
2
2
,



e

M
X
e
<1.
Nh vậy kỳ vọng đợc ớc lợng theo trung bình số học có hiệu quả hơn theo số
giữa.
3.3.2. ớc lợng các thông số
Dựa vào các tiêu chuẩn trên để tìm ra các công thức hiệu chỉnh các thông số nhằm
đảm bảo các điều kiện ý nghĩa thống kê của chúng, trong đó chủ yếu là hiệu chỉnh
chệch.
Một số các các đặc trng thống kê xác định theo phơng pháp mômen đợc hiệu
chỉnh theo các tiêu chuẩn thống kê đã nêu ở chơng 1.
Ví dụ:
3
32
)3(
)1(
;
1
)(
v
i
S
i
Cn
k
C
n
xx










Bằng thống kê toán học ngời ta đã xác định đợc sai số tính theo phơng pháp
momen, tức là sai số mẫu.
a. Sai số mẫu
- Sai số mẫu của giá trị trung bình với chuỗi không có tơng quan giữa các số
hạng kề nhau r=0 thì:


88


n
x
x



, (3.51)
trong đó:
x

là khoảng lệch chuẩn hay sai số của giá trị trung bình;
x


là giá trị
khoảng lệch chuẩn của cả tổng thể (chuỗi dài vô hạn).
- Để đánh giá sai số mẫu của hệ số C
v
, đối với chuỗi có r=0 và C
s
= 2C
v
có thể dùng
công thức:

)1(
2
2
v
v
C
C
n
C
v


(3.52)
hoặc theo công thức kinh nghiệm của Blokhinov:

2
1
4

2
2
)(
v
v
v
C
Cn
Cn
C
v




(3.53)

- Sai số lẫy mẫu của C
s
khi C
s
=2C
v
và r=0, có thể tính theo công thức của Kritski-
Menkel:

)(
42
561





n
S
C
(3.54)
hoặc công thức:

,)(
42
561
1




nC
s
C
S
(3.55)
trong đó:


s
C
là các giá trị của chuỗi tổng thể, không chệch.
- Sai số tính tung độ đờng tần suất theo mẫu đối với phân bố P.III khi C
s

=2C
v

đợc xác định bằng công thức:

A
n
P
x



(3.56)
hoặc theo Blokhinov:

2
2
2
2
1
)(
V
P
C
K
v
P
x
xp
C

k
n






(3.57)
Còn khi C
s
bất kỳ ta có:

)(
24222
4243446



SSSSSx
A
n
P

, (3.58)
trong đó:



















ss
A

2
431
2
21
2
2
)(
, (3.59)

v
pp
C
kxx 1





, (3.60)
là khoảng lệch tần suất, tơng ứng với hệ số tần suất.

ss
s
CC





(3.61)


89

Thay cho phơng pháp mômen ngời ta sử dụng phơng pháp thích hợp, phơng
pháp 3 điểm. Các phơng pháp này đã đợc đề cập đến trong chơng 2. ở đây chúng
ta giới thiệu các phơng pháp tổng quát hơn trong việc ớc lợng các thông số.
b. Phơng pháp khả năng hiện thực tối đa
Phơng pháp khả năng hiện thực lớn nhất hay hiện thực tối đa do R.A. Fisher đề
xuất năm 1922, đợc Kritski-Menkel đa vào áp dụng trong thuỷ văn và tiếp theo
đợc E.G. Blokhinov phát triển. Phơng pháp này cho rằng giá trị tốt nhất của một
thông số phải là giá trị sao cho có khả năng hiện thực lớn nhất hay xác suất xuất hiện
đồng thời (xác suất giao) các phần tử của mẫu đạt giá trị lớn nhất, bởi vì các phần tử x
i


thực tế cùng xuất hiện trong chuỗi đo đạc. Phơng pháp sẽ cho ta ớc lợng có hiệu
quả nhất của thông số.
Giả sử chúng ta có n phần tử (n quan trắc) độc lập

x
1
; x
2;
, ,x
n
với khoảng cách
giữa chúng là dx. Các x
i
có cùng mật độ phân bố p(x
i
). Xác suất để biến ngẫu nhiên x
i

lấy giá trị trong khoảng dx là p(x
i
)dx. Vì các x
i
là độc lập nên xác suất để xuất hiện
đồng thời các x
i
là tích xác suất của từng x
i
:
P(x)=f(x

1
).f(x
2
).f(x
3
) f(x
n
)=
n
i
n
i
dxxp








)(
1
(3.62)
Các thông số đạt giá trị tốt nhất nếu P(x) đạt giá trị cực đại. Vì dx không đổi nên
tìm cực đại của P(x) tơng đơng với tìm cực đại của hàm:










)(
i
n
i
xpL
1
(3.63)
Hàm này đợc gọi là hàm khả năng hiện thực hay hàm thích hợp. Trong tính toán
thực tế ngời ta dùng lnL thay cho L, khi đó hàm thích hợp có dạng:









)(lnln
i
n
i
xpL
1
(3.64a)

Trong tính toán thực tế, khá nhiều hàm mật độ có dạng hàm mũ, do đó đôi khi
ngời ta thực hiện với hàm thích hợp sau đây:





n
i
i
xpL
1
)(lnln
(3.64b)
Cho các đạo hàm riêng của nó đối với từng thông số a
i
bằng 0:

0


i
a
Lln
(3.65)
và giải các phơng trình (3.65) ta sẽ đợc các thông số a
i
.
Nhiều hàm p(x) không cho phép tìm đợc nghiệm giải tích của (3.65), khi đó phải
giải bằng phơng pháp số rất phức tạp.

Ví dụ 3.8 [32]: Đối với đờng phân bố chuẩn:








2
2
2
2
1


)(
exp)(
xx
xp
,
ta có 2 thông số là
x


.
Hàm thích hợp khi đó sẽ là:




n n n
i
xxL
1 1 1
2
2
2
1
2
2
1
)(lnlnln


(3.66)


90

Giải (3.65) đối với
x
ta đợc:

0
1
1
2





n
i
xx
x
L
)(
ln

, suy ra:
n
x
x
n
i


1

và cho

đợc:

0)(
1ln
1
2
3





n
i
n
xx
x
L




Từ đó nhận đợc:

n
xx
n
i



1
2
)(


Điều đó có nghĩa là các kết quả hoàn toàn trùng với phơng pháp mômen. Tuy
nhiên với các đờng tần suất khác kết quả cha chắc đã nh vậy.
Bằng phơng pháp khả năng hiện thực tối đa ngời ta cũng tìm đợc công thức độ
lệch chuẩn của hệ số biến dổi:


2
3
3
2
v
v
C
C
n
C
v



(3.67)
Ví dụ 3.9 [15]: Số liệu về khoảng thời gian giữa các trận ma tại một địa điểm cho
trớc là 2,40; 4,25; 0,77; 13,32; 3,55 và 1,37. Giả thiết rằng khoảng thời gian giữa các
trận ma tuân theo luật phân bố mũ. Hãy xác định thông số của hàm phân bố bằng
phơng pháp khả năng hiện thực lớn nhất.
Đối với một giá trị cho trớc x
i
mật độ xác suất là:

i
x
i
exp




)(

Từ phơng trình (3.64) ta có:





n
i
i
xpL
1
)(lnln
=




n
i
x
i
eL
1
)ln(ln


=




n
i
i
x
1
)(ln




n
i
i
xn
1

ln

Hàm lnL lấy cực đại khi:






n
i

i
x
nL
1
0

)(ln

Do đó:
5625
6
111
1
,.


n
i
i
x
n

=4,28.
Suy ra : =0,234 ngày
-1
.
Hàm hiện thực tối đa trong trờng hợp này là :




n
i
i
xnL
1

lnln



6
1
6
i
i
x

ln
.
Vì sự phức tạp của các dạng đờng tần suất, khó tìm nghiệm giải tích của (3.65)
nên E.G. Blokhinov đã xây dựng hệ thống toán đồ cho từng dạng phân bố thờng
dùng. Dới đây là một toán đồ nh vậy(hình 3.7):

×