08/09/2021
TRƯỜNG ĐẠI HỌC THỦY LỢI
KHOA KỸ THUẬT TÀI NGUYÊN NƯỚC
BỘ MÔN THỦY VĂN - BĐKH
THỐNG KÊ TRONG THỦY VĂN
Giảng viên: Nguyễn Thị Thu Hà
Email:
1
TRƯỜNG ĐẠI HỌC THỦY LỢI
KHOA KỸ THUẬT TÀI NGUYÊN NƯỚC
BỘ MÔN THỦY VĂN - BĐKH
Chương 1: Những khái niệm cơ bản
Giảng viên: Nguyễn Thị Thu Hà
Email:
2
1
08/09/2021
Nội dung
Tại sao thống kê ứng dụng rộng rãi trong thủy văn?
I.
Khái niệm về biến ngẫu nhiên, xác suất, thời kỳ lặp lại,
mối quan hệ giữa thời kỳ lặp lại và rủi ro.
III. Phân bố xác suất của biến ngẫu nhiên
IV. Thống kê toán học, khái niệm mẫu, tổng thể, phương
pháp chọn mẫu
V. Đặc trưng thống kê của mẫu và tổng thể
VI. Miêu tả đồ họa phân bố của mẫu (biểu đồ tần số và biểu
đồ hộp)
II.
3
I. Tại sao thống kê ứng dụng rộng rãi
trong thủy văn?
Thủy văn (Hydrology)
là một ngành khoa học trái đất (geoscience) chuyên nghiên
cứu về các hiện tượng tự nhiên như xác định sự xuất hiện,
tuần hoàn và phân bố của nước trên trái đất, những đặc
tính lý, hóa và sinh học và tương tác của chúng với môi
trường xung quanh bao gồm cả sự sống.
Thủy văn ứng dụng (Applied Hydrology) hay thủy văn
kỹ thuật (Engineering Hydrology)
sử dụng những nguyên lý khoa học của thủy văn, cùng với
kiến thức từ những chuyên ngành khoa học khác để quy
hoạch, thiết kế, vận hành và quản lý hệ thống tài nguyên
nước phức tạp. Những hệ thống này được thiết kể để phân
bố lại tài nguyên nước theo không gian và thời gian của
một vùng cụ thể nào đó để đáp ứng nhu cầu của xã hội.
4
2
08/09/2021
I. Tại sao thống kê ứng dụng rộng rãi
trong thủy văn?
Những hiện tượng thủy văn là những hiện tượng
vừa mang tính tất định và vừa mang tính ngẫu
nhiên
X = ( x1, x2,...,xi, ...,xn),
Các đặc trưng khí tượng,
khí hậu: mưa, bốc hơi, gió
...
Z = ( z1, z2,…,zi, ...,zm),
Các đặc trưng mặt đệm:
diện tích lưu vực, độ dốc
lưu vực, điều kiện địa hình,
địa chất, lớp phủ thực vật
Y = f(X, Z)
5
I. Tại sao thống kê ứng dụng rộng rãi
trong thủy văn?
Tất định
Phương pháp phân
tích ngun nhân
hình thành
Ngẫu nhiên
Phương pháp thống
kê xác suất
Y = f(X, Z)
6
3
08/09/2021
I. Tại sao thống kê ứng dụng rộng rãi
trong thủy văn?
• Phân tích thống kê dữ liệu cho phép chúng ta sử
dụng các tập dữ liệu giới hạn để đưa ra các quyết
định về kỹ thuật hoặc trả lời các câu hỏi liên quan
đến kỹ thuật.
Vai trò của thống kê trong thủy văn bao gồm
đưa ra những suy luận dựa trên các số liệu thu thập
được: phân tích tần suất, kiểm định thống kê,…
dự báo các hiện tượng thủy văn dựa trên các biến phụ
thuộc,
….
7
I. Tại sao thống kê ứng dụng rộng rãi
trong thủy văn?
VD 1:
• Chúng ta khơng thể xác định lượng mưa năm
2021 là bao nhiêu?
• Thống kê giúp chúng ta dự đốn xác suất của sự
kiện tương lai.
• Sử dụng số liệu xảy ra trong quá khứ để xác định
xác suất xảy ra trong tương lai.
CIVE 103
8
4
08/09/2021
I. Tại sao thống kê ứng dụng rộng rãi
trong thủy văn?
Ví dụ 2:
Lượng mưa hàng năm tại trạm khí tượng A thuộc hướng
khuất gió (leeward) và tại trạm khí tượng B thuộc hướng
đón gió (windward) cho trong bảng dưới đây.
Liệu lượng mưa trung bình tại hướng đón gió (B) là cao hơn
một cách ý nghĩa với lượng mưa trung bình tại hướng khuất
gió (A)
Năm
1998
1999
2000
2001
2002
2003
2004
2005
A (mm)
1225
1075
1260
1100
1125
1275
1300
1205
B (mm)
1276
1135
1288
1255
-
1365
1345
1310
9
I. Tại sao thống kê ứng dụng rộng rãi
trong thủy văn?
VD 3: Liệu chuỗi nhiệt độ năm hoặc lượng mưa năm có xu thế tang (giảm)
trong suốt 60 năm qua?
4
y = 0.0474x - 94.38
3
Temperature anomaly (oC)
2
1
0
-1
y = 0.0623x - 124.08
-2
y = -0.001x + 1.1215
-3
2010
2000
1990
1980
1970
1960
-4
Year
10
5
08/09/2021
I. Tại sao thống kê ứng dụng rộng rãi
trong thủy văn?
Bốc hơi Tốc độ gió Nhiệt độ
STT
Ví dụ 4 : Xác định lượng bốc thoát hơi
tháng từ số liệu tốc độ gió và nhiệt độ
trung bình tháng?
(km/h)
(mm)
(oC)
1
7
12
22.3
2
6
10
24.5
Y: Lượng bốc thốt hơi tháng (mm)
3
5
8
22.3
X1: Tốc độ gió trung bình tháng (km/h)
4
11
15
21.9
5
13
19
25.6
6
12
22
26.2
7
26
25
27.8
8
11
14
23.8
9
13
18
29
10
11
13
27.4
X2: Nhiệt độ trung bình tháng (oC)
Xác định b0, b1, b2
11
II. Khái niệm về biến ngẫu nhiên, xác suất và phân bố xác suất của biến
ngẫu nhiên
Phép thử ngẫu nhiên, Không gian mẫu, Sự kiện
Phép thử ngẫu nhiên (random experiment): Là một thí
nghiệm hay một quan sát nào đó mà kết quả không thể
nào biết trước được, tuy nhiên ta có thể xác định được
tập hợp tất cả các kết quả có thể xảy ra của phép thử đó.
Ví dụ: số ngày mưa trong tháng 6, đo lượng mưa tại
một trạm, đo dòng chảy tại một mặt cắt ngang sông,….
12
6
08/09/2021
II. Khái niệm về biến ngẫu nhiên, xác suất và phân bố xác suất của biến
ngẫu nhiên
Phép thử ngẫu nhiên, Không gian mẫu, Sự kiện
Không gian mẫu (sample space): Tập hợp tất cả các kết
quả có thể xảy ra khi thực hiện một phép thử ngẫu
nhiên được gọi là không gian mẫu, mỗi kết quả được
gọi là một biến cố sơ cấp (hay là một điểm mẫu
(sample point)).
Không gian mẫu rời rạc:
Không gian mẫu liên tục:
13
II. Khái niệm về biến ngẫu nhiên, xác suất, thời kỳ lặp lại, mối quan hệ giữa
thời kỳ lặp lại và rủi ro.
Phép thử ngẫu nhiên, Không gian mẫu, Sự kiện
Sự kiện hay biến cố là một tập con của không gian
mẫu
Sự kiện có thể bao gồm một điểm mẫu (biến cố sơ
cấp) hay nhiều điểm mẫu (không gian mẫu rời rạc)
hoặc một dãy thuộc không gian mẫu (không gian mẫu
liên tục).
14
7
08/09/2021
II. Khái niệm về biến ngẫu nhiên, xác suất, thời kỳ lặp lại, mối quan hệ giữa
thời kỳ lặp lại và rủi ro.
Biến ngẫu nhiên
Biến ngẫu nhiên (random variables) là các biến nhận
1 giá trị ngẫu nhiên đại diện cho kết quả của phép
thử.
Biến ngẫu nhiên thường được ký hiệu bởi chữ cái viết
hoa X, và chữ cái viết thường tương ứng của nó, ví dụ
x, được sử dụng để thể hiện giá trị cụ thể của biến
ngẫu nhiên đó.
Mỗi giá trị nhận được x của biến ngẫu nhiên X được
gọi là một thể hiện của X, đây cũng là kết quả của
phép thử hay còn được hiểu là một sự kiện.
15
II. Khái niệm về biến ngẫu nhiên, xác suất, thời kỳ lặp lại, mối quan hệ giữa
thời kỳ lặp lại và rủi ro.
Biến ngẫu nhiên
Biến ngẫu nhiên có thể là biến rời rạc hoặc biến liên tục, phụ
thuộc vào loại không gian mẫu tương ứng với nó.
Biến ngẫu nhiên tương ứng với khơng gian mẫu rời rạc, các trị
số của nó là những số tách rời nhau và đếm được. Ví dụ: số
ngày mưa trong tháng 6.
Biến ngẫu nhiên liên tục tương ứng với khơng gian mẫu liên
tục, các trị số có thể của nó là những biến số liền nhau, giữa
chúng khơng có khoảng cách nào. Ví dụ: lượng mưa tại một
trạm.
Biến ngẫu nhiên (X) được miêu tả bởi phân phối xác suất.
16
8
08/09/2021
II. Khái niệm về biến ngẫu nhiên, xác suất, thời kỳ lặp lại, mối quan hệ giữa
thời kỳ lặp lại và rủi ro.
Định nghĩa xác suất
Định nghĩa xác suất theo lối cổ điển
Xác suất (P) của một sự kiện (E) bằng số kết quả thuận lợi có
thể xảy ra (h) chia cho tổng số kết quả có thể xảy ra (n):
ℎ
( )=
Lý thuyết cổ điển giả định rằng tất cả các kết quả có thể xảy ra
đều có khả năng xảy ra như nhau và chúng ta biết rằng n.
Ví dụ Từ 1 hộp có 13 bi đỏ và 7 bi trắng có kích thước như
nhau, rút ngẫu nhiên 1 bi. Khi đó:
Xác suất để rút được bi đỏ là 13/20 = 0.65
Xác suất để rút được bi trắng là 7/20 = 0.35
17
II. Khái niệm về biến ngẫu nhiên, xác suất, thời kỳ lặp lại, mối quan hệ giữa
thời kỳ lặp lại và rủi ro.
Định nghĩa xác suất
Tần số tương đối:
Khi số phép thử lớn và ta không thể quan
sát tất cả các phép thử đó. Chúng ta cần
quan sát đủ các trường hợp (n phải đủ lớn),
và các trường hợp chúng ta quan sát cần
phải là điển hình.
P(E) = observed h / observed n
18
9
08/09/2021
II. Khái niệm về biến ngẫu nhiên, xác suất, thời kỳ lặp lại, mối quan hệ giữa
thời kỳ lặp lại và rủi ro.
Định nghĩa xác suất
Nếu sự kiện h được định nghĩa là một kết quả
thuận lợi hoặc thành cơng, thì sự kiện khơng
phải (h) được định nghĩa là một sự kiện bất lợi
hoặc thất bại. Do đó:
P(E) = h / n là thành cơng thì
P (khơng phải E) = (n-h) / n = 1 - h / n = (1-P (E)).
Xác suất thất bại = 1 - (xác suất thành công).
The probability of exceedance = 1 – probability of non exceedance
19
II. Khái niệm về biến ngẫu nhiên, xác suất, thời kỳ lặp lại, mối quan hệ giữa
thời kỳ lặp lại và rủi ro.
Các định lý cơ bản của lý thuyết xác suất
Xác suất của một sự kiện trong khoảng từ 0 tới 1:
0≤
≤1
Tổng của xác suất của tất cả các sự kiện có thể xảy ra là 1
=1
20
10
08/09/2021
II. Khái niệm về biến ngẫu nhiên, xác suất, thời kỳ lặp lại, mối quan hệ giữa
thời kỳ lặp lại và rủi ro.
Các định lý cơ bản của lý thuyết xác suất
Quy tắc cộng xác suất
Hai biến cố E1 và E2 được gọi là xung khắc với nhau nếu chúng
không bao giờ xảy ra đồng thời
Hợp của 2 biến cố E1 và E2 là biến cố xảy ra nếu ít nhất có một
trong hai biến cố E1 và E2 xảy ra: E1 E2
Quy tắc cộng: Nếu E1 và E2 xung khắc thì:
P(E1 E2 ) = P(E1) + P(E2) hay P(E1 và E2 ) = P(E1) + P(E2)
Trong trường hợp tổng quát, khi E1 và E2 khơng xung khắc với
nhau ta có cơng thức sau:
P(E1 hoặc E2) = P(E1) + P(E2) – P(E1E2)
Trong đó E1E2 là biến cố “E1 và E2 đồng thời xảy ra”
21
II. Khái niệm về biến ngẫu nhiên, xác suất, thời kỳ lặp lại, mối quan hệ giữa
thời kỳ lặp lại và rủi ro.
Các định lý cơ bản của lý thuyết xác suất
Quy tắc nhân
Hai biến cố E1 và E2 được gọi là độc lập với nhau nếu
việc xảy ra hay không xảy ra của biến cố này không làm
ảnh hưởng tới xác suất xuất hiện của biến cố kia
Trong trường hợp ngược lại ta nói E1 và E2 là 2 biến cố
phụ thuộc nhau
Quy tắc nhân: Nếu E1 và E2 độc lập thì
P(E1E2) hay P(E1E2) = P(E1).P(E2) hay P(E1 và E2 ) = P(E1).P(E2)
22
11
08/09/2021
II. Nhắc lại một số kiến thức cơ bản của lý thuyết xs
Các định lý cơ bản của lý thuyết xác suất
Biến cố phụ thuộc và xác suất có điều kiện
Giả sử E1 và E2 là 2 biến cố phụ thuộc. Điều đó có nghĩa
rằng việc xảy ra hay khơng xảy ra biến cố E1 có ảnh
hưởng tới xác suất xảy ra của E2.
Xác suất của E2 được tính trong điều kiện biết rằng E1 đã
xảy ra, được gọi là xác suất của E2 với điều kiện E1 và
được kí hiệu là P(E2/E1)
Cơng thức tính xác suất có điều kiện P(E2/E1) thơng qua
các xác suất khơng điều kiện
(E2/E1) =
(E2 ⋂ E1)
( 1)
23
II. Khái niệm về biến ngẫu nhiên, xác suất, thời kỳ lặp lại, mối quan hệ giữa
thời kỳ lặp lại và rủi ro.
Thời kỳ lặp lại
P(F) = 10% tức 10% cơ hội mỗi năm lũ xuất hiện
(F).
Trung bình 10 năm sẽ xuất hiện sự kiện F =
≥
Thời kỳ lặp lại trung bình trong các năm là:
1
1
=
=
( ) 1− ( )
24
12
08/09/2021
II. Khái niệm về biến ngẫu nhiên, xác suất, thời kỳ lặp lại, mối quan hệ giữa
thời kỳ lặp lại và rủi ro.
Rủi ro
Xác suất xuất hiện sự kiện F =
=
≥
≥
trong bất kỳ năm nào là
1
=
Xác suất không xuất hiện sự kiện F =
=1−
Xác suất không xuất hiện sự kiện
=
×
≥
=1−
≥
trong bất cứ năm nào
1
trong n năm:
×… ×
= 1−
Rủi ro: xác suất xuất hiện của sự kiện F ít nhất 1 lần trong thời kỳ n năm
liên tiếp là: R = 1 −
Độ in cậy Re = 1 −
= 1− 1−
= 1−
25
III. Phân bố xác suất của ĐLNN
Mỗi một đại lượng ngẫu nhiên đều có 1 luật phân bố của nó,
luật phân bố này phụ thuộc vào bản chất của đại lượng ngẫu
nhiên.
Là phương pháp xác định xác suất của biến ngẫu nhiên
được phân phối ra sao. Có 2 cách để xác định phân bố
này là dựa vào bảng phân bố xác xuất và hàm phân
phối xác suất
Luật phân bố xác suất của đại lượng ngẫu nhiên là quy luật
liên hệ những trị số có thể của đại lượng ngẫu nhiên với
những xác suất tương ứng của chúng.
Biến rời rạc: Hàm mật độ khối, hàm phân bố lũy tích
Biến liên tục: Hàm mật độ xác suất và hàm phân bố lũy tích
26
13
08/09/2021
III. Phân bố xác suất của ĐLNN
Hàm mật độ khối của biến rời rạc
Hàm khối xác suất (PMF - Probability Mass
Function).
= ( = )
27
III. Phân bố xác suất của ĐLNN
Hàm phân bố lũy tích của biến rời rạc
Hàm phân bố lũy tích (cumulative distribution
function, cdf): FX(x)
= ( ≤ )
(
≤
≤1)
=∑
(
)
28
14
08/09/2021
III. Phân bố xác suất của ĐLNN
Hàm phân bố lũy tích của biến liên tục
Biến liên tục có thể giả định bất kỳ giá trị x nào trong một
phạm vi số thực nhất định, có thể có hoặc khơng có giới
hạn.
Hàm phân phối tích lũy (CDF): xác suất nó nhỏ hơn hoặc
bằng một giá trị x cho trước.
=
≤
Xác suất vượt quá, là xác suất mà bất kỳ kết quả nào
trong X lớn hơn hoặc bằng một giá trị giới hạn đã nêu, x
P(X xi) = 1 – F(xi)
29
III. Phân bố xác suất của ĐLNN
Hàm phân bố lũy tích của biến liên tục
1 =
≤ 1 = 0.2
30
15
08/09/2021
III. Phân bố xác suất của ĐLNN
Hàm mật độ xác suất của biến liên tục
Với các biến ngẫu nhiên liên
tục ta có khái niệm hàm mật độ
xác suất (PDF - Probability
Density Function) để ước
lượng độ tập trung xác suất tại
lân cận điểm nào đó.
≤
≤
=
≤1
31
III. Luật phân phối xs của ĐLNN
Hàm mật độ xác suất của biến liên tục
Tính chất của hàm mật độ xác suất
Tính chất 1: Hàm mật độ xác suất luôn không âm: f(x) ≥ 0,
với mọi x
Tính chất 2: tích phân suy rộng trong khoảng (-∞;∞) của
hàm mật độ xác suất bằng 1
∫
( )
= 1.
Tính chất 3:
≤
≤
=
32
16
08/09/2021
III. Luật phân phối xs của ĐLNN
Hàm mật độ xác suất của biến liên tục
Symmetric and non-symmetric distribution
0.06
non-symmetric
0.05
symmetric
f(x)
0.04
0.03
0.02
0.01
0
0
10
20
30
40
x
33
III. Luật phân phối xs của ĐLNN
Hàm lũy tích xác suất
của biến liên tục
Hàm phân phối xác suất F(x)
của đại lượng ngẫu nhiên liên
tục X
( )=∫
( )
Hay,
( )
( )
= ( )
34
17
08/09/2021
III. Thống kê toán học, khái niệm mẫu, tổng thể, phương
pháp chọn mẫu
Thống kê toán học
Thống kê toán học là 1 ngành toán học nghiên
cứu những phương pháp ghi nhận, mơ tả và
phân tích những kết quả thí nghiệm được tiến
hành trên những hiện tượng ngẫu nhiên.
35
III. Thống kê toán học, khái niệm mẫu, tổng thể, phương
pháp chọn mẫu
Mẫu và tổng thể
Mẫu: Những kết quả thí nghiệm thu được được
gọi là mẫu. Như vậy mẫu chính là chuỗi số thống
kê hay liệt thống kê. Số những kết quả thí nghiệm
gọi là dung lượng mẫu.
Tổng thể: Tất cả các trị số có thể của đại lượng
ngẫu nhiên được gọi là tổng thể. Như vậy chúng
ta sẽ có tổng thể nếu dung lượng mẫu bằng
36
18
08/09/2021
III. Thống kê toán học, khái niệm mẫu, tổng thể, phương
pháp chọn mẫu
Ứng dụng thống kê toán học trong TV
Chọn mẫu và từ mẫu tìm ra luật phân bố xác suất
của tổng thể. Trong thuỷ văn cụ thể là chọn mẫu
và từ mẫu đó ta sẽ rút ra được quy luật của tổng
thể.
37
III. Thống kê toán học, khái niệm mẫu, tổng thể, phương
pháp chọn mẫu
Phương pháp chọn mẫu
Mẫu phải có tính đại biểu.
Mẫu phải có tính độc lập
Mẫu phải có tính đồng nhất
38
19
08/09/2021
VI. Đặc trưng thống kê của mẫu
Đặc trưng thống kê của mẫu
2. Độ lệch chuẩn của giá trị trung bình và phương sai
1.
39
1. Đặc trưng thống kê của mẫu
a. Biểu thị xu thế tập trung
Trị số bình quân (x):
- Cơng thức tính: Giả sử có một chuỗi số quan trắc x1, x2,…, xn, ta
có
x
x
i
n
40
20
08/09/2021
1. Đặc trưng thống kê của mẫu
a. Biểu thị xu thế tập trung
Số đông Xđ:
- Là số xuất hiện nhiều nhất
trong chuỗi số.
Trung vị (Median):
-
là số nằm ở giữa (middle)
trong chuỗi số
41
1. Đặc trưng thống kê của mẫu
b. Biểu thị mức độ phân tán
Phương sai
∑ ( − ̄)
2=
Khoảng lệch quân phương
=
∑ (
− ̄)
42
21
08/09/2021
1. Đặc trưng thống kê của mẫu
b. Biểu thị mức độ phân tán
Hệ số biến thiên (Hệ số phân tán) Cv
- Công thức
-
=
- Cv không âm và không thứ nguyên
43
1. Đặc trưng thống kê của mẫu
c. Biểu thị tính đối xứng
Biểu thị tính khơng đối xứng
Cơng thức
=
( − 1)( − 2)
− ̅
• Hệ số khơng đối xứng (Hệ số thiên lệch) Cs
• Cơng thức
=
44
22
08/09/2021
2. Sai số chuẩn (Stardard error) của giá trị trung bình và
độ lệch chuẩn
Thuật ngữ "Sai số chuẩn" được sử dụng để chỉ độ lệch chuẩn của
các mẫu thống kê khác nhau, chẳng hạn như giá trị trung bình hoặc
độ lệch chuẩn
45
2. Sai số chuẩn (Stardard error) của giá trị trung bình và
độ lệch chuẩn
Sai số chuẩn của những giá trị trung bình và độ lệch chuẩn của
mẫu là
( ̅) =
( )=
(
)
46
23
08/09/2021
V. Trình bày đồ họa phân bố của dữ liệu
Biểu đồ phân phối tần số (Histogram)
Biểu đồ phân phối lũy tích (Cumulative Distribution)
Biểu đồ hộp (Box plot)
47
40
30
20
10
0
0
10
Hours
Biểu thị tần suất
trong khoảng
(Bin): 3 < x < 6
20
8
Class Frequency
Wind Speed (mph)
Tần số (Histograms): Phân bố tần suất
6
4
2
0
Bin
3
6
9
12
15
18
More
Wind Speed (mph)
48
24
08/09/2021
Bins
• Một
Bin là một khoảng giá trị của biến.
sử một bin định nghĩa là khoảng giá trị từ 3 – 6.
• Nếu một giá trị của x nằm trong bin đó, x sẽ có
thuộc tính: 3 < x < 6
• Nếu x = 3?
• Tại sao khơng phải là: 3 < x < 6?
• Giả
các tổng quát, chuỗi số liệu thường được miêu tả bởi
5-15 bins.
• Một
• Thường đặt tên của Bin theo giới hạn trên của Bin đó.
(ví dụ, với bin 3 < x < 6 sẽ được gọi là bin “6”)
49
8
Tần số TUYỆT ĐỐI
(ABSOLUTE frequency)
Hay đơn giản gọi là tần số
(frequency)
f(x)
6
4
2
0
3
6
9
12
15
18
More
Wind Speed (mph)
0.4
Tần sốTƯƠNG ĐỐI
(RELATIVE frequency)
f(x)
0.3
frequency
total # observations, n
0.2
0.1
0
3
Tần số tương đối f(x) là một
ước lượng của xác suất p(x)
6
9
12
15
18
More
Wind Speed (mph)
50
25