Tải bản đầy đủ (.pdf) (14 trang)

Báo cáo phân tích bài báo khoa học phương pháp thống kê ngẫu nhiên trong thủy văn và kỹ thuật môi trường

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (881.63 KB, 14 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
KHOA QUẢN LÝ CÔNG NGHIỆP

BÁO CÁO PHÂN TÍCH BÀI BÁO KHOA HỌC

PHƯƠNG PHÁP THỐNG KÊ NGẪU NHIÊN TRONG
THỦY VĂN VÀ KỸ THUẬT MÔI TRƯỜNG
GVHD:

TS. NGUYỄN VĂN MINH MẪN

MÔN HỌC: PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC
HỌC VIÊN : HUỲNH QUỐC VIỆT
NGUYỄN THÀNH XUÂN TRÂM
Lớp

:

Năm học

7141145
7141144

HỆ THỐNG THÔNG TIN QUẢN LÝ
:

2014-2015

Tp. Hồ Chí Minh, tháng 05 năm 2015



1


MỤC LỤC
1.

Giới thiệu ............................................................................................................................................. 3

2.

Các phương pháp lắp đầy dữ liệu...................................................................................................... 3

3.

Phát triển mô hình .............................................................................................................................. 4
a)

Mô hình AS. ..................................................................................................................................... 5

b)

Mô hình CS ...................................................................................................................................... 6

4.

Áp dụng mô hình as và cs ................................................................................................................... 7

5.


Kết quả và thảo luận ........................................................................................................................... 7
a)

Phân tích đồ họa .............................................................................................................................. 8

b)

Phân tích thống kê. ......................................................................................................................... 9

c)

Phân tích Entropic ........................................................................................................................ 10

6.

Kết Luận ............................................................................................................................................ 10

7.

Lời cảm ơn ......................................................................................................................................... 10

8.

PHỤ LỤC A: Lý thuyết về chuỗi Markov ..................................................................................... 11

9. PHỤ LỤC B: Phương pháp đo độ ngạc nhiên của thông tin (Entropic) về dữ liệu thủy văn
không chắc chắn ........................................................................................................................................ 12
10.

Các tài liệu tham khảo:................................................................................................................. 14


2


1.

Giới thiệu

Các nhà lập kế hoạch và nhà quản lý nguồn tài nguyên nước sử dụng dữ liệu dòng chảy lịch sử
hàng tháng cho một loạt các mục đích như phân tích mực nước sông để xác định thiên tai lũ lụt,
thủy điên…. Thường thì, tập dữ liệu không đầy đủ và thiếu sót tồn tại do nhiều lý do. Bài luận
này phát triển và thử nghiệm hai mô hình máy tính để đáp ứng vào các giá trị bị thiếu phân khúc
thống kê ngẫu nhiên trong thủy văn và kỹ thuật môi trường. Mô hình đầu tiên sử dụng dữ liệu chỉ
từ dãy khu vực mà giá trị bị mất, ngược lại, mô hình thứ 2 sử dụng dữ liệu từ dãy khu vực mà giá
trị bị mất cũng như từ các dãy của những khu vực giá trị bị mất khác. Các mô hình này được lần
lượt được giới thiệu đến mô hình auto series và mô hình cross series. Cả hai mô hình đều sử
dụng khái niệm của phân khúc theo mùa và phân tích nhóm trong dự toán của các giá trị bị mất
của các phân đoạn trong một bộ tinh giản hàng tháng. Các mô hình này được đánh giá dựa trên
sự so sánh sự khác biệt phần trăm giữa các ước tính và giá trị quan sát cũng như các phương
pháp đo độ ngạc nhiên của thông tin.
Kết quả cho thấy mô hình AS cung cấp các dự báo đầy đủ cho các giá trị bị mất tích trong phạm
vi bình thường của dòng chảy nhưng nó ít đáng tin cậy trong phạm vi cực cao của dòng chảy.
Ngược lại, các kết quả từ mô hình CS cho thấy việc sử dụng tập dữ liệu hiện thời khác nâng cao
dự báo cho tất cả các dòng chảy.
2. Các phương pháp lắp đầy dữ liệu
Trong quá khứ, nhiều phương pháp khác nhau đã từng được sử dụng để làm đầy các giá trị bị
mất tích trong dữ liệu dòng chảy hàng tháng (Panu (1192)] và trong số chúng, phương pháp được
sử dụng nhiều là phương pháp hồi quy và phương pháp tiếp cận đa chiều. Một phương pháp tiếp
cận đa chiều kết hợp với các khái niệm về phân đoạn của chuỗi dữ liệu vào phân đoạn theo mùa
vụ (cho nhóm) được Panu và Unny giới thiệu năm 1980 và sau đó phát triển bởi Afza và Panu

năm 1991. Phương pháp này sử dụng các đặc điểm của dữ liệu được phân khúc để lắp vào các
giá trị bị mất của 01 khu vực có lợi thế hơn các phương pháp hồi quy.
Phương pháp sau này, Cách tiếp cận này xem mỗi điểm dữ liệu như là một giá trị cá thể trong khi
phương pháp tiếp cận trước đó sử dụng các đặc điểm chung cho các giá trị dữ liệu giống nhau.
Dựa Trên cơ sở xem xét các giá trị trong nhóm, các giá trị bị mất có thể được lắp như 01 nhóm
chung chứ không phải là các giá trị riêng. Phương pháp tiếp cận đa chiều và phương pháp hồi
quy được trình bày ở Hình 01. Phương pháp lắp đầy dữ liệu a) phương pháp đa chiều b) phương
pháp hồi quy
Một vấn đề trong pp hồi quy là phân kỳ giới hạn tin cậy cho các ước tính sau cũng như phụ thuộc
nhiều hơn vào các ước tính gần đây nhất của các giá trị chưa biết trước đó. Mặt khác, phương
pháp đa chiều có giới hạn bảo mật cho các phân khúc. Sự phát triển mô hình này dựa trên
phương pháp đa chiều.

3


Hình 01. Phương pháp lắp đầy dữ liệu a) phương pháp đa chiều b) phương pháp
hồi quy
3. Phát triển mô hình
Bước đầu tiên trong phát triển mô hình là quyết định phân khúc mùa vụ trong dãy dữ liệu. Các
phân khúc mùa vụ này theo mô tả của Panu (1992) từ mô hình Vectơ. Mô hình AS yêu cầu phân
khúc của dãy dữ liệu với các giá trị bị mất. Ngược lại, mô hình CS yêu cầu phân khúc của cả hai
(dữ liệu hiện tại và dãy dữ liệu với các giá trị bị mất tích)
Bước tiếp theo liên quan đến việc thử nghiệm cho phân phối chuẩn của mô hình vector. Để thử
nghiệm cho phân phối chuẩn. Khoảng cách Mahalanobis được phát họa chống lại những giá trị
lý thuyết tương ứng với xác suất khác nhau. Nếu mô hình vector cho thấy các dấu hiệu của sự
không chuẩn tắc, sự chuyển đổi được áp dụng cho các vector cho đến khi đạt được phân phối
chuẩn.
Một khi việc thiết lập mô hình vectors được quyết định là phân phối chuẩn, thì thuật tóa n K –
means [Hartigan và Wong – 1979] áp dụng cho nhóm mô hình vector tương tự thành cụm. Mục

đích của cụm là để nhận ra sự tồn tại của mô hình vector trong bộ dữ liệu. Ngược lại, thông tin
này dùng để phát triển liên - cấu trúc mô hình của mô hình dựa trên giả định rằng sự phụ thuộc
giữa các mô hình có thể được mô tả bởi chuỗi Markovian.

4


Sự phát triển mô hình AS và CS tóm tắt trong hình 02:

Hình 02 : Biểu đồ phát triển mô hình AS và CS
Đối với 02 mô hình này, bước cuối cùng trong việc ước tính các giá trị bị mất là khá khác biệt
như mô tả dưới đây:
a) Mô hình AS: mô hình này giả định cấu trúc Markovian lag – one cho mối quan hệ cấu
trúc bên trong và ngược lại ước tính các giá trị bị mất dựa trên mô hình vector tồn tại
ngay trước đó cho khoảng trống.

Hình 3 : Phân khúc mùa vụ đối với mô hình AS.
Phân khúc bị mất này trong kết quả của dòng chảy được biểu thị là Sk Mô hình vector trong
phân khúc Sk-1 được sử dụng để ước tính giá trị bị mất trong phân khúc Sk. .Cấu trúc mô hình
5


bên trong cho phép sự hoán chuyển Markovian từ phân khúc khác, tương tự cho Sk-1 và Sk được
xác định bởi kỹ thuật phân nhóm.
Johnson và Wichern (1988) cho thấy giá trị trung bình có điều kiện và hiệp phương sai của phân
khúc Sk có thể được xác định cho rằng phân khúc Sk-1 từng tồn tại. Trong bài luận này, giá trị
trung bình có điều kiện và hiệp phương sai được xem như thống kê hiệu quả để mô tả mô hình
vector bị mất cho giá trị Sk và công thức của nó được giải thích như sau:
Để S được cho là phân phối chuẩn và được chỉ ra bởi Nd (µ, ∑) với d>=2 khi
S= [Sk | Sk-1] T

By Nd(µ,∑), for d>=2, ∑k-1,k-1 >0
Giá trị trung bình có điều kiện và hiệp phương sai của vùng Sk bị mất được đưa ra bởi:
Giá trị trung bình
Sk = µk + , ∑k,k-1 , ∑-1k-1,k-1(Sk-1 - µk-1
Hiệp phương sai: do sự biến thiên cùng nhau của 2 biến
Sk = ∑k,k -∑k,k-1∑-1k-1,k-1 ∑k-1,k
Giá trị trung bình của Sk, được nêu ra ở trên xem như vector thỏa đáng để mô tả vùng bị mất Sk.
Cách sử dụng mô hình này được giới hạn bới Panu (1992) do sự phụ thuộc vào thông tin chứa
trong bộ dữ liệu với các giá trị bị mất. sự phát triển của mô hình CS vượt qua khó khăn này, như
mô tả dưới đây, bằng cách sử dụng thêm thông tin chứa trong bộ dữ liệu hiện tại.
b) Mô hình CS: mô hình này giả định sự tương quan lẫn nhau giữa bộ dữ liệu với các giá trị
bị mất và bộ dữ liệu hiện tại. Cả 02 bộ dữ liệu này đều tương ứng liên quan đến subject
river và base river. Lưu ý rằng base river có thể là bất cứ bộ dữ liệu khác (sự kết tủa,
dòng chảy…) nhưng nó đơn giản chỉ liên quan đến base river. Mô hình CS được mô tả
trong Hình 4

Hình 4. Phân khúc mùa vụ cho mô hình CS
Giá trị bị mất trong vùng Sk từ subject river được lắp đầy dựa trên mô hình vector trong vùng Sbk
từ base river. Mối quan hệ giữa các mẫu trong mô hình CS phụ thuộc vào sự di chuyển, biến đổi
từ các vùng có các đặc điểm tương tự (được xác định bởi kỹ thuật phân nhóm) từ Sbk đến vùng
6


Sk. Giá trị trung bình có điều kiện và hiệp phương sai của Sk có thể được xác định dựa trên
những xem xét nêu trên và vector được quan sát trong vùng Sbk (Johnson and Wichern – 1988)
Việc hình thành gái trị trung bình có điều kiện và hiệp phương sai trong mô hình CS tương tự
như mô hình AS với vài trường hợp ngoại lệ sau.Mô hình vector cho vùng Sbk được thay thế
cho Sk-1 và tất cả sự tồn tại tiếp theo của các thuật ngữ mang tính biểu tượng (k-1) và được thay
thế với các thuật ngữ tương tự từ base river. Các mô hình máy tính được phát triển với khả năng
giả định dữ liệu vùng kế tiếp bị mất tích. Ngược lại, việc chạy máy tính kế tiếp được thực hiện để

lắp mỗi vùng bị mất. việc áp dụng cả 02 mô hình đối với dữ liệu dòng chảy được biểu thị bên
dưới.
4. Áp dụng mô hình as và cs
Trạm đo dòng chảy (05QA001) của English River ở Sioux Lookout, Ontario được quan sát với
các giá trị bị mất. Bộ dòng chảy được kiểm soát không bị gián đoạn có sẵn cho trang web này từ
năm 1922 đến 1981. Trạm đo dòng chảy khác (05QA002) của English river ở Umfreville tọa lạc
ở thượng nguồn của trạm Sioux Lookout. Giá trị dòng chảy đối với trạm này có sẵn từ năm 1922
đến năm 1990. Trạm này được sử dụng như Base river cho mô hình CS, Dữ liệu kết tủa ở sân
bay Sioux Lookout có sẵn trong gia đoạn từ năm 1963 đến năm 1990. Dữ liệu kết tủa cũng được
sử dụng như Base river trong mô hình CS. Bởi vì dữ liệu hiện thời từ năm 1963 đến năm 1981
cho tất cả 03 nguồn dữ liệu, 18 năm này của dữ liệu được dùng để áp dụng.
Đối với việc áp dụng mô hình AS và CS đối với dữ liệu dòng chảy hàng tháng của English River
ở Sioux Lookout, 02 mùa 06 tháng hoặc 01 mùa 12 tháng. Các tháng bắt đầu và kết thúc được
xác định là 01 mùa khô 06 tháng từ tháng 11 đến tháng 4, và mùa mưa từ tháng 5 đến tháng 10.
Một mặt , sự tồn tại của 01 mùa 12 tháng là từ dữ liệu kết tủa ở sân bay Siox Lookout. Ngược lại,
sự tồn tại của 02 mùa 06 tháng hoặc 01 mùa 12 tháng là do dòng chảy của English River ở
Umfrevile. Việc chảy thử nghiệm được thực hiện cho cả 02 mô hình sử dụng 02 mùa 06 tháng
hoặc 01 mùa 12 tháng.
Sự phân phối chuẩn tắt của mô hình Vector đã thành công bằng cách sử dụng việc chuyển đổi
từng khúc một cách tự nhiên. Việc phân nhóm dữ liệu vùng được thực hiện dựa trên giả định
rằng có 02 sự phân nhóm trong mỗi mùa. Các kết quả kết hợp với kỹ thuật phân nhóm chỉ cho
thấy sự đổi chiều nhỏ từ những cái đạt được mà không sử dụng các phân nhóm thêm.
Do tính không bền, chỉ những kết quả không sử dụng phân nhóm thêm được thể hiện trong bài
luận này. Cả 02 mô hình được áp dụng để lắp đầy những vùng bị mất dựa trên giả định rằng thể
loại phân khúc như thế này tồn tại tuần tự trên toàn bộ chiều dài của các tệp dữ liệu.
5. Kết quả và thảo luận
03 phương pháp phân tích được sử dụng để kiểm tra kết quả, đồ họa, thống kê và Entropic.
Tương tự, 01 sự so sánh dựa trên các kết quả đã đạt được bằng việc lắp đầy những giá trị bị mất:
sử dụng giá trị trung bình, giá trị nhỏ nhất và gái trị lớn nhất trong mỗi tháng. Các phát họa của
các kết quả cho cả 02 mô hình được thể hiện trong bảng 5.


7


Hình 5 Kết quả từ mô hình AS và mô hình CS

a) Phân tích đồ họa: một sự kiểm tra kết quả từ mô hình AS cho thấy rằng các giá trị được
ước tính theo sát những giá trị được quan sát trong hết năm nhưng kéo theo lỗi lớn trong
trường hợp dòng chảy cực. Điều này đã được dự đoán từ lúc các giá trị ước tính chỉ dựa
trên giá trị dòng chảy từng tồn tại trong suốt những năm khác trong dãy dữ liệu. Để vượt
qua khó khăn này, có thể sử dụng đa biến số ngẫu nhiên để ước tính các giá trị bị mất
cũng giống như các giá trị bị mất trong bộ dữ liệu. Các giá trị bị mất trong mô hình AS,
sử dụng sự kết tủa trong dữ liệu hiện thời cho thấy phương sai từ dòng chảy đã quan sát
trong nhiều trường hợp. Điều này có thể là do các ảnh hưởng của tuyết rơi và dòng chảy
mùa xuân. Trong suốt các tháng mùa đông, sự kết tủa rơi xuống thành tuyết và không gây
bất kỳ ảnh hưởng nào của dòng chảy do sự tan băng mùa xuân. Giai đoạn chậm này là
khác biệt và có 01 sự ảnh hưởng lên cấu trúc của ma trận hiệp phương sai trong mô hình
CS. Sự phát triển tương lai của mô hình bao gồm một thủ tục để giải thích cho sự khác
biệt trong hiện tượng tan băng. Việc kiểm tra tiếp theo đối với các kết quả từ mô hình CS
sử dụng dữ liệu dòng chảy khác như bộ dữ liệu hiện thời, cho thấy các giá t,rị được ước
tính theo sát các giá trị được quan sát cho toàn bộ phạm vi của dòng chảy. Điều này có
thể được suy đoán bởi vì cả 02 bộ dữ liệu đều cùng ở đầu nguồn và kết quả của các hoạt
động thủy văn có thể tương tự ở cả 02 trạm đo.
8


Các phương pháp làm đầy

Ước tính lớn nhất


Ước tính nhỏ nhất

AS

9.4% đến 84.0%

1.4% đến 52.5%

CS với lượng kết tủa

28.0% đến 198%

16.2% đến 58.9%

CS với dòng chảy

7.5% đến 28.7%

6.3% đến 28.8%

Bởi giá trị trung bình

24.6% đến 152%

16.0% đến 37.0%

Bởi giá trị nhỏ nhất

7.3% đến 211%


54.3% đến 81.5%

Bởi giá trị lớn nhất

53.4% đến 467%

2.3% đến 38.2%

Bảng 1: tóm tắt phần trăm lỗi của các phương pháp làm đầy khác nhau
b) Phân tích thống kê: sự khác biệt phần trăm (khách quan và chủ quan) giữa các giá trị
được ước tính và các giá trị quan sát được nêu ở bảng 1, Các kết quả này đạt được nói
riêng đối với 02 trường hợp: có sử dụng phân nhóm phụ và không sử dụng phân nhóm
phụ trong mỗi mùa. Các kết quả của việc sử dụng phân nhóm phụ chỉ cho thấy phương
sai nhỏ từ các kết quả đạt được mà không sử dụng phân nhóm phụ. Theo mạch này thì chỉ
có các kết quả không sử dụng phân nhóm phụ được thể hiện trong bài luận này. Các
thống kê tương tự cũng được bao gồm trong bảng để làm đầy những giá trị bị mất bằng
cách sử dụng giá trị trung bình, giá trị nhỏ nhất và lớn nhất trong mỗi tháng. Trong bảng
1, lỗi nhỏ nhất tồn tại khi bộ dữ liệu dòng chảy hiện thời được sử dụng trong mô hình CS.
Tuy nhiên, lỗi này lớn hơn đối với mô hình này khi dữ liệu hiện thời khác như sự kết tủa
được sử dụng. Ngược lại, trong những trường hợp như thế, việc sử dụng mô hình AS kéo
theo lỗi nhỏ hơn và sẽ là lựa chọn hiển nhiên để làm đầy dữ liệu.
Những phương pháp phổ biến khác để thay thế các giá trị bị mất bằng các giá trị như giá
trị trung bình, gái trị nhỏ nhất và giá trị lớn nhật kéo theo lỗi quá lớn (bảng 1). Các kết
quả phân tích của chúng tôi cho thấy rằng chúng ta nên tránh sử dụng các phương pháp
làm đầy dữ liệu nói trên {Panu and Mclarty 1991)
Cả 02 mô hình đều có ảnh hưởng trong việc làm giảm sự chắc chắn liên quan đến các giá
trị dữ liệu đã được làm đầy. Phương pháp entropic như giải thích trong phụ lục được sử
dụng như trong việc tiếp cận như thế.
Phương pháp Entropic Entropy


Giảm entropy từ nhóm Hc

% Khấu trừ

Hmax

5.375

n/a

n/a

Hs=2

0.693

n/a

n/a

Hclustered

0.427

n/a

n/a

Hmarkov


0.141

0.13

3%

H(𝑋|𝑌)

0.392

0.35

8%
9


(CS – lượng kết tủa)
0.181

H(𝑋|𝑌)

0.246

58%

(CS – dòng chảy)
BẢNG 2: Tóm tắt phương pháp Entropic

c) Phân tích Entropic: các kết quả đạt được từ các phương pháp entropic khác nhau liên
quan đến cả 02 mô hình được tóm tắt trong bảng 02. Từ các kết quả nói trên, thật rõ ràng

khi giảm tối đa trong entropy (58%) tồn tại trong mô hình CS khi sử dụng dòng chảy của
English River ở Sioux Lookout và ở Umfrevville. Sự giảm đáng kể trong entropy củng
gây ra kết quả khi vùng phân mùa được nhóm lại thành các phân nhóm phụ. Việc giảm
này chắc chắn đạt được do việc loại trừ các nhóm cụ thể một khi có sự tồn tại của 01 mùa
cụ thể.
6. Kết Luận
Mô hình AS được tìm thấy thõa mản trong việc ước tính các giá trị bị mất trong dãy dòng chảy
bình thường nhưng thể hiện không thích hợp trong trường hợp dòng chảy cực. Các kết quả thống
kê cho thấy lỗi trong giá trị được ước tính có thể từ -53% đến +84%. Phân tích entropic cho thấy
1 sự giảm nhỏ (3%) trong entropy khi xem xét hệ thống như Markovian khi phản đối việc ngẫu
nhiên này. Nói cách khác, việc giả định cho cấu trúc bên trong mô hình là 1 loại của Markovian
không hợp lệ cho các mục đích lắp đầy.
Mô hình CS sử dụng sự kết tủa khi dữ liệu hiện thời khác cung cấp các ước tính khác nhau về giá
trị bị mất. Về vấn đề lỗi %, sự khác biệt được tìm thấy từ -59% đến +198%. Phân tích entropic
đối với loại bộ dữ liệu này cho thấy có sự giảm nhẹ trong entropy )8%). Sự giảm nhẹ này trong
entropy là 1 sự ám chỉ về việc tồn tại 1 sự liên quan lẫn nhau nhỏ giữa dữ liệu dòng chảy và dữ
liệu lết tủa.
Mô hình CS được nhận thấy là để thực hiện trong ước tính các giá trị bị mất tích với việc sử
dụng dữ liệu dòng chảy hiện thời từ 01 trạm gần đó. Việc ước tính các giá trị bị mất được tìm
thấy thỏa đáng trong dãy dòng chảy trung bình từ -29% đến +29%. Phân tích entropic cho thấy
có sự giảm khoản 58% trong entropy. Nói cách khác, việc sử dụng dữ liệu hiện thời cho thấy có
sự liên quan lẫn nhau cao với dữ liệu dòn chảy có giá trị bị mất, cung cấp ước tính thỏa mãn về
gái trị bị mất.

7. Lời cảm ơn

10


Lời cảm ơn chân thành đến sự Hỗ trợ tài chính bởi Hạt nghiên cức kỹ thuật và khoa học tự nhiên

– Canada trong việc thực hiện các yếu tố khác nhau trong thực hiện dự án này. Đặc biệt cảm ơn
đến sự hỗ trợ nhiệt tình từ C.Goodier.
8. PHỤ LỤC A: Lý thuyết về chuỗi Markov
Chuỗi Markov (thời gian rời rạc), đặt theo tên nhà toán học người Nga Andrei Andreyevich
Markov, là một quá trình ngẫu nhiên rời rạc với tính chất Markov. Quá trình như vậy, quá khứ
không liên quan đến việc tiên đoán tương lai mà việc đó chỉ phụ thuộc theo kiến thức về hiện tại.
Chuỗi Markov là một dãy X1, X2, X3,... gồm các biến ngẫu nhiên Tập tất cả các giá trị có thể có
của các biến này được gọi là không gian trạng thái , giá trị của Xn là trạng thái của quá trình
(hệ) tại thời điểm n.
Nếu việc xác định (dự đoán) phân bố xác suất có điều kiện của Xn+1 khi cho biết các trạng thái
quá khứ là một hàm chỉ phụ thuộc Xn thì:

trong đó x là một trạng thái nào đó của quá trình (x thuộc không gian trạng thái S).Mô hình
Markov ẩn (tiếng Anh là Hidden Markov Model - HMM) là mô hình thống kê trong đó hệ thống
được mô hình hóa được cho là một quá trình Markov với các tham số không biết trước và nhiệm
vụ là xác định các tham số ẩn từ các tham số quan sát được, dựa trên sự thừa nhận này. Các tham
số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp, ví dụ cho
các ứng dụng nhận dạng mẫu.
Các chuyển tiếp trạng thái trong mô hình Markov ẩn

Hình 6: Mô hình Markov
x — Các trạng thái trong mô hình Markov
a — Các xác suất chuyển tiếp
11


b — Các xác suất đầu ra
y — Các dữ liệu quan sát
Hình 6 làm nổi bật các chuyển tiếp trạng thái của mô hình Markov ẩn. Nó cũng có ích để biểu
diễn rõ ràng sự tiến hóa của mô hình theo thời gian, với các trạng thái tại các thời điểm khác

nhau t1 và t2 được biểu diễn bằng các tham biến khác nhau, x(t1) và x(t2).

Hình 7 : Sự tiến hóa theo thời gian của mô hình Markov ẩn
Trong hình 7, được hiểu rằng thời gian chia cắt ra (x(t), y(t)) mở rộng tới các thời gian trước và
sau đó như một sự cần thiết. Thông thường lát cắt sớm nhất là thời gian t=0 hay t=1.
9. PHỤ LỤC B: Phương pháp đo độ ngạc nhiên của thông tin (Entropic) về dữ liệu thủy
văn không chắc chắn
Entropy của 1 hệ thống là 1 phương pháp về mức độ xáo trộn. Shannon (1948) đã áp dụng đầu
tiên khái niệm về entropy để đo lường nội dung thông tin của 1 hệ thống. Khinchin (1957) đã
báo cáo entropy của Shannon trong việc giải quyết 1 chương trình hữu hạn mà có thể áp dụng
cho 1 bộ dữ liệu thủy văn. Entropy (H) được đo lường không chắc chắn về 1 hệ thống được xác
định như sau:
𝑛

𝐻(𝑝1 , 𝑝2 , . . . , 𝑝𝑛 ) = − ∑ 𝑝𝑘 𝑙𝑛(𝑝𝑘 )
𝑘=1

Theo đó, n là số trạng thái và pk là xác suất của trạng thái kth trong 1 chương trình hữu hạn.
Entropy lớn nhất tồn tại khi tất cả kết quả ra đều giống nhau. Đối với 1 dãy n thì đều có xác suất
giống nhau, và xác xuất là 1/n và entropy lớn nhất của hệ thống đạt được như sau:
𝐻𝑚𝑎𝑥 = ln⁡(𝑛)
Trong khi nhóm dữ liệu vùng thành các nhóm, việc điều chỉnh phải được thực hiện để xác định
entropy (H) để tính toán các nhóm. Entropy cho việc phân nhóm, Hc có thể được tính như sau:
𝑤

𝐻𝑐 = ⁡ − ∑ 𝑝(𝑠𝑘 ) ln[𝑝(𝑐𝑘 )]
𝑘=1

12



Trong đó, w là tổng số mùa /năm, nk là tổng số phân nhóm trong 1 mùa bất kỳ k, p(ck) là xác
suất về việc phân nhóm c trong mùa k, và p(sk) xác suất có thể xảy ra của mùa k
Giá trị entropy trong phân nhóm không đảm trách việc sắp xếp các nhóm. Theo đó, các nhóm có
thể tồn tại trong bấy kỳ trật tự nào, và giá trị của entropy là giống nhau. Tiếp tục nhìn vào ảnh
hưởng của trật tự (vd: sự phụ thuộc giữa các nhóm) entropy trong chuỗi Markov có thể áp dụng
được cho mô hình AS.
Entropy của chuỗi Markov (mô hình AS): Domenico (1972) mô tả entropy của chuỗi Markov
(Hm) là trung bình của tất cả các Entropies cá thể trong việc chuyển đổi vị trí (K) được đo lường
theo xác suất có thể xảy ra của trạng thái cá thể. Lưu ý rằng có nhiều trạng thái mà có nhiều
nhóm. Entropy Markovian có thể được mô tả như sau:
𝑛

𝐻𝑚 = ⁡ − ∑ 𝑝𝑖 𝐻𝑖
𝑖=1

Trong đó, n là số trạng thái và pi là xác suất xảy ra của trạng thái.
Một phương pháp làm giảm sự chắc chắn có thể đạt được bằng cách lấy sự khác biệt giữa Hc và
Hm. Nói cách khác, dữ liệu phân nhóm (vd: sự phụ thuộc giữa các nhóm) được xử lí theo entropy
Markovia hơn là lấy ngẫu nhiên.
Entropy của hệ thống kết nối (mô hình CS): Domenico (1972) cho rằng phương pháp entropy có
thể áp dụng được trong các tình huống mà hai hệ thống liên quan được quan sát. Việc áp dụng
phương pháp entropy như thế đối với mô hình CS là hiển nhiên. Vì vậy, hai bộ dữ liệu được
quan sát là có sẵn đối với mô hình CS, có tên gọi là dữ liệu dòng chảy với vùng bị mất và dữ liệu
hiện thời không có vùng bị mất
Phương pháp entropy của một hệ thống (giả sử hệ thống X là dữ liệu dòng chảy với vùng bị
mất) đưa ra kiến thức cho việc quan sát trong hệ thống khác (giả sử hệ thống Y là dữ liệu hiện
thời không có vùng bị mất) đạt được như sau:
𝑛


𝑛

𝐻(𝑋|𝑌) = ⁡ − ∑ ∑ 𝑃(𝑥𝑖 , 𝑦𝑖 ) ln⁡[𝑃(𝑥𝑖 |𝑦𝑖 )]
𝑖=1 𝑗=1

Trong đó, P(xi/yi) là xác suất có điều kiện của hệ thống X được diễn đạt là xi được đưa ra trong
hệ thống Y được quan sát trong trạng thái yi, và p(xi, yi) là xác suất kết hợp của xi và yi
Phương pháp gốc entropy của hệ thống X, [(H(X)] có thể được tính từ Hc cho hệ thống được
phân nhóm, Vì vậy phương pháp không chắc chắn giảm trong X sau khi quan sát Y được tính
như sau:
𝐻(𝑋 → 𝑌) = ⁡ 𝐻𝑐 − 𝐻(𝑋|𝑌)
Trong đó, H (XY) thể hiện sự suy giảm trong sự không chắc chắn của X sau khi quan sát Y

13


10. Các tài liệu tham khảo:
Afza, N. and U.S. Penns (1991) Infilling of Missing Data Values in Monthly Streaniflows, An
Unpublished Technical Report, wept. of Civil Enginmring, Lakehcad University, Thunder Bay, Ontario.
Domenico, P.(1972) Concepts and Models in Groundwater Hydrology, McGmwHill, San Fmncisco, U.S.A.
Hartigan, J. and M. Wong (1979) ‘Algorithm AS136: A X-Means
Clustering
Algorithm", Applied Statisacs, 28, IOT-108.
Johnson, R.A. and D.W. Wichern (1988) Applied Multivariate Statistical Analysis,
Prentice Hall, New Jersey.
Khinchin, A.I. (1957) Mathematical Foundations of Information Theory ,Dover Publications
Inc., New York.
Panu, U.S, and T.E. Unny (1980) ‘Stochastic Synthesis of Hydrologic Data Based on
Concepts of Pattern Recognition", Journal of Hydiology, 46, 5-34, 197-217, 219-237. Panu,
U.S. and B. McLarty (1991) Evaluations of Quick Data Infilling Methods in Streamflows, An

Unpublished Technical Report, Dept. of Civil Engineering, Lakehead University, Thunder Bay,
Ontario.
Panu, U.S. (1992) "Applicaéon of Some Entropic Measures in Hydrologic Data Filling
Shannon, C.E. (1948) "The Mathematical Theory of Communication“ Bell System Technical
Journal, 27, 379-428; 623-656.

14



×