BTNMT
TTKTTVQG
BỘ TÀI NGUYÊN VÀ MÔI TRƯỜNG
TRUNG TÂM KHÍ TƯỢNG THỦY VĂN QUỐC GIA
Số 4 Đặng Thái Thân – Quận Hoàn Kiếm – Hà Nội
********
BÁO CÁO
TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU
KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ
ĐỀ TÀI:
NGHIÊN CỨU XÂY DỰNG HỆ THỐNG DỰ BÁO CÁC
YẾU TỐ KHÍ TƯỢNG BẰNG PHƯƠNG PHÁP THỐNG KÊ
TRÊN SẢN PHẨM MÔ HÌNH HRM
Chủ nhiệm: ThS. Đỗ Lệ Thủy
7583
28/12/2009
HÀ NỘI, 12-2009
BỘ TÀI NGUYÊN VÀ MÔI TRƯỜNG
TRUNG TÂM KHÍ TƯỢNG THỦY VĂN QUỐC GIA
Số 4 Đặng Thái Thân – Quận Hoàn Kiếm – Hà Nội
********
BÁO CÁO
TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU
KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ
ĐỀ TÀI:
NGHIÊN CỨU XÂY DỰNG HỆ THỐNG DỰ BÁO CÁC
YẾU TỐ KHÍ TƯỢNG BẰNG PHƯƠNG PHÁP THỐNG KÊ
TRÊN SẢN PHẨM MÔ HÌNH HRM
Chỉ số đăng ký:
Chỉ số phân loại:
Chỉ số lưu trữ:
Cộng tác viên chính:
TS Lê Đức TSKH Phạm Kỳ Anh
ThS Võ Văn Hòa TS Phạm Thị Thanh Ngà
ThS Nguyễn Đăng Quang CN Nguyễn Thu Hằng
CN Vũ Duy Tiến CN Nguyễn Mạnh Linh
Hà Nội, ngày tháng 12 năm 2009 Hà Nội, ngày tháng 12 năm 2009
CHỦ NHIỆM ĐỀ TÀI
Đỗ Lệ Thủy
CƠ QUAN THỰC HIỆN
Bùi Minh Tăng
C
Ơ QUAN CHỦ TRÌ
Trần Văn Sáp
Hà Nội, ngày tháng 12 năm 2009 Hà Nội, ngày tháng 12 năm 2009
HỘI ĐỒNG ĐÁNH GIÁ CHÍNH THỨC
CHỦ TỊCH HỘI ĐỒNG
TS. Nguyễn Lê Tâm
CƠ QUAN QUẢN LÝ ĐỀ TÀI
TL. BỘ TRƯỞNG
KT. VỤ TRƯỞNG
VỤ KHOA HỌC VÀ CÔNG NGHỆ
PHÓ VỤ TRƯỞNG
Nguyễn Lê Tâm
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
i
DANH SÁCH CÁC CHỮ VIẾT TẮT
BCDG Phương pháp phân tích BCDG
(Bergthorssen-Doss-Cressman method for Grid)
BIAS Sai số hệ thống
BRK Loại mây (nhiều mây)
BRoKen
BS Chỉ số Brier
(Brier Score)
BSS Chỉ số kỹ năng Brier
(Brier Skill Score)
BoM Cơ quan khí tượng Ôxtrâylia
(Bureau of Meteorology, Australia)
CLR Quang mây
(CleaR)
CRF Chỉ số đánh giá
Cumulative
Relative Frequency
CSI Chỉ số đánh giá CSI
(Critical Success Index)
DMO Dự báo trực tiếp từ mô hình
(Direct Model Output)
DWD Tổng cục thời tiết Cộng hoà Liên bang Đức
(Deutscher WetterDienst)
EMOS Thống kê sau mô hình tổ hợp
(Ensemble Model Ouput Statistics)
ETS Chỉ số đánh giá ETS
(Equitable Threat Score)
FB Chỉ số
đánh giá FB
(Frequency Bias)
FAR Tỷ lệ cảnh báo khống
(False Alarm Ratio)
GME Mô hình toàn cầu của CHLB Đức
(Global Model for Europe)
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
ii
GMOS Thống kê sau mô hình trên lưới
(Gridded Model Ouput Statistics)
GSM Mô hình phổ toàn cầu của JMA
(Global Spectral Model)
JMA Cơ quan khí tượng Nhật bản
(Japan Meteorological Agency)
HSS Chỉ số kỹ năng Heidke
(Heidke Skill Score)
KF Phương pháp lọc Kalman
Kalman Filter
MAE Sai số tuyệt đối trung bình
(Mean Absolute Error)
ME Sai số trung bình
(Mean Error)
MLR Hồi quy tuyến tính đa biến
(Multiple Linear Regression)
MOS Thống kê sau mô hình
(Model Ouput Statistics)
NCEP Trung tâm dự báo môi trường quốc gia Mỹ
(National Centers for Environmental Prediction)
NWS Cơ quan khí tượng quốc gia Mỹ
(US National Meteorological Service)
NWP Dự báo thời tiết số trị
(Numerical Weather Prediction)
OVC Loại mây (đầy mây)
(OVeRcast)
PC Chỉ số đánh giá
(Percentage Correct)
POD Chỉ số xác suất phát hiện mưa
(Probability Of Detection)
PoP Xác suất xảy ra mưa
(Probability Of Precipitation)
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
iii
PP Phương pháp dự báo hoàn hảo
(Perfect Prognosis)
RMSE Sai số quân phương
(Root Mean Square Error)
RV Chỉ số RV
(Reduction of Variance)
SCT Loại mây (ít mây)
SCaTtered
SSCP Ma trận phương sai hiệp biến
Sum of Squares and Cross Products
TS Chỉ số đánh giá TS
(Threat Score)
TTDBTƯ Trung tâm Dự báo Khí tượng Thủy văn Trung ương
UMOS Th
ống kê sau mô hình có cập nhật hệ số
(Updatable Model Ouput Statistics)
VCE Sự thay đổi theo độ cao
(Vertical Change Elevation)
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
iv
DANH SÁCH CÁC BẢNG
TT
Số thứ
tự bảng
Nội dung Trang
1 2.4.1 Số liệu (quan trắc) và mô hình (HRM, GSM) được thử nghiệm trong
phát triển hệ thống diễn giải
31
2 2.4.2 Số lượng các trạm quan trắc khí tượng bề mặt của 9 Đài KTTV khu
vực được thử nghiệm trong phát triển hệ thống diễn giải
32
3 3.1.1 Biến đổi của phương trình dự báo tmax và RV, hạn 54 giờ tại trạm
Láng theo dung lượng tập dữ liệu mới với mô hình GSM vào mùa
hè
54
4 3.1.2 Như bảng 3.1.1, nhưng cho trạm Tân Sơn Hòa 55
5 3.1.3 Tần xuất tuyển chọn và tần xuất tuyển chọn đầu tiên các nhân tố của
phương trình dự báo tmax, hạn 54 giờ theo dung lượng tập dữ liệu
mới với mô hình GSM vào mùa hè
56
6 3.1.4 Biến đổi của phương trình dự báo tmin và RV, hạn 66 giờ tại trạm
Láng theo dung lượng tập dữ liệu mới với mô hình HRM vào mùa
đông
57
7 3.1.5 Như bảng 3.1.4, nhưng cho trạm Tân Sơn Hòa 58
8 3.1.6 Tần xuất tuyển chọn và tần xuất tuyển chọn đầu tiên các nhân tố của
phương trình dự báo tmin, hạn 66 giờ theo dung lượng tập dữ liệu
mới với mô hình HRM vào mùa đông
60
9 3.1.7 Biến đổi của phương trình dự báo t, td và RV, hạn 48 giờ tại trạm
Trường Sa theo dung lượng tập dữ liệu mới với mô hình GSM vào
mùa hè
60
10 3.1.8 Tần xuất tuyển chọn và tần xuất tuyển chọn đầu tiên các nhân tố của
phương trình dự báo t và td, hạn 48 giờ theo dung lượng tập dữ liệu
mới với mô hình GSM vào mùa hè
62
11 3.1.9 Biến đổi của phương trình dự báo gió và RV, hạn 24 giờ tại trạm
Côn Đảo theo dung lượng tập dữ liệu mới với mô hình HRM vào
mùa đông
64
12 3.1.10 Như bảng 3.1.9, nhưng với mô hình GSM 65
13 3.1.11 Tần xuất tuyển chọn và tần xuất tuyển chọn đầu tiên các nhân tố của
phương trình dự báo gió hạn 24 giờ theo dung lượng tập dữ liệu mới
với mô hình HRM vào mùa đông
66
14 3.1.12 Như bảng 3.1.11, nhưng với mô hình GSM 67
15 3.1.13 Biến đổi của phương trình dự báo mây và RV, hạn 06 giờ tại trạm
Sìn Hồ theo dung lượng tập dữ liệu mới với mô hình GSM vào mùa
hè
67
16 3.1.14 Tần xuất tuyển chọn và tần xuất tuyển chọn đầu tiên các nhân tố của
phương trình dự báo mây, hạn 06 giờ theo dung lượng tập dữ liệu
mới với mô hình GSM vào mùa hè
69
17 3.1.15 Các nhân tố có tần xuất tuyển chọn lớn hơn 20% trong các phương
trình MLR cho tmax với bộ nhân tố đầu vào từ mô hình HRM và
GSM
70
18 3.1.16 Tương tự bảng 3.1.15 nhưng cho yếu tố dự báo tmin 71
19 3.1.17 Tương tự bảng 3.1.15 nhưng cho yếu tố dự báo t 71
20 3.1.18 Tương tự bảng 3.1.15 nhưng cho yếu tố dự báo td 72
21 3.1.19 Tương tự bảng 3.1.15 nhưng cho yếu tố dự báo u và có tần xuất > 73
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
v
10%
22 3.1.20 Tương tự bảng 3.1.15 nhưng cho yếu tố dự báo v và có tần xuất >
10%
73
23 3.1.21 Tương tự bảng 3.1.15 nhưng cho yếu tố dự báo ff và có tần xuất >
10%
74
24 3.1.22 Tương tự bảng 3.1.15 nhưng cho yếu tố dự báo clr và có tần xuất >
10%
75
25 3.1.23 Tương tự bảng 3.1.15 nhưng cho yếu tố dự báo ovc và có tần xuất >
10%
75
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
vi
DANH SÁCH CÁC HÌNH VẼ VÀ BIỂU ĐỒ
TT
Số thứ tự
hình
Nội dung
Trang
1 1.2.1 Đồ thị hai chiều và ba chiều của hàm trọng số cho ma trận SSCP
mới và SSCP cũ theo dung lượng mẫu (theo Wilson và Vallee,
2002)
10
2 1.2.2 Sơ đồ mô tả bước dự báo và hiệu chỉnh của lọc Kalman 14
3 2.3.1 Chỉ số RV trung bình trên khu vực Việt Nam theo phương pháp hồi
quy từng bước từ mô hình HRM dự báo cho tmax (trái) và tmin
(phải), hạn dự báo 72 giờ
30
4 2.4.1 Sự biến thiên trung bình (%) của sai số quân phương (RMSE) dự
báo từ lọc Kalman theo các giá trị dung lượng mẫu khác nhau cho
tmax hạn 6h (bên trái) và tmin hạn 18h (bên phải)
35
5 2.4.2 Tương tự hình 2.4.1 nhưng cho t hạn 24h (bên trái) và wind hạn
24h (bên phải)
36
6 2.5.1 Thuật toán dự báo hiện tượng từ dự báo xác suất 41
7 2.7.1 Meteogram dự báo cho Cam Ranh 46
8 2.7.2 Bản đồ dự báo nhiệt độ 2m (t
2m
, trái), nhiệt độ tối thấp 2m (tmin
2m,
giữa) và nhiệt độ tối cao 2m (tmax
2m,
phải) theo GMOS
47
9 2.7.3 Bản đồ dự báo nhiệt độ 2m (t
2m
,trái), nhiệt độ điểm sương 2m
(td
2m
,giữa) và độ ẩm tương đối 2m (rh
2m
, phải) theo GMOS
47
10 2.7.4 Bản đồ dự báo độ ẩm tương đối 2m (rh
2m,
trái), lượng mây (giữa)
và gió 10m (w
10m,
phải) theo GMOS
48
11 2.7.5 Bản đồ dự báo xác suất mưa 24 giờ ngưỡng 01mm (trái), 05mm
(giữa) và 20mm (phải) theo GMOS
48
12 3.1.1 Biến đổi của RV theo dung lượng mẫu tập số liệu mới sau khi mô
hình GSM (trên) và HRM (dưới) thay đổi vào mùa đông (trái) và
mùa hè (phải) cho tmax
50
13 3.1.2 Như hình 3.1.1, nhưng cho yếu tố tmin 51
14 3.1.3 Biến đổi của RV theo dung lượng mẫu tập số liệu mới sau khi mô
hình GSM (trên) và HRM (dưới) thay đổi vào mùa đông (trái) và
mùa hè (phải) cho t và td với hạn dự báo 12, …, 72 giờ
51
15 3.1.4 Toán đồ tụ điểm dự báo t (trên) và td (dưới) hạn 72 giờ, mùa hè từ
mô hình GSM so sánh với quan trắc trong năm 2007 (trái), 2008
(giữa) và 2009 (phải)
52
16 3.1.5 Toán đồ tụ điểm dự báo t (trên) và td (dưới) hạn 72 giờ, mùa đông
từ mô hình GSM so sánh với quan trắc trong năm 2006 (trái), 2007
(giữa) và 2008 (phải)
53
17 3.1.6 Biến đổi của RV theo dung lượng mẫu tập số liệu mới sau khi mô
hình GSM (trên) và HRM (dưới) thay đổi vào mùa đông (trái) và
mùa hè (phải) cho u, v và ff
63
18 3.1.7 Như hình 3.1.16, nhưng cho bốn loại mây CLR, SCT, BRK và
OVC
64
19 3.1.8 Hình 3.1.8. Sự biến thiên của các hệ số hồi quy trong phương trình
dự báo tmax hạn 30h và sai số hệ thống (BIAS) của DMO và KF
tại trạm Láng đối với chu kỳ dự báo 21/11/2007-21/01/2008 với số
liệu đầu vào từ mô hình GSM
77
20 3.1.9 Tương tự như hình 3.1.8 nhưng cho phương trình dự báo t hạn 24h 78
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
vii
21 3.1.10 Tương tự như hình 3.1.8 nhưng cho chu kỳ dự báo 25/10/2007-
25/12/2007 với số liệu đầu vào từ mô hình HRM
78
22 3.1.11 Tương tự như hình 3.1.10 nhưng cho phương trình dự báo t hạn 24h 78
23 3.2.1 Bias dự báo của tmax vào mùa hè 2007 (trái), 2008 (giữa) và 2009
(phải) theo hai mô hình GSM (trên) và HRM (dưới) với ba phương
pháp DMO, KF và UMOS
81
24 3.2.2 Bias dự báo của tmax vào mùa đông 2006 (trái), 2007 (giữa) và
2008 (phải) theo hai mô hình GSM (trên) và HRM (dưới) với ba
phương pháp DMO, KF và UMOS
82
25 3.2.3 Như hình 3.2.1, nhưng với chỉ số RMSE 83
26 3.2.4 Như hình 3.2.2, nhưng với chỉ số RMSE 84
27 3.2.5 Bias dự báo của tmin vào mùa hè 2007 (trái), 2008 (giữa) và 2009
(phải) theo hai mô hình GSM (trên) và HRM (dưới) với ba phương
pháp DMO, KF và UMOS
85
28 3.2.6 Bias dự báo của tmin vào mùa đông 2006 (trái), 2007 (giữa) và
2008 (phải) theo hai mô hình GSM (trên) và HRM (dưới) với ba
phương pháp DMO, KF và UMOS
86
29 3.2.7 Như hình 3.2.5, nhưng với chỉ số RMSE 87
30 3.2.8 Như hình 3.2.6, nhưng với chỉ số RMSE 88
31 3.2.9 Bias dự báo của t vào mùa hè 2007 (trái), 2008 (giữa) và 2009
(phải) theo hai mô hình GSM (trên) và HRM (dưới) với ba phương
pháp DMO, KF và UMOS
90
32 3.2.10 Bias dự báo của t vào mùa đông 2006 (trái), 2007 (giữa) và 2008
(phải) theo hai mô hình GSM (trên) và HRM (dưới) với ba phương
pháp DMO, KF và UMOS
91
33 3.2.11 Như hình 3.2.9, nhưng với chỉ số RMSE 92
34 3.2.12 Như hình 3.2.10, nhưng với chỉ số RMSE 93
35 3.2.13 Bias dự báo của td vào mùa hè 2007 (trái), 2008 (giữa) và 2009
(phải) theo hai mô hình GSM (trên) và HRM (dưới) với ba phương
pháp DMO, KF và UMOS
94
36 3.2.14 Bias dự báo của td vào mùa đông 2006 (trái), 2007 (giữa) và 2008
(phải) theo hai mô hình GSM (trên) và HRM (dưới) với ba phương
pháp DMO, KF và UMOS
95
37 3.2.15 Như hình 3.2.13, nhưng với chỉ số RMSE 96
38 3.2.16 Như hình 3.2.14, nhưng với chỉ số RMSE 97
39 3.2.17 Bias dự báo của t theo mô hình GSM vào mùa hè 2007, 2008, 2009
(trên) và mùa đông 2006, 2007, 2008 (dưới) với ba phương pháp
DMO, UMOSreg và UMOS
99
40 3.2.18 Hình 3.2.18: Như hình 3.2.17, nhưng với chỉ số RMSE 100
41 3.2.19 Dự báo tmax ngày thứ hai (hạn dự báo 48 giờ) theo GMOS với các
mô hình GSM, HRM theo hai phương pháp UMOS và KF. Quan
trắc cũng được hiển thị với mục đích so sánh.
101
42 3.2.20 Như hình 3.2.19, nhưng cho tmin 102
43 3.2.21 Như hình 3.2.19, nhưng cho t 103
44 3.2.22 Như hình 3.2.19, nhưng cho td 104
45 3.2.23 Dự báo rh hạn 54 giờ theo GMOS với các mô hình GSM, HRM
theo hai phương pháp UMOS và KF. Quan trắc cũng được hiển thị
với mục đích so sánh.
105
46 3.2.24 Bias dự báo của dd vào mùa hè 2007 (trái), 2008 (giữa) và 2009
(phải) theo hai mô hình GSM (trên) và HRM (dưới) với ba phương
pháp DMO, KF và UMOS
107
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
viii
47 3.2.25 Bias dự báo của dd vào mùa đông 2006 (trái), 2007 (giữa) và 2008
(phải) theo hai mô hình GSM (trên) và HRM (dưới) với ba phương
pháp DMO, KF và UMOS
108
48 3.2.26 Như hình 3.2.24, nhưng với chỉ số RMSE 109
49 3.2.27 Như hình 3.2.25, nhưng với chỉ số RMSE 110
50 3.2.28 Như hình 3.2.24, nhưng với chỉ số CRF 111
51 3.2.29 Như hình 3.2.25, nhưng với chỉ số CRF 112
52 3.2.30 Bias dự báo của ff vào mùa hè 2007 (trái), 2008 (giữa) và 2009
(phải) theo hai mô hình GSM (trên) và HRM (dưới) với ba phương
pháp DMO, KF và UMOS
113
53 3.2.31 Bias dự báo của ff vào mùa đông 2006 (trái), 2007 (giữa) và 2008
(phải) theo hai mô hình GSM (trên) và HRM (dưới) với ba phương
pháp DMO, KF và UMOS
114
54 3.2.32 Như hình 3.2.30, nhưng với chỉ số RMSE 115
55 3.2.33 Như hình 3.2.31, nhưng với chỉ số RMSE 116
56 3.2.34 Như hình 3.2.30, nhưng với chỉ số HSS 117
57 3.2.35 Như hình 3.2.31, nhưng với chỉ số HSS 118
58 3.2.36 Như hình 3.2.30, nhưng với chỉ số TS 119
59 3.2.37 Như hình 3.2.31, nhưng với chỉ số TS 120
60 3.2.38 Chỉ số CRF dự báo của dd theo mô hình GSM vào mùa hè 2007,
2008, 2009 (trên) và mùa đông 2006, 2007, 2008 (dưới) với ba
phương pháp DMO, UMOSreg và UMOS
122
61 3.2.39 Như hình 3.2.38, nhưng với chỉ số HSS cho ff 123
62 3.2.40 Dự báo gió hạn 30 giờ theo GMOS với các mô hình GSM, HRM
theo hai phương pháp UMOS và KF. Quan trắc cũng được hiển thị
với mục đích so sánh.
124
63 3.2.41 HSS dự báo của n vào mùa hè 2007 (trái), 2008 (giữa) và 2009
(phải) theo hai mô hình GSM (trên) và HRM (dưới) với ba phương
pháp DMO, KF và UMOS
126
64 3.2.42 HSS dự báo của n vào mùa đông 2006 (trái), 2007 (giữa) và 2008
(phải) theo hai mô hình GSM (trên) và HRM (dưới) với ba phương
pháp DMO, KF và UMOS
127
65 3.2.43 HSS dự báo của n theo mô hình GSM vào mùa hè 2007, 2008,
2009 (trên) và mùa đông 2006, 2007, 2008 (dưới) với ba phương
pháp DMO, UMOSreg và UMOS
129
66 3.2.44 Dự báo lượng mây hạn 12 giờ theo GMOS với các mô hình GSM,
HRM theo hai phương pháp UMOS và KF. Quan trắc cũng được
hiển thị với mục đích so sánh.
130
67 3.2.45 Dự báo lượng mây hạn 12 giờ theo GMOS với các mô hình GSM,
HRM theo hai phương pháp UMOS và UMOSreg. Quan trắc cũng
được hiển thị với mục đích so sánh.
131
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
ix
MỤC LỤC
Tran
g
MỞ ĐẦU
1
CHƯƠNG I. KHÁI QUÁT VỀ CÁC PHƯƠNG PHÁP UMOS,
LỌC KALMAN VÀ GMOS
3
1.1
Lược sử phát triển các phương pháp thống kê sau mô hình
3
1.1.1 Trên thế giới 3
1.1.2 Tại Việt Nam 6
1.2 Cơ sở lý thuyết các phương pháp UMOS, KF và GMOS 7
1.2.1 UMOS 7
1.2.2 Lọc Kalman 12
1.2.3 GMOS (Gridded MOS) 15
CHƯƠNG II. THIẾT KẾ CÁC HỆ THỐNG DỰ BÁO
UMOS, KF VÀ GMOS
19
2.1 Đặt vấn đề 19
2.2 Yếu tố dự báo 20
2.2.1 Các yếu tố dự báo 20
2.2.2 Kiểm tra chất l
ượng thám sát 22
2.3 Nhân tố dự báo 27
2.4 Phương pháp 31
2.4.1 Xây dựng các phương trình dự báo cho UMOS và KF 31
2.4.2 Thiết kế và xây dựng GMOS 36
2.5 Hậu xử lý 39
2.6 Phương pháp đánh giá 42
2.7 Sản phẩm
44
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
x
CHƯƠNG III. KẾT QUẢ VÀ ĐÁNH GIÁ 49
3.1 Khảo sát kết quả thực hiện 49
3.1.1 Khảo sát các phương trình dự báo theo UMOS 49
3.1.1.1 Phương trình dự báo các yếu tố nhiệt độ: tmax, tmin, t và td
49
3.1.1.2 Phương trình dự báo gió và lượng mây
62
3.1.2 Khảo sát các phương trình dự báo theo lọc Kalman 69
3.2 Đánh giá 79
3.2.1 Đánh giá dự báo nhiệt độ 80
3.2.2 Đánh giá dự báo gió 105
3.2.3 Đánh giá dự báo lượng mây 124
KẾT LUẬN VÀ KIẾN NGHỊ 133
TÀI LIỆU THAM KHẢO 135
PHỤ LỤC
Phụ
lục
Thông tin về các trạm quan trắc khu vực và tập nhân tố dự
báo từ mô hình HRM và GSM
139
Bảng
I.1
Danh sách 132 trạm quan trắc synốp thuộc 9 khu vực được sử
dụng trong nghiên cứ
u dự báo các yếu tố nhiệt độ, gió và lượng
mây
139
Bảng
I.2
Danh sách các nhân tố dự báo cơ bản từ mô hình HRM và GSM
được sử dụng để đưa vào các sơ đồ tuyển chọn nhân tố cho các
phương pháp UMOS và KF
141
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
1
MỞ ĐẦU
Kể từ năm 2000, khi mô hình số dự báo thời tiết đầu tiên HRM bắt đầu được
đưa vào chạy dự báo tại Việt Nam, cho đến nay có nhiều mô hình khác nhau đang
được chạy nghiên cứu hay dự báo thử nghiệm tại một số Trung tâm tính toán của
Việt Nam như HRM, Eta tại Trung Tâm Dự báo Khí tượng Thủy văn Trung ương,
RAMS, HRM tại Khoa Khí tượng Thủy văn Hải dương học, Đại học Khoa học Tự
nhiên, MM5, WRF t
ại Viện Khoa học Khí tượng Thủy văn và Môi trường. Trước
đó, kết quả dự báo dưới dạng số từ Cơ quan khí tượng Nhật Bản (JMA) và Cơ quan
khí tượng Úc (BoM) cũng đã nhận được tại Trung Tâm Khí tượng Thủy văn Quốc
gia vào các năm 1997 và 2001. Tuy nhiên, một hệ thống diễn giải dự báo cho các
sản phẩm dự báo từ mô hình vẫn chưa được triển khai tại Việt Nam. T
ại những
trung tâm có sử dụng mô hình dự báo, sản phẩm dự báo cuối cùng vẫn là sản phẩm
dự báo trực tiếp từ mô hình, chưa có bất kỳ hiệu chỉnh nào.
Cho đến nay, tập số liệu bề mặt (địa hình, thảm phủ thực vật, sử dụng đất) sử
dụng trong tất cả các mô hình hiện có tại Việt Nam đều được lấy từ tập số liệ
u toàn
cầu của Mỹ. Tập số liệu này được xác định từ vệ tinh trong những năm 90. Tới thời
điểm hiện nay, với tốc độ phát triển kinh tế xã hội của Việt Nam, tập số liệu này đã
không còn mô tả tốt một số khu vực trên lãnh thổ Việt Nam khi có những biến động
lớn trong khu dân cư tại các đô thị, hay vấn đề sử dụng đấ
t. Ngoài ra, các mô hình
sử dụng đều có nguồn gốc từ các nước ngoại nhiệt đới nên khả năng mô phỏng
chính xác các quá trình nhiệt đới trên khu vực Việt Nam cũng cần được đặt ra. Do
đó, sai số hệ thống tồn tại trong sản phẩm dự báo của mô hình là không thể tránh
khỏi. Bởi vậy một dự báo thống kê như MOS trở nên rất cần thiết nhằm tăng cường
chất lượ
ng dự báo, loại bỏ các sai số hệ thống từ mô hình cũng như điều kiện ban
đầu. Bên cạnh đó, đòi hỏi ngày càng cao của xã hội trong chất lượng dự báo hạn
ngắn cũng thúc đẩy xây dựng dự báo sau mô hình.
Trong nỗ lực tăng cường chất lượng dự báo, đã có một nghiên cứu đầu tiên
trong nước thử nghiệm lọc Kalman vào hiệu chỉnh dự báo từ mô hình (Võ Văn Hòa
và nnk, 2007). M
ặc dù phương trình thống kê mà nhóm tác giả này sử dụng còn đơn
giản, kết quả hiệu chỉnh đã cho thấy những cải tiến đáng kể và chỉ ra khả năng phát
triển dự báo thống kê sau mô hình ở Việt Nam. Tiếp tục theo hướng nghiên cứu của
nhóm tác giả trên cũng như hướng nghiên cứu của đề tài cấp Bộ dự báo mưa bằng
MOS và ANN vừa hoàn thành (Bùi Minh Tăng và nnk, 2009), đề tài này tiếp cậ
n
bài toán thống kê sau mô hình theo hai hướng: UMOS và lọc Kalman. Kết quả dự
báo theo hai phương pháp này sau đó sẽ được chuyển lên lưới nhờ một phương
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
2
pháp phân tích thích hợp, tạo khả năng dự báo cho một điểm bất kỳ ngoài điểm trạm
(GMOS).
Theo đăng ký trong thuyết minh đề cương, đề tài chỉ sử dụng dự báo từ mô
hình HRM chạy nghiệp vụ tại TTDBTƯ làm nhân tố dự báo. Tuy nhiên, chúng tôi
nhận thấy trong hệ thống MOS dự báo mưa định lượng hiện có tại TTDBTƯ (Bùi
Minh Tăng và nnk, 2009), mọi dự báo MOS từ mô hình HRM
luôn có sai số lớn
hơn dự báo tương ứng từ mô hình GSM. Để hướng tới một dự báo tốt hơn, đề tài đã
sử dụng thêm mô hình GSM bên cạnh mô hình HRM. Hệ thống đã được xây
dựng độc lập với mô hình dự báo để có thể sử dụng cho bất kỳ mô hình dự báo
nào, không phụ thuộc riêng cho từng mô hình.
Dựa trên mục tiêu và nội dung công việc đã đăng ký trong b
ản thuyết minh đề
tài, nội dung của báo cáo tổng kết đề tài được bố cục thành các phần như sau:
Mở đầu
Chương I. Tổng quan về các phương pháp UMOS, lọc Kalman và GMOS
Chương II. Thiết kế các hệ thống dự báo UMOS, lọc Kalman và GMOS
Chương III. Kết quả và đánh giá
Kết luận
Kiến nghị
Tài liệu tham khảo
Phụ lục
Đề tài do các nghiên cứu viên Phòng Nghiên cứu ứng dụng, Trung tâm Dự báo
KTTV Trung
ương thực hiện với sự cộng tác chặt chẽ của các đồng nghiệp Đại học
Khoa học tự nhiên, Đại học Quốc gia Hà Nội và sự theo dõi, chỉ đạo kịp thời của
Ban Giám đốc Trung tâm. Nhóm thực hiện đề tài hy vọng những kết quả nghiên
cứu mà đề tài đạt được sẽ có những đóng góp cho công tác dự báo nghiệp vụ cũng
như nghiên cứu phát triển sau này tại Trung tâm Dự
báo KTTV Trung ương nói
riêng và Trung tâm KTTV Quốc gia nói chung. Nhân dip này, chủ nhiệm đề tài và
các cộng tác viên xin gửi lời cảm ơn chân thành đến Lãnh đạo Bộ Tài nguyên và
Môi trường, Lãnh đạo Trung tâm KTTV Quốc gia và đặc biệt là Ban Giám đốc
Trung tâm Dự báo KTTV Trung ương đã tạo mọi điều kiện cho chúng tôi hoàn
thành đề tài. Một lần nữa, xin trân trọng cảm ơn.
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
3
CHƯƠNG I
TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP UMOS, LỌC KALMAN
VÀ GMOS
1.1. LƯỢC SỬ PHÁT TRIỂN CÁC PHƯƠNG PHÁP THỐNG KÊ SAU MÔ
HÌNH
1.1.1. Trên thế giới
Ngay sau khi có sự xuất hiện của dự báo số, các phương pháp thống kê sau
mô hình đã bắt đầu được áp dụng với phương pháp dự báo hoàn hảo PP (Perfect
Prog) do Klein và nnk (1959) đề xuất. Sau đó một thập niên, Glahn và Lowry
(1972) đề xuất phương pháp thứ hai MOS (Model Output Statistics) chủ yếu dựa
vào kỹ thuật hồi quy tuyến tính đa biến. Ngày nay, MOS được hiểu theo nghĩa rộng
hơn với bất kỳ k
ỹ thuật thống kê nào có thể áp dụng từ hồi quy logistic, phân tích
riêng biệt cho đến mạng tế bào thần kinh nhân tạo, giải thuật di truyền. MOS theo
như Glahn và Lowry (1972) đề xuất được xem là dự báo MOS truyền thống.
Hai phương pháp này đều có mục đích làm chính xác hơn các kết quả dự báo
từ mô hình và cùng dựa trên phương pháp hồi quy tuyến tính đa biến. Lựa chọn
nhân tố dự báo là khác biệt duy nhất giữa hai phương pháp này. Trong khi PP sử
dụ
ng quan trắc làm nhân tố dự báo thì MOS sử dụng dự báo từ mô hình làm nhân tố
dự báo trong pha traning. Khi áp dụng dự báo, PP xem dự báo từ mô hình như quan
trắc và đưa vào phương trình dự báo. Cho tiết về hai phương pháp này có thể xem
trong Wilks (2006) hoặc Bùi Minh Tăng và nnk (2009).
Khi dự báo số bắt đầu cung cấp những trường dự báo có chất lượng hơn
trong thập kỷ 80, một số các trung tâm dự báo lớn trên thế giới đã xây dựng hệ
th
ống diễn giải dự báo dựa trên phương pháp MOS, cung cấp dự báo tại các điểm
trạm quan trắc khí tượng như Mỹ (Carter và nnk, 1989), Canada (Brunet và nnk,
1988), Hà Lan (Lemcke và Kruizinga, 1988), Úc (Woodcock, 1984), Anh (Francis
và nnk, 1982). Tuy nhiên, vào những năm 90, người ta bắt đầu nhận thấy những hạn
chế của MOS, dẫn đến giảm dần sử dụng MOS trong diễn giải dự báo. Vấn đề nằm
ở chỗ: khi xây dựng các phương trình hồi quy, tập số liệ
u mô hình dùng làm nhân tố
dự báo phải đồng nhất. Theo đánh giá của Jacks và nnk (1990) để có được một quan
hệ thống kê ổn định, cần ít nhất hai năm số liệu dự báo từ mô hình và thám sát. Sau
đó khi sử dụng MOS, các đặc trưng của mô hình dự báo như các sơ đồ tham số hóa,
độ phân giải, cần được giữ nguyên như khi sử dụng mô hình để thiết lập quan hệ
thống kê. Điều này rõ ràng là một hạ
n chế lớn của MOS, bởi ta biết rằng từ thập kỷ
90 với sự phát triển nhanh của tốc độ tính toán cũng như các hệ thống quan trắc, các
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
4
mô hình thường xuyên được cập nhật với độ phân giải ngày càng cao hơn, các sơ đồ
tham số hóa tinh tế hơn, trường phân tích chính xác hơn. Erikson và nnk (2002) cho
ta thấy sai số hệ thống sẽ xuất hiện khi sử dụng MOS với mô hình được cải tiến. Do
đó, khi mô hình có sự thay đổi ta phải đợi ít nhất hai năm mới có thể bắt đầu sử
dụng MOS trong dự báo hoặc dự báo lại với mô hình đã thay đổi cho hai nă
m trước
đó nhằm xác định lại các hệ số hồi quy. Với số phương trình hồi quy rất lớn (tại mỗi
trạm, cho mỗi biến và mỗi hạn dự báo có một phương trình hồi quy riêng biệt), chi
phí cho tái xây dựng hệ thống MOS khi mô hình thay đổi là khá lớn.
Có thể lấy thí dụ thông qua hệ thống MOS của Mỹ: Hệ thống MOS đầu tiên
được xây dựng cho mô hình LFM vào năm 1976. Đến năm 1990, hệ thống này đượ
c
thay thế bởi hệ thống MOS cho mô hình NGM (Jacks và nnk, 1990). Từ năm 1993,
mô hình Eta bắt đầu được đưa vào chạy nghiệp vụ tại NCEP thay thế cho mô hình
LFM. Do mô hình Eta thường xuyên được cải tiến, không có hệ thống MOS nào
được xây dựng cho mô hình này trong suốt những năm 90 (Mao và nnk, 1999). Phải
đến năm 2002, khi hệ thống dự báo với mô hình Eta đã trở nên ổn định, hệ thống
MOS cho Eta mới bắt đầu được thực hiện (Dallavalle và nnk, 2004). Với hệ th
ống
mới này, các tác giả đã tính đến khả năng mô hình thay đổi trong quá trình sử dụng
MOS bằng cách lựa chọn một lưới tính cố định cho MOS thường có độ phân giải
thô hơn so với độ phân giải mô hình hay làm trơn các nhân tố dự báo (Erikson và
nnk, 2002).
Để giải quyết hạn chế này của phương pháp MOS truyền thống khi mô hình
liên tục có sự thay đổi, người ta sử dụng các phương pháp thống kê có khả năng tự
c
ập nhật. Thông tin sẽ được truyền vào phương trình dự báo ngay khi có những thay
đổi trong mô hình dự báo. Hiện tại có hai phương pháp cho phép hệ phương trình
dự báo tự cập nhật:
• Phương pháp thứ nhất: Sử dụng lọc Kalman, thay vì cố định các hệ số
hồi quy trong phương trình hồi quy, các hệ số này sẽ được cập nhật hàng
ngày theo thời gian (Simonsen 1991, Homleid 1995). Cần chú ý rằng tên
gọi lọc Kalman có thể gây hiểu lầ
m về một phương pháp lọc nhiễu. Thực
tế, lọc Kalman là một phương pháp đánh giá tối ưu trạng thái của một hệ
thống thể hiện qua các biến trạng thái từ các quan trắc gián tiếp (Grewal
và Andrews, 2001).
• Phương pháp thứ hai: Về cơ bản vẫn sử dụng phương pháp MOS
truyền thống nhưng đưa thêm khả năng tự cập nhật cho MOS thông qua
một phương pháp lấ
y trọng số giữa hai tập dữ liệu cũ và mới khi có thay
đổi trong mô hình (Wilson và Vallée, 2002) với tên gọi UMOS. Nếu mô
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
5
hình không có cải tiến nào đáng kể, UMOS sẽ trở thành phương pháp
MOS thông thường.
Ngoài ra, có một số tác giả đề xuất một số phương pháp mới thay thế cho
MOS với tập số liệu mẫu ngắn hơn (Mao và CS, 1999) hoặc phương pháp phi tuyến
thông qua mạng tế bào thần kinh có khả năng tự cập nhật (Yuval và Hsieh, 2003).
Cần chú ý rằng khi sử dụng các phương pháp phi tuyến thay thế cho phương pháp
hồi quy tuyến tính, v
ấn đề thay đổi của mô hình khi sử dụng MOS vẫn không được
giải quyết.
Cả hai phương pháp này cùng xuất hiện những năm đầu thập kỷ 90 và
nhanh chóng được các trung tâm dự báo trên thế giới triển khai ứng dụng, đặc biệt
là lọc Kalman. Được đề xuất bởi các tác giả Bắc Âu, lọc Kalman nhanh chóng được
triển khai thực hiện trước tiên tại các nước này như Đan Mạch (Simonsen, 1991),
Nauy (Homleid, 2004) hay Iceland (Crochet, 2004). Sau đó ph
ương pháp này dần
được các nước khác tại châu Âu sử dụng như Pháp (Météo France, 2002), Đức
(Haalman, 2003), Rumani (Diaconu, 2002), Hy Lạp (Golanis và Anadranistokis,
2002), Tại các nước Đông Á, lọc Kalman được ứng dụng rất nhiều trong hệ thống
diễn giải dự báo hạn ngắn tại Cơ quan khí tượng Nhật Bản (JMA) và Cơ quan khí
tượng Hàn quốc (KMA). Từ năm 1996, JMA chủ yếu sử dụng lọc Kalman trong
diễn giải kết quả dự báo từ mô hình cho mọ
i yếu tố khí tượng cơ bản: mưa, gió,
nhiệt độ (JMA, 2006). Tại Hàn Quốc, KMA dự báo cho nhiệt độ cho 40 điểm trạm
tại Hàn Quốc cùng 32 điểm khác tại CHDC ND Triều Tiên, Trung Quốc và Nhật
Bản theo phương pháp lọc Kalman và một biến thể của nó là DLM (Joo, 2006).
Riêng với phương pháp UMOS, dù được phát triển tại Mỹ nhưng lại được ứng dụng
tại Canada (Wilson và Vallée, 2002, 2003). Hiện tại, Mỹ v
ẫn chủ yếu sử dụng
phương pháp MOS truyền thống nhưng đã bắt đầu triển khai theo hai hướng GMOS
và EMOS.
Hiện tại, MOS đang được tiếp tục phát triển theo hai hướng mới là GMOS
(dự báo thống kê sau mô hình trên lưới) và EMOS (dự báo thống kê sau mô hình tổ
hợp). Nếu như theo phương pháp MOS, thông thường ta chỉ xây dựng phương trình
dự báo tại trạm, sau đó cũng đưa ra dự
báo tại điểm trạm thì GMOS hướng đến sử
dụng MOS dự báo trên lưới (Dallavalle và Glahn, 2005). Nếu như thám sát được
cho trên lưới thì GMOS chính là phương pháp MOS thông thường. Nếu các thám
sát phân bố không đều, sau khi có dự báo MOS tại trạm, sử dụng các kỹ thuật phân
tích hai chiều như Cressman hay Barnes người ta sẽ chuyển các dự báo này về lưới.
Như vậy, GMOS có thể cho ta dự báo từ MOS tại bất kỳ điểm nào, không cố định
t
ại các điểm trạm như MOS, đây chính là lợi thế của phương pháp này. Với
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
6
EMOS, thay vì sử dụng MOS cho một mô hình, người ta sử dụng các phương pháp
thống kê dựa trên dự báo từ nhiều mô hình (Wilks và Hamill, 2007). So với MOS,
EMOS không cần sử dụng một tập số liệu mẫu dài lại có khả năng đưa ra được
phân bố xác suất của biến dự báo. Hơn nữa, phương trình dự báo sử dụng chỉ cần
lấy trung bình đơn giản đã có thể đem lại kế
t quả dự báo tốt tương đương với MOS.
Có thể nói EMOS sẽ là hướng phát triển mạnh trong tương lai.
1.1.2. Tại Việt Nam
Việt Nam hiện mới chỉ có khả năng áp dụng các phương pháp thống kê sau
mô hình đã được nghiên cứu trên thế giới vào bài toán cụ thể của mình, chưa có khả
năng đóng góp nghiên cứu về mặt phương pháp luận. Trước năm 1997, trong
nghiệp vụ dự báo hàng ngày, chủ yếu sử dụng phương pháp synop để dự báo hình
thế thời tiết. Một số các công cụ trên cơ sở phương pháp thống kê truy
ền thống
cũng được xây dựng, nhưng phần lớn là những phương trình hồi qui đơn giản áp
dụng cho một vài điểm, chỉ để dự báo một số nhân tố truyền thống như mưa, nhiệt
độ, vận tốc gió, và phần lớn là áp dụng cho những dự báo hạn vừa và dài (Nguyễn
Văn Tuyên, 1988, 1999).
Từ năm 1997 trở lại đây, trên cơ sở hợp tác song phươ
ng, Trung Tâm dự báo
KTTV Trung ương đã thu được một số sản phẩm dự báo của các mô hình số từ
JMA, cơ quan khí tượng Úc (BoM) và một vài Trung tâm khí tượng khác chủ yếu
dưới dạng bản đồ. Đến năm 2002, tại TTDDBTƯ bắt đầu chạy nghiệp vụ mô hình
số phân giải cao HRM. Trong các năm từ 2001 đến 2002 tại TTDBTƯ đã tiến hành
thực hiện đề tài “Nghiên cứu ứng dụng phương pháp d
ự báo lượng mưa dựa trên
sản phẩm mô hình dự báo số trị của Nhật”. Tuy nhiên, đây không phải là phương
pháp thống kê mà chỉ đơn thuần là một mô hình tính toán lượng mưa dẫn xuất dựa
trên các biến dự báo từ mô hình thông qua một vài phương trình vật lý (Đỗ Lệ Thủy
và nnk, 2002).
Sau những năm đặt trọng tâm phát triển mô hình dự báo từ năm 2000,
những năm gần đây, các nghiên cứu về
dự báo thống kê sau mô hình mới bắt đầu
được triển khai với công trình đầu tiên của Bùi Minh Tăng và nnk (2009). Các tác
giả này đã áp dụng một số kỹ thuật thống kê theo nghĩa MOS mở rộng (không đơn
thuần là hồi quy tuyến tính) vào dự báo yếu tố lượng mưa 24 giờ đầu từ mô hình số
trị. Các kết quả thu được là rất đáng khích lệ dù nghiên cứu có nhược điểm xem như
mô hình dự báo không thay
đổi theo thời gian. Nhược điểm này có thể không
nghiêm trọng với các trung tâm dự báo lớn khi có thể chạy lại mô hình sau khi thay
đổi nhưng với Việt Nam sẽ là một vấn đề lớn do Việt Nam phụ thuộc vào dự báo từ
mô hình toàn cầu của các trung tâm khác. Các phương pháp dự báo sau mô hình có
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
7
khả năng tự cập nhật như UMOS, lọc Kalman hay tổ hợp như EMOS hứa hẹn sẽ
đem lại những giải pháp cho vấn đề này và Việt Nam nên đi theo các hướng nghiên
cứu này nếu muốn xây dựng hệ thống diễn giải dự báo. Trên thực tế trước đó, Võ
Văn Hòa và nnk (2007) đã có một nghiên cứu nhỏ thử nghiệm lọc Kalman hiệu
chỉnh dự báo nhiệ
t từ mô hình.
1.2. CƠ SỞ LÝ THUYẾT CÁC PHƯƠNG PHÁP UMOS, KF VÀ GMOS
1.2.1. UMOS
Theo như cách tiếp cận truyền thống của MOS (hồi quy tuyến tính đa biến)
không dễ để có thể đưa ý tưởng cập nhật vào phương pháp, nếu chỉ nhìn MOS ở
khía cạnh toán học quen thuộc của nó. Bài toán hồi quy tuyến tính đa biến MOS sử
dụng có dạng như sau: xác định tập p+1 các hệ số tự do a
i
của phương trình dự báo
yếu tố Y theo tập p các nhân tố dự báo X
i
:
Y= a
0
+ a
1
X
1
+ … + a
p
X
p
(1.2.1)
từ tập số liệu quá khứ và áp dụng dự báo tương lai. Các hệ số a
i
sẽ được xác định
theo phương pháp bình phương tối thiểu dựa trên tập số liệu training dung lượng
mẫu n. Viết dưới dạng ma trận, công thức tính vector hệ số a
i
có dạng sau:
a = (X
T
X)
-1
X
T
y (1.2.2)
trong đó y là vector yếu tố dự báo kích thước n, X là ma trận nhân tố dự báo kích
thước (p+1)×n, với mỗi vector cột, tương ứng vector nhân tố dự báo kích thước n.
MOS không cố định trước tập p các nhân tố mà thực hiện hồi quy từng bước với p
tăng dần từ 1 cho đến một giá trị nào đó thỏa mãn tiêu chuẩn dừng. Tại mỗi bước,
bài toán hồi quy mà MOS thực hiện hoàn toàn đồng nhất v
ới mô tả toán học ở trên.
Nếu thực hiện như đã mô tả ở trên, khi muốn cập nhật phương trình dự báo
1.2.1 với tập số liệu training đã được mở rộng thêm từ n lên n+m (m là số ngày mới
tích lũy thêm dữ liệu), toàn bộ quá trình phải được thực hiện lại từ đầu với hồi quy
từng bước và tại mỗi bước phải giải các hệ phươ
ng trình tuyến tính 1.2.2. Với tập
các nhân tố có thể vào khoảng 200, tại mỗi bước ta phải giải 200 hệ phương trình
tuyến tính 1.2.1. Thông thường, mỗi phương trình dự báo sau khi thỏa mãn điều
kiện dừng có khoảng 10 nhân tố, số lần giải phương trình sẽ là 2000 lần. Nhân lên
với số trạm cần cập nhật, chi phí tính toán cho mỗi lần cập nhật sẽ rất lớn. Với tốc
độ máy tính hiện nay, kh
ối lượng tính toán như trên có thể giảm thiểu nếu thực hiện
tính toán song song cho nhiều trạm tại cùng một thời điểm. Khó khăn thực sự nằm ở
phương thức thiết kế, lưu trữ và sử dụng số liệu cho bài toán cập nhật.
Với những vấn đề cố hữu như trên, các trung tâm thường không thực hiện
cập nhật phương trình dự báo theo ngày hay theo tháng mà thực hiệ
n một lần duy
nhất rồi áp dụng cho các năm kế tiếp hoặc cập nhật theo từng năm. Với dung lượng
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
8
tập training đủ dài, cách thực hiện như vậy vẫn đảm bảo một kết quả tốt do phương
trình dự báo sẽ ổn định trên một tập dữ liệu đủ dài. Tất nhiên, nếu tận dụng được tập
số liệu mới để tăng dung lượng tập training, phương trình dự báo thu được sẽ có
chất lượng tốt hơn.
Với các nghiên cứu của mình, Ross (1987, 1989, 1992) và sau đó là Wilson
và Vallee (2002) đã chỉ ra rằng vẫn có thể thực hiện cập nhật cho MOS mà chi phí
tính toán không lớn nếu thực hiện theo cách thông thường. Ý tưởng cập nhật được
hình thành dựa trên biểu diễn lại dạng toán học của phương pháp hồi quy tuyến tính
đa biến. Từ công thức (1.2.2) dễ thấy vector a được xác định thông qua ma trận
X
T
X kích thước (p+1)×(p+1) và vector X
T
y kích thước p+1. Mỗi phần tử M
ij
của
ma trận X
T
X chỉ đơn giản là tích vô hướng giữa hai vector nhân tố dự báo kích
thước n thứ i và j, trong khi mỗi phần tử V
i
của vector X
T
y là tích vô hướng giữa
vector nhân tố dự báo kích thước n thứ i với vector yếu tố dự báo kích thước n.
M
ij
=
∑
=
n
1k
kjik
XX
(1.2.3)
V
i
=
∑
=
n
1k
kik
YX (1.2.4)
Các phần tử này có đặc tính cộng, nghĩa là khi dung lượng mẫu tăng lên n+1,
các phần tử M
ij
hay V
i
có thể xác định rất đơn giản bằng cách cộng thêm số hạng
X(i,n+1)X(j,n+1) và X(i,n+1)Y(n+1) vào giá trị trước đó mà không cần phải tính lại
toàn bộ cho n+1 số hạng. Khả năng cập nhật rõ ràng đã thể hiện ngay trong phân
tích trên. Nếu muốn cập nhật, thay vì phải lưu chuỗi dữ liệu X
i
hay Y với kích
thước n tăng lên từng ngày, bài toán sẽ đơn giản hơn, nếu ta chỉ cần lưu các phần tử
M
ij
và V
i
và thay đổi giá trị của chúng từng ngày bằng cách cộng thêm một số hạng
mới vào như trên. Cách thực hiện này sẽ tiết kiệm dung lượng lưu trữ với một ma
trận và một vector kích thước không thay đổi (p+1)×(p+1) và p+1 so với ma trận
nhân tố dự báo và vector yếu tố dự báo có dung lượng n tăng dần. Các hệ số a
i
cuối
cùng vẫn hoàn toàn được xác định theo công thức (1.2.2) của bài toán hồi quy tuyến
tính đa biến.
Tuy nhiên, bằng cách thay đổi điểm nhìn như vậy, phương pháp mới đòi hỏi
tập các nhân tố p phải được xác định trước. Đây là chi phí phải trả cho việc đưa ý
tưởng cập nhật vào MOS. Điều này cũng đồng nghĩa quá trình hồi quy từng bước sẽ
không được thực hiện và các nhân tố d
ự báo phải cố định giống như trong phương
pháp lọc Kalman. Một quá trình sơ tuyển cần được thực hiện tuyển chọn trước các
nhân tố này. Thông thường p vào khoảng 10 và dung lượng lưu trữ được sử dụng
cập nhật phương trình dự báo cho một trạm sẽ rất nhỏ với 132 số thực (11×11+11).
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
9
Cách thức thực hiện này chính là UMOS dưới dạng đơn giản nhất và nếu so với
MOS truyền thống thì khối lượng tính toán của nó là không đáng kể.
Trong thực tế, khối lượng tính toán còn giảm hơn nữa do không cần thiết
phải giải hệ phương trình (1.2.2) từng ngày, do các phương trình dự báo MOS có
tính ổn định cao. Một thay đổi nhỏ trên thang thời gian ngày của ma trận X
T
X sẽ
không có tác động tới giá trị của tập hệ số a. Phương trình (1.2.2) chỉ cần giải trên
quy mô tuần hoặc quy mô tháng và công việc hàng ngày chỉ liên quan đến cập nhật
ma trận X
T
X và vector X
T
Y bằng cách cộng thêm một số hạng thích hợp vào mỗi
phần từ. Khối lượng tính toán chỉ tăng lên khi ta giải hệ phương (1.2.2) vào thời
gian đã định trước theo tháng hay tuần.
Hai ma trận X
T
X và vector X
T
Y có tầm quan trọng đặc biệt trong phương
pháp UMOS. Nếu coi vector yếu tố dự báo Y tương đương như các vector nhân tố
dự báo khác thì rõ ràng với cùng bản chất tích vô hướng, phần tử V
i
của X
T
Y không
có gì khác so với phần tử M
ij
của X
T
X. Do đó, để đơn giản, thay vì phải tách biệt và
lưu trữ hai ma trận và vector, người ta ghép vector X
T
Y vào cột cuối ma trận X
T
X
và gọi chung là ma trận SSCP (Sums of Squares and Cross Products) với kích thước
(p+2)×(p+1). Như tên gọi, SSCP thể hiện rõ bản chất tích vô hướng của nó. Tóm
lại, thay vì cách tiếp cận hồi quy tuyến tính đa biến, UMOS đặt trọng tâm vào ma
trận SSCP và thực hiện giải hệ phương trình tuyến tính trên ma trận này để xác định
tập hệ số a
i
.
Cách tiếp cận này hoàn toàn trùng với phương pháp MOS truyền thống (tất
nhiên trong trường hợp tập p nhân tố dự báo đã được cố định trước) và chỉ trở nên
khác biệt nếu mô hình dự báo thay đổi. Nếu vẫn thực hiện theo MOS truyền thống,
khi mô hình thay đổi ta phải đợi một khoảng thời gian đủ dài để có thể phát triển
một phương trình dự báo mới trong khi không thể sử dụng phương trình d
ự báo cũ.
Dự báo sau mô hình sẽ không thể thực hiện trong khoảng thời gian đợi này và cách
giải quyết duy nhất có thể là chạy lại mô hình mới với thời gian trước đây nhằm xây
dựng lại MOS. Tuy nhiên, khi thay đổi điểm nhìn sang ma trận SSCP, vấn đề sẽ
được giải quyết đơn giản hơn nếu xác định ma trận SSCP trong thời gian chuyển
đổi giả định một quan hệ tuyến tính chuyển d
ần từ ma trận SSCP cũ sang ma trận
SSCP mới và kết thúc khi mô hình mới đã có được một chuỗi dự báo đủ dài. Giả
thiết này không có cơ sở toán học (không tương đương với hồi quy tuyến tính đa
biến) nhưng có thể chấp nhận về mặt ứng dụng và hiệu quả có thể có được trong
giai đoạn chuyển đổi mô hình.
Như vậy, khi mô hình thay đổi, ma trận SSCP sẽ được tính thông qua m
ột
phương pháp lấy trọng số giữa ma trận SSCP cũ và mới.
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
10
SSCP = w
o
SSCP
o
+ w
n
SSCP
n
(1.2.5)
Wilson và Vallee (2002) đưa ra một công thức thực nghiệm cho trọng số này dưới
dạng
()
()
()
2
maxmin
2
max
maxmax
11
NN
NN
www
n
n
−
−
−−+=
0
max
0
N
NwN
w
nn
−
= với N
n
≤ N
max
(1.2.6)
w
n
=1, w
0
=0 với N
n
> N
max
trong đó w
n
là trọng số cho ma trận SSCP mới, w
o
: trọng số cho ma trận SSCP cũ,
N
n
: dung lượng mẫu từ tập số liệu mới, N
o
: dung lượng mẫu từ tập số liệu cũ, N
min
:
dung lượng mẫu tối thiểu mà khi vượt quá mô hình mới bắt đầu tác động tới ma trận
SSCP, N
max
: dung lượng mẫu tối đa mà khi vượt quá mô hình cũ được xem như
không còn tác động tới ma trận SSCP, w
max
: tham số điều khiển. Dạng hàm này
được hai tác giả lựa chọn trên nguyên tắc:
• Kết quả từ mô hình cũ không ảnh hưởng đến phương trình dự báo mới sau
một khoảng thời gian đủ dài
• Mô hình ngay sau khi thay đổi sẽ không tác động tới giá trị của ma trận
SSCP cho tới khi tích lũy được một dung lượng tối thiểu
Dạng hàm trọng số này được cho trên hình 1.2.1.
Hình 1.2.1: Đồ thị hai chiều và ba chiều của hàm trọng số cho ma trận SSCP mới và SSCP
cũ theo dung lượng mẫu (theo Wilson và Vallee, 2002)
So với lọc Kalman, MOS truyền thống có điểm mạnh nằm ở khả năng phân
mùa dự báo do chất lượng dự báo của mô hình cũng có đặc tính phân mùa. Phân
mùa dự báo cũng có thể thực hiện dễ dàng cho UMOS thông qua hai tập p nhân tố
dự báo khác nhau cho hai mùa. Để làm trơn quá trình chuyển mùa, UMOS giống
như MOS có thể cập nhật thêm một số ngày của mùa còn lại trong thời đoạn chuyển
mùa. Nếu tập nhân tố
dự báo như nhau cho cả hai mùa, Wilson và Vallee (2002) sử
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
11
dụng thêm một sơ đồ trọng số chuyển mùa cho ma trận SSCP giữa hai mùa đông và
hè với trọng số có dạng hàm bậc thang (2/3,1/3), (1/2,1/2) cho tới (1/3,2/3). Các
trọng số này còn được điều chỉnh bởi dung lượng mẫu ma trận SSCP mỗi mùa
nhằm loại bỏ khả năng SSCP chịu tác động nhiều hơn bởi ma trận SSCP tương ứng
với mùa có dung lượng lớn hơn.
()
ssnsns
b
as
s
ba
s
SSCPwSSCPw
N
NN
wSSCP
00
),min(
+=
∑
=
(1.2.7)
với chỉ số s chạy từ a đến b tương ứng với hai mùa, w
s
là trọng số mùa cho mùa s,
w
os
và w
ns
: trọng số như trong (1.2.6), N
s
mà cụ thể hơn N
a
và N
b
là dung lượng
mẫu của mùa tương ứng.
Như mô tả ở trên, nếu UMOS thực hiện phân mùa với hai tập nhân tố khác
nhau, quá trình cập nhật của UMOS sẽ tách thành hai quá trình độc lập riêng cho
mùa đông và mùa hè. Phương pháp thực hiện như vậy so với nguyên tắc liên tục tự
cập nhật sẽ bị gián đoạn tại hai thời điểm chuyển mùa. Nếu thực hiện nguyên tắc
này,
UMOS phải cố định tập nhân tố dự báo cho cả hai mùa và quá trình phân mùa
theo nhân tố dự báo không được thực hiện theo phương thức phân mùa của MOS
truyền thống. Ngoài ra, tập nhân tố cố định thích hợp cho mô hình cũ, nhưng có thể
không thích hợp cho mô hình mới cũng có thể dẫn đến chất lượng dự báo giảm. Để
giải quyết vấn đề, UMOS sẽ được thực hiện phức tạp hơ
n tương tự như quá trình
hồi quy từng bước của MOS truyền thống.
Tư tưởng của phương pháp có thể hiểu được nếu quan sát công thức 1.2.2
khi ta có thể rút ra từ ma trận X
T
X một ma trận con tương ứng vector X
T
Y một
vector con chỉ chứa p’ biến mà ta quan tâm từ p biến tổng thể, sau đó giải hệ
phương trình có dạng tương tự như 1.2.2 nhưng cho ma trận con và vector con này
để tìm các hệ số a
i
cho tập p’ biến này. Có thể rút ra nhiều tập p’ biến khác nhau từ
tập p và đây là cơ sở để thực hiện hồi quy từng bước. Ta sẽ bắt đầu từ p’ bằng 1 và
giải hệ phương trình dạng 1.2.2 trên mỗi tập con với một phần tử có thể để lựa chọn
nhân tố đầu tiên, sau đó tiếp tục tăng p’ và dừng cho đến khi đạt được một tiêu
chuẩn d
ừng nào đó. Theo phương pháp này, tập p các nhân tố dự báo ban đầu sẽ
không cần cố định và sử dụng trong phương trình dự báo giống như lọc Kalman. Ta
chỉ cần chọn ra một bộ p nhân tố đủ lớn các nhân tố có khả năng trở thành nhân tố
dự báo nhưng cũng không quá lớn để duy trì một ma trận SSCP có dung lượng nhỏ.
Tập con các nhân tố được tuyển chọn cho phương trình dự báo sẽ thay đổ
i khi
chuyển từ tuần sang tuần, tháng sang tháng, mùa sang mùa hoặc từ mô hình cũ sang
mô hình mới. Phương trình dự báo do đó sẽ biến đổi liên tục, “trơn” khi chuyển
mùa hay chuyển đổi mô hình.
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
12
Tuy nhiên, do thực hiện tuyển chọn nhân tố, cách thực hiện này đòi hỏi phải
có một tập dữ liệu training. Như vậy, để làm trơn quá trình chuyển mùa hay chuyển
đổi mô hình, bên cạnh khối lượng tính toán tăng thêm, dung lượng lưu trữ cũng tăng
thêm. Tất nhiên, nếu so với MOS truyền thống thì chi phí này vẫn nhỏ hơn. Với tập
dữ liệu training cần chú ý trong thời gian chuyển đổi mô hình, UMOS sẽ không
th
ực hiện lưu tập training với độ dài n tăng dần từng ngày như MOS truyền thống
mà cố định độ dài tập traning bằng N
max
trong công thức 1.2.6. Đây là dung lượng
mẫu tối đa để một phương trình dự báo khi xây dựng theo MOS truyền thống ổn
định.
1.2.2. Lọc Kalman
Phương pháp lọc Kalman (gọi tắt là KF - Kalman Filter), được đặt theo tên tác
giả của bộ lọc, ra đời năm 1960 trong công trình của R. E. Kalman mô tả một bộ lọc
đệ quy cho phép đánh giá trạng thái của một hệ động lực tuyến tính. Từ đó đến nay,
cùng với sự phát triển của tính toán số, KF đã trở thành một chủ đề nghiên cứu phát
triển rất nhanh với nhiều ứng dụ
ng trong các ngành kỹ thuật công nghệ như tự động
hóa, định vị, viễn thông và nhiều lĩnh vực khác. Từ phương pháp KF tuyến tính ban
đầu, ngày nay người ta đã nghiên cứu và áp dụng nhiều phương pháp phái sinh như
KF phi tuyến hay còn gọi là KF mở rộng (EKF-Extended KF), UKF (Unscented
KF), PKF (Particle KF), EnKF (Ensemble KF), FKF (Fuzzy KF), BKF (Bayesian
KF).
Một cách khái quát, KF là một tập hợp các phương trình toán học mô tả một
phương pháp đệ quy cho phép đ
ánh giá trạng thái ẩn của một hệ động lực với sai số
thấp nhất từ số liệu đo gián tiếp về hệ này, thừa nhận quan trắc và các quy luật mô
tả hoạt động của hệ tồn tại một độ bất định nào đó. Từ hệ động lực ở đây có thể áp
dụng rất đa dạng trong thực tế như quá trình chuyể
n động của một vệ tinh, sự phát
triển của một nền kinh tế hay chuyển động của khí quyển. Hai ví dụ sau đặc trưng
cho các hệ động lực phi tuyến và KF có những gần đúng để thực hiện đánh giá
trạng thái của các hệ động lực này. Tuy nhiên, phần trình bày ở đây sẽ chỉ giới hạn
ở các hệ động lực tuyến tính.
Một hệ
động lực tuyến tính được đặc trưng bởi vector trạng thái x kích thước
N, cung cấp thông tin cần thiết để có thể mô tả hệ. Vector này biến đổi theo thời
gian theo quy luật tuyến tính và thể hiện mặt động lực của hệ thống:
111 −−−
+
×
+
×
=
kkkk
wuBxAx (1.2.8)
trong đó x
k
là vector trạng thái thời điểm hiện tại, x
k-1
là vector trạng thái thời điểm
trước đó, u
k-1
là vector điều khiển hệ thống tại thời điểm trước đó, w
k-1
là vector đặc
trưng cho độ bất định của hệ thống do quy luật tuyến tính mô tả thông qua ma trận
Trung Tâm Dự báo KTTV Trung ương Trung tâm KTTV Quốc Gia
Nghiên cứu xây dựng hệ thống dự báo các yếu tố khí tượng bằng phương pháp thống kê
trên sản phẩm mô hình HRM - Hà Nội 2009
13
A chỉ là gần đúng. Ma trận A kích thước N×N có tên gọi ma trận chuyển dịch trạng
thái mang thông tin về quy luật hoạt động của hệ thống. Ma trận B được đưa vào
phương trình trên đặc trưng cho các quá trình bên ngoài điều khiển hệ thống đang
xét tác động thông qua vector điều khiển u
k-1
. Các bài toán KF thông thường không
sử dụng B và u.
Vấn đề đặt ra là ta biết quy luật hoạt động của hệ thống qua ma trận A, nhưng
không thể xác định trực tiếp trạng thái x
k
từ các phép đo thích hợp (trạng thái bị ẩn)
mà chỉ có được các quan trắc gián tiếp z
k
kích thước M có quan hệ tuyến tính với
x
k
:
kkk
vxHz
+
×
=
(1.2.9)
với vector v
k
đặc trưng cho sai số hay nhiễu khi thực hiện đo, H là ma trận kích
thước M×N mô tả quan hệ được giả định tuyến tính giữa biến đo được với biến
trạng thái cần xác định. H được gọi là ma trận quan trắc.
Để bài toán xác định, ta cần giả định một số thông tin cho hai vector sai số
w
k
và v
k
. Lọc Kalman xem đây là hai vector ngẫu nhiên, độc lập và tuân theo phân
bố Gauss với trung bình bằng 0 và ma trận hiệp biến (covariance) lần lượt là Q và
R:
),0(~
),0(~
RNv
QNw
k
k
(1.2.10)
Ngoài ra, để đơn giản hóa các ma trận Q, R, A, H đã được bỏ qua chỉ số dưới
nhưng thực tế có thể biến đổi theo thời gian. Để đánh giá tối ưu trạng thái x
k
với z
k
đo được, lọc Kalman sẽ cực tiểu hóa hiệp phương sai của sai số đánh giá.
Như vậy, ở bước thứ k, sử dụng phương trình (1.2.8) ta dễ dàng thu được đánh
giá tiên nghiệm (đánh giá sơ bộ)
−
k
x
ˆ
của vector trạng thái x từ các thông số của bước
trước đó. Sau đó, khi có quan trắc z
k
, ta cần điều chỉnh lại đánh giá tiên nghiệm sao
cho đánh giá hiệu chỉnh thu được phù hợp với quan trắc hiện có. Đánh giá này có
tên gọi đánh giá hậu nghiệm và được ký hiệu bởi
k
x
ˆ
. Đánh giá tiên nghiệm và hậu
nghiệm sẽ có sai số:
kkk
kkk
x
ˆ
xe
x
ˆ
xe
−=
−=
−−
(1.2.11)
Ma trận hiệp biến của các sai số trên có dạng:
)ee(EP
)ee(EP
T
kkk
T
kkk
=
=
−−−
(1.2.12)
với E là toán tử trung bình.
Kalman giả định
k
x
ˆ
là một hàm tuyến tính của
−
k
x
ˆ
và z
k
và thu được công
thức sau dưới dạng ma trận: