Nghiên cứu ứng dụng các phương pháp học
máy tiên tiến trong công tác dự báo vận hành
hồ Hòa Bình
Phạm Thị Hoàng Nhung
Trường Đại học Công nghệ
Luận văn ThS chuyên ngành: Hệ thống Thông tin; Mã số: 60 48 05
Người hướng dẫn: PGS TS Hà Quang Thụy
Năm bảo vệ: 2007
Abstract: Trình bày lý thuyết về mạng nơ-ron thần kinh nhân tạo và quá trình huấn
luyện mạng, thuật toán của mạng; Trình bày lý thuyết của giải thuật di truyền và khả
năng ứng dụng của giải thuật này kết hợp với thuật toán lan truyền ngược sai số; Giới
thiệu sơ lược về bộ dữ liệu sử dụng, các phương pháp đánh giá kết quả dự báo và thử
nghiệm các phương pháp để dự báo lưu lượng nước đến hồ Hòa Bình trước 10 ngày,
từ đó đánh giá khả năng ứng dụng các phương pháp học máy để dự báo chuỗi thời
gian
Keywords: Công nghệ thông tin, Dự báo thủy văn, Hồ Hòa Bình, Mạng nơron nhân
tạo
Content
M
M
Ở
Ở
Đ
Đ
Ầ
Ầ
U
U
Dự báo thuỷ văn là công việc dự báo trước một cách có khoa học về trạng thái biến đổi các
yếu tố thuỷ văn trong tương lai. Đây là một ngành khoa học có nhiệm vụ báo trước sự xuất
hiện các yếu tố thủy văn trên cơ sở nghiên cứu các quy luật của chúng. Hiện nay có rất nhiều
bài toán dự báo thuỷ văn được đặt ra như dự báo dòng chảy, dự báo mực nước, dự báo lưu
lượng nước trên sông, dự báo lũ, và dự báo các hiện tượng khác trên sông ngòi và hồ [3].
Tùy vào quan điểm phân chia mà tồn tại một số phân loại dự báo thủy văn. Chẳng hạn, theo
yêu cầu phục vụ thì có các loại dự báo như dự báo cho nông nghiệp, dự báo cho giao thông,
dự báo cho chống lũ lụt; còn theo đối tượng dự báo thì có các loại dự báo mực nước, dự báo
lưu lượng, dự báo bùn cát… Tuy nhiên, phân loại dự báo theo thời gian là một phân loại điển
hình với các loại dự báo là ngắn hạn, trung hạn, dài hạn và siêu dài hạn. Dự báo ngắn hạn với
khoảng thời gian dự báo từ một đến ba ngày. Dự báo trung hạn với khoảng thời gian dự báo
dài hơn dự báo ngắn hạn nhưng tối đa không quá mười ngày. Dự báo dài hạn có khoảng thời
gian dự báo từ hơn mười ngày đến một năm. Khi thời gian dự báo lớn hơn một năm đó là dự
báo siêu dài hạn.
Thuỷ văn là một quá trình tự nhiên phức tạp, chịu tác động của rất nhiều yếu tố. Tính biến
động của các yếu tố này phụ thuộc vào cả không gian và thời gian nên gây khó khăn rất lớn
cho quá trình dự báo, tìm ra được mối liên quan giữa các yếu tố. Thêm vào đó, do thiếu các
trạm quan trắc cần thiết và thiếu sự kết hợp giữa các ngành liên quan cho nên dữ liệu quan
trắc thực tế thường là không đầy đủ, không mang tính chất đại diện.
Yêu cầu chung mà tất cả các bài toán dự bảo thủy văn cần phải giải quyết là làm cách nào để
có thể phân tích và sử dụng chuỗi dữ liệu có trong quá khứ để dự đoán được giá trị tương lai.
Hiện nay, có rất nhiều phương pháp dự báo đã được đưa ra dựa trên mô hình vật lý và mô
hình toán học. Trong nhiều trường hợp, kết quả nghiên cứu dự báo thủy văn theo các mô hình
nói trên đã đạt được một số thành công đáng ghi nhận [1]. Tuy nhiên, vấn đề tìm kiếm
phương pháp đủ tốt, đáp ứng các yêu cầu thực tế giải quyết bài toán dự báo thuỷ văn vẫn là
nội dung nghiên cứu thời sự hiện nay. Ở trong nước, tại Viện Khí tượng Thủy văn có hàng
chục công trình nghiên cứu liên quan tới dự báo thủy văn, đặc biệt có tới bốn đề tài cấp Nhà
nước [3]. Trên thế giới, việc áp dụng các phương pháp của khai phá dữ liệu (đặc biệt là các
phương pháp học máy sử dụng mạng nơ-ron nhân tạo và kết hợp với giải thuật di truyền) vào
dự báo thủy văn đã trở thành nội dung nghiên cứu dự báo thủy văn thời sự trong thời gian gần
đây [5-7,12-14, 19].
Khai phá dữ liệu là một trong những lĩnh vực nghiên cứu của khoa học máy tính hiện nay
đang được phát triển rất mạnh mẽ. Nó kết hợp giữa học máy, công nghệ cơ sở dữ liệu và một
số chuyên ngành khác để tìm ra những tri thức, bao gồm cả các thông tin dự báo, từ những cơ
sở dữ liệu lớn.
Luận văn này tập trung khảo sát một số phương pháp học máy tiên tiến, thực hiện việc kết
hợp giữa phương pháp học máy sử dụng mạng nơ-ron nhân tạo [5-7,9-20] với giải thuật di
truyền [4,8,21] và ứng dụng vào bài toán dự báo lưu lượng nước đến hồ Hòa Bình. Luận văn
tập trung khảo sát một số công trình nghiên cứu liên quan trên thế giới [5-7, 12-14, 19].
Demetris F. Lekkas [12] cung cấp một khung nhìn phương pháp luận về các phương pháp dự
báo dòng chảy. Ibrahim Can cùng các đồng tác giả [5] và Cristiane Medina Finzi Quintao
cùng các đồng tác giả [19] công bố một số kết quả nghiên cứu cập nhật về dự báo dòng chảy
của một số dòng sông tại Thổ Nhĩ Kỳ và Brazin. Đặc biệt, các công trình này đã cung cấp
cách thức đánh giá kết quả thực nghiệm các phương pháp dự báo thủy văn được đề cập. Các
công trình nghiên cứu khác về mạng nơ-ron nhân tạo, giải thuật di truyền và kết hợp chúng
được luận văn sử dụng để làm nền tảng khoa học cho các nghiên cứu phát triển. Luận văn đã
hoàn thành phần mềm thử nghiệm và tiến hành thực nghiệm trên bộ dữ liệu được thu thập tin
cậy thông qua hệ thống đo đạc thủy văn dọc sông Đà, nguồn nước chính chảy vào hồ Hòa
Bình. Đóng góp khoa học của luận văn là một báo cáo khoa học đã được trình bày tại Hội
thảo khoa học quốc gia Một số vấn đề chọn lọc về Công nghệ thông tin và Truyền thông lần
thứ X được tổ chức tại Đại Lải vào tháng 9/2007 với kết quả thực hiện cho dự báo nước trước
10 ngày có chỉ số R
2
khá cao, lên tới 0.8737 [2]. Cải tiến do luận văn đề xuất kết hợp đột biến
BIASED với đột biến UNBIASED trong đó đột biến BIASED sẽ đóng vai trò chủ đạo nhằm
vượt ra khỏi cực trị địa phương (D. Montana and L. Davis [16]) là có ý nghĩa. Các kết quả
thực nghiệm cải tiến trên cho thấy mọi tiêu chí đánh giá đều tốt lên, chỉ số R
2
nâng lên 0.8742
(so với 0.8737 [2]), sai số quân phương là 72.28 m
3
/s (so với 76.10 m
3
/s [2]).
Nội dung chính của luận văn được tổ chức thành 3 chương có nội dung được mô tả
như dưới đây.
Chương I. Mạng nơ-ron nhân tạo truyền thẳng nhiều lớp. Chương này trình bày những lý
thuyết cơ bản về mạng nơ-ron nhân tạo, tập trung nghiên cứu mạng truyền thẳng nhiều lớp.
Chương này cung cấp một cách nhìn tổng quát nhất, và những vấn đề về quá trình huấn luyện
mạng và thuật toán học của mạng trong đó tập trung chủ yếu vào thuật toán lan truyền ngược
sai số.
Chương II. Kết hợp giải thuật di truyền với giải thuật lan truyền ngược sai số để tối ưu
hoá trọng số mạng nơ-ron nhân tạo. Chương này trình bày về lý thuyết của giải thuật di
truyền và khả năng ứng dụng của giải thuật này kết hợp với thuật toán lan truyền ngược sai số
nhằm đạt tới một kết quả tốt hơn đối với bài toán tối ưu trọng số mạng nơ-ron nhân tạo.
Chương III. Ứng dụng mạng nơ ron nhân tạo vào việc dự báo lưu lượng nước đến hồ
Hoà Bình. Chương này giới thiệu sơ lược về bộ dữ liệu sử dụng, các phương pháp đánh giá
kết quả dự báo và tập trung vào thử nghiệm các phương pháp để dự báo lưu lượng nước đến
hồ Hoà Bình trước mười ngày, từ đó đánh giá được khả năng ứng dụng các phương pháp học
máy đã trình bày trong dự báo chuỗi thời gian, cụ thể là dự báo lưu lượng.
Phần kết luận tổng kết những kết quả đã đạt được của luận văn và hướng phát triển nghiên
cứu tiếp theo. Phần phụ lục giới thiệu về phần mềm dự báo và hướng dẫn cách thức cơ bản
sử dụng phần mềm.
References
[1]. Lê Văn Nghinh, Bùi Công Quang, Hoàng Thanh Tùng (2006), Mô hình toán thuỷ
văn, Nhà xuất bản xây dựng.
[2]. Phạm Thị Hoàng Nhung, Hà Quang Thụy (2007), Nghiên cứu, sử dụng mạng nơ-
ron nhân tạo trong dự báo lưu lượng nước đến hồ Hoà Bình trước 10 ngày, Hội
thảo Quốc gia Một số vấn đề chọn lọc về Công nghệ thông tin và Truyền thông, lần
thứ X, Đại Lải, Vĩnh Phúc, 9/2007.
[3]. Viện Khí tượng Thủy văn. Danh sách các đề tài, dự án nghiên cứu khoa học công
nghệ.
[4]. Thomas Back (1996), Evolutionary Algorithm in Theory and Practice, Oxford
University Press.
[5]. Ibrahim Can, Cahit Yerdelen, Ercan Kahya1 (2007), Stochastic modeling of Karasu
River (Turkey) using the methods of Artificial Neural Networks, Proceeding of the
AGU Hydrology Days 2007, March 19 - March 21, 2007, Colorado State
University, Fort Collins, Colorado, USA, 138-144.
[6]. Paulin Coulibaly, Francois Anctil, and Bernard Bobee (2001), Multivariate
Reservoir Inflow Forecasting Using Temporal Neural Networks, Journal of
Hydrologic Engineering, 6(5), 367-376.
[7]. Oscar R. Dolling, Eduardo A. Varas (2002), Artificial neural networks for stream
flow prediction, Journal of Hydraaulic research, 40(5), 547-554.
[8]. D.E. Goldberg (1989), Genetic Algorithm in Search, Optimization and Machine
Learning, Addison Wesley, Reading, MA.
[9]. J. Hertz, A. Krogh, and R.G. Palmer. (1991), Introduction to the Theory of Neural
Computation, New York: Addison-Wesley.
[10]. Ismail Kilinş, Kerem Ciğizouğlu (2005), Reservoir Management Using Artificial
Neural Networks, 14th. Reg. Directorate of DSI (State Hydraulic Works), Istanbul,
Turkey.
[11]. Steve Lawrence and C. Lee Giles (2000), Overfitting and Neural Networks:
Conjugate Gradient and Backpropagation, International Joint onference on Neural
Networks, Como, Italy, July 24–27, 114–119, 2000.
[12]. D.R. Legates, G.J. McCabe Jr. (1998), Evaluating the Use of "Goodness-of-Fit"
Measures in Hydrologic and Hydroclimatic Model Validation; Water Resour. Res.
1998WR900018, 35(1): 233.
[13]. Demetris F. Lekkas (2002), Development and Comparison of Data-Based Flow
Forecasting Methods, PhD Thesis, Department of Civil and Environmental
Engineering, Imperial College of Science, Technology and Medicine, London.
[14]. Lekkas D.F., Onof C (2005), Improved flow forecasting using artificial neural
networks, 9th International Conference on Environmental and Technology, Rhodes
Island, Greece, 1-3 September 2005, 877-884.
[15]. Chin-Teng Lin, C.S. George Lee (1996), Neural fuzzy systems: a neuro-fuzzy
synergism to intelligent systems, Prentice-Hall Inc.
[16]. D. Montana and L. Davis (1989), Training feedforward neural networks using
genetic algorithms, In Proceedings of the Eleventh International Joint Conference
on Artificial Intelligence, 762-767, Morgan Kaufmann, San Mateo, CA.
[17]. Nelson, M.C. and Illingworth, W.T. (1991), A Practical Guide to Neural Nets,
Reading, MA: Addison-Wesley.
[18]. L.Wessels, E.Barnard (1992), Avoiding False Local Minima by Proper
Initialization of Connections, IEEE Trans. on Neural Networks.
[19]. Cristiane Medina Finzi Quintao, Walmir Matos Caminhas, Selenio Rocha Silva,
Bruno Rabelo Versiani (2004), Neo Fuzzy Neuron and its applications to
Prediction flood and wind in Brazil, Workshop on Modelling and Control for
Participatory Planning and Managing Water Systems, September 29-October 1,
2004 (Poster), Venice, Italia.
[20]. D.E. Rumelhart; G.E. Hinton and R.J. Williams (1986), Learning internal
representations by error propagation, Rumelhart, D.E. et al. (eds.): Parallel
distributed processing: Explorations in the microstructure of cognition (Cambridge
MA.: MIT Press), 318-362.
[21]. D. Whitley, T. Starkweather et C. Bogart (1990), Genetic algorithms and neural
networks: optimizing connections and connectivity, in: Parallel Computing 14, 347-
361, North-Holland.