Tải bản đầy đủ (.pdf) (57 trang)

PHÂN TÍCH DỰ BÁO LƯU LƯỢNG XẢ HỒ THỦY ĐIỆN BẰNG MÔ HÌNH HỒI QUY TUYẾN TÍNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.44 MB, 57 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
-----🙞🙜🕮🙞🙜-----

ĐỒ ÁN CHUYÊN NGÀNH
NGÀNH: KHOA HỌC MÁY TÍNH

ĐỀ TÀI: PHÂN TÍCH DỰ BÁO LƯU LƯỢNG XẢ HỒ THỦY ĐIỆN BẰNG
MƠ HÌNH HỒI QUY TUYẾN TÍNH

GVHD: TS. Nguyễn Mạnh Cường
Lớp: 20231IT6052002
Nhóm: 11
Thành Viên: 1. Nguyễn Văn Đạt - 2020607455
2. Nguyễn Khắc Thắng – 2020601525
3. Nguyễn Việt Hùng - 2020602728

Hà Nội, 11/2023


i
Mục Lục
DANH MỤC HÌNH ẢNH ................................................................................. iii
LỜI MỞ ĐẦU ...................................................................................................... 1
CHƯƠNG 1. TÌM HIỂU BÀI TỐN .................................................................. 5
1.1.Khái qt về lượng mưa, lượng xả về hồ thủy điện .................................... 5
1.1.1. Khái niệm dự báo kinh tế xã hội........................................................... 6
1.2. Phân loại dự báo.......................................................................................... 7
1.2.1. Theo độ dài của thời gian dữ báo, dự báo ............................................ 7
1.3. Tiêu chuẩn lựa chọn phương pháp dự báo.................................................. 8
1.4. Tìm hiểu chung về bài tốn ...................................................................... 10


1.4.1. Phát biểu bài tốn................................................................................ 10
1.4.2. Khó khăn và thách thức ...................................................................... 11
CHƯƠNG 2: CÁC PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ ........................ 13
2.1. Phương hướng tiếp cận bài toán ............................................................... 13
2.2 Một số kỹ thuật giải quyết bài toán ........................................................... 13
2.2.1. Support Vector Machine (SVM) ........................................................... 14
2.2.2 Thuật toán di truyền (GA) ................................................................... 16
2.2.3 K-means Clustering ............................................................................. 22
2.2.4. Mơ hình hồi quy tuyến tính ................................................................ 24
2.3 Đề xuất giải pháp cho bài toán .................................................................. 31
2.3.1 Đề xuất và áp dụng mơ hình hồi quy tuyến tính ................................. 31
2.3.2 Đề xuất thuật toán K-Means ................................................................ 32
CHƯƠNG 3: THỰC NGHIỆM .......................................................................... 35


ii
3.1 Tổng quan về bộ dữ liệu ............................................................................ 35
3.1.1 Thông tin bộ dữ liệu ............................................................................ 35
3.1.2. Tiền xử lý dữ liệu................................................................................ 36
3.2 Thực nghiệm chương trình ........................................................................ 39
CHƯƠNG 4: XÂY DỰNG SẢN PHẨM DEMO .............................................. 41
4.1 Giới thiệu bộ công nghệ được sử dụng ...................................................... 41
4.2 Giao diện hệ thống ..................................................................................... 42
4.2 Các chức năng của hệ thống ...................................................................... 45
4.2.1. Xây dựng và Huấn luyện Mơ hình (model.py)................................... 45
4.2.2 Tải và Sử dụng Mơ hình (run_model.py) ............................................ 46
4.2.3. Giao Diện Người Dùng và Tương Tác (main.py) .............................. 47
KẾT LUẬN ........................................................................................................ 50
TÀI LIỆU THAM KHẢO ................................................................................ 51



iii
DANH MỤC HÌNH ẢNH

Hình 2. 1 Ví dụ mơ hình SVM ............................................................................ 14
Hình 2. 2 Ví dụ mơ hình SVM ............................................................................ 15
Hình 2. 3 Sơ đồ hoạt động của thuật tốn di truyền ........................................... 19
Hình 2. 4 Mơ tả thuật tốn K-means ................................................................... 22
Hình 2. 5 Phương trình hồi quy tuyến tính y = m*x + b .................................... 25
Hình 2. 6 Hồi quy tuyến tính .............................................................................. 26

Hình 3. 1 Dữ liệu data biến động lượng nước thu thập từ hồ thủy điện ............. 36
Hình 3. 2 Thơng tin bộ dữ liệu ban đầu .............................................................. 37
Hình 3. 3 Thơng tin bộ dữ liệu sau khi loại bỏ ................................................... 38
Hình 3. 4 Dữ liệu sau khi chuẩn hóa................................................................... 38
Hình 3. 5 Biểu đồ so sánh dữ liệu thực tế và dữ liệu dự đốn ............................ 39

Hình 4.1 Logo PyCharm ..................................................................................... 41
Hình 4. 2 Giao diện khi chạy chương trình ........................................................ 43
Hình 4. 3 Giao diện sau khi kéo file dữ liệu vào ................................................ 43
Hình 4. 4 Giao diện khi khởi tạo xong model..................................................... 44
Hình 4. 5 Giao diện khi dự đốn ......................................................................... 44
Hình 4.6 Xử lý đọc file và tiền xử lý dữ liệu ...................................................... 45
Hình 4.7 Xử lý training và khởi tạo model ......................................................... 45
Hình 4. 8 Xử lý lưu model .................................................................................. 46


iv
Hình 4. 9 Xử lý đọc dữ liệu từ model đã lưu ...................................................... 46
Hình 4. 10 Xử lý dự đốn ................................................................................... 46

Hình 4. 11 Khởi tạo khung hình ......................................................................... 47
Hình 4. 12 Khởi tạo giao diện kéo thả ................................................................ 47
Hình 4. 13 Xử lý dữ liệu kéo vào........................................................................ 47
Hình 4. 14 Khởi tạo button Create Model .......................................................... 48
Hình 4. 15 Xử lý sự kiện khởi tạo....................................................................... 48
Hình 4. 16 Khởi tạo các ơ nhập liệu ................................................................... 48
Hình 4. 17Xử lý dự kiện dự đốn ....................................................................... 49
Hình 4. 18 Khởi tạo vị trí hiện thị kết quả .......................................................... 49


1

LỜI MỞ ĐẦU

Hệ thống năng lượng tái tạo, đặc biệt là điện năng từ nguồn nước, đóng vai
trị quan trọng trong việc đáp ứng nhu cầu năng lượng ngày càng tăng và giảm
lượng khí thải gây hiệu ứng nhà kính. Hồ thủy điện, như một phương pháp lưu
trữ năng lượng dễ dàng điều chỉnh, đã được sử dụng rộng rãi để cân bằng nguồn
cung cấp và tiêu thụ năng lượng. Trong ngữ cảnh này, dự báo lưu lượng xả của
hồ thủy điện trở thành một nhiệm vụ quan trọng để đảm bảo hoạt động hiệu quả
của các nhà máy điện.
Trong nghiên cứu này, chúng tôi tiếp cận vấn đề này thơng qua phương
pháp hồi quy tuyến tính, một cơng cụ mạnh mẽ trong việc dự báo và mơ hình hóa
mối quan hệ giữa các biến số. Chúng tôi tập trung vào việc phân tích mối quan
hệ giữa các yếu tố khác nhau như mức độ mưa, độ dốc địa hình, diện tích lưu vực
và nhiệt độ khơng khí với lưu lượng xả của hồ thủy điện.
Nghiên cứu này đã đưa ra mơ hình dự báo lưu lượng xả của hồ thủy điện
có độ chính xác cao. Mơ hình này cho thấy rằng các yếu tố tự nhiên và nhân tạo
như mức độ mưa, độ dốc địa hình, diện tích lưu vực và nhiệt độ khơng khí đều có
tác động đáng kể đến lưu lượng xả của hồ thủy điện.

Nghiên cứu này có nhiều ý nghĩa quan trọng, bao gồm:


Đưa ra cái nhìn sâu hơn về tác động của các yếu tố tự nhiên và nhân tạo
đối với hệ thống năng lượng thủy điện.



Hữu ích trong việc tối ưu hóa quản lý hồ thủy điện.



Có thể cung cấp thơng tin hữu ích cho quy hoạch và phát triển tương lai
của các dự án năng lượng tái tạo.


2
Nghiên cứu này là một đóng góp ý nghĩa và giúp chúng ta hiểu rõ hơn về
hệ thống năng lượng thủy điện và cách nó tương tác với mơi trường xung quanh.
Kết quả nghiên cứu này có ý nghĩa và ứng dụng trong thực tế.
Nội dung quyển báo cáo đồ án tốt nghiệp sẽ bao gồm các chương như sau:
Chương 1: Khảo sát và phát biểu bài toán
Trong chương 1, tôi tiến hành khảo sát hiện trạng hệ thống năng lượng thủy
điện Việt Nam cũng như tình hình ứng dụng công nghệ thông tin trong quản lý
hồ thủy điện qua các báo cáo, tạp chí chuyên ngành, hay cụ thể và chi tiết hơn là
từ các nhà quản lý, kỹ sư vận hành hồ thủy điện. Sau đó, tơi tiếp tục tiến hành
khảo sát hiện trạng các yếu tố ảnh hưởng đến lưu lượng xả của hồ thủy điện và
những phương pháp dự báo lưu lượng xả hiện tại, từ đó xác định các yêu cầu cần
thiết của một hệ thống dự báo lưu lượng xả hồ thủy điện. Sau phần khảo sát, tơi
trình bày về bài tốn được đặt ra là dự báo lưu lượng xả hồ thủy điện.

Chương 2: Các kỹ thuật giải quyết bài toán
Sau khi đã phát biểu và xác định rõ ràng được yêu cầu bài tốn, tơi trình
bày các kỹ thuật giải quyết bài tốn hiện có cùng các ưu và nhược điểm của chúng,
cũng như các nghiên cứu nổi bật đã đạt được thành cơng nhất định từ những kỹ
thật đó. Tiếp theo, tơi đề xuất giải pháp của mình cho bài tốn được đặt ra.
Chương 3: Thực nghiệm
Tại chương 3, chúng tôi tập trung trình bày về quá trình thực nghiệm cũng
như các kết quả đạt được với kỹ thuật giải quyết bài tốn được đề xuất ở chương
2. Tơi cũng tiến hành so sánh kết quả thực nghiệm thu được từ phương pháp tôi
đề xuất giải quyết bài với một số phương pháp phổ biến hiện nay và đưa ra nhận
xét.
Chương 4: Xây dựng sản phẩm demo


3
Tại chương 4 chúng tôi xây dựng sản phẩm dựa trên quá trình thực
nghiệm của chương 3, nội dung chương bao gồm giới thiệu về bộ công cụ và
các thư viện được sử dụng, trình bày kết quả của hệ thống.
Phần kết luận:
Cuối cùng trong phần kết luật, tôi tổng hợp các kết quả đạt được, các hướng
phát triển và mở rộng đề tài nghiên cứu trong tương lai.
Hi vọng, thơng qua 3 chương trong bản báo cáo này có thể làm rõ được các
vấn đề, khái niệm đã nêu ở trên. Đặc biệt là nội dụng trọng tâm của bản báo cáo
- dữ liệu chuỗi thời gian và các phương pháp phân cụm.


4


5

CHƯƠNG 1. TÌM HIỂU BÀI TỐN
1.1.Khái qt về lượng mưa, lượng xả về hồ thủy điện
Lượng mưa và lượng xả vào hồ thủy điện là hai yếu tố quan trọng đối với
việc quản lý và sử dụng năng lượng thủy điện. Lượng mưa là lượng nước mưa
rơi xuống một khu vực cụ thể trong một khoảng thời gian nhất định. Nó là yếu tố
chính quyết định nguồn nước cung cấp cho hồ thủy điện. Lượng mưa có thể biến
đổi theo mùa, vùng địa lý và biến đổi khí hậu. Đối với hồ thủy điện, việc thu thập
dữ liệu về lượng mưa là rất quan trọng để dự đoán nguồn nước đầu vào cho hồ và
dự đoán năng suất năng lượng của hệ thống.
Lượng Xả vào Hồ Thủy Điện: Lượng xả (hoặc lưu lượng xả) là lượng nước
được thả ra từ hồ thủy điện thông qua cánh cửa xả hoặc các thiết bị kiểm soát lưu
lượng. Lưu lượng xả được điều chỉnh để duy trì một mức nước an tồn trong hồ
và đồng thời cung cấp đủ nước để sản xuất điện. Khi lượng mưa đủ lớn, hồ thủy
điện có thể chứa nhiều nước hơn, điều này tăng khả năng tạo ra năng lượng khi
cần thiết.
Ảnh Hưởng của Biến Đổi Khí Hậu: Biến đổi khí hậu đã và đang ảnh hưởng đến
lượng mưa và mẫu lưu lượng xả vào hồ thủy điện. Thay đổi mơ hình mưa, sự gia
tăng của các sự kiện thời tiết cực đoan (như hạn hán hoặc mưa lớn), và sự thay
đổi trong nguồn nước từ tuyết tan chảy có thể gây ra biến động đáng kể trong
lượng nước đầu vào cho hồ thủy điện.
Quản Lý và Dự Báo: Quản lý lượng mưa và lượng xả vào hồ thủy điện đòi
hỏi các hệ thống đo lường và dự báo chính xác. Cơng nghệ và mơ hình dự báo
thời tiết ngày càng được cải thiện để giúp dự đốn lượng mưa và lưu lượng xả
một cách chính xác hơn. Dữ liệu này rất quan trọng để đưa ra quyết định về việc
quản lý nguồn nước và tối ưu hóa sản xuất năng lượng của hồ thủy điện.


6
1.1.1. Khái niệm dự báo kinh tế xã hội
Dự báo kinh tế [1] là q trình đưa ra dự đốn về nền kinh tế. Dự báo có

thể được thực hiện ở mức tổng hợp cao, ví dụ như GDP, lạm phát, thất nghiệp
hoặc thâm hụt tài chính ở cấp độ phân cấp hơn, cho các lĩnh vực cụ thể của nền
kinh tế hoặc thậm chí các cơng ty cụ thể.
Nhiều tổ chức tham gia dự báo kinh tế: chính phủ quốc gia, ngân hàng và
ngân hàng trung ương, chuyên gia tư vấn và các tổ chức khu vực tư nhân như nhà
tư tưởng, công ty và các tổ chức quốc tế như Quỹ Tiền tệ Quốc tế, Ngân hàng
Thế giới và OECD. Một số dự báo được sản xuất hàng năm, nhưng nhiều dự báo
được cập nhật thường xuyên hơn.
Nhà kinh tế thường xem xét các rủi ro (nghĩa là các sự kiện hoặc điều kiện
có thể khiến kết quả thay đổi so với ước tính ban đầu của họ). Những rủi ro này
giúp minh họa quá trình suy luận được sử dụng để đi đến các con số dự báo cuối
cùng. Các nhà kinh tế thường sử dụng bình luận cùng với các cơng cụ trực quan
hóa dữ liệu như bảng và biểu đồ để truyền đạt dự báo của họ. Trong việc chuẩn
bị dự báo kinh tế, nhiều thơng tin đã được sử dụng nhằm tăng độ chính xác.
Tất cả mọi thứ từ kinh tế vĩ mô, kinh tế vi mô, dữ liệu thị trường từ tương
lai, máy (mạng lưới thần kinh nhân tạo), và nghiên cứu hành vi của con người
đều đã được sử dụng để đạt được dự báo tốt hơn. Dự báo được sử dụng cho nhiều
mục đích. Chính phủ và doanh nghiệp sử dụng dự báo kinh tế để giúp họ xác định
chiến lược, kế hoạch nhiều năm và ngân sách cho năm tới. Các nhà phân tích thị
trường chứng khốn sử dụng dự báo để giúp họ ước tính giá trị của một cơng ty
và cổ phiếu của nó.
Các nhà kinh tế chọn những biến nào là quan trọng đối với tài liệu chủ đề
đang thảo luận. Các nhà kinh tế có thể sử dụng phân tích thống kê dữ liệu lịch sử
để xác định mối quan hệ rõ ràng giữa các biến độc lập cụ thể và mối quan hệ của
chúng với biến phụ thuộc đang nghiên cứu. Ví dụ, mức độ thay đổi giá nhà đất


7
ảnh hưởng đến giá trị ròng của dân số trong quá khứ? Mối quan hệ này sau đó có
thể được sử dụng để dự báo tương lai. Đó là, nếu giá nhà đất dự kiến sẽ thay đổi

theo một cách cụ thể, điều đó sẽ có ảnh hưởng gì đến giá trị ròng của dân số trong
tương lai? Dự báo thường dựa trên dữ liệu mẫu thay vì dân số hồn chỉnh, điều
này đưa ra sự khơng chắc chắn. Nhà kinh tế tiến hành kiểm tra thống kê và phát
triển các mơ hình thống kê (thường sử dụng phân tích hồi quy) để xác định mối
quan hệ nào mô tả đúng nhất hoặc dự đoán hành vi của các biến đang nghiên cứu.
Dữ liệu lịch sử và các giả định về tương lai được áp dụng cho mơ hình để đưa ra
dự báo cho các biến cụ thể.
1.2. Phân loại dự báo
Trong nền kinh tế thị trường, các hiện tượng kinh tế - xã hội không chỉ diễn
ra ở lĩnh vực sản xuất vật chất mà diễn ra ở tất cả các mặt đời sống xã hội. Do
vậy để có thể vận dụng có hiệu quả các phương pháp dự báo trong việc dự báo
xu hướng phát triển của các hiện tượng kinh tế - xã hội trong tương lai thì phải
phân loại dự báo theo các tiêu thức khác nhau.
1.2.1. Theo độ dài của thời gian dữ báo, dự báo
Dự báo ngắn hạn [2,3]: Là những dự báo có thời gian dự báo dưới 3 năm,
loại dự báo này thường dùng để dự báo hoặc lập các kế hoạch kinh tế, văn hoá,
xã hội chủ yếu ở tầm vi mô và vĩ mô trong khoảng thời gian ngắn nhằm phục vụ
cho công tác chỉ đạo kịp thời.
Tầm hạn thời gian của loại dự báo này không quá 1 năm. Mơ hình được sử
dụng để dự báo được xây dựng trên cơ sở dữ liệu thông tin gắn với các thời kỳ
đơn vị ngắn hơn (tuần, tháng, quý). Dự báo ngắn hạn trước hết phục vụ cho công
tác chỉ đạo tác nghiệp. Do vậy, chúng phục vụ cho việc phân biệt tức thời các quá
trình kinh tế và cho việc thực hiện các quyết định thông qua người sử dụng chúng.
Việc tiến hành dự báo ngắn hạn thường được tiến hành thường xuyên, do vậy tạo


8
ra một nguồn thông tin dồi dào. Đây là cơ sở để đối chứng giữa kết quả dự báo
với thực tế diễn ra của đối tượng cần được dự báo. So sánh thường xuyên hơn hai
nguồn thông tin này cho phép có cơ hội hồn thiện phương pháp dự báo.

Dự báo trung hạn [2,3]: Là những dự báo có thời gian dự báo từ 3 đến 5
năm. Thường phục vụ cho việc xây dựng những kế hoạch trung hạn về kinh tế
văn hố xã hội... ở tầm vi mơ và vĩ mơ. Loại dự báo này có các đặc điểm chung
là thường sử dụng mơ hình dự báo nhân quả nhiều hơn so với dự báo ngắn hạn,
tần số dự báo ít hơn so với dự báo ngắn hạn và so với dự báo dài hạn thì thường
ít sử dụng mơ hình nhân quả hơn và số lần đưa ra kết quả dự báo thì nhiều hơn.
Dự báo dài hạn [2,3]: Là những dự báo có thời gian dự báo từ 5 năm trở
lên.Thường dùng để dự báo những mục tiêu, chiến lược về kinh tế chính trị, khoa
học kỹ thuật trong thời gian dài ở tầm vĩ mô. Đặc trưng của loại dự báo này là tần
số dự báo
1.3. Tiêu chuẩn lựa chọn phương pháp dự báo
Để dự báo một hiện tượng nào đó trong tương lai, có 4 tiêu chuẩn[2,3] để
lựa chọn phương pháp dự báo thích hợp. Đó là:
-

Độ chính xác của dự báo: độ chính xác của dự báo được đo bằng thước
đo thống kê. độ chính xác của dự báo đề cập đến độ chênh lệch của dự
báo với số liệu thực tế. Bởi vì dự báo được hình thành trước khi số liệu
thực tế xảy ra, vì vậy tính chính xác của dự báo chỉ có thể đánh giá sau
khi thời gian đã qua đi. Nếu dự báo càng gần với số liệu thực tế, ta nói
dự báo có độ chính xác cao và lỗi trong dự báo càng thấp.

-

Chi phí dự báo: bao gồm các chi phí soạn thảo phần mềm và chi phí
để tính tốn dữ liệu.

-

Tính tổng hợp và tính khả dụng của phương pháp: tính tổng hợp

của phương pháp dự báo là một tiêu chuẩn không chỉ được xem xét


9
về phương diện chi phí. Chi phí cho một phương pháp dự báo càng
cao thì những người khơng có khả năng chun mơn càng ít có khả
năng kiểm định các kết quả dự báo cũng như sử dụng các kết quả đó
để ra quyết định. Do vậy sẽ là tốt hơn khi chọn một phương pháp ít
phức tạp hơn và do đó chấp nhận một độ chính xác thấp hơn để có thể
giảm được mâu thuẫn mà người có quyền ra quyết định phải gặp trước
các phương pháp lượng hóa.
-

Thời gian dự báo (tầm xa dự báo): không nên dài quá 1/3 dãy số
dùng để dự báo. Cơ sở dữ liệu để dự báo:


Các số liệu hoặc các đánh giá của chuyên gia.

• Độ dài của dãy thời gian: độ dài của dãy số thời gian dùng để dự báo
cần phải hợp lý và tùy thuộc vào đặc điểm của dãy số. Nếu một dãy
số thời gian có quá nhiều mức độ được sử dụng, mơ hình dự báo sẽ
khơng phản ánh được đầy đủ sự thay đổi của các nhân tố mới đến
biến động của hiện tượng. Ngược lại, nếu chỉ sử dụng một số rất ít
các mức độ ở những thời gian cuối trong dãy số thì chưa phản ánh
được quy luật biến động trong thời gian dài.


Hình dạng của dãy số thời gian (xu thế, dao động thời vụ)


Ba tiêu chuẩn đầu (độ chính xác, chi phí, tính tổng hợp và tính khả dụng
của phương pháp dự báo) phụ thuộc lẫn nhau. Rõ ràng là chi phí dự báo tăng
lên nếu tính vạn năng của phương pháp cũng như độ chính xác của dự báo sẽ
được nâng cao nếu sử dụng các phương pháp dự báo phức tạp hơn. Tuy nhiên
chọn phương pháp dự báo thích hợp, cần thấy rằng chi phí bổ sung cao cho
phương pháp dự báo phức tạp chưa chắc bù lại bằng độ chính xác dự báo cao
hơn. Điều này phụ thuộc một phần vào ý nghĩa của dự báo đối với việc ra quyết
định và một phần vào trình độ của người sử dụng kết quả dự báo để ra quyết
định.


10
Khi tiêu chuẩn độ chính xác, chi phí, tính tổng hợp và tính khả dụng của
phương pháp khơng đóng góp một vai trò nổi bật đối với một vấn đề dự báo cụ
thể thì tiêu chuẩn thời gian dự báo và cơ sở dữ liệu của dự báo sẽ có ý nghĩa
quyết định đối với việc lựa chọn phương pháp dự báo.
1.4. Tìm hiểu chung về bài tốn
1.4.1. Phát biểu bài tốn
Bài tốn phân tích dự báo lưu lượng xả hồ thủy điện bằng mơ hình hồi quy
tuyến tính là một bài toán trong lĩnh vực thủy văn và quản lý tài nguyên nước.
Đây là một bài toán dự báo lưu lượng nước mà một đập thủy điện sẽ xả dựa trên
các yếu tố thời tiết, như lượng mưa, và các biến số khác. Miêu tả về đầu vào và
đầu ra của bài toán:
Đầu Vào (Input):
- Lượng Mưa (Precipitation): Đây là mức lượng mưa được ghi lại tại vị
trí cụ thể (thường ở trên lưu vực sông) và thời gian cụ thể (ngày, giờ,
vv.). Lượng mưa thường được đo bằng milimet (mm).
- Dữ Liệu Lịch Sử Lưu Lượng (Historical Flow Data): Dữ liệu về lưu
lượng xả đã được ghi lại trong quá khứ. Đây có thể là lịch sử lưu lượng
xả hàng ngày hoặc hàng giờ tại đập thủy điện cụ thể.

- Biến Thời Tiết Khác (Other Weather Variables): Ngoài lượng mưa, các
biến số thời tiết khác như nhiệt độ, độ ẩm, áp suất khơng khí, gió, vv.,
có thể được xem xét để làm rõ tương quan giữa chúng và lưu lượng xả.
- Biến Số Đặc Thù Của Đập (Dam-Specific Variables): Các yếu tố đặc
thù của đập thủy điện, chẳng hạn như diện tích lưu vực, dung tích chứa
nước, và cách quản lý đập, có thể cũng ảnh hưởng đến lưu lượng xả.
Đầu Ra (Output):


11
- Lưu Lượng Xả (Discharge): Đầu ra chính của bài tốn là dự đốn hoặc
ước tính lưu lượng nước mà đập thủy điện sẽ xả trong tương lai. Đây có
thể được biểu diễn dưới dạng lưu lượng hàng ngày hoặc hàng giờ,
thường được đo bằng mét khối trên giây (m³/s)
Mục Tiêu:
- Mục tiêu của bài toán là tạo ra một mơ hình dự báo lưu lượng xả dựa
trên các đầu vào liên quan đến thời tiết, lịch sử lưu lượng, và các biến
số đặc thù của đập. Mơ hình hồi quy tuyến tính thường được sử dụng
để tìm mối quan hệ giữa các yếu tố đầu vào và lưu lượng xả, cho phép
dự đoán lưu lượng xả trong tương lai dựa trên thơng tin hiện tại và lịch
sử.
1.4.2. Khó khăn và thách thức
Bài tốn phân tích dự báo lưu lượng xả hồ thủy điện bằng mơ hình hồi quy
tuyến tính có một số khó khăn và thách thức cần được xem xét:
- Biến động Tự Nhiên của Lượng Mưa: Lượng mưa có tính biến động tự
nhiên cao và khó dự đốn. Điều này có thể làm cho dự báo trở nên
khơng chính xác khi mơ hình dựa vào dự báo thời tiết.
- Dữ Liệu Hạn Chế: Khả năng thu thập và lưu trữ dữ liệu lưu lượng xả và
lượng mưa có thể bị hạn chế. Dữ liệu lịch sử khơng ln có sẵn và dữ
liệu thời gian thực có thể khơng đủ cho việc xây dựng mơ hình chính

xác.
- Sự Không Chắc Chắn Trong Dự Báo Thời Tiết: Dự báo thời tiết có thể
khơng chính xác và đơi khi khơng thể đề xuất trước được lượng mưa
một cách chính xác. Điều này làm cho việc dự báo lưu lượng xả trở nên
không chắc chắn.


12
Để vượt qua những khó khăn này, các nghiên cứu thủy văn thường sử dụng
các mơ hình phức tạp hơn, bao gồm mơ hình hồi quy phi tuyến tính hoặc mơ hình
dự báo thời tiết. Ngồi ra, dự báo lưu lượng xả cần sự cộng tác giữa các chuyên
gia về thủy văn, thời tiết, và kỹ thuật đập thủy điện để đảm bảo tính chính xác và
đáng tin cậy.


13

CHƯƠNG 2: CÁC PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ
2.1. Phương hướng tiếp cận bài tốn
Q trình giải quyết bài tốn bắt đầu bằng việc thu thập dữ liệu và tiền
xử lý bộ dữ liệu thực nghiệm liên quan tới mực nước, đặc biệt tập trung lượng
xả và lượng nước thay đổi theo từng ngày gây ra nhiều khó khăn giải quyết
mực nước lưu trữ ở hồ thủy điện. Việc này đề xuất giải pháp nghiên cứu và áp
dụng các kỹ thuật vào để dự đoán lưu lượng xả hồ thủy, sao cho mực nước
trong hồ ln ở mức an tồn và lưu lượng xả qua định kỳ.
2.2 Một số kỹ thuật giải quyết bài toán
Phần lớn các kỹ thuật giải quyết bài toán dự đoán lượng xả thường
sử dụng Machine Learning (Học Máy). Các kỹ thuật này có thể chia thành
3 phương pháp dựa trên tính khả dụng cho các nhãn là:
Dự đốn lượng xả bằng kỹ thuật học có giám sát (Supervised

Learning): Đây là phương pháp sử dụng các thuật toán mà đầu vào của
chúng là cặp dữ liệu đã biết từ trước, tức là (dữ liệu, nhãn). Thuật toán sẽ
học từ các cặp này để dự đoán đầu ra cho dữ liệu mới, chưa được nhìn
thấy trước đó. Các thuật toán phổ biến trong supervised learning bao gồm
Linear Regression, Decision Trees, Random Forests, Neural Networks
(Deep Learning), và Support Vector Machines (SVM).
Các phương pháp này có ứng dụng rộng rãi trong việc dự đoán
lượng xả hồ thủy điện dựa trên dữ liệu thủy văn, dữ liệu hồ thủy điện và
các thông tin liên quan khác. Lựa chọn phương pháp cụ thể thường phụ
thuộc vào tính chất của dữ liệu và mục tiêu của bài toán cụ thể.


14
2.2.1. Support Vector Machine (SVM)
Support Vector Machine (SVM) là một mơ hình phân loại hoạt động bằng
việc xây dựng một siêu phẳng (hyperplane) có (n - 1) chiều trong khơng gian
n chiều của dữ liệu sao cho siêu phẳng này phân loại các lớp một cách tối ưu
nhất. Nói cách khác, cho một tập dữ liệu có nhãn (học có giám sát), thuật toán
sẽ dựa trên dữ liệu học để xây dựng một siêu phẳng tối ưu được sử dụng để
phân loại dữ liệu mới. Ở không gian 2 chiều thì siêu phẳng này là 1 đường
thẳng phân cách chia mặt phẳng không gian thành 2 phần tương ứng 2 lớp với
mỗi lớp nằm ở 1 phía của đường thẳng. [7]
Ví dụ minh họa:
Ta có các điểm dữ liệu như hình dưới đây với mỗi điểm thuộc 1 trong 2
lớp cho trước:

Hình 2. 1 Ví dụ mơ hình SVM
(Nguồn: Hình ảnh được trích trong tài liệu tham khảo [7])
Một đường thẳng phân cách có thể được vẽ như sau:



15

Hình 2. 2 Ví dụ mơ hình SVM
(Nguồn: Hình ảnh được trích trong tài liệu tham khảo [7])
Đường thẳng này chia cách khá tốt 2 lớp trên mặt phẳng. Tất cả những
điểm dữ liệu nằm bên trái đường thẳng đều thuộc về lớp hình trịn và những
điểm nằm ở bên phải thuộc về lớp hình vng. Nhiệm vụ của SVM chính là
tìm ra đường thẳng / siêu phẳng phân cách cách sao cho phân loại dữ liệu tốt
nhất có thể.
Ưu và nhược điểm trong bài toán phân lớp ảnh:
- Ưu điểm:
• Xử lý trên khơng gian số chiều cao: SVM là một cơng cụ tính tốn
hiệu quả trong khơng gian chiều cao, trong đó đặc biệt áp dụng
cho các bài tốn phân loại văn bản và phân tích quan điểm nơi
chiều có thể cực kỳ lớn
• Tiết kiệm bộ nhớ: Do chỉ có một tập hợp con của các điểm được
sử dụng trong quá trình huấn luyện và ra quyết định thực tế cho
các điểm dữ liệu mới nên chỉ có những điểm cần thiết mới được
lưu trữ trong bộ nhớ khi ra quyết dịnh
• Tính linh hoạt - phân lớp thường là phi tuyến tính. Khả năng áp
dụng Kernel mới cho phép linh động giữa các phương pháp tuyến
tính và phi tuyến tính từ đó khiến cho hiệu suất phân loại lớn hơn.
- Nhược điểm:


16
• Bài tốn số chiều cao: Trong trường hợp số lượng thuộc tính (p)
của tập dữ liệu lớn hơn rất nhiều so với số lượng dữ liệu (n) thì
SVM cho kết quả khá tồi

• Chưa thể hiện rõ tính xác suất: Việc phân lớp của SVM chỉ là việc
cố gắng tách các đối tượng vào hai lớp được phân tách bởi siêu
phẳng SVM. Điều này chưa giải thích được xác suất xuất hiện của
một thành viên trong một nhóm là như thế nào. Tuy nhiên hiệu
quả của việc phân lớp có thể được xác định dựa vào khái niệm
margin từ điểm dữ liệu mới đến siêu phẳng phân lớp mà chúng ta
đã bàn luận ở trên.
2.2.2 Thuật toán di truyền (GA)
Giải thuật di truyền (GA-Genetic Algorithm)[4] là kỹ thuật phỏng theo
q trình thích nghi tiến hóa của các quần thể sinh học dựa trên học thuyết
Darwin. GA là phương pháp tìm kiếm tối ưu ngẫu nhiên bằng cách mơ phỏng
theo sự tiến hóa của con người hay của sinh vật. Tư tưởng của thuật tốn di
truyền là mơ phỏng các hiện tượng tự nhiên, là kế thừa và đấu tranh sinh tồn.
GA thuộc lớp các giải thuật xuất sắc nhưng lại rất khác các giải thuật
ngẫu nhiên vì chúng kết hợp các phần tử tìm kiếm trực tiếp và ngẫu nhiên. Khác
biệt quan trọng giữa tìm kiếm của GA và các phương pháp tìm kiếm khác là
GA duy trì và xử lý một tập các lời giải, gọi là một quần thể (population). Trong
GA, việc tìm kiếm giả thuyết thích hợp được bắt đầu với một quần thể, hay một
tập hợp có chọn lọc ban đầu của các giả thuyết. Các cá thể của quần thể hiện
tại khởi nguồn cho quần thể thế hệ kế tiếp bằng các hoạt động lai ghép và đột
biến ngẫu nhiên – được lấy mẫu sau các q trình tiến hóa sinh học. Ở mỗi
bước, các giả thuyết trong quần thể hiện tại được ước lượng liên hệ với đại
lượng thích nghi, với các giả thuyết phù hợp nhất được chọn theo xác suất là


17
các hạt giống cho việc sản sinh thế hệ kế tiếp, gọi là cá thể (individual). Cá thể
nào phát triển hơn, thích ứng hơn với mơi trường sẽ tồn tại và ngược lại sẽ bị
đào thải. GA có thể dị tìm thế hệ mới có độ thích nghi tốt hơn. GA giải quyết
các bài tốn quy hoạch tốn học thơng qua các quá trình cơ bản: lai tạo

(crossover), đột biến (mutation) và chọn lọc (selection) cho các cá thể trong
quần thể. Dùng GA đòi hỏi phải xác định được: khởi tạo quần thể ban đầu, hàm
đánh giá các lời giải theo mức độ thích nghi – hàm mục tiêu, các toán tử di
truyền tạo hàm sinh sản.
Thuật toán di truyền (Genetic Algorithm - GA) hoạt động bằng cách áp
dụng các phép toán di truyền như lai ghép, đột biến và chọn lọc trên một quần
thể các cá thể để tìm kiếm và tối ưu hóa giải pháp. Dưới đây là một mô tả chi
tiết về cách GA hoạt động [5.6]:
- Khởi tạo quần thể ban đầu:
• Bắt đầu bằng việc tạo ngẫu nhiên một quần thể ban đầu gồm một
số lượng cá thể. Các cá thể ban đầu có thể được tạo ra hoàn toàn
ngẫu nhiên hoặc dựa trên một phương pháp khởi tạo thông minh
hơn dựa trên kiến thức về bài tốn.
- Đánh giá fitness:
• Đánh giá mức độ tốt của mỗi cá thể trong quần thể bằng cách sử
dụng hàm fitness. Hàm này phải được thiết kế sao cho giá trị
fitness càng lớn thể hiện mức độ tốt của cá thể.
- Chọn lọc (Selection):
• Chọn một tập hợp con của quần thể gốc để tham gia vào quá trình
lai ghép và đột biến dựa trên giá trị fitness của từng cá thể. Các cá
thể có giá trị fitness cao hơn có cơ hội lớn hơn để được chọn. Có


18
nhiều phương pháp chọn lọc như Roulette Wheel Selection,
Tournament Selection, Rank-Based Selection, và nhiều loại khác.
- Lai ghép (Crossover):
• Lai ghép là q trình kết hợp thơng tin di truyền của hai cá thể cha
mẹ để tạo ra cá thể con cái mới. Các điểm lai ghép (crossover
points) được chọn ngẫu nhiên trên gen của cha mẹ để tạo ra con

cái. Có nhiều phương pháp lai ghép như Single-Point Crossover,
Two-Point Crossover, Uniform Crossover, và nhiều loại khác.
- Đột biến (Mutation):
• Đột biến là quá trình ngẫu nhiên thay đổi một số gen của cá thể
con cái sau khi lai ghép. Điều này giúp tạo ra sự đa dạng trong
quần thể và tránh rơi vào tình trạng hội tụ sớm. Các gen được đột
biến có thể thay đổi giá trị hoặc vị trí của chúng.
- Thay thế (Replacement):
• Các cá thể con cái mới sau khi được lai ghép và đột biến thay thế
các cá thể trong quần thể gốc. Quần thể mới sẽ trở thành quần thể
cho thế hệ tiếp theo.
- Kiểm tra điều kiện dừng:
• Sau mỗi thế hệ, kiểm tra xem điều kiện dừng đã được đáp ứng
chưa. Điều kiện dừng có thể là số lượng thế hệ đã được thực hiện,
hoặc đạt được một giá trị fitness mong muốn, hoặc một điều kiện
tùy chỉnh khác.
- Kết thúc và xuất kết quả:


19
• Khi điều kiện dừng được đáp ứng, thuật tốn kết thúc và cá thể có
fitness cao nhất trong quần thể được chọn làm giải pháp tối ưu
hoặc gần tối ưu cho bài tốn.
- Lặp lại quy trình (nếu cần):
• Nếu cần, thuật tốn có thể được lặp lại từ bước 3 để tìm kiếm giải
pháp tốt hơn hoặc để tiếp tục tối ưu hóa.
Thuật tốn di truyền tiếp tục lặp lại quy trình trên để tiến hóa và tìm kiếm
các giải pháp tốt hơn theo thời gian. Điều quan trọng là điều chỉnh các tham số
của thuật toán (như kích thước quần thể, tỷ lệ lai ghép, tỷ lệ đột biến, và phương
pháp chọn lọc) để phù hợp với bài tốn cụ thể.


Hình 2. 3 Sơ đồ hoạt động của thuật toán di truyền


20
Ưu điểm:
- Tính tồn diện (Global Optimization): GA có khả năng tìm kiếm các
giải pháp tối ưu tồn cầu trong khơng gian tìm kiếm lớn, bất kể hình
dạng và độ phức tạp của bề mặt tối ưu hóa.
- Xử lý khơng gian tìm kiếm lớn: GA hoạt động tốt trên các khơng gian
tìm kiếm lớn và đa chiều, nơi các phương pháp tối ưu hóa truyền
thống có thể gặp khó khăn.
- Khả năng xử lý vấn đề đa biến (Multivariable): GA có thể giải quyết
các vấn đề tối ưu hóa với nhiều biến đầu vào một cách hiệu quả, bao
gồm cả vấn đề tối ưu hóa tổ hợp.
- Khả năng xử lý vấn đề phi tuyến tính và khơng liên tục: GA khơng
u cầu tính liên tục hoặc tuyến tính của hàm mục tiêu và có thể xử
lý các bài tốn phi tuyến tính một cách hiệu quả.
- Khả năng tìm kiếm trong khơng gian khơng xác định: GA có thể tìm
kiếm trong các khơng gian tìm kiếm khơng xác định hoặc không rõ
ràng, nơi các thông tin về hàm mục tiêu có thể khơng hồn tồn biết
trước.
- Khả năng tìm kiếm nhiều giải pháp (Multi-modal Optimization): GA
có khả năng tìm kiếm và duyệt qua nhiều điểm cực tiểu (local optima)
khác nhau, cho phép nó thốt khỏi sự hội tụ sớm và khám phá các
vùng tối ưu khác.
- Dễ tùy chỉnh: GA có thể dễ dàng tùy chỉnh bằng cách thay đổi các
tham số như kích thước quần thể, tỷ lệ lai ghép, tỷ lệ đột biến và các
phương pháp chọn lọc.



×