CÁC ĐỀ XUẤT NGHIÊN CỨU KHOA HỌC - SESSION TWO
SESSION 2
Phịng: Jasmine 1 | Chủ tọa: Hồng Trung Kiên, Nguyễn Quốc Minh
PHƯƠNG PHÁP ĐIỀU KHIỂN BÁM ĐIỂM CÔNG SUẤT CỰC ĐẠI
PIN MẶT TRỜI SỬ DỤNG DOUBLE DEEP Q NETWORK
Nguyen Duc Long (1), Hoang Tien Thang (1), Vu Thi Thuy Nga
(1) Sinh viên chuyên ngành Điều Khiển và Tự Động Hóa – Trường Đại học Bách Khoa Hà Nội
, ,
TÓM TẮT
Việc sử dụng các phương pháp của lý
đó chưa tối ưu trong những điều kiện làm
thuyết điều khiển cổ điển cho bài toán bám
việc khác nhau, do vậy báo cáo này đề xuất
điểm công suất cực đại (Maximum Power
một phương pháp điều khiển MPPT tổng
Point Tracking - MPPT) đã cho những kết
quát dựa trên thuật toán học tăng cường
quả rất tốt. Tuy nhiên, các phương pháp
(Reinforcement Learning – RL)
TỪ KHÓA: Điều khiển MPPT, thuật toán học tăng cường, Double Deep Q Network
1. GIỚI THIỆU
2. PHƯƠNG PHÁP
Phần nội dung mà nhóm sinh viên muốn
2.1 Mơ hình đề xuất
trình bày đề xuất bao gồm 4 phần:
Đề xuất một phương pháp điều khiển
• Vấn đề điều khiển MPPT
MPPT sử dụng Double Deep Q Network
đem lại hiệu quả cao hơn trong bài tốn
• Phương pháp học củng cố áp dụng
bám điểm công suất cực đại so với các mơ
cho bài tốn MPPT (Reinforcement
hình MPPT truyền thống và bằng phương
learning for MPPT)
pháp Q Learning đã được đề xuất trước đây
• Thuật tốn Double Deep Q Network
(DDQN)
• Những kết quả mơ phỏng bằng phần
mềm Matlab kiểm chứng đề xuất
2.2 Đặc điểm kĩ thuật
2.2.1 Vấn đề điều khiển MPPT
Điểm công suất cực đại (Maximum Power
Point – MPP) là một điểm duy nhất trên
đường cong PV, nơi năng lượng được tạo
38 | DIỄN ĐÀN SINH VIÊN 2020 - NĂNG LƯỢNG TÁI TẠO
CÁC ĐỀ XUẤT NGHIÊN CỨU KHOA HỌC - SESSION TWO
ra từ nguồn PV (Photovoltaic Sources) là
3. PHÂN TÍCH
tối đa, MPPT là một nhiệm vụ quan trọng
3.1 Phương trình
trong hoạt động của các nguồn PV bởi
Mơ hình PV được sử dụng trong đề xuất
trong phần lớn các ứng dụng, giá trị của
này là một mơ hình diode, có dịng điện
tải điện trở là khác với giá trị điện trở
được tạo ra từ nguồn PV được mô tả bởi
tương ứng với MPP dưới nhiều điều kiện
các phương trình trong (P. Kofinas, RL
mơi trường khác nhau
MPPT, 2017)
2.2.2 Phương pháp học củng cố cho bài
toàn MPPT
Reinforcement Learning (RL) hay học củng
cố/tăng cường, là lĩnh vực liên quan đến
việc dạy cho máy (agent)
thực hiện tốt một nhiệm vụ (task)
bằng cách tương tác với mơi trường
Hình 2. Mơ hình PV
(environment) thơng qua hành động
(action) và nhận được phần thưởng
Các phương trình:
(reward). Và để áp dụng được điều này
chúng ta cần định nghĩa một mơ hình
Markov Decision Process (MDP) với các
thông số S, A, R, T
3.2 Thuật toán DDQN trong bài toán MPPT
DDQN là một thuật toán nâng cấp từ Deep
Q Network bằng việc sử dụng 2 mạng
nơron: online network và target network.
Hình 1. Ảnh hưởng của các điều kiện I-V
đến điểm MPP
Mạng online network được dùng để chọn
giá trị hành động tại một trạng thái nhất
định. Mạng target network được dùng
DIỄN ĐÀN SINH VIÊN 2020 - NĂNG LƯỢNG TÁI TẠO | 39
CÁC ĐỀ XUẤT NGHIÊN CỨU KHOA HỌC - SESSION TWO
để tính tốn giá trị target khi huấn luyện
3.3 Kết quả và thảo luận
mạng. Mạng target network được cập
Với điều kiện môi trường bức xạ biến thiên
nhật sau một số lần lặp nhất định.
hoặc điều kiện tải thay đổi thì cơng suất
Lưu dồ thuật toán DDQN trong bài toán
MPPT:
phát ra của pin đã hội tụ về điểm công
suất cực đại và sau khi điều kiện mơi
trường được lặp lại thì cơng suất phát ra
của pin hội tụ về điểm công suất cực đại
chỉ trong một thời gian ngắn.
Hình vẽ dưới đây là một kết quả mơ phỏng
của bài tốn Double Deep Q Network so
với đề xuất sử dụng thuật toán Q Learning
trước đây trong trường trường hợp nguồn
pin có cơng suất lớn.
Có thể thấy DDQN cho tốc độ hội tụ
nhanh hơn và mức độ biến thiên của cơng
suất trong q trình chạy nhỏ hơn. Tuy
nhiên, công suất sau khi hội tụ của thuật
tốn DDQN có xu hướng dao động nhỏ
quanh điểm công suất cực đại. Điều này
do việc lựa chọn tập dữ liệu huấn luyện
chưa phù hợp gây ra nhiễu trong q
Hình 3. Lưu đồ thuật tốn DDQN
trình huấn luyện mạng, do số lượng dữ
liệu huấn luyện chưa đủ khiến cho mạng
nơron chưa thế dự đoán được hết tất cả
các trạng thái của mơ hình.
40 | DIỄN ĐÀN SINH VIÊN 2020 - NĂNG LƯỢNG TÁI TẠO
CÁC ĐỀ XUẤT NGHIÊN CỨU KHOA HỌC - SESSION TWO
4. KẾT LUẬN
TÁC GIẢ Ý TƯỞNG
Thuật toán dựa vào ba tham số trạng thái
Hoàng Tiến Thắng 20174198 Viện Điện,
để xác định xem điểm làm việc có gần với
Trường Đại học Bách khoa Hà Nội
điểm công suất cực đại hay không. Thực
hiện mô phỏng dưới một số kịch bản thử
nghiệm để đánh giá mức độ hiệu quả của
thuật toán với những điều kiện làm việc
khác nhau. Kết quả mô phỏng cho thấy
thuật toán hoạt động tương đối tốt và
hiệu quả dưới nhiều điều kiện làm việc
khác nhau như: biến thiên nhiệt độ, biến
thiên bức xạ, biến thiên tải. Thuật toán cho
thấy độ tin cậy và hiệu quả trong việc giải
quyết bài toán MPPT.
Nguyễn Đức Long 20174033 Viện Điện,
Trường Đại học Bách khoa Hà Nội
GIẢNG VIÊN HƯỚNG DẪN
Vũ Thị Thúy Nga đã nhận bằng cử nhân
và Bằng thạc sĩ Kỹ sư điện của Trường Đại
học Bách khoa Hà Nội, Hà Nội, Việt Nam,
lần lượt vào năm 2005 và 2008, và bằng
Tiến sĩ. Tốt nghiệp Kỹ sư Điện tử tại Đại học
Dongguk, Seoul, Hàn Quốc, năm 2013. Cô
hiện đang làm việc với Bộ môn Điều khiển
Tự động, Trường Đại học Bách khoa Hà Nội,
Hà Nội, Việt Nam, với tư cách là Giảng viên
5. THAM KHẢO
chính. Các mối quan tâm nghiên cứu của
[1] A reinforcement learning approach for MPPT
cô bao gồm truyền động máy điện dựa
control method of photovoltaic sources -P. Kofinas
(2017)
[2] An improved perturb and observe (P&O) maximum
power point tracking (MPPT) algorithm for higher
trên DSP và điều khiển các hệ thống phát
điện phân tán sử dụng các nguồn năng
lượng có thể tái tạo.
efficiency – Jubaer Ahmed (2015)
[3] Deep reinforcement learning approach for MPPT
control of partially shaded PV systems in Smart
Grids – Luis Avila (2020)
[4] Machine Learning cơ bản – Nguyễn Hữu Tiệp
DIỄN ĐÀN SINH VIÊN 2020 - NĂNG LƯỢNG TÁI TẠO | 41