Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
Điều khiển thiết bị bay không người lái giám sát
môi trường thông qua học sâu tăng cường
Nguyễn Trọng Bình∗ Trịnh Văn Chiến† Nguyễn Tiến Hòa∗
∗
†
Trường Điện - Điện Tử, Đại học Bách khoa Hà Nội, Hà Nội, Việt Nam
Trường Công Nghệ Thông Tin và Truyền Thông, Đại học Bách khoa Hà Nội, Hà Nội, Việt Nam
Email: ;;
Tóm tắt nội dung—Phương tiện bay không người lái (UAVs)
đang ngày càng được sử dụng rộng rãi trong mạng 5G và định
hướng mạng 6G tại nhiều lĩnh vực ứng dụng đa dạng, trong cả
dân sự lẫn qn sự. Một vài ví dụ điển hình của ứng dụng UAVs
bao gồm: kiểm tra cơ sở hạ tầng, giám sát giao thông, viễn thám,
bản đồ, cứu hộ con người và động vật. Tuy nhiên, việc sử dụng
UAVs trong các ứng dụng trên yêu cầu nhất định về tính tự chủ.
Nói cách khác, UAVs phải có khả năng hồn thành nhiệm vụ
trong tình huống khơng có sự can thiệp của con người. Trong
nghiên cứu này, chúng tôi đã sử dụng học tăng cường sâu với
thuật toán Deep deterministic Policy Gradient (DDPG) để giải
quyết bài tốn về giám sát mơi trường.
Các bước trong bài nghiên cứu bao gồm: Xây dựng mô phỏng
hệ thống giám sát môi trường sử dụng thiết bị bay không người
lái với các tham số cơ bản, áp dụng thuật tốn học tăng cường
sâu DDPG. Kết quả mơ phỏng được thực hiện trên python
Từ khóa—UAVs, Deep Reinforcement Learning, Coverage
Maximization, Connectivity Maintenance
I. GIỚI THIỆU
Các phương tiện bay không người lái (unmanned aerial
vehicles-UAV) là các thực thể mạng nhỏ, nhanh, và tính linh
động cao được sử dụng trong nhiều ngành công nghiệp khác
nhau, bao gồm: Kiểm tra hệ thống điện, giao vận như vận
chuyển bưu kiện và gói hàng, quản lý thảm họa, và giám sát
giao thông [1]–[3]. Việc sử dụng UAV không chỉ giới hạn trong
công nghiệp và học thuật, mà còn phục vụ nhu cầu cá nhân
hàng ngày. Người điều khiển UAV phải ln duy trì đường
nhìn thẳng trực quan (visual line of sight - VLOS) của UAV
dưới một số điều kiện ràng buộc do các quy định hiện hành
(ví dụ vùng bay hoặc từng địa điểm cụ thể), và ít được hỗ
trợ bởi cơng nghệ khác [4]. Trong khi UAV được sử dụng chủ
yếu trong VLOS, có nhiều tình hướng tới khơng phải VLOS
để kích hoạt các ứng dụng mới trong một vùng phủ sóng rộng
lớn [5], [6]. Do đó, cần có sự đồng thuận giữa các bên liên
quan nhằm mở rộng phạm vi hoạt động thương mại của UAV
để bao phủ không phận khu vực đô thị mở rộng và các vùng
dân cư ở biên giới, núi cao, hải đảo nơi mà tầm nhìn bị hạn
chế dẫn đến môi trường truyền dẫn không phải VLOS. Theo
xu hướng phát triển công nghệ hiện nay, UAV đang được tích
hợp vào các mạng di động khơng dây. Hệ thống 5G và các
thế hệ mạng tiếp theo luôn xem xét quản lý UAV là một trong
những minh chứng thiết yếu của phát triển mạng thông tin di
động [7]. Mặt khác, các mơ hình mạng mới, chẳng hạn như
điện tốn biên, điện tốn đám mây, mạng phi tế bào, có thể
trợ giúp UAVs để xử lý các ứng dụng điều khiển bay tốc độ
ISBN 978-604-80-7468-5
cao. Hơn nữa, các nhà cung cấp thiết bị phần cứng cho phép
tích hợp các kiến trúc vi xử lý khác nhau vào UAVs [8]. Điều
này cho phép UAVs xử lý các ứng dụng thời gian thực và tối
ưu tài nguyên vô tuyến phục vụ điều khiển quỹ đạo của UAVs.
Việc triển khai mạng cảm biến không dây trong các ứng
dụng thực thông qua trợ giúp của UAVs để đáp ứng nhiều yêu
cầu về hệ thống truyền thơng, trong đó vùng phủ sóng và kết
nối thường được coi là hai yếu tố tối quan trọng [9]. Phạm
vi bao phủ được chỉ định các khu vực hoặc mục tiêu quan
tâm được các cảm biến giám sát ở mức độ tin cậy, trong khi
kết nối liên quan đến khả năng truyền dữ liệu cảm biến từ
các cảm biến đến trạm xử lý trung tâm [10]. Đảm bảo phạm
vi phủ sóng và kết nối là rất quan trọng vì trong nhiều ứng
dụng, mạng được yêu cầu theo dõi và phân tích các mục tiêu
hoặc khu vực liên tục [11], [12]. Bên cạnh đó, mạng cảm biến
khơng dây là một hệ thống động. Khi một cảm biến xảy ra lỗ
sẽ dẫn đến liên kết mạng bị thay đổi. do đó bảng định tuyến
của mạng có thể bị phá vỡ, gây ra đụng độ trong quá trình
quy hoạch mạng và truyền nhận các gói tin. Cho đến nay, các
thuật tốn truyền thống giải quyết vấn đề này thường có độ
phức tạp tính tốn cao, khó có thể đưa vào các ứng dụng trong
thực tế với kênh biến thiên nhanh [13].
Học tăng cường (reinforcement learning) cung cấp khn
khổ tốn học để xây dựng các chiến lược hoặc phương thức
ánh xạ các trạng thái thành các hành động với mục tiêu tối
đa hàm phần thưởng tích lũy [14]. Học tăng cường đã được
áp dụng rộng rãi để giải quyết các vấn đề trong các lĩnh vực
khác nhau, chẳng hạn như chế tạo và sản xuất, tối ưu hóa
chính sách trong lĩnh vực tài chính, và hệ thống điều khiển rô
bốt. Cùng với sự phát triển của các kỹ thuật học sâu, học tăng
cường hiện đã phát triển theo hướng học sâu tăng cường (Deep
reinforcement learning-DRL), trong đó mạng nơ-ron học máy
sâu (DNN) được sử dụng trong q trình hình thành chính sách
[15], [16]. Với cấu trúc học ngoại tuyến (offline-learning) và
mạng DNN có thể dự đoán và cập nhật trực tuyến khi kết hợp
với DRL. Các kỹ thuật DRL có khả năng xử lý các vấn đề
phức tạp ứng với tập dữ liệu nhiều chiều trong khơng gian
hành động (thậm chí cho phép khơng gian hành động là một
miền liên tục) [17]. Những tính năng mới này làm cho DRL
có thêm những đóng góp đáng kể so với học tăng cường. Và
những đột phá gần đây trong viễn thông minh chứng sự thành
công của DRL. Ứng dụng của DRL trong hệ thống viễn thông
cho phép quy hoạch tài nguyên vô tuyến, hướng tới các thiết
kế thời gian thực.
304
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
năng cảm biến và một chức năng giao tiếp. Với chức năng
cảm biến, UAV có thể thu thập dữ liệu về hiện tượng quan
tâm như rị rỉ khí gas/ bức xạ, chất phóng xạ và chất ô nhiễm
độc hại). Với chức năng thông tin liên lạc, UAV có thể trao
đổi dữ liệu với các UAV khác trong hệ thống. Khi thực hiện
chức năng cảm biến, UAV đạt được dữ liệu cảm biến được
gọi là "giá trị quan tâm". Giá trị quan tâm có thể được coi
là số liệu để đo giá trị hoặc chất lượng của dữ liệu được thu
thập. Nói chung, các giá trị quan tâm có thể khác nhau với
các vị trí khác nhau của UAV. Để mơ hình hóa phân bố giá
trị quan tâm của hiện tượng trong khu vực, chúng tôi áp dụng
một phương pháp được sử dụng rộng rãi trong khoa học địa
chất và môi trường [18] biểu thị ϕ(p) là giá trị quan tâm đạt
được của UAV ở vị trí p. Ở đây, vị trí p được xác định bởi tọa
độ (x, y, z) tương ứng trong mơ hình hệ thống. Do đó ϕ(p)
được xác định theo [18]:
Tầm cảm biến của UAV
Thiết bị bay không người
lái UAV
Phân bố hiện tượng mơi
trường
Hình 1: Mơ hình hệ thống với nhiều UAVs hoạt
động như là các cảm biến giám sát môi trường
ϕ(p) = βF(p),
Trong bài báo này, chúng tôi nghiên cứu ứng dụng của DRL
vào mạng cảm biến nhiều UAVs để giám sát mơi trường. Các
đóng góp chính của bài báo bao gồm:
• Chúng tơi trình bày ý tưởng thiết kế hệ thống giám sát
môi trường sử dụng nhiều UAVs, tạo thành một mạng
cảm biến dựa trên các hiện tượng quan tâm để giám sát
môi trường mở không xác định cho trước. Hệ thống mà
chúng tôi xem xét được áp dụng cho rất nhiều các trường
hợp bao gồm giám sát các vật liệu nguy hiểm (ví dụ: các
chất ơ nhiễm độc hại, chất phóng xạ) bị rị rỉ trên khu
vực rộng mà khơng có sự can thiệp của con người.
• Thuật toán học sâu tăng cường DDPG được đề xuất để
giải quyết các thách thức và đáp ứng mục tiêu tối đa hóa
diện tích bao phủ. Thêm vào đó việc sử dụng những quy
luật chuyển động và phương thức trao đổi thơng tin đơn
giản khiến cho thuật tốn trở nên thực tế hơn.
• Thuật tốn Dijkstra được sử dụng cho ma trận kết nối
giữa các UAV. Ma trận là yếu tố góp phần hình thành
nên chính sách điều khiển chuyển động và kết quả là
mạng kết nối luôn được duy trì trong suốt q trình thực
hiện nhiệm vụ.
• Mơ phỏng đã được thực hiện để xác nhận hiệu suất của
thuật toán. Hàm phần thưởng của việc huấn luyện mạng
DRL cải thiện sau một vài vòng lặp.
Phần còn lại của bài báo có cấu trúc như sau: Mục II thảo
luận về mơ hình truyền thơng sử dụng UAVs trong việc giám
sát mơi trường và quy trình ra quyết định dựa vào tiến trình
Markov. Mục III trình bày cách sử dụng thuật tốn DDPG cho
việc giám sát mơi trường. Kết quả mơ phỏng đánh giá hiệu
suất của mạng UAVs và mơ hình DRL được trình bày trong
Mục IV. Cuối cùng, Mục V đưa ra kết luận của bài báo.
II. MƠ
HÌNH HỆ THỐNG
A. Mơ hình hệ thống
Chúng ta xem xét một hệ thống giám sát mơi trường như
theo Hình 1: Hệ thống bao gồm N UAVs cho một khu vực
không xác định cho trước. Mỗi UAV được trang bị một chức
ISBN 978-604-80-7468-5
(1)
trong đó β = [β1 , ..., βm ] là hằng số và F(p) =
[f1 (p), ...fm (p)]T là hàm không gian cơ sở với T là toán tử
chuyển vị. Phần tử k th của F (p) là hàm Gaussion được biểu
−|p−qk |2
2σ 2
k
, với qk và σk lần lượt là vị trí
diễn bởi fk (p) = e
trung tâm và phương sai của hàm fk (p).
Giả định trong hệ thống có một nút đặc biệt, gọi là "nút
gốc", được trang bị với khả năng cao hơn trong việc tính tốn
và năng lượng so với các UAV khác. Nút gốc định kỳ xác định
hướng di chuyển tối ưu và tốc độ cho tất cả các UAV dựa trên
thông tin thu thập được về vị trí và giá trị quan tâm của các
UAV trong mạng. Nó có thể cũng chuyển các giá trị quan tâm
của tất cả các UAV đến trạm trung tâm để phân tích thêm và
đưa ra quyết định.
Là một bộ điều khiển trung tâm, nút gốc nhằm mục đích
điều khiển hướng chuyển động và tốc độ của tất cả các UAV
trong hệ thống để tối đa hóa tổng giá trị quan tâm, phạm vi
cảm biến và tối thiểu hóa mức tiêu thụ năng lượng của UAV
đồng thời duy trì kết nối giữa các UAV.
B. Quy trình quyết định Markov
Nút gốc định kỳ xác định chuyển động tối ưu chỉ đường
và tốc độ cho tất cả các UAV. Như vậy, chúng ta có thể phân
chia thời gian thành các khoảng thời gian giống hệt nhau là
τ giây, thể hiện chu kỳ điều khiển. Thời gian bắt đầu tức thì
của một chu kỳ điều khiển được gọi là bước thời gian và hành
động điều khiển được thực hiện ở mọi bước thời gian.
1) Tập trạng thái-State space: Gọi pi và ϕi biểu thị vị
trí và giá trị quan tâm của UAV i vào bước thời gian hiện
tại, vị trí pi tương ứng với tọa độ (xi , yi ). Như vậy, tập
trạng thái của hệ thống biểu thị là S, được xác định bởi
S = {(p1 , ϕ1 , ..., pN , ϕN )}, trong đó pi và ϕi thể hiện vị
trí và giá trị quan tâm của UAV i.
2) Tập hành động-Action space: Ký hiệu A là tập hành
động của hệ thống. Cho trước trang thái s ∈ S nhất định,
một hành động điều khiển a ∈ A được thực hiện để xác
định tốc độ di chuyển và hướng đi của N UAVs trong chu
kỳ điểu khiển tiếp theo. Do đó, A có thế được định nghĩa là
305
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
A = {(v1 , α1 , ..., vN , αN )}, trong đó αi , 0 ≤ αi ≤ 2π, là
hướng di chuyển của UAV và vi ≥ 0 là tốc độ của UAV i.
Lưu ý rằng vi = 0, UAV i không di chuyển trong chu kỳ tiếp
theo, tức là UAV di chuyển ở vị trí hiện tại(trạng thái tĩnh),
nếu khơng thì UAV di chuyển với tốc độ vi .
3) Hàm phần thưởng-Reward function: Mục tiêu của hệ
thống giám sát là 1) tối đa hóa tổng giá trị quan tâm đặt được
bởi các UAV, 2) tối đa hóa phạm vi cảm biến và tối thiểu hóa
năng lượng tiêu thụ của các UAV, và 3) duy trì sự kết nối giữa
các UAV. Do đó hàm phần thưởng được thiết kế như sau.
Năng lượng tiêu thụ: Khi hành động điều khiển a được
thực hiện vào bước thời gian hiện tại với trang thái hệ thống s,
đặt ei (s, a) biểu thị tổng mức sử dụng năng lượng chuyển động
của UAV i trong khoảng thời gian kiểm sốt τ . Trong nghiên
cứu này, chúng tơi giả định mỗi UAV tiêu thụ e0 Joules để di
chuyển 1 meter [19]. Như vậy, chúng ta có ei (s, a) = τ e0 /vi ,
N
và tổng năng lượng tiêu thụ của hệ thống là Ξ = i=1 ei (s, a).
Giá trị quan tâm và pham vi cảm biến Giả định rằng tất
cả các UAV có cùng tần số lấy mẫu, được ký hiệu là f . Do đó,
số lượng mẫu quan tâm mà UAV i thu thập trong khoảng thời
M
gian τ là M = f τ . Chúng tôi ký hiệu ϕi (s, a) = k=1 ϕi,k
là tổng giá trị quan tâm của UAV i trong chu kỳ τ trong đó
ϕi,k được xác định. Để tối đa hóa tổng giá trị quan tâm, các
UAVs phải di chuyển đến các vị trí với giá trị quan tâm cao.
M
Tổng giá trị quan tâm đạt được bởi hệ thống là i=1 ϕi (s, a).
Để tối đa phạm vi cảm biến của hệ thống, sự chồng chéo
pham vi cảm biến giữa các UAV cần được giảm thiểu. Đối với
điều này, chúng tôi gọi rc và rs lần lượt là bán kính giao tiếp
và bán kính cảm biến của mỗi UAV. Chúng tơi đặt Υint (s, a)
để xác định mức độ bao phủ và giá trị quan tâm đạt được bởi
hệ thống cho trước cặp (s, a). Do đo Υint được xác định như
sau:
N
Υint =
N
N
max(dij − dth , 0),
ϕ(s, a) +
i=1
(2)
i=1 j=1
trong đó dij là khoảng cách giữa 2 UAV i và j, và dth là
khoảng cách ngưỡng giữa hai UAV liền kề. Các cơng trình
[20], [21] cho thấy mẫu lục giác có thể tối đa hóa độ che phủ
cảm biến trong khi tránh các lỗ che phủ. Để đạt được mục
tiêu, chúng tôi đã đặt ngưỡng khoảng cách dth cho khoảng
cách giữa
√ hai nốt liền kề nhau theo mơ hình lục giác, tức là
dth = 3rs . Từ (1), nếu các UAV tọa độ ở các vị trí có giá
trị quan tâm lớn nhất và khoảng cách giữa một cặp UAV bắt
kì lớn hơn dth , Υint sẽ được tối ưu hóa.
Duy trì kết nối: Chúng tôi biểu thị ci là hệ số kết nối mà
bằng 1 khi UAV i có đường dẫn đến nút gốc và trở thành 0
nếu không. Lưu ý rằng đường dẫn có thể là đường dẫn một
bước hoặc đường dẫn nhiều bước. Cho các vị trí của UAV
pi , i = 1, ..., N , thuật toán Dijkstra tìm đường đi ngắn nhất
[22] có thế được sử dụng để tìm đường đi từ UAV i đến nút
N
gốc. Đặt Ψc = i=1 ci biểu thị điều kiện mạng kết nối khi
hành động a được thực hiện ở trạng thái s. Chúng tơi xác định
hàm phần thưởng tức thì như sau:
r(s, a) = λ1 Υint + λ2 Ψc − λ3 Ξ,
ISBN 978-604-80-7468-5
(3)
trong đó λ1 , λ2 , và λ3 là các trọng số liên quan đến Υint , Ψc
và Ξ. Như vậy, phần thưởng r(s, a) được xác định dựa trên
tổng trọng số của giá trị quan tâm, năng lượng sử dụng di
chuyển, mức độ bao phủ và sự duy trì mạng kết nối.
Vấn đề điều khiển chuyển động: Bộ điều khiển được đặt
tại nút gốc. Vào mỗi bước thời gian, hệ thống điều khiển quan
sát trang thái hệ thống s. Sau đó, nó sẽ quyết định hành động
a xác định tốc độ chuyển động vi và hướng di chuyển αi cho
mọi UAV i vào chu kỳ thời gian điều khiển tiếp theo là τ giây.
Tại vào lúc kết thúc của chu kỳ điều khiển tiếp theo, hệ thống
điều khiển sẽ tính tốn hàm phần thưởng tức thì r(s, a) như
một tín hiệu phản hồi. Mục tiêu thiết kế chính là tìm ra chính
sách điều khiển chuyển động mà quyết định a dựa trên s để
tối đa hóa giá trị mong đợi trong thời gian dài, i.e., E[r]. Tổng
quát, nó là thử thách để thiết kế chính sách điều khiển chuyển
động dạng khép kín để tối đa hóa E[r] bởi vì khu vực quan
tâm là chưa xác định và do đó sự phát triển của hệ thống là
phức tạp. Trong nghiên cứu này, chúng tôi áp dụng học tăng
cường sâu khơng mơ hình DDPG để giải quyết thử thách trên.
Trong sự tương tác giữa tác nhân DRL và môi trường, tác
nhân sẽ học được chính sách kiểm sốt tối ưu từ dữ liệu lịch
sử bao gồm các trạng thái hệ thống, kiểm soát hành động và
đưa ra phần thưởng tức thì.
III. THUẬT TỐN DDPG CHO GIÁM SÁT
MƠI TRƯỜNG
Trong phần này, chúng tôi sẽ sử dụng DDPG để đưa ra chiến
lược hành động cho các UAV. Về chi tiết, trước tiên chúng tơi
giới thiệu sơ lược về DDPG, sau đó là trạng thái, hành động
và phần thưởng của DDPG được xác định cho tác nhân.
DDPG được phát triển như một phần mở rộng của thuật toán
mạng Q sâu (DQN) được giới thiệu bởi Mnih et al [23], đó
là cách tiếp cận đầu tiên kết hợp học sâu và học tăng cường
nhưng chỉ xử lý tập khơng gian hành động có chiều thấp.
DDPG cũng là một thuật toán học tăng cường sâu nhưng có
khả năng xử lý với tập khơng gian hành động nhiều chiều.
Nó cố gắng tìm được chiến thuật hành động hiệu quả cho các
tác nhân có thể đặt được phần thưởng lớn nhất để hoàn thành
nhiệm vụ đưa ra [24]. Thuật tốn DDPG có khả năng giải
quyết các tập không gian liên tục, thứ là một trở ngại lớn đối
với các phương pháp học sâu cổ điển như Q-learning.
DDPG dựa trên thuật tốn actor-critic(Chính sách-Đánh
giá). Về cơ bản đó là phương pháp kết hợp gradient policy
và giá trị hàm. Hàm chính sách µ được gọi là Tác nhân, trong
khi hàm giá trị Q được gọi là mạng Đánh giá. Về cơ bản,
đầu ra của tác nhân là một hành động được chọn từ một
không gian hành động liên tục, với trạng thái hiện tại của
mơi trường a = µ(s|θµ ), trong trường hợp của chúng tơi, có
dạng một bộ a = [ρ, ϕ, ψ]. Đối với mạng Đánh giá, đầu ra
của nó Q = (s, a|θµ ) là một tín hiệu có dạng lỗi: Sự khác
biệt theo thời gian (TD) để đánh giá những hành động của tác
nhân khi biết trạng thái hiện tại của môi trường. Sơ đồ tóm
tắt kiến trúc đánh giá tác nhân được đưa ra trong Hình 2.
Trong q trình huấn luyện, mơ hình DDPG được thực thi
cho M tập trong đó mỗi một tập sẽ diễn ra T bước. Chúng
tôi sử dụng chỉ số t để biểu thị quá trình diễn ra các bước
trong một tập với t = 1, ..., T . Mạng Chính sách và mạng
306
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
Algorithm 1 Thuật toán DDPG
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
nâng cao hiệu suất. Sự đánh đổi giữa mức khám phá và khai
thác được thực hiện bằng cách sử dụng thuật tốn ϵ, trong đó
một hành động ngẫu nhiên at được lựa chọn với xác suất ϵ,
một hành động chính xác at = µ(st |θµ ) được chọn theo đối
với chính sách hiện tại theo xác suất 1 − ϵ. Hơn nữa, một bộ
đệm phát lại trải nghiệm b, với kích thước B, được sử dụng
trong giai đoạn đào tạo để phá vỡ các tương quan thời gian.
Mỗi tương tác với môi trường được lưu trữ dưới dạng các bộ
giá trị theo dạng [st , a, r, st+1 ], là trạng thái hiện tại, hành
động để thực hiện, phần thưởng khi thực hiện hành động a ở
trạng thái st , và trạng thái tiếp theo, tương ứng (Thuật toán
1 (dòng 9)) và trong giai đoạn học tập, một tập hợp dữ liệu
được trích xuất ngẫu nhiên từ bộ đệm được sử dụng (Thuật
tốn 1 (dịng 10)). Ngồi ra, các mạng mục tiêu được khai
thác để tránh sự phân kỳ của thuật toán gây ra bởi các cập
nhật trực tiếp của trọng số mạng với gradient thu được từ tín
hiệu lỗi TD.
Áp dụng thuật tốn DDPG vào mơ hình hệ thống với tác
nhân: 20 UAV với một UAV gốc thực hiện nhiệm vụ xác định
hướng di chuyển và tốc độ của các UAV khác. Tập hành động,
tập trạng thái và hàm phần thưởng được xác định trong phần
II Mơ hình hệ thống.
Q
Khởi tạo ngẫu nhiên mạng Đánh giá Q(s, a|θ ) và mạng
Chính sách µ(s|θµ ) với trong số θQ và θµ .
′
′
′
Q
← θQ ,
Khởi
tạo
mạng
mục
tiêu
Q
và
µ
với
trọng
số
θ
′
θµ ← θµ
Khởi tạo bộ nhớ R
for episode = 1, M do
Khởi tạo quá trình ngẫu nhiên Nt cho thăm dò hành
động
Quan sát trạng thái đầu tiên s1
for t=1,T do
Lựa chọn hành động at = µ(st |θµ )+Nt theo chính
sách hiện tại và nhiễu thăm dị
Thực thi hành động at quan sát phần thưởng rt và
trạng thái tiếp theo st+1
Lưu trữ (st , at , rt , st+1 ) vào bộ nhớ R
Lấy mẫu ngẫu nhiên N bộ (st , at , rt , st+1 ) từ R
′
′
′
′
Đặt yi = ri + γQ (si+1 , µ (si+1 |θu )|θQ
Cập nhật mạng Đánh giá bằng cách giảm tổn hao:
L = N1 i (yi − Q(si , ai |θQ ))2
Cập nhật chính sách hành động sử dụng sampled
policy gradien:
∇a Q(s, a|θQ )|s=si ,a=µ( si ) ∇θµ µ(s|θµ )|si
∇θµ J ≈ N1
IV. MÔ
i
15:
Cập nhật mạng mục tiêu:
′
A. Thiết lập mô phỏng
′
θQ ← τ θQ + (1 − τ )θQ
′
Chúng tôi xét một tập hợp gồm các UAVs, với bán kính
cảm biến rs và bán kính giao tiếp rc được đặt lần lượt là 80m
và 160m. Các UAVs được đặt trong môi trường với các giá trị
quan tâm được phân bố theo hàm Gausian cơ bản. Để làm rõ
ràng hơn, chúng tôi xem xét hệ thống UAV hoạt động trong
môi trường 2D (tức là hệ tọa độ (x, y)), tương ứng với tất
cả các UAVs có cùng độ cao. Diện tích hệ thống bao qt là
1000 × 1000 [m]. Mơ phỏng được thực hiện bằng Python.
Tác nhân trong hệ thống sử dụng cấu trúc mạng DDPG như
bảng III. Mạng Chính sách có lần lượt 521 nút với FC1-2 và
Output là 2. Mạng Đánh giá cũng có giá trị lần lượt là 512
nút với FC1-2 và Output là 1. Các thông số cơ bản được thể
hiện dưới bảng sau.
′
θµ ← τ θµ + (1 − τ )θµ
16:
17:
end for
end for
State S
Actor µ
TD_error
PHỎNG VÀ KẾT QUẢ
Critic Q
Reward r
Bảng I: Tham số hệ thống
Action a
Tham số
Bán kính giao tiếp
bán kính cảm biến
Khu vực giám sát
Số lượng UAVs
Hệ số tiêu hao năng lượng
EVIRONMENT
Hình 2: Cấu trúc mạng chính sách-đánh giá
Đánh giá được thiết kế với mạng nơ-ron Mạng giá trị được
cập nhật dựa trên phương trình Bellman [25] bằng cách giảm
thiểu bình phương trung bình mất mát giữa giá trị Q được cập
nhật và giá trị gốc, có thể được xây dựng như trong Thuật
tốn 1 (dòng 11). Như đối với bản cập nhật của mạng chính
sách (dịng 13), nó dựa trên định lý gradient chính sách xác
định [24].
Ngồi ra cịn có một số thủ thuật thực tế được sử dụng để
ISBN 978-604-80-7468-5
307
Giá trị
160m
80m
1000mx1000m
15, 20
8 J/m
Bảng II: Tham số huấn luyện
Tham số
Số tập huấn luyện
Beta
Gamma
Batch size
Noise
Optimizer
Giá trị
500
0.002
0.99
64
0.1
Adam
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
Bảng III: Tham số network
Network
Chính sách
Đánh giá
kích thước
512
512
2
512
512
1
Activation
Phần Thưởng
Layer
FC1
FC2
Output
FC1
FC2
Output
Relu
Số tập huấn luyện
Phần Thưởng
Hình 4: Hàm phần thưởng của quá trình huấn luyện với N=20
Số tập huấn luyện
Hình 3: Hàm phần thưởng của quá trình huấn luyện với N=15
B. Kết quả mơ phỏng
Trong phần này sẽ thể hiện kết quả mô phỏng của thuật tốn
DDPG giám sát mơi trường qua các thiết bị bay khơng người
lái. Các hình vẽ thể hiện giá trị hàm phần thưởng có được ứng
với các số lượng tập huấn luyện là 500 trong 2 trường hợp có
số lượng UAV lần lượt là 15 với 20. Chúng ta có thể thấy thuật
toán hội tụ xung quanh tập 60. Với trường hợp N=20 chúng
ta có tầm phủ sóng rộng hơn trả lại phần thưởng lớn hơn.
V. TỔNG
KẾT
Trong nghiên cứu này, chúng tôi xét vấn đề giám sát môi
trường điều khiển thiết bị bay khơng người lái UAVs bằng
thuật tốn học tăng cường sâu. Mỗi UAV với bán kính cảm
biến ghi lại các thơng số liên quan đến mơi trường, bán kính
giao tiếp kể kết nối với các UAV khác, vấn đề đặt ra là tìm
kiến chính sách hoạt động để các UAV có thể bao phủ được
vùng diện tích lớn nhất với các giá trị quan tâm mà đảm bảo
kết nối giữa các UAV. Để giải quyết vấn đề này, chúng tơi
áp dụng thuật tốn học tăng cường sâu DDPG để tối ưu hóa
chính sách hoạt động của các UAV, giảm thiểu năng lượng
tiêu hao duy chuyển. Các kết quả mô phỏng đã cho thấy khả
năng áp dụng điều khiển nhiều UAVs vào ứng dụng trong các
môi trường thực tế.
TÀI LIỆU THAM KHẢO
[1] Z. Zuo, C. Liu, Q.-L. Han, and J. Song, “Unmanned aerial vehicles: Control methods and future challenges,” IEEE/CAA Journal of Automatica
Sinica, no. 99, pp. 1–14, 2022.
[2] G. Sun, J. Li, A. Wang, Q. Wu, Z. Sun, and Y. Liu, “Secure and energyefficient uav relay communications exploiting collaborative beamforming,” IEEE Transactions on Communications, vol. 70, no. 8, pp. 5401–
5416, 2022.
[3] M. Khosravi and H. Pishro-Nik, “Unmanned aerial vehicles for package
delivery and network coverage,” in 2020 IEEE 91st Vehicular Technology
Conference (VTC2020-Spring). IEEE, 2020, pp. 1–5.
ISBN 978-604-80-7468-5
[4] S. Ouahouah, M. Bagaa, J. Prados-Garzon, and T. Taleb, “Deepreinforcement-learning-based collision avoidance in UAV environment,”
IEEE Internet of Things Journal, vol. 9, no. 6, pp. 4015–4030, 2022.
[5] R. J. a. L. Hartley, I. L. Henderson, and C. L. Jackson, “BVLOS
unmanned aircraft operations in forest environments,” Drones, vol. 6,
no. 7, p. 167, 2022.
[6] K. H. Terkildsen, U. P. Schultz, and K. Jensen, “Safely flying BVLOS
in the EU with an unreliable UAS,” in 2021 International Conference
on Unmanned Aircraft Systems (ICUAS). IEEE, 2021, pp. 591–601.
[7] H. Yang, J. Zhao, J. Nie, N. Kumar, K.-Y. Lam, and Z. Xiong, “UAVassisted 5G/6G networks: Joint scheduling and resource allocation based
on asynchronous reinforcement learning,” in IEEE INFOCOM 2021IEEE Conference on Computer Communications Workshops (INFOCOM
WKSHPS). IEEE, 2021, pp. 1–6.
[8] P. Smyczy´nski, Ł. Starzec, and G. Granosik, “Autonomous drone control
system for object tracking: Flexible system design with implementation
example,” in 2017 22nd International Conference on Methods and
Models in Automation and Robotics (MMAR). IEEE, 2017, pp. 734–
738.
[9] I. Jawhar, N. Mohamed, and J. Al-Jaroodi, “UAV-based data communication in wireless sensor networks: Models and strategies,” in 2015
International Conference on Unmanned Aircraft Systems (ICUAS), 2015,
pp. 687–694.
[10] D. Popescu, C. Dragana, F. Stoican, L. Ichim, and G. Stamatescu, “A
collaborative UAV-WSN network for monitoring large areas,” Sensors,
vol. 18, no. 12, p. 4202, 2018.
[11] M. Mozaffari, W. Saad, M. Bennis, Y.-H. Nam, and M. Debbah, “A
tutorial on UAVs for wireless networks: Applications, challenges, and
open problems,” IEEE communications surveys & tutorials, vol. 21,
no. 3, pp. 2334–2360, 2019.
[12] J. R. Antunes, L. Brisolara, and P. R. Ferreira, “UAVs as data collectors
in the WSNs: Investigating the effects of back-and-forth and spiral
coverage paths in the network lifetime,” in 2020 X Brazilian Symposium
on Computing Systems Engineering (SBESC), 2020, pp. 1–8.
[13] N. Tekin and V. C. Gungor, “Lifetime analysis of error control schemes
on wireless sensor networks in industrial environments,” in 2019 27th
Signal Processing and Communications Applications Conference (SIU),
2019, pp. 1–4.
[14] K. Arulkumaran, M. P. Deisenroth, M. Brundage, and A. A. Bharath,
“Deep reinforcement learning: A brief survey,” IEEE Signal Processing
Magazine, vol. 34, no. 6, pp. 26–38, 2017.
[15] G. Gupta and R. Katarya, “A study of deep reinforcement learning based
recommender systems,” in 2021 2nd International Conference on Secure
Cyber Computing and Communications (ICSCCC). IEEE, 2021, pp.
218–220.
[16] H. Li, T. Wei, A. Ren, Q. Zhu, and Y. Wang, “Deep reinforcement learning: Framework, applications, and embedded implementations: Invited
paper,” in 2017 IEEE/ACM International Conference on Computer-Aided
Design (ICCAD), 2017, pp. 847–854.
[17] H. van Hasselt and M. A. Wiering, “Reinforcement learning in continuous action spaces,” in 2007 IEEE International Symposium on
Approximate Dynamic Programming and Reinforcement Learning, 2007,
pp. 272–279.
308
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
[18] N. Cressie, Statistics for spatial data. John Wiley & Sons, 2015.
[19] M. Rahimi, H. Shah, G. S. Sukhatme, J. Heideman, and D. Estrin,
“Studying the feasibility of energy harvesting in a mobile sensor
network,” in 2003 IEEE International Conference on Robotics and
Automation (Cat. No. 03CH37422), vol. 1. IEEE, 2003, pp. 19–24.
[20] D. Van Le, H. Oh, and S. Yoon, “Virfid: A virtual force (vf)-based
interest-driven moving phenomenon monitoring scheme using multiple
mobile sensor nodes,” Ad Hoc Networks, vol. 27, pp. 112–132, 2015.
[21] S. Yoon, O. Soysal, M. Demirbas, and C. Qiao, “Coordinated locomotion and monitoring using autonomous mobile sensor nodes,” IEEE
Transactions on Parallel and Distributed Systems, vol. 22, no. 10, pp.
1742–1756, 2011.
[22] T. H. Cormen, C. E. Leiserson, R. L. Rivest, and C. Stein, “33.3: Finding
the convex hull,” Introduction to Algorithms, pp. 955–956, 1990.
[23] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G.
Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski
et al., “Human-level control through deep reinforcement learning,”
nature, vol. 518, no. 7540, pp. 529–533, 2015.
[24] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa,
D. Silver, and D. Wierstra, “Continuous control with deep reinforcement
learning,” arXiv preprint arXiv:1509.02971, 2015.
[25] R. Bellman, “Dynamic programming,” 2013.
ISBN 978-604-80-7468-5
309