BÁO cáo môn học MẠNG máy TÍNH đề tài direct shape optimization through deep reinforcement learning

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.67 MB, 23 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CNTT&TT

------

BÁO CÁO MÔN HỌC
MẠNG MÁY TÍNH
Đề Tài: Direct shape optimization through deep
reinforcement learning
Giảng viên hướng dẫn:

TS. Nguyễn Đức Toàn

Học viên:

Đỗ Xuân Vương

SHHV:

20202905M

Lớp:

IT3083-2-20

Hà Nội, ngày 21 tháng 07 năm 2021
Năm học 2021 - 2

MỤC LỤC
I.ĐẶT VẤN ĐỀ .................................................................................................................. 2

II.LÝ THUYẾT CÁC TÀI LIỆU LIÊN QUAN............................................................. 3
2.1.Phương pháp dựa trên độ dốc .................................................................................. 3
2.2.Phương pháp khơng có độ dốc ................................................................................. 3
2.3.Phương pháp tối ưu hóa nhóm hạt .......................................................................... 4
2.4.Đánh giá các giải pháp và các hướng phát triển của tối ưu hóa hình dạng ......... 4
III. GIẢI PHÁP .................................................................................................................. 5
3.1. Lý thuyết về học tăng cường(DRL), độ dốc chính sách và thuật tốn PPO ....... 5
3.1.1. Thuật toán Qlearning .......................................................................................... 6
3.1.2. Phương pháp PPO tối ưu hóa phương pháp sử dụng thuật tốn
Q_Learning .................................................................................................................... 7
3.1.3.Tạo hình dạng bằng cách sử dụng đường cong Bézier ..................................... 8
IV.TRIỂN KHAI VÀ ĐÁNH GIÁ ................................................................................... 9
4.1. Triển khai .................................................................................................................. 9
4.1.1Tạo môi trường mô phỏng CFD ......................................................................... 10
4.2.2 Học tập củng cố sâu .............................................................................................. 12
4.3.3.Tạo DRL .............................................................................................................. 13
4.4.4. Kết quả ................................................................................................................ 14
4.4.5. Phần thưởng định hình ..................................................................................... 17
V.KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.................................................................. 20
5.1 Kết quả ...................................................................................................................... 20
5.2.Hướng phát triển ..................................................................................................... 21
TÀI LIỆU THAM KHẢO ............................................................................................... 22

1

Hình 1. Khung học tập củng cố sâu trong việc tối ứu hóa hình dạng.................................. 5
Hình 2. Tạo hình dạng bằng cách sử dụng các đường cong Bézier khối ............................ 9
Hình 3 Lưới và trường vận tốc tại Re=200........................................................................ 11
Hình 4. Ví dụ về hình dạng được tạo với các ràng buộc hình học .................................... 14

Hình 5 Khung học tập củng cố thối hóa .......................................................................... 14
Hình 5 Kết quả của q trình tối ưu hóa hình dạng đường cơ sở ...................................... 16
Hình 6 Một số biểu diễn tốt nhất tại 4 điểm miễn phí ....................................................... 16
Hình 7 Tiến hóa phần thưởng điển hình( tức thời và trung bình) .................................... 17
Hình 8. Đường cơ sở và các chức năng phần thưởng đã định hình và các phần quan sát
được trên 4 điểm miễn phí ................................................................................................. 18
Hình 9. Hình dạng tối ưu thu được có và khơng có hình phạt diện tích sử dụng 4 và 3
điểm miễn phí .................................................................................................................... 19

2

I.ĐẶT VẤN ĐỀ

Tối ưu hóa hình dạng là một chủ đề nghiên cứu lâu đời với vô số ứng dụng công
nghiệp, từ cơ học kết cấu đến điện từ và cơ sinh học. Trong động lực học, sự quan
tâm đến việc tối ưu hóa hình dạng đã được thúc đẩy bởi nhiều vấn đề trong thế giới
thực. Ví dụ, trong khí động học, việc giảm lực cản và do đó tiêu thụ nhiên liệu của
xe tải và ô tô, hoặc giảm tiêu thụ nhiên liệu máy bay và chi phí vận hành, là những
trường hợp mà trên đó có một lượng lớn tài liệu. Tuy nhiên, tối ưu hóa hình dạng
cũng đóng một vai trị quan trọng trong nhiều khía cạnh khác của hiệu suất, ví dụ,
máy bay và các kỹ thuật tối ưu hóa hiện đại cũng được áp dụng cho nhiều vấn đề
như tối ưu hóa máy bay tàng hình điện từ, hoặc giảm tiếng ồn âm thanh. Điều này
minh họa tầm quan trọng của các phương pháp tối ưu hóa hình dạng trong nhiều ứng
dụng, trên các chủ đề được cả học thuật và công nghiệp quan tâm.
II.LÝ THUYẾT CÁC TÀI LIỆU LIÊN QUAN

Sau sự phát triển của các kỹ thuật tối ưu hóa, hai loại phương pháp tiếp cận
chính đã xuất hiện để giải quyết các vấn đề về tối ưu hóa hình dạng, cụ thể là các
phương pháp dựa trên độ dốc và khơng có độ dốc

2.1.Phương pháp dựa trên độ dốc

Các phương pháp dựa trên độ dốc dựa trên việc đánh giá ∇x J, độ dốc của hàm
mục tiêu J đối với các thông số thiết kế x. Những phương pháp này đã được sử dụng
vì chi phí tính tốn thấp của chúng trong khơng gian tối ưu hóa lớn , trong đó việc
tính toán độ dốc bằng các phương pháp liền kề đã được chứng minh là rất hiệu quả
Hạn chế chính của các phương pháp dựa trên độ dốc là chúng có thể dễ dàng
bị mắc kẹt trong giá trị tối ưu cục bộ và do đó rất nhạy cảm với điểm xuất phát được
cung cấp, đặc biệt là khi các hệ thống phi tuyến được nghiên cứu mạnh mẽ, và hiệu
suất của chúng bị thách thức nghiêm trọng trong các tình huống mà hàm mục tiêu
biểu hiện sự gián đoạn hoặc rất phi tuyến tính.
2.2.Phương pháp khơng có độ dốc

Các phương pháp khơng có độ dốc ưu việt hơn phương pháp có độ dốc trong,
tuy nhiên, việc triển khai và áp dụng chúng có thể phức tạp hơn. Trong số các
phương pháp khơng có độ dốc, các thuật tốn di truyền được biết đến là tốt trong
việc sắp xếp giá trị tối ưu tồn cục, và cũng ít nhạy cảm với nhiễu tính tốn hơn các
3

phương pháp dựa trên độ dốc. Tuy nhiên, chi phí tính tốn của chúng thường cao
hơn các phương pháp dựa trên độ dốc, do đó hạn chế số lượng các tham số thiết kế
mà phương pháp có thể giải quyết
2.3.Phương pháp tối ưu hóa nhóm hạt

Tối ưu hóa nhóm hạt là một phương pháp nổi tiếng khác được ca ngợi vì dễ
thực hiện và chi phí bộ nhớ thấp. Hạn chế lớn của nó là khó áp đặt các ràng buộc đối
với các thơng số thiết kế.Một lớp chính cuối cùng của các thuật tốn khơng có độ
dốc là các thuật tốn đơ thị, chẳng hạn như ủ mơ phỏng. Phương pháp này, dựa trên
quá trình vật lý làm nguội kim loại nóng chảy, nổi tiếng với khả năng thốt cực tiểu

cục bộ, mặc dù kết quả thu được có thể phụ thuộc nhiều vào các tham số meta đã
chọn của thuật toán
2.4.Đánh giá các giải pháp và các hướng phát triển của tối ưu hóa hình dạng

Với cả phương pháp dựa trên độ dốc và khơng có độ dốc, một mơ hình thay
thế có thể được sử dụng cho phần tính tốn, thay vì dựa vào một bộ giải CFD một
cách có hệ thống. Nhiều phương pháp để xây dựng các mơ hình thay thế như vậy
tồn tại, chẳng hạn như các hàm cơ sở xuyên tâm, kriging hoặc mạng nơron nhân tạo
được giám sát. Trong tất cả các phương pháp này, tham số hóa hình học đóng một
vai trị quyết định, cả đối với các dạng hình học có thể đạt được và tính khả thi của
q trình tối ưu hóa. Đặc biệt, các tham số hóa dựa trên đường cong Bézier, Bsplines
và NURBS đã được nghiên cứu rộng rãi trong các khn khổ tối ưu hóa thơng
thường.
Cho đến ngày nay, việc sử dụng mạng nơ-ron có giám sát kết hợp với các
phương pháp dựa trên độ dốc và khơng có độ dốc để tối ưu hóa hình dạng được hỗ
trợ bởi một tài liệu phong phú. Trong học tập có giám sát, tập dữ liệu được gắn nhãn
(i.e các cặp đầu vào và đầu ra dự kiến) được sử dụng để huấn luyện mạng nơ-ron
cho đến khi nó xấp xỉ chức năng ánh xạ giữa các khơng gian đầu vào và đầu ra một
cách chính xác. Có thể tìm thấy một số cách tiếp cận như vậy đối với các bài tốn
động lực học trong tính tốn trong bài đánh giá. Trong RL, một tác nhân tương tác
với một mơi trường trong một vịng khép kín. Tại mỗi thời điểm trong tương tác, tác
nhân (ở đây, mạng nơron) được cung cấp một phần quan sát về trạng thái môi trường
St, và trong phản hồi đầu ra một hành động action(at) được thực thi, điều này cản
trở sự phát triển tiếp theo của môi trường. Hơn nữa, tác nhân định kỳ nhận được tín
hiệu phần thưởng rt điều chỉnh lại chất lượng của các hành động được thực hiện gần
4

đây, và mục tiêu của RL là đạt được một chính sách quyết định tối ưu at = π (St) tối
đa hóa phần thưởng tích lũy của nó.Như được thấy ở hình 1

Hình 1. Khung học tập củng cố sâu trong việc tối ứu hóa hình dạng
III. GIẢI PHÁP
Một đánh giá gần đây đã trình bày tài liệu hiện có về DRL cho các ứng dụng động
lực học. Công việc này đã làm nổi bật tiềm năng của DRL trong bối cảnh của cơ học.Một
số giải pháp liên quan đến việc tối ưu hóa việc biến đổi các cánh máy bay với hai và bốn
các tham số tương ứng, sử dụng phương pháp Q-learning. Tác nhân khám phá ra động lực
biến đổi tối ưu của các cánh máy bay trong quá trình chuyển đổi giữa các chế độ khác
nhau., nơi các mạng nơ-ron trực tiếp học cách thực hiện giảm độ dốc trên các lớp bài toán
cụ thể. Một giải pháp được đề cập trong việc tối ưu hóa hình dạng trực tiếp bằng phương
pháp học tập củng cố sâu là sử dụng phương pháp tối ưu hóa chính sách gần (PPO) kết
hợp với mạng nơ_ron nhân tạo để tạo ra các hình dạng 2D được mơ tả bởi đường cong
Bezier.OW xung quang quanh hình dạng được đánh giá thơng qua mô phỏng số 2D ở số
Reynolds vừa phải bằng cách sử dụng FeniCs.
3.1. Lý thuyết về học tăng cường(DRL), độ dốc chính sách và thuật tốn PPO

Học tăng cường là một lớp phương pháp học máy tập trung vào việc đưa ra quyết
định tối ưu trong một môi trường phức tạp . Tại bất kỳ bước thời gian rời rạc nào t
∈N, một đặc vụ quan sát tình trạng thế giới hiện tại St, quyết định cho một hành
động at và nhận được m/ột tín hiệu khen thưởng rt ∈R. Trong tài liệu, quan sát và
trạng thái đôi khi được phân biệt, nhưng để dễ ký hiệu, những hai khái niệm thường
được hợp nhất thành khái niệm trạng thái St Tuy nhiên, phải lưu ý rằng các trạng
thái thường là quan sát một phần hoặc nhiễu về trạng thái thực tế của môi trường.
5

Mục tiêu cuối cùng của tác nhân là cập nhật phần thưởng(Reward) tích lũy chiết
khấu qua việc triển khai chính sách của đại lý π, i,e là quỹ đạo của các trạng thái,
hành động và phần thưởng τ = (s0, a0, r0s1..) phân phối tuân theo chính sách nào π:
R(𝜏) = ∑𝑇𝑡=0 𝛾 𝑡 𝑟𝑡

Ở đây γ ∈ [0, 1] là hệ số chiết khấu để ưu tiên phần thưởng tức thì hơn so với phần
thưởng ở xa hơn. Hai loại thuật toán học tăng cường phổ biến là Qlearning và các
phương pháp có độ dốc chính sách:
3.1.1. Thuật tốn Qlearning

Q-learning giả định một không gian hành động rời rạc, nhỏ gọn và chọn các hành
động dựa trên giá trị Q ước tính của chúng, là phần thưởng tích lũy chiết khấu dự
kiến nhận được khi bắt đầu từ trạng thái S với hành động a, và sau đó đi theo quỹ
đạo τ theo chính sách π:
Q (s, a) = E [R (τ) |s, a].
τ∼π
Trong DRL, Q-Learning được thực hiện như một mạng nơron sâu và được tối ưu
hóa để tạo ra giải pháp tối ưu được đặc trưng đệ quy, được đưa ra bởi phương trình
Bellman:
Q*(s,a)=R(s,a) +𝛾𝑚𝑎𝑥𝑎′ Q*(s’,a’)
2. Phương pháp chính sách có độ dốc
Mặt khác, các phương thức chính sách có độ dốc (PG) có thể xử lý cả không
gian hành động rời rạc và liên tục. Ngược lại với Q-learning, các phương pháp PG
trực tiếp tối ưu hóa chính sách thay vì một chức năng giá trị phụ trợ. Họ giả định
một chính sách ngẫu nhiên π (a | s), thường được tham số hóa bởi một mạng nơron
sâu, có tối ưu hóa dựa trên gradient trực tiếp tối đa hóa phần thưởng tích lũy chiết
khấu dự kiến E τ∼ [πR], xấp xỉ bằng một lô phát hành nhỏ. So với Q-learning
các phương pháp, phương pháp PG thể hiện khả năng tốt hơn trong việc xử lý
không gian hành động chiều cao cũng như các thuộc tính hội tụ mượt mà hơn, mặc
dù chúng được biết là thường hội tụ về cực tiểu cục bộ. Được giới thiệu vào năm
2000 bởi Sutton và cộng sự [41], vani PG dựa vào ước tính của gradient bậc nhất của log-

6

policy ∇θ logπθ để cập nhật mạng của nó. Cách tiếp cận này sau đó được theo sau bởi
một số cải tiến lớn, bao gồm tối ưu hóa chính sách vùng tin cậy (TRPO) và tối ưu hóa
chính sách vùng lân cận (PPO) . Trong các phương pháp này, bản cập nhật mạng khai
thác một chức năng lợi thế thay thế:

𝜃𝑘+1 = 𝑎𝑟𝑔𝑚𝑎𝑥0 𝐿(𝜃𝑘 , 𝜃),
Với:
L(θk , θ)

= E(s,a)~πθ [π(s, a, θ, θk )θπθk (s, a)],
k

Và:
𝜋 (𝑎|𝑠)

Π (s,a,𝜃, 𝜃𝑘 ) = 𝜋 𝜃

𝜃𝑘 (𝑎|𝑠)

Trong các biểu thức sau, Aπθk (s, a) được gọi là hàm lợi thế và đo lường mức độ tốt
hơn để thực hiện hành động at ở trạng thái S so với kết quả trung bình của tất cả các
hành động có thể được thực hiện ở trạng thái S. Vì thế, L (θk, θ) đo lường bao nhiêu
chính sách tốt hơn (hoặc tệ hơn) πθ thực hiện so với chính sách trước đó πθk. Để
tránh các bản cập nhật chính sách q lớn có thể làm giảm hiệu suất chính sách,
TRPO tận dụng tối ưu hóa gradient tự nhiên bậc hai để cập nhật các thông số trong
vùng tin cậy của phân kỳ Kullback-Leibler tối đa đã được xác định giữa phân phối
chính sách cũ và cập nhật.
3.1.2. Phương pháp PPO tối ưu hóa phương pháp sử dụng thuật toán Q_Learning

Cách tiếp cận tương đối phức tạp này đã được thay thế trong phương pháp PPO

bằng cách đơn giản cắt bớt biểu thức tối đa:

Trong đó ε là một tham số nhỏ, do người dùng xác định. Khi 𝐴𝜋𝜃𝑘 (s, a) là tích
cực, thì việc thực hiện hành động a ở trạng thái s sẽ được ưu tiên hơn so với mức
7

trung bình của tất cả các hành động có thể được thực hiện ở trạng thái đó và việc
cập nhật chính sách để ưu tiên hành động này là điều đương nhiên. Tuy nhiên, nếu
tỷ lệ này rất lớn, việc đi q xa so với chính sách trước đó πθk có thể làm hỏng
hiệu suất. Vì lý do đó, được cắt thành 1 + ε để tránh cập nhật chính sách quá lớn.
Nếu 𝐴𝜋𝜃𝑘 (s, a) là âm, thực hiện hành động a ở trạng thái s thể hiện sự lựa chọn
kém hơn mức trung bình của tất cả các hành động có thể được thực hiện ở trạng
thái đó và việc cập nhật chính sách là điều tự nhiên để giảm xác suất thực hiện
hành động này. Theo cách tương tự, được cắt xuống 1 −ε nếu nó xảy ra thấp hơn
giá trị đó.
Trong các biểu thức sau, 𝐴𝜋𝜃𝑘 (s, a) được ước tính bằng cách sử dụng cơng cụ ước
tính lợi thế tổng quát (GAE), đại diện cho sự cân bằng giữa Monte-Carlo và các
cơng cụ ước tính chênh lệch thời gian . Ngồi ra, thay vì thực hiện một cập nhật
toàn bộ, đơn lẻ, việc tối ưu hóa mạng được phân tách thành nhiều bản cập nhật
được tính tốn từ các lơ nhỏ được lấy mẫu con. Cuối cùng, một quy luật hóa
entropy được thêm vào tổn thất thay thế:

Điều khoản bổ sung này khuyến khích đại lý không nên quá tự tin, bằng cách giữ
cho phân phối chính sách gần với đồng nhất trừ khi có tín hiệu mạnh mẽ là khơng
nên.
3.1.3.Tạo hình dạng bằng cách sử dụng đường cong Bézier

Phần này mơ tả quy trình tiếp theo để tạo các hình dạng từ một tập hợp n điểm
do đại lý cung cấp. Khi các điểm được thu thập, sắp xếp góc lượng giác tăng dần

được thực hiện (xem Hình.2a), và các góc giữa các điểm được tính tốn. Sau đó,
một góc trung bình được tính xung quanh mỗi điểm (xem Hình.2b) sử dụng:

với α ∈ [0, 1]. Tham số trung bình α cho phép thay đổi cục bộ độ sắc nét của đường
cong, đạt được độ mịn tối đa cho α = 0,5. Sau đó, mỗi cặp điểm được nối bằng cách
sử dụng một đường cong Bézier lập phương, tính bằng bốn điểm: điểm đầu tiên và
8

điểm cuối cùng điểm, pi và pi+1, là một phần của đường cong, trong khi phần thứ
hai và thứ ba, pi∗Tơi và pi** , là các điểm kiểm sốt để xác định tiếp tuyến của đường
cong tại pi và pi+1. Các tiếp tuyến tại pi và pi+1 được kiểm soát tương ứng bởi θi* và
θ* i+1 (xem Hình. 2c). Việc lấy mẫu cuối cùng của các đường cong Bézier liên tiếp
dẫn đến mơ tả đường biên của hình dạng (Hình. 2d). Sử dụng phương pháp này, có
thể đạt được nhiều hình dạng khác nhau.

Hình 2. Tạo hình dạng bằng cách sử dụng các đường cong Bézier khối
IV.TRIỂN KHAI VÀ ĐÁNH GIÁ
4.1. Triển khai

9

4.1.1Tạo môi trường mô phỏng CFD

Mô phỏng CFD, tạo thành môi trường tương tác với tác nhân DRL, bao gồm mơ
phỏng động lực học tính tốn (CFD) dựa trên FeniCs giải các phương trình NavierStokes (NS) bằng số. Mỗi hình dạng, có kích thước điển hình, được nhúng trong
miền tính tốn hình chữ nhật có chiều dài l = 45 và chiều rộng w = 30 (xem Hình.
2a).
Một vận tốc không đổi v =vinex được áp dụng theo tỷ lệ trong, trong khi các điều

kiện biên trượt tự do được áp dụng trên đầu và cuối miền. Cuối cùng, điều kiện
ranh giới không trượt được áp dụng cho chướng ngại vật và điều kiện khơng có
lực kéo được thiết lập ở ngồi hồ sơ dịng chảy. Để thực hiện các phép tính số cần
thiết, việc tạo lưới của miền và hình học được thực hiện bằng cách sử dụng Gmsh.
Dịng tham chiếu tương ứng với tham chiếu của hình trụ có bán kính rcyl = 1 được
nhúng trong cùng một miền. Số Reynolds tham chiếu sau đó được xác định là:
Reref =

2𝜌𝑣𝑖𝑛𝑟𝑐𝑦𝑙

(1)

𝜇

Ở đây ρ là khối lượng thể tích của dịng chảy, và μ độ nhớt của nó. Trong phần
cịn lại của bài báo này, ρ được giữ không đổi và bằng 1kg / m3, cũng như vin,
được giữ bằng 1 m / s. Phương thức điều chỉnh của các điều kiện được thực hiện
thông qua việc lựa chọn số Reynolds tham chiếu, số này được điều chỉnh bằng
cách điều chỉnh độ nhớt của dòng chảy. Đối với tất cả các phép tính, số bước thời
gian được chọn là:
∆t = C

hmin

(2)

vmin

hằng số C là số điều kiện CFL (ở đây, C = 0,5). Lực kéo và lực nâng được chịu bởi
một hình dạng nhất định bị chìm trong dịng chảy được tính như sau:

fd= ∫𝑆 (𝜎. 𝑛)𝑒 x and fl =∫𝑆 (𝜎. 𝑛). 𝑒𝑦

(3)

Các hệ số kéo và nâng Cd và Cl được đánh giá là:
Cd =

𝑓𝑑
1
𝜌(𝑣𝑖𝑛 )2 𝑠
2

and Cl =

𝑓𝑙
1
𝜌(𝑣𝑖𝑛 )2 𝑠
2

(4)

10

Trong phần sau, giá trị dương của Cd (đáp lại Cl) chỉ ra rằng lực lượng fd (đáp
lại fl) được định hướng về phía ex (đáp lại ey). Thời gian vật lý tối đa được sử dụng
trong các phép tính số được thiết lập để thu được các giá trị trung bình ổn định của
số lượng quan tâm theo dõi (xem phần tiếp theo). Trong thực tế, quy tắc ngón tay
cái sau đây được sử dụng:
tmax =

2
𝑣𝑖𝑛

(xmax –xmin)

(5)

Công thức số được sử dụng để giải các phương trình Navier-Stokes tùy ý là một
bộ giải không nén được nite-phần tử dựa trên phương pháp chiếu, kết hợp với một
sơ đồ hành quân trong thời gian BDF2. Điều này cho phép chúng tôi xem xét các
khoản nợ ở số Reynolds thấp, thường là Re = 200. Sử dụng giá trị điển hình này của
số Reynolds cho phép giải quyết một nhiệm vụ tối ưu hóa hình dạng trình bày các
thành phần khơng tuyến tính và kích thước cao đang thách thức trong loại bài tốn
này, đồng thời giữ cho ngân sách tính tốn hạn chế, do đó, cho phép đào tạo tương
đối nhanh mà khơng lớn tài ngun tính tốn. Đây là một cách tiếp cận tương tự như
những gì đã được sử dụng trong, và rất phù hợp cho một bằng chứng về khái niệm
của phương pháp luận cũng như điểm chuẩn trong tương lai của các thuật toán chưa
được điều chỉnh.

Hình 3 Lưới và trường vận tốc tại Re=200

Hình 3. a, lưới của miền tính tốn. b, trường vận tốc vx được tính tốn tại Re=200
Khu vực tuần hồn phía sau chướng ngại vật có thể nhìn thấy rõ ràng, tiếp theo là
một hẻm xoáy Von Karman được thiết lập tốt. Trường vận tốc được chia tỷ lệ trong
phạm vi [-1, 1],
Bảng 1
11

Ký
hiệu
Reref
∆t

Ý nghĩa

Công thức

Reref =
∆t = C

2𝜌𝑣𝑖𝑛𝑟𝑐𝑦𝑙

Số Reynolds tham chiếu

𝜇
hmin

Bước nhảy thời gian

vmin

C

C=0,5

Hằng số điều kiện

Fd

fd= ∫𝑆 (𝜎. 𝑛)𝑒 x

Lực nâng

Fl

fl =∫𝑆 (𝜎. 𝑛). 𝑒𝑦

Lực kéo

Cd

Hệ số nâng

Cl

Hệ số kéo

Tmax

Thời gian thực hiện q
trình mơ phỏng

4.2.2 Học tập củng cố sâu
Tác nhân DRL dựa trên tối ưu hóa chính sách gần (PPO) thuật tốn này thuộc về

lớp các phương pháp có độ dốc chính sách, khác với các phương pháp giá trị hành
động như Q-learning.Trong công việc này, đầu ra hành động mạng bao gồm 3n giá
trị trong [-1, 1], ở đây n là cố định cho mỗi thử nghiệm và tương ứng với số điểm

được sử dụng để chỉ định hình dạng. Các giá trị này sau đó được chuyển đổi một
cách thích hợp để tạo ra một hình dạng hợp lệ, bằng cách tạo ra vị trí và độ cong cục
bộ của một loạt các điểm được kết nối qua đường cong Bezier. Với bộ ba (p, q, s)
12

được cung cấp bởi mạng, thu được một bộ ba được biến đổi (x, y, e) tạo ra vị trí x,y
và độ cong cục bộ e của điểm thứ i:

(6)
Ánh xạ này cho phép giới hạn các vị trí có thể tiếp cận của mỗi điểm trong
một phần cụ thể của hình xuyến, được giới hạn bởi bán kính bên trong (rmin) và bên
ngoài (rmax) do người dùng xác định (xem Hình 4). Khi làm như vậy, nó khuyến
khích việc tạo ra các hình dạng khơng bị rối, do đó hạn chế các vấn đề về chia lưới
dẫn đến. Khi các vị trí điểm cuối cùng được tính tốn, mơi trường kết nối chúng để
tạo ra một hình dạng khép kín bằng cách sử dụng các đường cong Bézier một cách
hoàn toàn xác định. Một lần chạy CFD được thực hiện như mô tả trong phần 2.1 và
sau khi kết thúc, phần thưởng sẽ được tính tốn và chuyển cho đại lý. Mạng nơ-ron
đại diện cho tác nhân là một mạng được kết nối đầy đủ đơn giản với hai lớp ẩn có
kích thước 512, tương tự như sự lựa chọn. Thiết lập đào tạo cũng được hưởng lợi từ
đào tạo đa môi trường song song, cung cấp tốc độ gần như tuyến tính đối với số
lượng lõi có sẵn.
4.3.3.Tạo DRL

Đối với cách này, thiết lập của theo phiên bản DRL "thối hóa" trong đó một tập
học tập chỉ bao gồm một bước thời gian duy nhất, một nỗ lực duy nhất của mạng để
tạo ra một hình dạng tối ưu (xem Hình. 5). Do đó, chúng tơi chỉ tận dụng khả năng
của DRL để học hỏi từ giám sát gián tiếp thơng qua một tín hiệu khen thưởng chung
(lưu ý rằng phản hồi tối ưu chính xác khơng được biết, do đó, các phương pháp được
giám sát khơng thể áp dụng một cách đơn giản). Như sẽ được trình bày trong phần

3, sự lựa chọn này cho phép khai thác các thuật tốn DRL làm trình tối ưu hóa phi
tuyến tính trực tiếp. Chúng tơi khơng biết các cơng trình khác áp dụng DRL theo
cách này.

13

Hình 4. Ví dụ về hình dạng được tạo với các ràng buộc hình học

Các chấm màu cho biết các điểm kiểm sốt do tác nhân tạo ra, sau đó được
nối với nhau sử dụng đường cong Bézier. Mỗi điểm mà tác nhân gợi ý bị hạn chế
bởi cấu trúc trong bán kính (vịng trịn bên trong và bên ngồi của bán kính rmin và
rmax) và theo góc phương vị (các vạch trắng phân kỳ).

Hình 5 Khung học tập củng cố thối hóa
Một tập bao gồm một kiểm sốt duy nhất từ tác nhân: quan sát ban đầu
tương tự được cung cấp cho tác nhân khi bắt đầu, đổi lại cung cấp một hành động
đối với môi trường. Môi trường trả về giá trị phần thưởng cho tác nhân, và đưa ra
kết quả.
4.4.4. Kết quả

Quan tâm đến việc tạo ra các hình dạng tối đa hóa tỷ lệ lực kéo,

𝐶𝑙
𝐶𝑑

và kết

quả được đề xuất là:

(7)
Trong đó ký hiệu <·> chỉ ra mức trung bình tạm thời trong nửa sau của phép
tính CFD. Chỉ số dưới cyl tương ứng với giá trị được tính trong trường hợp tham
chiếu, tức là sử dụng hình trụ bán kính đơn vị. Ở đây, giá trị lực nâng tham chiếu
sử dụng xi lanh bằng 0, giá trị trung bình khơng tạo ra lực nâng. Thực tế là phần
thưởng này thay đổi dấu hiệu tùy thuộc vào hướng mà mức tăng xảy ra ngụ ý một
14

sự thay đổi phần thưởng tốt, giúp người đại diện học hỏi. Cuối cùng, các hình dạng
mà khơng có phần thưởng nào có thể được tính tốn (chia lưới khơng thành cơng
hoặc tính tốn CFD khơng thành cơng) sẽ bị phạt thông qua chức năng phần
thưởng như sau:

rt ← max (rt, rfail).

(8)

Việc tạo hình này cũng cho phép kẹp phần thưởng trong trường hợp hình dạng
có đặc tính khí động học rất xấu. Trong thực tế, rfail = −5. Các giới hạn biến dạng
được đặt là rmin = 0,3 và rmax= 3. Các tham số mạng được cập nhật cứ sau 50 hình
dạng, với tốc độ học tập bằng 1 × 10−3. Hình dạng được mơ tả với 4 điểm, với khả
năng giữ cố định một số điểm.
4.4.4.1. Kết quả cơ bản

Các kết quả thu được trong quy tắc này với 1, 3 và 4 điểm tự do trong tổng số 4
điểm mơ tả hình dạng được thể hiện trong Hình. 5. Như đã nêu trong phần 2,2, một
điểm Bézier tương ứng với 3 bậc tự do (dof) để mạng tối ưu hóa (vị trí của điểm (x,
y) và độ cong cục bộ e). Trong trường hợp của một điểm tự do duy nhất (Hình. 5a),
tác nhân hiểu được sự cần thiết của việc tạo ra một vùng áp suất cao bên dưới hình

dạng để tạo ra lực nâng, và tạo ra một hình dạng giống như cánh quạt với góc tấn
cao. Sự hiện diện của một cạnh sau cũng được quan sát thấy trên tất cả các hình dạng
hoạt động tốt nhất. Khi sử dụng ba điểm miễn phí (Hình.5b, hành vi tương tự được
quan sát với đường kính biểu kiến giảm, phần lớn được điều khiển bởi các điểm
trên cùng và dưới cùng. Góc tấn cơng được giảm xuống so với trường hợp điểm đơn,
trong khi phần thưởng tối đa trung bình được tăng lên (xem Hình.7 b). Khi bốn điểm
được phép di chuyển (Hình.5c), cánh gió mở rộng ra tồn bộ miền có sẵn để tối đa
hóa lực nâng, nhưng cạnh sau vẫn tương tự (trong cả trường hợp 3 và 4 điểm tự do,
góc giữa tâm của hình dạng và cạnh sau gần bằng 23◦). Mặc dù một cạnh đầu trịn
xuất hiện trên hình dạng của Fig. 5 c, nó khơng xuất hiện một cách có hệ thống trong
các hình dạng hoạt động tốt nhất khác, như trong Hình. 6. Điều này có lẽ là do số
Reynolds tương đối thấp được sử dụng trong nghiên cứu hiện tại. Cuối cùng, cần
lưu ý rằng với bốn điểm có sẵn, tác nhân có thể nhận được phần thưởng tốt hơn nữa,
như thể hiện trong Hình.7. Trong mọi trường hợp, học tập xảy ra

15

Hình 6 Kết quả của q trình tối ưu hóa hình dạng đường cơ sở
Hình dạng đẹp nhất thu được bằng cách sử dụng 1, 3 và 4 điểm miễn phí được
hiển thị trong Hình phụ. 5a, 5b,5c tương ứng. Trong hình phụ.5a, các điểm bên trái,
trên cùng và dưới cùng được định vị về vị trí ban đầu của chúng (I E của hình trụ
tham chiếu), trong khi hình trụ ngoài cùng bên phải di chuyển tự do. Trong hình
phụ.5b, chỉ có điểm bên trái là được định vị, trong khi ở Hình con. 5c, cả bốn điểm
đều chuyển động tự do. Trường vận tốc tương ứng với hình dạng 5c được hiển thị
trong Hình con. 5d.

Hình 7 Một số biểu diễn tốt nhất tại 4 điểm miễn phí
16

Cạnh đầu trịn khơng phải là một tính năng cần thiết của những người hoạt
động tốt nhất. Điều này phát sinh từ mức thấp Re giá trị được sử dụng trong thử
nghiệm này. Ngược lại, cạnh cuối giống nhau trong tất cả các hình dạng hoạt động
tốt nhất.
gần như ngay lập tức, và tiếp tục gần như tuyến tính trước khi đạt đến mức ổn định,
sau đó tác nhân tiếp tục khám phá mơi trường, nhưng thực tế khơng có học tập nào
được nhìn thấy. Các hình thể hiện trong Hình.5a, 5ban nhạc 5c là những cái tốt nhất
rút ra từ toàn bộ cuộc khám phá. Thành phần nằm ngang của trường vận tốc xung
quanh hình dạng cuối cùng cũng được thể hiện trong Hình.5d.
4.4.5. Phần thưởng định hình
4.4.5.1 Định hình để hội tụ nhanh hơn

Nó có thể được quan sát trên Hình. 7b rằng q trình học tập địi hỏi một lượng
đáng kể các hình dạng đã khám phá để hội tụ về mức hiệu suất cuối cùng của nó.
Như có thể dự đốn, số lượng hình dạng này tăng lên cùng với số bậc tự do tham gia
vào quá trình tạo hình dạng. Trong phần này, chỉ ra rằng định hình phần thưởng cơ
bản là đủ, trong trường hợp để cắt

Hình 8 Tiến hóa phần thưởng điển hình( tức thời và trung bình)
Trong q trình tối ưu hóa hình dạng. Hình con.7a tương ứng với việc học
Case 5c. Các đường cong học tập trung bình di chuyển cho ba trường hợp khác nhau
của Hình.5 được so sánh trong subFig. 7b.

17

Hình 9. Đường cơ sở và các chức năng phần thưởng đã định hình và các phần
quan sát được trên 4 điểm miễn phí
Sử dụng phần thưởng định hình làm tăng tốc độ học tập tổng thể. Con số đó

bằng một số lượng đáng kể. Để làm như vậy, phần thưởng được tính theo các phương
trình sau (7) và (số 8), sau đó nó là nhân với một con (stant nếu nó là dương, như
được hiển thị trong Hình. số 8a, sau đây:
rt ←2rt · 1(rt> 0.)

(9)

Tác động của việc sửa đổi này đối với việc học được thể hiện rõ ràng trong Hình
8b: khi sử dụng phần thưởng định hình, tác nhân đạt đến mức ổn định trong học tập
sau gần 1500 hình dạng, so với 3000 khi sử dụng phần thưởng cơ bản. Phần thưởng
bình nguyên trung bình cũng cao hơn một chút với phần thưởng định hình.
4.4.5.2. Định hình để thêm các ràng buộc

Các ràng buộc có thể được thực thi một cách yếu ớt (theo nghĩa phi tốn học)
bằng cách thêm các hình phạt vào chức năng phần thưởng để cuối cùng cấm các
hành vi không mong muốn khỏi mạng. Bằng cách thường xuyên chạm vào hàng
rào phần thưởng trong không gian hành động, tác nhân sẽ học cách tránh các hành
vi liên quan. Ở đây, mục tiêu là quy định diện tích của hình dạng tối ưu để duy trì
gần với diện tích của ∣∣ e viết tắt ∣hình trụ. Để kết thúc, người ta có thể chỉ cần thêm
mộtđặc biệt thời hạn phạt đối với chức năng khen thưởng:

18

rt

rt -

|𝛼−𝛼𝑐𝑦𝑙 |
𝛼

(10)

Ở đây α là diện tích của hình dạng hiện tại và αcyl là diện tích của hình trụ tham
chiếu. Trong bộ lễ phục.9, chúng tôi so sánh các hình dạng tối ưu thu được bằng
cách sử dụng 4 điểm với 3 điểm di chuyển, cả khi có và khơng có hình phạt khu vực
(10). Khu vực của
Hình dạng tối ưu với hình phạt rất gần với hình trụ tham chiếu, không phải là trường
hợp của đường cơ sở. Như thể hiện trong Hình.10, trong 2000 tập đầu tiên, cả tác
nhân bị hạn chế và không bị hạn chế đều tạo ra các hình dạng giống nhau

Hình 10. Hình dạng tối ưu thu được có và khơng có hình phạt diện tích sử dụng 4
và 3 điểm miễn phí
Trong khi khu vực mục tiêu là của hình trụ đơn vị (αcyl = π), diện tích của
hình tối ưu với diện tích bị phạt bằng 3,176, so với 2,733 đối với hình khơng bị phạt.
Trong khi tơn trọng hạn chế này, tỷ lệ nâng-kéo của hình bị phạt thấp hơn khoảng
30% so với hình khơng bị phạt.

19

Hình 10. Phần thưởng trung bình động và lịch sử diện tích của các hình dạng
đã khám phá bằng cách sử dụng đường cơ sở và phần thưởng so với khu vực
mục tiêu trong một lần đào tạo duy nhất. Sau khi đạt đến ngưỡng học tập (khoảng
2000 tập), tác nhân sẽ điều chỉnh hành vi của nó để đáp ứng giới hạn diện tích bổ
sung, mặc dù điều này hầu như khơng thể nhìn thấy trên đường cong phần thưởng.
Đối với trường hợp hạn chế về diện tích, đại lý phải cân bằng giữa tỷ lệ lực kéo và
diện tích hình phạt trong phần thưởng, giải thích thấp hơn 〈rt 〉 các giá trị.khu vực.
Sau khi đạt được bình nguyên học tập, tác nhân bị ràng buộc bắt đầu tạo ra các hình
dạng giảm thiểu thuật ngữ phạt trong (10). Mặc dù hiệu ứng này hầu như khơng nhìn

thấy trên các đường cong phần thưởng, hành vi đặc biệt rõ ràng khi nhìn
tại lịch sử khu vực. Thấp hơn〈rt 〉 các giá trị cho tác nhân bị ràng buộc là hệ quả
trực tiếp của sự cân bằng giữa tỷ lệ lực kéo và diện tích bị phạt. Ràng buộc bổ sung
này làm giảm khoảng 30% tỷ lệ lực kéo so với hình dạng tối ưu mà khơng bị phạt
diện tích.
V.KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
5.1 Kết quả
Qua đây ta thấy được ứng dụng đầu tiên của học tăng cường sâu để định hướng

tối ưu hóa hình dạng. Sau phần giới thiệu về các khái niệm cơ bản của DRL và mô
tả về thiết lập CFD, các chi tiết đã được đưa ra về việc tạo hình dạng bằng cách sử
dụng các đường cong Bézier và việc triển khai môi trường DRL. Sau đó, cung cấp
một chức năng phần thưởng thích hợp dựa trên tỷ lệ lực nâng / lực cản, tác nhân đã
20

tạo ra các hình dạng tối ưu giống như cánh mà không cần bất kỳ kiến thức tiên
nghiệm nào về các khái niệm khí động học. Hơn nữa, việc khám phá định hình phần
thưởng, vừa để tăng tốc độ học vừa đưa ra các ràng buộc bổ sung cho vấn đề tối ưu
hóa được xem xét. Báo cáo này cũng giới thiệu một cách tiếp cận “DRL suy biến”
cho phép sử dụng các thuật toán DRL như những bộ tối ưu hóa mục đích chung.
Nhiều điểm cịn lại của phương pháp này vẫn còn được khám phá,
5.2.Hướng phát triển

Phương pháp tối ưu háo này mở đường cho một loại quy trình tối ưu hóa hình
dạng mới. Việc sử dụng DRL để thực hiện tối ưu hóa hình dạng có thể cung cấp
một số triển vọng đầy hứa hẹn. Đầu tiên, phương pháp DRL có thể được mong đợi
để xử lý tốt các vấn đề phi tuyến tính, tối ưu hóa số chiều cao, vì điều này đã được
chứng minh trong một số ứng dụng điều khiển. Thứ hai, DRL được biết là có quy
mơ từ nhỏ đến một sối lượng lớn dữ liệu, được điều chỉnh tốt cho các trường hợp

mà việc song song hóa các mơ phỏng là khác nhau do các thách thức về thuật toán
hoặc phần cứng, nhưng nhiều mơ phỏng có thể chạy song song. Thứ ba, chúng ta có
thể mong đợi rằng việc học chuyển tiếp có thể cho phép DRL giải quyết các vấn đề
mới tương tự chỉ dựa trên kiến thức thu được từ khóa đào tạo trước đó. Các cơng
việc tiếp theo cần được thực hiện để điều tra từng khía cạnh này.

21

TÀI LIỆU THAM KHẢO
Viquerat, J., Rabault, J., Kuhnle, A., Ghraieb, H., Larcher, A., & Hachem, E. (2020). Direct shape optimization
through deep reinforcement learning. Journal of Computational Physics, 110080. doi:10.1016/j.jcp.2020.110080

Mã nguồn mở code
The code of this project is available on the following Github repository: https://github .com /jviquerat /drl
_shape _ optimization. It relies on FEniCS for the CFD resolution [35], and on Tensorforce [39] for the
reinforcement learning library. The generation of shapes using Bézier curves description is ensured by a
homemade code included in the repository.

22

BÁO cáo môn học MẠNG máy TÍNH đề tài direct shape optimization through deep reinforcement learning

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về