Tải bản đầy đủ (.docx) (47 trang)

reinforcement learning

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.04 MB, 47 trang )

MỤC LỤC
TỔNG QUAN VỀ REINFORCEMENT LEARNING..................................................1
1.1 Reinforcement Learning là một nhánh của Machine Learning............................1
1.2 Reinforcement Learning là gì?.............................................................................2
1.3 Các thuật ngữ thông dụng....................................................................................3
1.3.1 Agent............................................................................................................. 3
1.3.2 Environment..................................................................................................3
1.3.3. Action........................................................................................................... 3
1.3.4. Observation..................................................................................................4
1.3.5. State.............................................................................................................4
1.3.6. Policy...........................................................................................................5
1.3.7. Reward.........................................................................................................5
1.3.8 Episode.........................................................................................................5
*Khai thác và khám phá.........................................................................................5
1.4 Markov Decision Process.....................................................................................6
1.5 Policy and value functions...................................................................................7
1.5.1 Policy............................................................................................................7
1.5.2 Value functions...........................................................................................7
1.6 Phương trình Bellman..........................................................................................8
1.6.1 Phương trình Bellman cho hàm State-value..................................................9
1.6.2 Phương trình Bellman cho hàm Action-value...............................................9
1.6.3 Phương trình bellman của tính tối ưu..........................................................10
1.7 Ưu điểm của việc Reinforcement Learning........................................................11
1.8 Nhược điểm của Reinforcement Learning.........................................................12
PHÂN LOẠI CÁC THUẬT TOÁN REINFORCE LEARNING.................................12
2.1 Model-Free so với Model-Based Reinforcement Learnning..............................13
2.2 Tối ưu hóa và kiểm sốt trong Model-Based( Dựa trên mơ hình)......................14
2.2.1 Dynamic programming...............................................................................15
2.3 Model-Free Reinforcement Learning.................................................................21
2.3.1 Monte Carlo Learning.................................................................................21
2.3.2 Temporal difference (TD) learning..............................................................23


2.3.3 SARSA: State–action–reward–state–action learning..................................24
2.3.4 Q-Learning..................................................................................................25
2.3.5 So sánh Q-learning và SARSA...................................................................25
2.4 Policy Gradient Optimization............................................................................26
2.5 Deep Reinforcement Learning...........................................................................28
2.5.1 Deep Q-learning..........................................................................................29


2.5.2 So sánh Deep Q-learning với Q learning.....................................................30
2.5.3 Actor-critic learning....................................................................................31
2.5.4 Những thách thức trong Deep RL so với Deep Learning............................32
SO SÁNH CÁC THUẬT TOÁN REINFORCEMENT LEARNING..........................35
3.1 Các yếu tố quyết định để chọn một thuật toán Reinforcement Learning............35
3.2 On-Policy so với Off-policy...............................................................................37
3.3 Hiệu quả mẫu.....................................................................................................40
3.4 Hiệu quả lấy mẫu so với thời gian lấy mẫu........................................................42
3.5 Ổn định và hội tụ...............................................................................................42
3.6 So sánh model-free và model-based...................................................................44
3.7 So sánh học dựa trên giá trị với gradient chính sách..........................................45
3.8 Tóm tắt lại..........................................................................................................46

TỔNG QUAN VỀ REINFORCEMENT LEARNING
1.1 Reinforcement Learning là một nhánh của Machine Learning
“Machine learning (ML) is a process whereby a computer program learns from
experience to improve its performance at a specified task” (Kiran, 2020). Hiểu đơn
giản machine learning (học máy) là kỹ thuật giúp cho máy tính có thể tự học và đưa ra
quyết định mà không cần phải cài đặt các quy tắc, luật lệ. Machine learning đang là
lĩnh vực công nghệ được quan tâm nhiều nhất hiện nay. Nó ngày càng được ứng dụng
vào thực tế cuộc sống, từ các ứng dụng mạng xã hội, thương mại điện tử hay
marketing… tạo ra những giá trị to lớn cho các dịch vụ này.



Mối liên hệ giữa AI, Machine learning và Deep learning (Ảnh: intel)
Các thuật toán học máy thường được phân thành 3 loại lớn: supervised learning
(học có giám sát), unsupervised learning (học không giám sát) và reinforcement
learning (học tăng cường). Nếu như supervised learning là học tập từ một tệp các dữ
liệu được gắn nhãn để suy luận ra quan hệ giữa đầu vào và đầu ra, thì unsupervised
learning khơng được cung cấp các dữ liệu được gắn nhãn ấy, thay vào đó chỉ được
cung cấp dữ liệu mà thuật tốn tìm cách mơ tả dữ liệu và cấu trúc của chúng. Loại thứ
3 là reinforcement learning - phương pháp tập trung vào việc làm thế nào để cho một
tác tử trong mơi trường có thể hành động sao cho lấy được phần thưởng nhiều nhất có
thể. Khác với học có giám sát, học tăng cường khơng có cặp dữ liệu gán nhãn trước
làm đầu vào và cũng khơng có đánh giá các hành động là đúng hay sai.
“Reinforcement learning là đào tạo các mơ hình học máy để đưa ra một chuỗi các
quyết định. Tác tử học cách đạt được mục tiêu trong một mơi trường khơng chắc chắn,
có thể là phức tạp.”
Đến đây ta có thể thấy, reinforcement learning là một nhánh của machine learning.


3 loại chính của Học máy (Ảnh: Google)
1.2 Reinforcement Learning là gì?
Reinforcement Learning là việc đào tạo các mơ hình Machine Learning để đưa
ra một chuỗi các quyết định. Trong Reinforcement Learning, trí tuệ nhân tạo (AI) đối
mặt với một tình huống giống như trị chơi. Máy tính sử dụng thử và sai (trial and
error) để đưa ra giải pháp cho vấn đề. Để khiến máy làm những gì lập trình viên muốn,
các máy (agent) sẽ nhận được phần thưởng (reward) hoặc hình phạt (penalty) cho
những hành động(action) mà nó thực hiện. Mục tiêu của nó là tối đa hóa tổng phần
thưởng.

Bằng cách tận dụng sức mạnh của tìm kiếm và nhiều thử nghiệm,

Reinforcement Learning hiện là cách hiệu quả nhất để gợi ý sự sáng tạo của máy móc.
Trái ngược với con người, trí thơng minh nhân tạo có thể thu thập kinh nghiệm từ hàng


nghìn gameplays song song nếu một thuật tốn Reinforcement Learning được chạy
trên cơ sở hạ tầng máy tính đủ mạnh.

1.3 Các thuật ngữ thơng dụng
Trong reinforcement learning có rất nhiều các thuật ngữ khác nhau. Sau đây
chúng ta cùng liệt kê các thuật ngữ thơng dụng và tìm hiểu ý nghĩa của từng thuật ngữ
đó nhé !
1.3.1 Agent
Trong reinforcement learning có một thuật ngữ gọi là agent - được định nghĩa
là “anything that can be viewed as perceiving its environment through sensors and
acting upon that environment through actuators” (máy quan sát môi trường và sinh ra
hành động tương ứng).

1.3.2 Environment
Môi trường là không gian xung quanh của agent, nơi mà agent tồn tại và tương
tác
1.3.3. Action
Hành động là phương thức của agent cho phép nó tương tác với mơi trường và
thay đổi môi trường. Dựa trên State S(t) của environment hiện tại mà agent sẽ đưa
ra Action A(t)


1.3.4. Observation
Sau khi nhận được sự tương tác từ agent thì environment có sự chuyển đổi
trạng thái đối với agent


1.3.5. State
Là trạng thái của môi trường mà agent nhận được


1.3.6. Policy
Chính sách là yếu tố xác định cách thức hoạt động của agent tại một thời điểm
nhất định. Nói cách khác, chính sách là một ánh xạ từ các trạng thái (state) của môi
trường đến các hành động sẽ được thực hiện khi ở trong các trạng thái đó. Chính sách
là cốt lõi của agent trong việc xác định hành vi. Trong một số trường hợp, chính sách
có thể là một hàm hoặc bảng tra cứu đơn giản. Trong một số trường hợp khác, chính
sách có thể liên quan đến tính tốn mở rộng, ví dụ như q trình tìm kiếm.
1.3.7. Reward
Ở mỗi hành động, mơi trường gửi đến cho agent một phần thưởng xác định.
Mục tiêu của agent là tối đa hóa tổng phần thưởng mà nó nhận được trong một thời
gian dài. Tín hiệu phần thưởng (reward signal) giúp xác định đâu là sự kiện tốt và xấu
đối với agent, đồng thời nó cũng là cơ sở chính để thay đổi chính sách. Nếu một hành
động được lựa chọn bởi chính sách mang đến phần thưởng thấp, thì chính sách đó có
thể bị thay đổi. Agent sẽ lựa chọn các hành động khác trong các tình huống tương tự ở
tương lai.

1.3.8 Episode
Là một loạt các tương tác giữa agent và environment từ thời điểm bắt đầu đến
khi kết thúc quá trình
*Khai thác và khám phá
Một trong những thách thức nảy sinh trong reinforcement learning, đó là sự
đánh đổi giữa khai thác và khám phá (exploit or explore). Để nhận được nhiều phần
thưởng, agent phải ưu tiên lựa chọn các hành động mà nó đã từng thử trong quá khứ và
giúp nó đạt được phần thưởng. Agent sẽ xem tất cả các hành động có thể xảy ra cho
một trạng thái nhất định, sau đó lựa chọn hành động dựa trên giá trị tối đa của những



hành động đó. Đây gọi là khai thác (exploit) vì chúng ta sử dụng thơng tin có sẵn để
đưa ra một quyết định (make a decision).
Ngồi ra, agent thay vì chọn các hành động dựa trên phần thưởng tối đa trong
tương lai, nó có thể chọn hành động một cách ngẫu nhiên. Hành động ngẫu nhiên rất
quan trọng vì nó cho phép agent thăm dò và khám phá các trạng thái mới mà khơng
được lựa chọn trong q trình khai thác. Tóm lại, agent phải khai thác những gì mà nó
đã trải qua để nhận được phần thưởng, nhưng cũng phải khám phá để đưa ra lựa chọn
hành động tốt hơn trong tương lai.
1.4 Markov Decision Process
Các vấn đề học tập củng cố được mơ tả dưới dạng Q trình quyết định Markov
(MDP) được xác định bởi 5 yếu tố:
 Một khơng gian trạng thái S trong đó mỗi trạng thái đều tn theo thuộc tính
Markov. Nó có thể là hữu hạn hoặc vô hạn.
 Một không gian hành động A của các hành động a, có thể là hữu hạn hoặc vô
hạn, rời rạc hoặc liên tục.
 Một phân phối trạng thái ban đầu (từ đó các trạng thái là tác nhân có khả năng
bắt đầu).
 Một mơ hình động lực học chuyển tiếp với mật độ. Nó xác định xác suất đến
trạng thái s′ tại thời điểm t + 1 khi ở trạng thái s và thực hiện hành động a.
 Một hàm phần thưởng r(s,a,s′): S × A × S → R xác định phần thưởng (ngẫu
nhiên) nhận được sau khi thực hiện một ở trạng thái s và đến trong s′.
Hành vi của tác nhân theo thời gian là một quỹ đạo (còn được gọi là episode) : được
xác định bởi động lực của MDP. Mỗi chuyển đổi xảy ra với xác suất . và cung cấp một
lượng phần thưởng nhất định được xác định bởi r(s,a,s′): Trong các nhiệm vụ nhiều
đoạn thì T là hữu hạn, trong khi trong các nhiệm vụ liên tục thì T là vơ hạn.
Điều quan trọng, thuộc tính Markov tun bố rằng:

tức là bạn khơng cần tồn bộ lịch sử của tác nhân để dự đốn nơi nó sẽ đến sau một
hành động. Trong các bài toán đơn giản, đây chỉ là một câu hỏi cung cấp đủ thông tin

để mơ tả trạng thái: nếu q trình chuyển đổi phụ thuộc vào những gì đã xảy ra trong
quá khứ, chỉ cần đưa thơng tin đó vào mơ tả trạng thái.
Nếu thuộc tính Markov khơng được đáp ứng, các phương thức RL có thể khơng
hội tụ (hoặc kém). Trong nhiều bài tốn, người ta khơng tiếp cận được các trạng thái
thực của tác nhân mà người ta chỉ có thể quan sát gián tiếp chúng. Ví dụ: trong một trị


chơi điện tử, trạng thái thực được xác định bởi một vài biến số: tọa độ (x, y) của hai
người chơi, vị trí của quả bóng, tốc độ, v.v. Tuy nhiên, tất cả những gì bạn có quyền
truy cập là các pixel thơ, đơi khi bóng có thể bị khuất sau tường hoặc gốc cây, nhưng
nó vẫn tồn tại trong không gian trạng thái. Thông tin tốc độ cũng không thể quan sát
được trong một khung hình duy nhất.
Trong Quy trình quyết định Markov có thể quan sát được một phần (POMDP),
các quan sát đến từ một không gian và được liên kết với các trạng thái cơ bản bằng
cách sử dụng hàm mật độ Các quan sát thường không phải là Markov, vì vậy cần có
lịch sử đầy đủ của các quan sát để giải quyết vấn đề.
1.5 Policy and value functions
1.5.1 Policy
Chính sách là một chức năng ánh xạ một trạng thái nhất định với xác suất chọn
từng hành động có thể xảy ra từ trạng thái đó. Chúng ta sử dụng biểu tượng π để biểu
thị một chính sách.
Khi nói về các chính sách, chính thức nói rằng một Agent “tuân theo một chính
sách”. Ví dụ: nếu một Agent tuân theo chính sách π tại thời điểm t, sau đó π(a|s) là xác
suất . Điều này có nghĩa rằng, tại thời điểm t, theo chính sách π, xác suất thực hiện
hành động a ở trạng thái s là π(a|s).
Lưu ý rằng, đối với mỗi trạng thái s∈S, π là một phân phối xác suất trên a∈A(s).
1.5.2 Value functions
Hàm giá trị là hàm của các trạng thái hoặc của các cặp hành động trạng thái,
ước tính mức độ tốt của Agent ở một trạng thái nhất định hoặc mức độ tốt của Agent
khi thực hiện một hành động nhất định trong một trạng thái nhất định.

Khái niệm này về mức độ tốt của một cặp trạng thái hoặc hành động trạng thái được
đưa ra xét về lợi tức mong đợi. Hãy nhớ rằng, phần thưởng mà đại lý mong đợi nhận
được phụ thuộc vào những hành động mà đại lý thực hiện trong các trạng thái nhất
định. Vì vậy, các hàm giá trị được xác định liên quan đến các cách hành động cụ
thể. Vì cách hành động của một đại lý bị ảnh hưởng bởi chính sách mà họ đang tuân
theo, nên chúng ta có thể thấy rằng các hàm giá trị được xác định đối với các chính
sách.
1.5.2.1 State-value funcion


Hàm giá trị trạng thái cho chính sách π, được biểu thị là , cho chúng tôi biết bất
kỳ trạng thái cụ thể nào tốt như thế nào đối với một Agent tn theo chính sách π. Nói
cách khác, nó cung cấp cho chúng ta giá trị của một trạng thái dưới chính sách π.
Về mặt hình thức, giá trị của trạng thái s theo chính sách π là lợi tức mong đợi
từ khi bắt đầu s tại thời điểm t và tn theo chính sách π sau đó. Về mặt tốn học,
chúng tơi xác định bằng :

1.5.2.2 Action-value funcion
Tương tự, hàm giá trị hành động cho chính sách π, được biểu thị là , cho chúng
tôi biết việc Agent thực hiện bất kỳ hành động cụ thể nào từ một trạng thái nhất định
trong khi tuân thủ chính sách sẽ tốt như thế nào π. Nói cách khác, nó cung cấp cho
chúng ta giá trị của một hành động trong chính sách π.
Về mặt hình thức, giá trị của hành động a ở trạng thái s theo chính sách π là lợi
tức mong đợi từ khi bắt đầu từ s thời điểm t, hành động a và tuân theo chính sách π sau
đó. Về mặt tốn học, chúng tơi xác định bằng :

Thông thường, hàm giá trị hành động được gọi là hàm Q và kết quả đầu ra từ
hàm cho bất kỳ cặp hành động trạng thái nhất định nào được gọi là giá trị Q. Chữ cái
“ Q ” được sử dụng để thể hiện Quality của việc thực hiện một hành động nhất định
trong một trạng thái nhất định. Chúng ta sẽ làm việc với các hàm Q-value rất nhiều

trong tương lai.
1.6 Phương trình Bellman
Phương trình Bellman xuất hiện ở khắp mọi nơi trong tài liệu Học tăng cường,
là một trong những yếu tố trung tâm của nhiều thuật tốn Học tăng cường. Tóm lại,
chúng ta có thể nói rằng phương trình Bellman phân tách hàm giá trị thành hai phần,
phần thưởng trước mắt cộng với giá trị chiết khấu trong tương lai.Phương trình này
đơn giản hóa việc tính tốn hàm giá trị, sao cho thay vì tính tổng theo nhiều bước thời
gian, chúng ta có thể tìm ra lời giải tối ưu của một bài tốn phức tạp bằng cách chia nó
thành các bài tốn con đệ quy, đơn giản hơn và tìm ra lời giải tối ưu của chúng.


Để dễ hiểu về công thức trong các phần sau, sơ đồ tiếp theo cho thấy quy ước
về tên được đặt cho các biến và mối quan hệ của chúng:

Trong biểu đồ này, P có nghĩa là xác suất của hành động a , được đưa ra ở trạng thái s ,
kết thúc ở trạng thái s ' (với phần thưởng r ).
1.6.1 Phương trình Bellman cho hàm State-value
Chúng ta đã thấy rằng chúng ta có thể xác định lợi tức chiết khấu, G, theo thuật
ngữ đệ quy. Bây giờ chúng ta hãy xem cách đệ quy chúng ta có thể xác định phương
trình Bellman cho hàm giá trị trạng thái:

Phương trình này cho chúng ta biết cách tìm giá trị của trạng thái s . Chúng ta
có thể trực quan thấy rằng nó chia nhỏ một cách đệ quy việc tính tốn giá trị thành một
phần thưởng dự kiến ngay lập tức từ trạng thái tiếp theo (tổng trên các xác suất chính
sách) và lợi tức chiết khấu cho tất cả các trạng thái, theo sau trạng thái hiện tại.
Phương trình Bellman quan trọng vì nó cho chúng ta khả năng mô tả giá trị của
trạng thái s , với giá trị của trạng thái s và với cách tiếp cận lặp lại mà chúng ta sẽ trình
bày trong bài tiếp theo, chúng ta có thể tính tốn giá trị của tất cả những trạng thái.
1.6.2 Phương trình Bellman cho hàm Action-value
Chúng ta cũng có phương trình Bellman cho hàm giá trị hành động:


và do chúng ta đã chỉ ra rằng hàm giá trị trạng thái V(s') tương đương với tổng các
hàm giá trị hành động Q(s',a') của tất cả các hành động đi a' , nhân với xác suất chính
sách của việc chọn từng hành động , � (a '| s') , cơng thức trước đó có thể được biểu
diễn như sau:


Một lần nữa, để dễ hiểu về công thức, chúng ta có thể xây dựng sơ đồ này với mối
quan hệ giữa biến cho hàm giá trị hành động:

1.6.3 Phương trình bellman của tính tối ưu
Như chúng ta sẽ thấy trong bài tiếp theo, phương trình Bellman được sử dụng
để tìm các giá trị tối ưu của các hàm giá trị trong các thuật tốn để tính tốn chúng.
1.6.3.1 Phương trình tối ưu Bellman cho hàm giá trị trạng thái
Bellman đã chứng minh rằng giá trị tối ưu của trạng thái bằng với hành động,
mang lại cho chúng ta phần thưởng tức thì tối đa có thể có, cộng với phần thưởng dài
hạn được chiết khấu cho trạng thái tiếp theo:

Chính sách tối ưu
Mục tiêu của Agent là tối đa hóa tổng phần thưởng tích lũy trong thời gian dài.
Chính sách tối đa hóa tổng phần thưởng tích lũy được gọi là chính sách tối ưu . Lưu ý
rằng có thể có các chính sách tối ưu khác nhau, nhưng chúng đều có chung các hàm
giá trị, các hàm giá trị “tối ưu”.
Các phương trình tối ưu Bellman khơng chỉ cho chúng ta phần thưởng tốt nhất
mà chúng ta có thể có được, nhưng nó cũng mang đến cho chúng ta những chính sách
tối ưu để có được phần thưởng đó.
Nếu Agent của chúng tơi biết giá trị cho mọi trạng thái, thì Đại lý sẽ biết cách
thu thập tất cả phần thưởng này và Agent chỉ cần chọn trong mỗi bước thời gian hành
động dẫn Agent đến trạng thái có phần thưởng dự kiến tối đa trong mỗi thời điểm.
1.6.3.2 Phương trình tối ưu Bellman cho hàm giá trị hành động

Chúng ta cũng có thể định nghĩa V (s) thông qua Q (s, a):


Điều này chỉ có nghĩa là giá trị của một số trạng thái bằng với giá trị của hành
động tối đa mà chúng ta có thể thực hiện từ trạng thái này.
Bellman cũng chứng minh rằng giá trị tối ưu của trạng thái hành động có thể
được xác định một cách đệ quy là:
Điều đó có nghĩa là để có được chính sách tối ưu, chúng ta có thể lấy giá
trị trạng thái optima thông qua giá trị hành động.
1.7 Ưu điểm của việc Reinforcement Learning


Nó có thể giải quyết các vấn đề phức tạp và bậc cao hơn. Ngoài ra, các giải

pháp thu được sẽ rất chính xác.
 Lý do cho sự hồn hảo của nó là nó rất giống với kỹ thuật học tập của con
người.
 Mơ hình này sẽ trải qua một quá trình đào tạo nghiêm ngặt có thể mất thời gian.
Điều này có thể giúp sửa chữa bất kỳ lỗi nào.
 Do khả năng học hỏi của nó, nó có thể được sử dụng với các mạng thần kinh.
Điều này có thể được gọi là Reinforcement Learning sâu.
 Là mơ hình học hỏi liên tục nên một sai lầm được thực hiện trước đó sẽ khó có
thể xảy ra trong tương lai.
 Có thể xây dựng nhiều mơ hình giải quyết vấn đề khác nhau bằng cách sử dụng
phương pháp Reinforcement Learning.
 Khi nói đến việc tạo mô phỏng, phát hiện đối tượng trong ô tơ tự động, rơ bốt,
v.v., Reinforcement Learning đóng một vai trị lớn trong các mơ hình.
 Phần tốt nhất là ngay cả khi khơng có dữ liệu đào tạo, nó sẽ học được thơng qua
kinh nghiệm mà nó có được từ việc xử lý dữ liệu đào tạo.
 Đối với các vấn đề khác nhau, có vẻ phức tạp đối với chúng tơi, nó cung cấp

các mơ hình hồn hảo để giải quyết chúng.
1.8 Nhược điểm của Reinforcement Learning
Việc sử dụng các mơ hình Reinforcement Learning để giải quyết các vấn đề đơn
giản hơn sẽ không đúng. Lý do là, các mơ hình thường giải quyết các vấn đề phức tạp.
Chúng ta sẽ lãng phí sức mạnh xử lý và khơng gian khơng cần thiết bằng cách sử dụng
nó cho các vấn đề đơn giản hơn.
Reinforcement Learning cần nhiều dữ liệu để cung cấp cho mơ hình tính tốn.
Các mơ hình này yêu cầu nhiều dữ liệu đào tạo để phát triển các kết quả chính xác.
Điều này tiêu tốn thời gian và nhiều sức mạnh tính tốn.


Khi nói đến việc xây dựng mơ hình trên các ví dụ thực tế, chi phí bảo trì rất cao.
Giống như để chế tạo các phương tiện không người lái, rơ bốt, chúng tơi sẽ u cầu
bảo trì rất nhiều cho cả phần cứng và phần mềm. Việc đào tạo quá nhiều có thể dẫn
đến quá tải các trạng thái của mơ hình. Điều này sẽ dẫn đến mơ hình để nhận được kết
quả. Điều này có thể xảy ra nếu quá nhiều dung lượng bộ nhớ hết trong quá trình xử lý
dữ liệu huấn luyện.

PHÂN LOẠI CÁC THUẬT TỐN REINFORCE
LEARNING
Ở phần trước chúng ta đã đi qua các khái niệm cơ bản về thuật ngữ và ký hiệu
RL, bây giờ đây chúng ta có thể tìm hiểu các thuật toán trong RL hiện đại, ưu nhước
điểm và phạm vi áp dụng của chúng.
Chúng ta cùng nhìn vào sơ đồ sau đây :

2.1 Model-Free so với Model-Based Reinforcement Learnning
Một trong những điểm phân nhánh quan trọng nhất trong thuật toán RL là câu
hỏi liệu tác nhân có quyền truy cập (hoặc học) một mơ hình của mơi trường hay khơng
(học dựa trên mơ hình và khơng có mơ hình). Theo một mơ hình của mơi trường,
chúng ta muốn nói đến một chức năng dự đoán sự chuyển đổi trạng thái và phần

thưởng.
Các mơ hình được sử dụng để lập kế hoạch; để quyết định một quá trình hành
động bằng cách xem xét các tình huống có thể xảy ra trong tương lai. Các phương


pháp giải quyết các vấn đề học tập củng cố sử dụng mơ hình và lập kế hoạch được gọi
là phương pháp dựa trên mơ hình, trái ngược với các phương pháp khơng có mơ hình
đơn giản hơn là người học thử-và-sai rõ ràng.
Để nhắc lại, một mơ hình trong RL đề cập đến việc tác nhân có đang sử dụng
việc học thông qua các hành động trong môi trường hay khơng. Agent có thể sử dụng
một dự đốn duy nhất từ mơ hình của phần thưởng tiếp theo hoặc có thể u cầu mơ
hình cho phần thưởng tiếp theo dự kiến. Hãy coi nó giống như một máy tính chơi một
trò chơi chiến lược như cờ vua hoặc cờ vây. Tại đây, các quy tắc có thể được cài đặt
sẵn hoặc máy tính có thể học khi đang di chuyển.
Một cách tốt hơn và rõ ràng hơn để hiểu các hệ thống khơng có mơ hình là so
sánh chúng với các hệ thống dựa trên mơ hình. Trong trường hợp của một hệ thống
khơng có mơ hình, phản hồi của môi trường đối với các hành động cục bộ khơng được
xem xét. Các phương pháp khơng có mơ hình có thể có lợi thế hơn các phương pháp
phức tạp hơn khi điểm nghẽn thực sự trong việc giải quyết một vấn đề là khó khăn
trong việc xây dựng một mơ hình mơi trường đủ chính xác. Các phương pháp khơng
có mơ hình cũng là các khối xây dựng quan trọng cho các phương pháp dựa trên mơ
hình. Chiến lược khơng có mơ hình dựa trên các giá trị được lưu trữ cho các cặp hành
động trạng thái. Các giá trị hành động này là ước tính về lợi nhuận cao nhất mà tác
nhân có thể mong đợi cho mỗi hành động được thực hiện từ mỗi trạng thái.
Khi môi trường của tác nhân khơng có mơ hình thay đổi cách nó phản ứng với
các hành động của tác nhân, tác nhân phải có được trải nghiệm mới trong mơi trường
đã thay đổi trong đó nó có thể update policy và /hoặc value function.
Đối với tác nhân khơng có mơ hình để thay đổi hành động mà chính sách của nó chỉ
định cho một trạng thái hoặc để thay đổi một giá trị hành động được liên kết với một
trạng thái, nó phải chuyển đến trạng thái đó, hành động từ nó, có thể nhiều lần và trải

qua hậu quả của nó các hành động.
Nhiều thuật tốn học tăng cường hiện đại khơng có mơ hình, vì vậy chúng có
thể áp dụng trong các mơi trường khác nhau và có thể dễ dàng phản ứng với các trạng
thái mới và chưa nhìn thấy. Trong cơng việc của các tác giả Barto và Sutton về học tập
củng cố, họ đã chứng minh RL khơng có mơ hình bằng cách sử dụng một con chuột
trong mê cung. Trong trường hợp này, chiến lược khơng có mơ hình dựa trên các giá
trị hành động được lưu trữ cho tất cả các cặp trạng thái - hành động thu được qua
nhiều thử nghiệm học tập. Để đưa ra quyết định, chuột chỉ cần chọn ở mỗi trạng thái
hành động có giá trị hành động lớn nhất cho trạng thái đó. Theo Barto & Sutton, sự
khác biệt giữa các thuật toán học tập củng cố dựa trên mơ hình và khơng có mơ hình
tương tự như việc kiểm sốt theo thói quen và hướng tới mục tiêu đối với các mẫu
hành vi đã học. Thói quen là tự động. Chúng là những kiểu hành vi được kích hoạt bởi


những kích thích thích hợp (nghĩ: phản xạ). Trong khi đó, hành vi hướng tới mục tiêu
được kiểm sốt bởi kiến thức về giá trị của các mục tiêu và mối quan hệ giữa các hành
động và hậu quả của chúng. Các tác giả viết: “Thói quen đơi khi được cho là bị kiểm
sốt bởi các kích thích từ trước, trong khi hành vi hướng đến mục tiêu được cho là bị
kiểm sốt bởi hậu quả của nó”. Điều đó nói rằng, những người tiên phong của RL như
Richard Sutton tin rằng khơng có gì có thể ngăn cản tác nhân sử dụng cả thuật tốn
khơng có mơ hình và dựa trên mơ hình, và có những lý do chính đáng để sử dụng cả
hai.
*Tóm tắt lại :
Khi có một mơ hình đã biết cho mơi trường, có một số thuật tốn để học chính
sách hoặc hàm giá trị tối ưu thông qua cái được biết gọi policy iteration và value
iteration, là các dạng quy hoạch động(dynamic programming) sử dụng phương trình
Bellman và Markov decision process(MDP). Khi khơng có mơ hình cho mơi trường,
các chiến lược thay thế, chẳng hạn như Q-learning, phải được sử dụng. Vấn đề tối ưu
hóa học tăng cường có thể đặc biệt khó khăn đối với các hệ thống “high dimensional”
với động lực ngẫu nhiên, phi tuyến, không xác định và phần thưởng thưa thớt và chậm

trễ. Tất cả các thuật tốn này có thể được kết hợp với các kỹ thuật xấp xỉ hàm, chẳng
hạn như mạng nơ-ron(neural networks), để xấp xỉ chính sách , hàm giá trị V hoặc hàm
chất lượng Q. Những cách tiếp cận dựa trên mơ hình, khơng mơ hình và học sâu này sẽ
được thảo luận bên dưới.
2.2 Tối ưu hóa và kiểm sốt trong Model-Based( Dựa trên mơ hình)
Phần này cung cấp cái nhìn tổng quan về một số kỹ thuật điều khiển và tối ưu
hóa dựa trên mơ hình thiết yếu. Một số người khơng coi những kỹ thuật này là học tập
củng cố vì chúng khơng liên quan đến việc học một chiến lược tối ưu thơng qua trải
nghiệm thử và sai. Tuy nhiên, chúng có quan hệ mật thiết với nhau. Có thể học một mơ
hình thơng qua thử và sai, sau đó sử dụng mơ hình này với những kỹ thuật này, được
coi là RL.
Đối với trường hợp đơn giản của một mơ hình đã biết là MDP hữu hạn, có thể
học chính sách hoặc hàm giá trị tối ưu thông qua cái được gọi là policy iteration và
value iteration, là các dạng quy hoạch động sử dụng phương trình Bellman. Lập trình
động là một cách tiếp cận mạnh mẽ được sử dụng để điều khiển phi tuyến tối ưu chung
và học củng cố, trong số các tác vụ khác. Các thuật toán này cung cấp một khung tối
ưu hóa được đơn giản hóa về mặt toán học giúp đưa ra các khái niệm thiết yếu được sử
dụng xuyên suốt.


2.2.1 Dynamic programming
Quy hoạch động là một khung toán học được giới thiệu bởi Richard E. Bellman
để giải quyết tối ưu hóa nhiều bước lớn, chẳng hạn như những vấn đề được tìm thấy
trong quá trình ra quyết định và kiểm soát. Policy iteration và value iteration, được
thảo luận dưới đây, là hai ví dụ về việc sử dụng quy hoạch động trong học củng cố. Để
giải quyết các tối ưu hóa nhiều bước này, quy hoạch động định dạng lại bài tốn tối ưu
hóa lớn dưới dạng tối ưu hóa đệ quy đối với các bài tốn con nhỏ hơn, để chỉ cần tối
ưu hóa một quyết định cục bộ. Cách tiếp cận này dựa trên nguyên tắc tối ưu của
Bellman, trong đó nói rằng chính sách kiểm sốt nhiều bước lớn cũng phải tối ưu cục
bộ trong mọi chuỗi của các bước con.

Phương trình Bellman chỉ ra rằng vấn đề tối ưu hóa lớn trên tồn bộ quỹ đạo
hành động trạng thái () có thể được chia thành tối ưu hóa đệ quy tại mỗi điểm dọc theo
quỹ đạo. Miễn là đã biết hàm giá trị tại điểm tiếp theo , thì có thể giải tối ưu hóa tại
điểm s đơn giản bằng cách tối ưu hóa chính sách (s, a) tại thời điểm này. Tất nhiên,
điều này giả định rằng hàm giá trị đã biết ở tất cả các trạng thái tiếp theo có thể có , là
một hàm của trạng thái hiện tại , hành động hiện tại , và động lực chi phối hệ thống;
điều này thậm chí cịn trở nên phức tạp hơn đối với các động lực học không MDP,
chẳng hạn như công thức điều khiển phi tuyến. Đối với các bài toán lớn thậm chí vừa
phải, điều này mắc phải sự hạn chế về số chiều, và các phương pháp giải gần đúng
phải được sử dụng.
Khi quy hoạch động, có thể điều chỉnh (tức là quá trình chia một vấn đề lớn
thành các vấn đề con chồng chéo nhỏ hơn) sẽ cung cấp một giải pháp tối ưu tồn cầu.
Có hai cách tiếp cận chính đối với quy hoạch động, được gọi là từ trên xuống và từ
dưới lên:
Từ trên xuống: Cách tiếp cận từ trên xuống liên quan đến việc duy trì một bảng
các bài tốn con được đề cập đến khi giải các bài toán lớn hơn. Đối với một vấn đề
mới, bảng được kiểm tra để xem vấn đề phụ liên quan đã được giải quyết chưa. Nếu
có, nó được sử dụng, và nếu không, vấn đề phụ sẽ được giải quyết. Lưu trữ dạng bảng
này được gọi là ghi nhớ và trở nên phức tạp về mặt tổ hợp đối với nhiều vấn đề.
Từ dưới lên: Cách tiếp cận từ dưới lên bao gồm việc bắt đầu bằng cách giải
quyết các vấn đề con nhỏ nhất trước, sau đó kết hợp các vấn đề này lại để tạo thành
các vấn đề lớn hơn. Điều này có thể được coi là làm việc ngược lại từ mọi trạng thái
mục tiêu có thể, tìm hành động trước đó tốt nhất để đạt được điều đó, sau đó quay lại
hai bước, sau đó quay lại ba bước, v.v.
Trong một số trường hợp, nó làm giảm độ phức tạp tính tốn thành một thuật
tốn chia tỷ lệ tuyến tính với số lượng bài tốn con, mặc dù điều này vẫn có thể lớn về
mặt tổ hợp, như trong ví dụ về trị chơi cờ vua. Quy hoạch động có liên quan chặt chẽ


đến các kỹ thuật chia để trị, chẳng hạn như sắp xếp nhanh, ngoại trừ phép chia để trị áp

dụng cho các bài tốn con khơng trùng lặp hoặc khơng đệ quy (tức là độc lập), trong
khi quy hoạch động áp dụng cho các bài toán chồng chéo hoặc đệ quy các vấn đề phụ
phụ thuộc lẫn nhau. Tuy nhiên, chiến lược đệ quy đề xuất các kỹ thuật giải gần đúng,
chẳng hạn như phương pháp định hướng xen kẽ, trong đó giải pháp phụ tối ưu được
khởi tạo và hàm giá trị được lặp lại.
Tóm tắt lại :
Các thuật toán quy hoạch động hoạt động dựa trên giả định rằng chúng ta có
một mơ hình hồn hảo về MDP của mơi trường. Vì vậy, chúng tơi có thể sử dụng
phương pháp tiếp cận trước một bước và tính tốn phần thưởng cho tất cả các hành
động có thể xảy ra.
Trong báo cáo này, chúng ta sẽ thảo luận về cách tìm một chính sách tối ưu cho
một MDP nhất định. Cụ thể hơn, chúng ta sẽ tìm hiểu về hai thuật toán quy hoạch
động: policy iteration và value iteration (lặp giá trị và lặp chính sách). Sau đó, chúng
ta sẽ thảo luận về ưu điểm và nhược điểm của các thuật toán này so với nhau.
2.2.1.1 Policy iteration
Lặp lại chính sách là một quy trình tối ưu hóa hai bước để tìm đồng thời một
hàm giá trị tối ưu và chính sách tối ưu tương ứng . Đầu tiên, một chính sách ứng viên
được đánh giá, dẫn đến hàm giá trị cho chính sách cố định này. Điều này thường liên
quan đến tính tốn của hàm giá trị cho chính sách này bắt đầu từ nhiều hoặc tất cả các
trạng thái ban đầu. Chính sách có thể cần được mô phỏng trong một thời gian dài tùy
thuộc vào độ trễ phần thưởng và hệ số chiết khấu .
Trong quá trình lặp lại chính sách, chúng ta bắt đầu bằng cách chọn một chính
sách tùy ý . Sau đó, chúng ta đánh giá và cải thiện chính sách một cách lặp đi lặp lại
cho đến khi hội tụ:

Tiếp theo, hàm giá trị được cố định và chính sách được tối ưu hóa để cải thiện
phần thưởng mong đợi bằng cách thực hiện các hành động khác nhau ở một trạng thái


nhất định. Sự tối ưu hóa này dựa trên cơng thức đệ quy thay thế của hàm giá trị do

phương trình Bellman:
Sau đó, chúng tơi tính tốn chính sách được cải thiện bằng cách sử dụng tính năng
xem trước một bước để thay thế chính sách ban đầu :
Ở đây, là phần thưởng được tạo ra bằng cách thực hiện hành động ,là hệ số chiết
khấu cho các phần thưởng trong tương lai và là xác suất chuyển đổi.
Ban đầu, chúng ta sẽ khơng quan tâm đến việc chính sách ban đầu có tối ưu hay
khơng. Trong q trình thực hiện, chúng ta tập trung vào việc cải thiện nó trên mỗi lần
lặp lại bằng cách lặp lại các bước đánh giá chính sách và cải tiến chính sách. Sử dụng
thuật tốn này, sẽ tạo ra một chuỗi các chính sách, trong đó mỗi chính sách là một cải
tiến so với chính sách trước đó:
Chúng ta tiến hành các bước đánh giá chính sách và cải thiện chính sách cho
đến khi chính sách khơng cải thiện nữa:

Vì một MDP hữu hạn có số lượng chính sách hữu hạn, q trình xác định là hữu
hạn. Cuối cùng, hội tụ một chính sách tối ưu và một hàm giá trị tối ưu được đảm bảo.
2.2.1.2 Value iteration


Trong phép lặp giá trị, chúng tơi tính tốn hàm giá trị trạng thái tối ưu bằng
cách cập nhật lần lượt ước tính :

Chúng ta sẽ bắt đầu với một hàm giá trị ngẫu nhiên . Ở mỗi bước, chúng tơi cập
nhật nó:
Do đó, chúng ta nhìn trước một bước và xem xét tất cả các hành động có thể có ở mỗi
lần lặp để tìm ra mức tối đa:

Bước cập nhật rất giống với bước cập nhật trong thuật tốn lặp chính sách. Sự
khác biệt duy nhất là chúng tôi thực hiện tối đa tất cả các hành động có thể có trong
thuật tốn lặp giá trị.
Thay vì đánh giá và sau đó cải thiện, thuật tốn lặp giá trị cập nhật hàm giá trị

trạng thái trong một bước duy nhất. Điều này có thể thực hiện được bằng cách tính
tốn tất cả các phần thưởng có thể bằng cách nhìn về phía trước. Thuật tốn lặp giá trị
được đảm bảo hội tụ đến các giá trị tối ưu.

2.2.1.3 Policy iteration so với Value iteration


Lặp chính sách và lặp giá trị đều là các thuật tốn lập trình động nhằm tìm ra
chính sách tối ưu trong môi trường học tập củng cố. Cả hai đều sử dụng các biến thể
của bản cập nhật Bellman và khai thác cái nhìn trước một bước:

Trong quá trình lặp lại chính sách, chúng ta bắt đầu với một chính sách cố
định. Ngược lại, trong phép lặp giá trị, chúng ta bắt đầu bằng cách chọn hàm giá
trị. Sau đó, trong cả hai thuật tốn, qua sự cải tiến lặp đi lặp lại cho đến khi đạt được
sự hội tụ.
Thuật tốn lặp lại chính sách cập nhật chính sách. Thay vào đó, thuật tốn lặp
giá trị sẽ lặp qua hàm giá trị. Tuy nhiên, cả hai thuật toán đều cập nhật ngầm định hàm
giá trị trạng thái và chính sách trong mỗi lần lặp.
Trong mỗi lần lặp, chức năng lặp chính sách trải qua hai giai đoạn. Một giai
đoạn đánh giá chính sách và giai đoạn cịn lại cải thiện nó. Hàm lặp lại giá trị bao gồm
hai giai đoạn này bằng cách lấy tối đa hàm tiện ích cho tất cả các hành động có thể.
Thuật tốn lặp giá trị rất đơn giản. Nó kết hợp hai giai đoạn của q trình lặp lại
chính sách thành một thao tác cập nhật duy nhất. Tuy nhiên, hàm lặp giá trị chạy qua
tất cả các hành động có thể cùng một lúc để tìm giá trị hành động lớn nhất. Sau đó,
thuật tốn lặp giá trị nặng hơn về mặt tính tốn.
Cuối cùng, cả hai thuật tốn đều được đảm bảo hội tụ về một chính sách tối
ưu. Tuy nhiên, thuật tốn lặp chính sách hội tụ trong ít lần lặp hơn. Kết quả là, việc lặp
lại chính sách được báo cáo là kết luận nhanh hơn so với thuật toán lặp giá trị.
 Chúng ta sử dụng MDP để mơ hình hóa một mơi trường học tập củng cố. Do
đó, việc tính tốn chính sách tối ưu của MDP dẫn đến việc tối đa hóa phần

thưởng theo thời gian. Chúng ta có thể sử dụng các thuật tốn qua hoạch động
để tìm ra một chính sách tối ưu.
2.2.1.4 Quality function
Cả lặp lại chính sách và lặp lại giá trị đều dựa vào hàm chất lượng Q (s, a),
được định nghĩa là:
Theo một nghĩa nào đó, chính sách tối ưu và hàm giá trị tối ưu chứa thông tin
dư thừa, vì cái này có thể được xác định từ cái kia thông qua hàm chất lượng Q (s, a):


Các công thức này sẽ được sử dụng cho model-free Q-learning sẽ trình bày ở dưới đây.
2.3 Model-Free Reinforcement Learning
Cả lặp lại chính sách và lặp lại giá trị ở trên đều dựa vào hàm chất lượng Q (s,
a), hàm này mô tả mức độ mong muốn chung của một cặp trạng thái / hành động nhất
định. Lặp lại chính sách và lặp lại giá trị đều là thuật toán học tập củng cố dựa trên mơ
hình, trong đó giả định rằng mơ hình MDP đã biết: mỗi lần lặp yêu cầu xem trước một
bước hoặc dự đoán dựa trên mơ hình về trạng thái tiếp theo cho trạng thái hiện tại và
hành động s và a. Dựa trên mô hình này, có thể dự báo và tối đa hóa tất cả các hành
động có thể xảy ra.
Khi khơng có mơ hình, có một số cách tiếp cận học tập củng cố để tìm hiểu các
chính sách kiểm sốt và quyết định hiệu quả để tương tác với môi trường. Có lẽ cách
tiếp cận đơn giản nhất là trước tiên tìm hiểu một mơ hình mơi trường bằng cách sử
dụng một số chiến lược học tập tích cực theo hướng dữ liệu, và sau đó sử dụng các
phương pháp tiếp cận dựa trên mơ hình tiêu chuẩn đã thảo luận trước đó. Tuy nhiên,
điều này có thể khơng khả thi đối với các hệ thống rất lớn hoặc đặc biệt khơng có cấu
trúc.
Q-learning là một giải pháp thay thế khơng có mơ hình hàng đầu, học hàm Q
trực tiếp từ kinh nghiệm mà không yêu cầu quyền truy cập vào mơ hình. Do đó, có thể
tổng qt hóa nhiều chiến lược tối ưu hóa dựa trên mơ hình ở trên thành các cài đặt phi
cấu trúc hơn, nơi khơng có mơ hình. Hàm Q có tính năng nhìn trước một bước được
tích hợp ngầm trong biểu diễn của nó, mà không cần để tham chiếu một cách rõ ràng

đến một mơ hình.
Trước khi thảo luận chi tiết về cơ chế của Q-learning, sẽ hữu ích nếu bạn giới
thiệu một số khái niệm, bao gồm cả phương pháp học dựa trên Monte Carlo và
Temporal
difference learning( TD learning).
2.3.1 Monte Carlo Learning
Theo cách tiếp cận đơn giản nhất để học hỏi kinh nghiệm, hàm giá trị V hoặc
hàm chất lượng Q có thể được học thông qua lấy mẫu ngẫu nhiên Monte Carlo của
không gian hành động trạng thái thông qua đánh giá lặp lại nhiều chính sách. Các
phương pháp tiếp cận của Monte Carlo yêu cầu rằng nhiệm vụ RL là theo từng giai
đoạn, có nghĩa là nhiệm vụ có một khởi đầu xác định và kết thúc sau một số lượng
hành động hữu hạn, dẫn đến tổng phần thưởng tích lũy ở cuối tập. Trị chơi là ví dụ
điển hình về các nhiệm vụ RL theo từng đợt.


Trong phương pháp học Monte Carlo, tổng phần thưởng tích lũy khi kết thúc
nhiệm vụ được sử dụng để ước tính hàm giá trị V hoặc hàm chất lượng Q bằng cách
chia đều phần thưởng cuối cùng cho tất cả các trạng thái trung gian hoặc các cặp trạng
thái tương ứng. Đây là cách tiếp cận đơn giản nhất có thể để giải quyết vấn đề phân bổ
tín dụng, vì tín dụng được chia đều cho tất cả các bước trung gian. Tuy nhiên, vì lý do
này, việc học theo Monte Carlo thường khá kém hiệu quả, đặc biệt là đối với các vấn
đề với phần thưởng thưa thớt, rời rạc.
Hãy xem xét trường hợp Monte Carlo học hàm giá trị. Với một epidose mới bao gồm n
bước, phần thưởng chiết khấu tích lũy được tính :
và được sử dụng để cập nhật hàm giá trị ở mọi trạng thái đã truy cập trong episode
này:

Cập nhật gia tăng này, có trọng số 1 / n, tương đương với việc đợi cho đến khi
kết thúc episode và sau đó cập nhật hàm giá trị ở tất cả các trạng thái dọc theo quỹ đạo
với một phần thưởng bằng nhau. Tương tự, trong trường hợp Monte Carlo học được

hàm Q, phần thưởng chiết khấu được sử dụng để cập nhật hàm Q ở mọi cặp hành động
trạng thái (sk, ak) được truy cập trong episode này:

Trong giới hạn của dữ liệu vô hạn và khám phá vô hạn, cách tiếp cận này cuối
cùng sẽ lấy mẫu tất cả các cặp hành động trạng thái có thể có và hội tụ về hàm chất
lượng thực Q. Tuy nhiên, trong thực tế, điều này thường dẫn đến một tìm kiếm khó
thực hiện. Cũng có thể chiết khấu kinh nghiệm trước đây bằng cách giới thiệu tỷ lệ học
tập [0, 1] và sử dụng điều này để cập nhật chức năng Q:

Tỷ lệ học tập lớn hơn > 1 / n sẽ ưu tiên kinh nghiệm gần đây hơn.
Có một câu hỏi về cách khởi tạo nhiều episode cần thiết để học với Monte
Carlo. Khi có thể, episode sẽ được khởi tạo ngẫu nhiên ở mọi trạng thái ban đầu hoặc
cặp trạng thái-hành động, cung cấp một mẫu ngẫu nhiên; tuy nhiên, điều này có thể
không thực hiện được đối với nhiều nhiệm vụ học tập. Thông thường, việc học Monte
Carlo được thực hiện theo chính sách, nghĩa là chính sách tối ưu được ban hành, dựa
trên giá trị hoặc hàm chất lượng hiện tại và thơng tin từ chính sách tối ưu cục bộ này
được sử dụng để cập nhật. Cũng có thể thúc đẩy việc thăm dò bằng cách thêm một xác
suất nhỏ để thực hiện một hành động ngẫu nhiên, thay vì hành động được chỉ định bởi


chính sách tối ưu. Cuối cùng, có những phương pháp Monte Carlo off-policy, nhưng
nhìn chung, chúng khá kém hiệu quả hoặc không khả thi.
2.3.2 Temporal difference (TD) learning
Học tập khác biệt theo thời gian, là một chiến lược học tập dựa trên mẫu khác.
Trái ngược với phương pháp học Monte Carlo, các thuật tốn TD learning khơng bị
giới hạn trong các nhiệm vụ theo từng đợt, mà thay vào đó học liên tục bằng cách khởi
động dựa trên các ước tính hiện tại của hàm giá trị V hoặc hàm chất lượng Q, như
trong Dynamic programming.
TD learning được thiết kế để bắt chước các quá trình học tập ở động vật, trong
đó phần thưởng bị trì hỗn thời gian thường được học thông qua các dấu hiệu môi

trường hoạt động như các yếu tố củng cố thứ cấp trước phần thưởng bị trì hỗn. Do đó,
TD learning thường hiệu quả hơn so với học Monte Carlo, dẫn đến giảm phương sai,
nhưng phải trả giá là sai lệch trong học tập do khởi động.
2.3.2.1 TD(0) : “1-step look ahead ”
Để hiểu về việc học theo phương pháp khác biệt theo thời gian, sẽ hữu ích khi
bắt đầu với thuật tốn đơn giản nhất: TD (0). Trong TD (0), ước tính phần thưởng
tương lai trước một bước được sử dụng để cập nhật hàm giá trị hiện tại.
Cho một quỹ đạo điều khiển được tạo ra thơng qua một chính sách tối ưu , hàm
giá trị tại trạng thái được cho bởi :
Đối với các chính sách khơng tối ưu , ý tưởng này có thể được sử dụng để cập
nhật hàm giá trị dựa trên hàm giá trị một bước trong tương lai:

Thay vì sử dụng một mơ hình để dự đoán , cái mà được yêu cầu để đánh giá có
thể đợi cho đến khi bước tiếp theo thực sự được thực hiện và điều chỉnh lại hàm giá trị.
Lưu ý rằng điều này rất giống với việc tối ưu hóa phương trình Bellman bằng cách sử
dụng lập trình động nhưng với cập nhật hồi tố dựa trên dữ liệu được lấy mẫu chứ
không phải cập nhật chủ động dựa trên dự đốn của mơ hình.
Trong lần cập nhật TD(0) ở trên, biểu thức được gọi là TD target, vì nó là ước
tính cho phần thưởng trong tương lai, tương tự như trong Monte Carlo học về hàm Q.
Sự khác biệt giữa mục tiêu này và ước tính trước đó của hàm giá trị là TD error và nó
được sử dụng để cập nhật hàm giá trị, giống như trong phương pháp học Monte Carlo,
với tốc độ học .


2.3.2.2 TD(n): n-step look ahead
Các thuật toán khác biệt theo thời gian khác có thể được phát triển, dựa trên
những cái nhìn về tương lai nhiều bước. Ví dụ: TD(1) sử dụng mục tiêu TD dựa trên
hai bước trong tương lai:
và, TD(n) sử dụng TD target dựa trên n + 1 bước trong tương lai:


2.3.2.3 TD-: Weighted look ahead
Một biến thể quan trọng của họ TD learning là TD- được giới thiệu bởi Sutton.
TD- tạo TD target đó là giá trị trung bình có trọng số của các mục tiêu TD (n) khác
nhau Trọng số được đưa ra bởi :

Và phương trình cập nhật là :

2.3.3 SARSA: State–action–reward–state–action learning
SARSA là thuật tốn Reinforcement learning thuộc nhóm gradient free, cụ thể
hơn SARSA là một thuật toán TD phổ biến được sử dụng để tìm hiểu về chính sách
của hàm Q. Kỹ thuật Q-Learning là một kỹ thuật Off-Policy và sử dụng cách tiếp cận
tham lam để tìm hiểu giá trị Q. Mặt khác, kỹ thuật SARSA là On-Policy và sử dụng
hành động được thực hiện bởi chính sách hiện tại để tìm hiểu giá trị Q. Sự khác biệt
này có thể nhìn thấy trong sự khác biệt của các câu lệnh cập nhật cho mỗi kỹ thuật mà
ta sẽ tìm hiểu dưới đây. Phương trình cập nhật Q trong SARSA(0) gần giống với
phương trình cập nhật V trong TD(0).
Có các biến thể SARSA cho tất cả các thuật toán TD(n), dựa trên bước thứ n
của TD target:

Trong trường hợp này, phương trình cập nhật SARSA (n) có dạng như sau :


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×