Reinforcement
Learning
Học tăng cườ ng trong Khai phá dữ liệu
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
1
cement
g
Khai phá dữ liệu
Machine Learning
Bài toán
Quá trình quyết định
Học tăng cường
Q-Learning
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
2
cement
g
Khai phá dữ liệu
Machine Learning
Bài
Bài toán
toán
Quá trình quyết định
Học tăng cường
Q-Learning
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
3
cement
g
Khai phá dữ liệu
Machine Learning
Bài toán
Quá trình quyết định
Học tăng cường
Q-Learning
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
4
cement
g
Khai phá dữ liệu
Machine Learning
Bài toán
Quá trình quyết định
Học
Học tăng
tăng cường
cường
Q-Learning
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
5
cement
g
Khai phá dữ liệu
Machine Learning
Bài toán
Quá trình quyết định
Học tăng cường
Q-Learning
Q-Learning
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
6
Reinforcement
Learning
Học tăng cườ ng trong Khai phá dữ liệu
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
7
1
Machine Learning
Học máy
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
8
HỌC MÁY LÀ GÌ
“
A computer program is said to learn
from experience E with respect to
some task T and some performance
measure P, if its performance on T, as
measured by P, improves with
experience E.
Tom Mitchell (1998)
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY
9
HỌC MÁY LÀ GÌ
Tăng hiệu quả P thực hiện công việc T dựa trên kinh nghiệm E
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY
1
Chương trình email theo dõi xem email nào bạn
VÍ
DỤ
VỀ
HỌC
MÁY
đánh dấu là thư rác và email nào không. Sau đó sử
dụng quan sát đó để lọc thư rác chính xác hơn.
Khi đó công việc T là gì?
A. Phân loại thư rác
B. Theo dõi việc đánh dấu thư rác
C. Số thư rác được phân loại chính xác
D. Đây không phải là một bài toán học máy.
Tăng hiệu quả P thực hiện công việc T dựa trên kinh nghiệm E
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY
1
HÌNH THỨC
Học có
có giám
giám sát
sát
Học
Học không giám sát
Học tăng cường
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY
1
HÌNH THỨC
Học có giám sát
Học không giám sát
Học tăng cường
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY
1
HÌNH THỨC
Học có giám sát
Học không giám sát
Học
Học tăng
tăng cường
cường
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY
1
2
Problem
Bài toán
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
1
BÀI TOÁN
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
1
BÀI TOÁN
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
1
MÔ PHỎNG BÀI TOÁN
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
1
NHỮNG CĂN PHÒNG
F
A
E
B
D
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
C
1
MÔ PHỎNG VÔ HƯỚNG
A
B
F
E
D
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
C
2
MÔ PHỎNG CÓ HƯỚNG
A
B
F
E
D
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
C
2
MÔ PHỎNG CÓ HƯỚNG
A
B
F
E
3động
hành2
1
D
C
trạng
trạng thái
thái
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
2
MÔ PHỎNG PHẦN THƯỞNG
A
0
B
100
0
0
F
100
0
E
0
0
100
0
0
D
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
0
0
C
2
MÔ PHỎNG MA TRẬN
VỊ TRÍ TRƯỚC
VỊ TRÍ SAU
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
2
3
Decission Processes
Quá trình quyết định
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
2