Khai phá dữ liệu thuật toán Reinforcement learning ĐH Bách Khoa HN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.72 MB, 69 trang )

Reinforcement
Learning
Học tăng cườ ng trong Khai phá dữ liệu

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

1

cement
g
Khai phá dữ liệu

Machine Learning
Bài toán
Quá trình quyết định
Học tăng cường
Q-Learning

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

2

cement
g
Khai phá dữ liệu

Machine Learning
Bài
Bài toán

toán
Quá trình quyết định
Học tăng cường
Q-Learning

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

3

cement
g
Khai phá dữ liệu

Machine Learning
Bài toán
Quá trình quyết định
Học tăng cường
Q-Learning

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

4

cement
g
Khai phá dữ liệu

Machine Learning

Bài toán
Quá trình quyết định
Học
Học tăng
tăng cường
cường
Q-Learning

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

5

cement
g
Khai phá dữ liệu

Machine Learning
Bài toán
Quá trình quyết định
Học tăng cường
Q-Learning
Q-Learning

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

6

Reinforcement

Learning
Học tăng cườ ng trong Khai phá dữ liệu

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

7

1

Machine Learning
Học máy
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

8

HỌC MÁY LÀ GÌ

“

A computer program is said to learn
from experience E with respect to
some task T and some performance
measure P, if its performance on T, as
measured by P, improves with
experience E.
Tom Mitchell (1998)

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY

9

HỌC MÁY LÀ GÌ

Tăng hiệu quả P thực hiện công việc T dựa trên kinh nghiệm E

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY

1

Chương trình email theo dõi xem email nào bạn

VÍ
DỤ
VỀ
HỌC
MÁY
đánh dấu là thư rác và email nào không. Sau đó sử
dụng quan sát đó để lọc thư rác chính xác hơn.
Khi đó công việc T là gì?
A. Phân loại thư rác
B. Theo dõi việc đánh dấu thư rác
C. Số thư rác được phân loại chính xác
D. Đây không phải là một bài toán học máy.
Tăng hiệu quả P thực hiện công việc T dựa trên kinh nghiệm E
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY

1

HÌNH THỨC
Học có
có giám
giám sát
sát
Học
Học không giám sát
Học tăng cường

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY

1

HÌNH THỨC
Học có giám sát
Học không giám sát
Học tăng cường

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY

1

HÌNH THỨC
Học có giám sát
Học không giám sát

Học
Học tăng
tăng cường
cường

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY

1

2

Problem
Bài toán
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

1

BÀI TOÁN

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

1

BÀI TOÁN

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

1

MÔ PHỎNG BÀI TOÁN

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

1

NHỮNG CĂN PHÒNG
F

A
E

B
D

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

C

1

MÔ PHỎNG VÔ HƯỚNG
A

B

F

E

D

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

C

2

MÔ PHỎNG CÓ HƯỚNG
A

B
F

E

D

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

C

2

MÔ PHỎNG CÓ HƯỚNG
A

B
F

E

3động
hành2
1
D

C

trạng
trạng thái
thái
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

2

MÔ PHỎNG PHẦN THƯỞNG
A

0

B

100
0
0

F

100
0

E

0

0

100

0
0

D

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

0
0

C

2

MÔ PHỎNG MA TRẬN

VỊ TRÍ TRƯỚC

VỊ TRÍ SAU

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

2

3

Decission Processes
Quá trình quyết định
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

2

Khai phá dữ liệu thuật toán Reinforcement learning ĐH Bách Khoa HN

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về