Trí Tuệ Nhân Tạo
Nguyễn Nhật Quang
Trường Đại học Bách Khoa Hà Nội
Viện Công nghệ Thông tin và Truyền thông
Năm học 2012-2013
Nội dung môn học:
Giới thiệu về Trí tuệ nhân tạo
Tác tử
Định nghĩa
Môi trường công việc
Các kiểu môi trườn
g
g
Các kiểu tác tử
Giải quyết vấn đề: Tìm kiếm, Thỏa mãn ràng buộc
Logic và suy diễn
Biểu diễn tri thức
ể ễ ắ ắ
Bi
ể
u di
ễ
n tri thức không ch
ắ
c ch
ắ
n
Học máy
Trí tuệ nhân tạo
2
Tác tử - Đ
ị
nh n
g
hĩa
ị g
Tác tử là bấtcứ cái gì (con người, người máy, software
robots
,
các b
ộ
ổn nhi
ệ
t
,
…
)
có khả năn
g
cảmnh
ậ
n
(
nh
ậ
nbiết
)
,
ộ
ệ
,)
g
ậ
(
ậ
)
môi trường xung quanh nó thông qua các bộ phậncảmbiến
(sensors) và hành động phù hợp theo môi trường đó thông
qua
các
bộ
phận
hoạt
động
(actuators)
qua
các
bộ
phận
hoạt
động
(actuators)
Tác tử con người
Các bộ phậncảmbiến: mắt, tai, và mộtsố bộ phậncơ thể khác
Các bộ phậnhoạt động: tay, chân, miệng, và mộtsố bộ phậncơ
thể khác
Tác
tử
người
máy
Tác
tử
người
máy
Các bộ phậncảmbiến: các máy quay (cameras), các bộ truy tìm
tín hiệuhồng ngoại
Các
bộ
phận
hoạt
động
các
loại
động
cơ
(motors)
Các
bộ
phận
hoạt
động
:
các
loại
động
cơ
(motors)
3
Trí tuệ nhân tạo
Tác tử và Môi trườn
g
g
Hàm tác tử: là hàm ánh xạ từ lịch sử nhận thức tới các
hành động:
f: P* → A
Chương trình tác tử: hoạt động (chạy) dựa trên kiến trúc
thực tế của hàm f
ế
Tác tử = Ki
ế
n trúc + Chương trình
4
Trí tuệ nhân tạo
Ví dụ: Thế giới của máy hút bụi
Các nhậnthức
Các
nhận
thức
Ví trí và mức độ sạch sẽ
Ví dụ: [A, Bẩn], [B, Bẩn]
Các hành động
Di chuyển (máy hút bụi) sang trái, sang phải, hút bụi, hoặc không
làm gì
làm
gì
5
Trí tuệ nhân tạo
Tác tử má
y
hút b
ụ
i
y ụ
Bảng hành động của tác tử máy hút bụi
Chuỗi các nh
ậ
nthứcHànhđ
ộ
n
g
ậ
ộ g
[A, Sạch] Di chuyển sang phải
[A, Bẩn] Hút bụi
[
B
,
S
ạ
ch
]
Di chu
y
ểnsan
g
trái
[,
ạ
]
y
g
[B, Bẩn] Hút bụi
[A, Sạch], [A, Sạch] Di chuyển sang phải
[A,
Sạch
], [A,
Bẩn
]
Hút
bụi
[A,
Sạch
],
[A,
Bẩn
]
Hút
bụi
. . .
function Reflex-
V
acuum-
Ag
ent
(
[
location
,
status
])
returns an action
g
([
,
])
if status = Dirty then return Suck
else if location = A then return Right
else if
location
=
B
then return
Left
else
if
location
=
B
then
return
Left
6
Trí tuệ nhân tạo
Tác tử h
ợp
l
ý
(
1
)
ợpý()
Tác tử cần phấn đấu để “làm đúng việc cần làm”, dựa
trên
những gì nó nhậnthức(nhậnbiết) được
và dựa
trên
những
gì
nó
nhận
thức
(nhận
biết)
được
và
dựa
trên các hành động mà nó có thể thực hiện
M
ộ
t hành đ
ộ
n
g
đún
g
(
h
ợp
l
ý)
là hành đ
ộ
n
g
g
iú
p
cho tác
ộ
ộ g g( ợpý)
ộ gg p
tử đạt được thành công cao nhất đối với mục tiêu đặt ra
Đánh giá hiệu quả hoạt động: là tiêu chuẩn để đánh giá
ứ độ thà h ô t h t độ ủ ộttá tử
m
ứ
c
độ
thà
n
h
c
ô
ng
t
rong
h
oạ
t
độ
ng c
ủ
a m
ột
tá
c
tử
Ví dụ: Tiêu chí đánh giá hiệu quả hoạt động của một tác tử máy
hút bụi có thể là: mức độ làm sạch, thời gian hút bụi, mức độ điện
ố
ế ồ
năng tiêu t
ố
n, mức độ ti
ế
ng
ồ
n gây ra, …
7
Trí tuệ nhân tạo
Tác tử hợp lý (2)
Tác tử h
ợp
l
ý
ợpý
Với mỗi chuỗi nhận thức có được,
Mộttáctử hợplýcầnphải
lựachọnmột hành động
Một
tác
tử
hợp
lý
cần
phải
lựa
chọn
một
hành
động
giúp cực đại hóa tiêu chí đánh giá hiệu quả hoạt động
của tác tử đó,
Dựa trên các thông tin được cung cấp bởi chuỗi nhận
thức và các tri thức được sở hữu bởi tác tử đó
8
Trí tuệ nhân tạo
Tác tử hợp lý (3)
Sự hợp lý ≠ Sự thông suốt mọi thứ
Sự thông suốtmọithứ =Biếttấtcả mọithứ vớitrithứcvôhạn
Sự
thông
suốt
mọi
thứ
=
Biết
tất
cả
mọi
thứ
,
với
tri
thức
vô
hạn
Vì các nhận thức có thể không cung cấp tất cả các thông tin liên
quan
ể ổ
Các tác tử có th
ể
thực hiện các hành động nhằm thay đ
ổ
i
các nhận thức trong tương lai, với mục đích thu được
các thôn
g
tin hữu ích
(
ví d
ụ
: thu th
ập
thôn
g
tin, khám
p
há
g ( ụ ậpg p
tri thức)
Tác tử tự trị (autonomous agent) là một tác tử mà các
hà h độ ủ ó đ ết đị hbởi hí h ki h
hà
n
h
độ
ng c
ủ
a n
ó
đ
ược quy
ết
đị
n
h
bởi
c
hí
n
h
ki
n
h
nghiệm của tác tử đó (cùng với khả năng học và thích
nghi)
9
Trí tuệ nhân tạo
Môi trường công việc – PEAS (1)
PEAS
Performance measure: Tiêu chí đánh giá hiệu quả hoạt động
Environment: Môi trường xung quanh
A
ctuators
:Cácbộ phận hành động
A
ctuators
:
Các
bộ
phận
hành
động
Sensors: Các bộ phận cảm biến
Để thiếtkế ộttá tử thô i h (h lý) t ớ tiê ầ
Để
thiết
kế
m
ột
tá
c
tử
thô
ng m
i
n
h
(h
ợp
lý)
,
t
rư
ớ
c
tiê
n c
ầ
n
phải xác định (thiết lập) các giá trị của các thành phần
của PEAS
10
Trí tuệ nhân tạo
Môi trường công việc – PEAS (2)
Ví dụ: Thiết kế một tác tử lái xe taxi tự động
Đáh iáhiệ ả h t độ (P) t à h h
Đá
n
h
g
iá
hiệ
u qu
ả
h
oạ
t
độ
ng
(P)
: an
t
o
à
n, n
h
an
h
,
đúng luật giao thông, mức độ hài lòng của khách
hàng, tối ưu lợi nhuận, …
Môi trường xung quanh (E): các con đường (phố),
các phương tiện khác cùng tham gia giao thông,
nhữn
g
n
g
ười đi bộ, các khách hàn
g
, …
gg g
Các bộ phận hành động (A): bánh lái, chân ga,
phanh, đèn tín hiệu, còi xe,…
Các bộ phận cảm biến (S): máy quay (cameras),
đồng hồ tốc độ, GPS, đồng hồ đo khoảng cách quãng
đường, các bộ cảm biến động cơ,…
11
Trí tuệ nhân tạo
Môi trường công việc – PEAS (3)
Ví dụ: Thiết kế một tác tử chuẩn đoán y tế
Đánh giá hiệuquả hoạt động (P): mức độ sứckhỏe
Đánh
giá
hiệu
quả
hoạt
động
(P):
mức
độ
sức
khỏe
của bệnh nhân, cực tiểu hóa các chi phí, các việc kiện
cáo, …
Môi trường xung quanh (E): bệnh nhân, bệnh viện,
nhân viên y tế, …
Các bộ phận hành động (A): hiểnthị trên màn hình
Các
bộ
phận
hành
động
(A):
hiển
thị
trên
màn
hình
các câu hỏi, các xét nghiệm, các chuẩn đoán, các
điều trị, các chỉ dẫn, …
Các bộ phận cảm biến (S): bàn phím để nhập vào
các thông tin về triệu chứng, các trả lời của bệnh nhân
đốivớicáccâuhỏi
đối
với
các
câu
hỏi
, …
12
Trí tuệ nhân tạo
Môi trường công việc – PEAS (4)
Ví dụ: Thiết kế một tác tử nhặt đồ vật
Đánh giá hiệu quả hoạt động (P): tỷ lệ (bao nhiêu
phần trăm) các đồ vật được đặt vào đúng các thùng
Môi trường xung quanh (E): dây chuyền chuyển
động trên đó có các đồ vật, các thùng đựng
Các bộ phận hành động (A): cánh tay và bàn tay
được kết nối
Các bộ phận cảm biến (S): máy quay (camera), các
bộ cảm biến các góc độ (các hướng)
13
Trí tuệ nhân tạo
Môi trường công việc – PEAS (5)
Ví dụ: Thiết kế một tác tử dạy tiếng Anh tương tác
Đánh giá hiệu quả hoạt động (P): cực đại hóa điểm
thi tiếng Anh của học viên
Môi trường xung quanh (E): một nhóm học viên
Các bộ phận hành động (A): hiểnthị màn hình các
Các
bộ
phận
hành
động
(A):
hiển
thị
màn
hình
các
bài tập, các gợi ý, sửa (chữa) bài tập
Các bộ phậncảmbiến (S): bàn phím
Các
bộ
phận
cảm
biến
(S):
bàn
phím
14
Trí tuệ nhân tạo
Môi trường công việc – PEAS (6)
Ví dụ: Thiết kế một tác tử lọc thư rác (spam emails
filt i )
filt
er
i
ng
)
Đánh giá hiệu quả hoạt động (P): khả năng lọc thư
á( tf fl iti fl ti )
r
á
c
(
amoun
t
o
f
error:
f
a
l
se pos
iti
ves,
f
a
l
se nega
ti
ves
)
Môi trường xung quanh (E): email server and clients
Các bộ phận hành động (A): đánh dấu thư rác, gửi
thông báo
Các bộ phận cảm biến (S): nhận và phân tích nội
dung các emails
15
Trí tuệ nhân tạo
Các kiểu môi trườn
g
(
1
)
g( )
Có thể quan sát được hoàn toàn (hay có thể quan sát
đượcmộtphần)?
được
một
phần)?
Các bộ cảm biến của một tác tử cho phép nó truy cập tới trạng
thái đầy đủ của môi trường tại mỗi thời điểm
Xác định (hay ngẫu nhiên)?
Trạng thái tiếp theo của môi trường được xác định hoàn toàn dựa
tê t thái hiệ t iàhàhđộ ủ tá tử (t it thái hiệ
t
r
ê
n
t
rạng
thái
hiệ
n
t
ạ
i
v
à
hà
n
h
độ
ng c
ủ
a
tá
c
tử
(t
ạ
i
t
rạng
thái
hiệ
n
tại này)
Nếu một môi trường là xác định, ngoại trừ đối với các hành động
của các tác tử khác, thì gọi là môi trường chiến lược
16
Trí tuệ nhân tạo
Các kiểu môi trườn
g
(
2
)
g( )
Phân đoạn (hay liên tiếp)?
L
ị
ch sử kinh n
g
hi
ệ
mcủatáctửđư
ợ
c chia thành các
g
iai đo
ạ
n
ị
g ệ
ợ
g
ạ
(chương/hồi)
Mỗigiaiđoạn bao gồmviệcnhậnthứccủatáctử và hành động
mà nó th
ự
chi
ệ
n
ự
ệ
Ở mỗigiaiđoạn, việclựachọn hành động để thựchiệnchỉ phụ
thuộc vào giai đoạn đó (không phụ thuộcvàocácgiaiđoạn khác)
Tĩnh (hay động)?
Môi trường không thay đổi trong khi tác tử cân nhắc (xem nên
đưa ra hành đ
ộ
n
g
nào
)
ộ g
)
Môi trường bán động (semi-dynamic) là môi trường mà khi thời
gian trôi qua thì nó (môi trường) không thay đổi, nhưng hiệuquả
ho
ạ
t đ
ộ
n
g
củatáctử thì tha
y
đổi
ạ
ộ g
y
Ví dụ: Các chương trình trò chơi có tính giờ
17
Trí tuệ nhân tạo
Các kiểu môi trường (2)
Rờirạc (hay liên tục)?
Tập các nhậnthức và các hành động là hữuhạn, được định
nghĩa phân biệt rõ ràng
Tá
tử
đ
lẻ
(h
đ
tá
tử
)?
Tá
c
tử
đ
ơn
lẻ
(h
ay
đ
a
tá
c
tử
)?
Mộttáctử hoạt động độclập (không phụ thuộc / liên hệ vớicác
tác
tử
khác
)
trong
một
môi
trường
tác
tử
khác
)
trong
một
môi
trường
18
Trí tuệ nhân tạo
Các kiểu môi trường – Ví dụ
Chơicờ Chơicờ không Lái xe taxi
tính
g
iờ tính
g
iờ
g
g
Quan sát đầy đủ? có có không
Xác định? chiếnlượcchiếnlược không
Phân
đoạn
?
không
không
không
Phân
đoạn
?
không
không
không
Tĩnh? bán động có không
Rờirạc? có có không
Tá
tử
đ
?
khô
khô
khô
Tá
c
tử
đ
ơn
?
khô
ng
khô
ng
khô
ng
Kiểu củamôitrường có ảnh hưởng quyết định đốivới
iệ
thiết
kế
tá
tử
v
iệ
c
thiết
kế
tá
c
tử
Môi trường trong thựctế thường có các đặc điểm: chỉ có
thể
q
uan sát đượcmột
p
hần, n
g
ẫu nhiêu, liên tiế
p
, tha
y
ổ
q
p
g
p
y
đ
ổ
i(động), liên tục, đatáctử
19
Trí tuệ nhân tạo
Các kiểu tác tử
4 kiểu tác tử cơ bản
Tác tử phản xạ đơn giản (simple reflex agents)
Tá tử hả d tê ôhì h( d l
bdfl
Tá
c
tử
p
hả
n xạ
d
ựa
t
r
ê
n m
ô
hì
n
h
(
mo
d
e
l
-
b
ase
d
re
fl
ex
agents)
Tác tử dựa trên mục tiêu (goal-based agents)
Tác tử dựa trên lợi ích
(
utilit
y
-based a
g
ents
)
(y
g)
20
Trí tuệ nhân tạo
Tác tử phản xạ đơn giản (1)
Tác tử phảnxạđơngiản:
Hà h
độ
th
ột
tắ
(
l ật
)
ó
điề
kiệ
hù
h
→
Hà
n
h
độ
ng
th
eo m
ột
quy
tắ
c
(
l
u
ật
)
c
ó
điề
u
kiệ
np
hù
h
ợp
vớitrạng thái hiệnthời(củamôitrường)
function SIMPLE-REFLEX-AGENT(percept)
static: rules (tậpcácluậtcódạng: điềukiện-hành động)
state ← INTERPRET-INPUT(percept)
rule ← RULE-MATCH(state, rules)
action ← RULE-ACTION[rule]
return action
21
Trí tuệ nhân tạo
Tác tử
p
hản x
ạ
đơn
g
iản
(
2
)
p ạ g ()
22
Trí tuệ nhân tạo
Tác tử phản xạ dựa trên mô hình (1)
Tác tử phản xạ dựa trên mô hình:
Sử dụng mộtmôhìnhnộibộ để giám sát trạng thái hiệntạicủa
Sử
dụng
một
mô
hình
nội
bộ
để
giám
sát
trạng
thái
hiện
tại
của
môi trường
Lựa chọn hành động: giống như đối với tác tử phản xạ đơn giản
function REFLEX-AGENT-WITH-STATE(percept)
static: state (mô tả trạng thái hiệntạicủamôitrường)
rules
(
tập
các
luật
có
dạng
:
điều
kiện
hành
động
)
rules
(
tập
các
luật
có
dạng
:
điều
kiện
-
hành
động
)
action (hành động gầnnhất)
state
←
UPDATE
-
STATE(
state
action
percept
)
state
←
UPDATE
-
STATE(
state
,
action
,
percept
)
rule ← RULE-MATCH(state, rules)
action ← RULE-ACTION[rule]
23
Trí tuệ nhân tạo
return action
Tác tử phản xạ dựa trên mô hình (2)
24
Trí tuệ nhân tạo
Tác tử dựa trên mục tiêu (1)
Biết về trạng thái hiện tại của môi trường: chưa đủ →
Cầnbiết thêm thông tin về mụctiêu
Cần
biết
thêm
thông
tin
về
mục
tiêu
Trạng thái hiện tại của môi trường: Ở một ngã tư, xe taxi có thể rẽ
trái, rẽ phải, hoặc đi thẳng
Thông tin về mục tiêu: xe taxi cần đi tới đích đến của hành khách
Tác tử dựatrênmụctiêu
Tác
tử
dựa
trên
mục
tiêu
Theo dõi trạng thái hiện tại của môi trường
L
ưu
g
i
ữ
m
ột
tập
các
m
ục
t
i
êu
(cầ
n
đạt
được)
ưugữ ộttậpcác ụctêu(cầ đạt được)
Chọn hành động cho phép (rốt cuộc) sẽ đạt đến các mục tiêu
25
Trí tuệ nhân tạo