Tải bản đầy đủ (.ppt) (30 trang)

BÁO CÁO THỰC TẬP-MỘT SỐ VÍ DỤ VỀ MÁY HỌC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (255.98 KB, 30 trang )

MỘT SỐ VÍ DỤ VỀ MÁY HỌC
1. Giới thiệu

Một số phương pháp máy học để tiếp thu tri thức hay
tạo ra tri thức

Học vẹt

Học cách đề xuất

Học bằng cách thu thập các trường hợp

Học bằng cách xây dựng cây định danh

Học không giám giám sát và bài tóm gom nhóm dữ liệu

Học giám sát và bài toán phân lớp dữ liệu
1. Giới thiệu

Học vẹt

Hệ tiếp nhận các khẳng định của các quyết định đúng.
Khi hệ tạo ra một quyết định không đúng, hệ sẽ đưa ra
các luật hay quan hệ đúng mà hệ đã sử dụng. Hình thức
học vẹt nhằm cho phép chuyên gia cung cấp tri thức
theo kiểu tương tác.

Học bằng cách chỉ dẫn

Thay vì đưa ra một luật cụ thể cần áp dụng vào tình
huống cho trước, hệ thống sẽ được cung cấp bằng các


chỉ dẫn tổng quát. Ví dụ: "gas hầu như bị thoát ra từ van
thay vì thoát ra từ ống dẫn". Hệ thống phải tự mình đề ra
cách biến đổi từ trừu tượng đến các luật khả dụng.
1. Giới thiệu

Học bằng qui nạp

Hệ thống được cung cấp một tập các ví dụ và kết luận
được rút ra từ từng ví dụ. Hệ liên tục lọc các luật và
quan hệ nhằm xử lý từng ví dụ mới.

Học bằng tương tự

Hệ thống được cung cấp đáp ứng đúng cho các tác vụ
tương tự nhưng không giống nhau. Hệ thống cần làm
thích ứng đáp ứng trước đó nhằm tạo ra một luật mới có
khả năng áp dụng cho tình huống mới.
1. Giới thiệu

Học dựa trên giải thích

Hệ thống phân tích tập các lời giải ví dụ ( và kết quả) nhằm
ấn định khả năng đúng hoặc sai và tạo ra các giải thích
dùng để hướng dẫn cách giải bài toán trong tương lai.

Học dựa trên tình huống

Bấy kỳ tính huống nào được hệ thống lập luận đều được
lưu trữ cùng với kết quả cho dù đúng hay sai. Khi gằp tình
hướng mới, hệ thống sẽ làm thích nghi hành vi đã lưu trữ

với tình huống mới.

Khám phá hay học không giám sát

Thay vì có mục tiêu tường minh, hệ khám phá liên tục tìm
kiếm các mẫu và quan hệ trong dữ liệu nhập. Các ví dụ về
học không giám sát bao gồm gom cụm dữ liệu, học để
nhận dạng các đặc tính cơ bản như cạnh từ các điểm ảnh.
2. Một số ví dụ
Học qua logic:
Bongard (1970) là người đầu tiên ứng dụng các
toán tử logic để học và nhận dạng các đối tượng
hình ảnh.
Ý tưởng: Tìm quan hệ đơn giản nhất trong số các
quan hệ có thể sử dụng để học và nhận dạng các
hình ảnh.
2. Một số ví dụ
Chúng ta có thể quan sát thấy các hình vẽ thuộc lớp A có 3 vòng trắng
luôn luôn nằm trên một đường thẳng.
Lôùp A
Lôùp B
2. Một số ví dụ
Vấn đề đặt ra:
-
Tìm quan hệ đơn giản nhất có thể phân biệt được các hình
ảnh.
Bongard đã dùng bảng logic “mô tả – quan hệ” để dẫn xuất
ra các mệnh đề logic:
φ có thể dùng để phân biệt 2 lớp E và E’ nếu φ(E) và φ(E’)
đối ngẫu nhau.

)
21

n
ϕϕϕ
∧∧∧∨=
2. Một số ví dụ

P
1
P
2
P
3
P
4
P
5
2. Một số ví dụ
Các đối tượng trong mẫu:
54321
54321
54321
54321
54321
54321
54321
54321
54321
54321

54321
0001110
010009
010018
000117
010116
010105
100104
100103
010012
011111
PPPPP
PPPPP
PPPPP
PPPPP
PPPPP
PPPPP
PPPPP
PPPPP
PPPPP
PPPPP
PPPPP

2. Một số ví dụ

Sau khi tính tổng và rút gọn lại được:
)P.PP.P.(PP.P
3232121
++






ϕ∈
321
321
21
P.P.P
P.P.P
P.P
)A(x
3. Học bằng cách xây dựng cây định danh
Cây định danh: Là một dạng của cây quyết định, trong đó mỗi tập
các kết luận có thể xảy ra được thiết lập một cách ngầm định bởi
một danh sách các mẫu mà chúng được phân vào một lớp đã biết.

Bảng dữ liệu
Cây đònh danh
Luật
Thử
Xây dựng
3. Học bằng cách xây dựng cây định danh
Ví dụ có bảng dữ liệu quan sát
Tên Tóc Ch.Cao Cân Nặng Dùng kem? Kết quả
Sarah Vàng T.Bình Nhẹ Không Cháy
Dana Vàng Cao T.Bình Có Không
Alex Nâu Thấp T.Bình Có Không
Annie Vàng Thấp T.Bình Không Cháy
Emilie Đỏ T.Bình Nặng Không Cháy

Peter Nâu Cao Nặng Không Không
John Nâu T.Bình Nặng Không Không
Kartie Vàng Thấp Nhẹ Có Không
3. Học bằng cách xây dựng cây định danh
Ta gọi tính chất cháy nắng hay không cháy nắng là thuộc
tính quan tâm (thuộc tính mục tiêu). Như vậy, trong
trường hợp này, tập R của chúng ta chỉ gồm có hai phần
tử {"cháy nắng", "bình thường"}. Còn tập P là tất cả
những người được liệt kê trong bảng dưới (8 người)
Chúng ta quan sát hiện tượng cháy nắng dựa trên 4 thuộc
tính sau : chiều cao (cao, trung bình, thấp), màu tóc
(vàng, nâu, đỏ) cân nặng (nhẹ, TB, nặng), dùng kem
(có, không),. Ta gọi các thuộc tính này gọi là thuộc tính
dẫn xuất.
3.1. Đâm chồi
3.1. Đâm chồi
3.2. Phương án chọn thuộc tính phân hoạch
n
Vấn đề mà chúng ta gặp phải cũng tương tự như bài toán
tìm kiếm : "Đứng trước một ngã rẽ, ta cần phải đi vào
hướng nào?". Hai phương pháp đánh giá dưới đây sẽ giúp
ta chọn được thuộc tính phân hoạch tại mỗi bước xây dựng
cây định danh.
Thuật toán Quinlan

Quinlan quyết định thuộc tính phân hoạch bằng cách xây
dựng các vector đặc trưng cho mỗi giá trị của từng thuộc tính
dẫn xuất và thuộc tính mục tiêu.

Cho một bảng quan sát là tập hợp các mẫu với các thuộc

tính nhất định của các đối tượng nào đó.

Sử dụng một độ đo để định lượng và đề ra một tiêu chuẩn
nhằm chọn lựa một thuộc tính mang tính chất “phân loại” để
phân bảng này thành các bảng con nhỏ hơn sao cho từ mỗi
bảng con này dễ dàng phân tích tìm ra quy luật chung .
Thuật tốn Quinlan (tt)
vàng tóc cósát quan số Tổng
vàng tóc có nắng cháysát quan số Tổng
vàng tóc cósát quan số Tổng
vàng tóc có nắng cháy gsát khôn quan số Tổng
Khơng cháy nắng =
Cháy nắng =
Thuật toán Quinlan (tt)
Các thuộc tính khác được tính tương tự, kết quả như sau :
VC.Cao(Cao) = (0/2,2/2) = (0,1)
VC.Cao(T.B) = (2/3,1/3)
VC.Cao(Thấp) = (1/3,2/3)

VC.Nặng (Nhẹ) = (1/2,1/2)
VC.Nặng (T.B) = (1/3,2/3)
VC.Nặng (Nặng) = (1/3,2/3)

VKem (Có) = (3/3,0/3) = (1,0)
VKem (Không) = (3/5,2/5)
Như vậy thuộc tính màu tóc có số vector đơn vị nhiều nhất
nên sẽ được chọn để phân hoạch.
Thuật toán Quinlan (tt)
Sau khi phân hoạch theo màu tóc xong, chỉ có phân hoạch theo tóc
vàng (Pvàng) là còn chứa những người cháy nắng và không cháy nắng

nên ta sẽ tiếp tục phân hoạch tập này. Ta sẽ thực hiện thao tác tính
vector đặc trưng tương tự đối với các thuộc tính còn lại (chiều cao,
cân nặng, dùng kem). Trong phân hoạch Pvàng, tập dữ liệu của chúng
ta còn lại là :
Tên Ch.Cao Cân
Nặng
Dùng kem? Kết quả
Sarah T.Bình Nhẹ Không Cháy
Dana Cao T.Bình Có Không
Annie Thấp T.Bình Không Cháy
Kartie Thấp Nhẹ Có Không
Thuật toán Quinlan (tt)
Kết quả Cây định danh cuối cùng :
Phương pháp độ đo hỗn loạn
Thay vì phải xây dựng các vector đặc trưng như
phương pháp của Quinlan, ứng với mỗi thuộc tính
dẫn xuất ta chỉ cần tính ra độ đo hỗn loạn và lựa
chọn thuộc tính nào có độ đo hỗn loại là thấp nhất.
Công thức tính như sau :
2
log
j ji ji
A
j i
t j j
b b b
T
b b b
 
 

 
− −
 ÷
=
 ÷
 ÷
 ÷
 ÷
 ÷
 
 
 
∑ ∑
Phương pháp độ đo hỗn loạn
Trong đó:
A: thuộc tính cần tính độ hỗn loạn
bt : tổng số phần tử có trong phân hoạch
bj : tổng số phần tử có thuộc tính A với giá
tri của thuộc tính là j
bji: tổng số phần tử có thuộc tính A với giá
tri của thuộc tính là j và thuộc tính mục tiêu là i
Ví dụ 1: cho bảng quan sát
STT Kích cỡ Màu sắc Hình dáng Quyết
định
1 Trung bình Đỏ Cầu Mua
2 Lớn Vàng Hộp Mua
3 Trung bình Xanh Trụ Không mua
4 Nhỏ Xanh Cầu Mua
5 Trung bình Xanh Nón Không mua
6 Nhỏ Xanh Nón Không mua

7 Trung bình Đỏ Trụ Mua

×