Tải bản đầy đủ (.ppt) (39 trang)

Nhập môn LÝ THUYẾT NHẬN DẠNG Introduction to Pattern Recognition

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (717.52 KB, 39 trang )

ĐẠI HỌC CƠNG NGHIỆP HÀ NỘI
Khoa Cơng nghệ thơng tin

Nhập môn LÝ THUYẾT NHẬN DẠNG
Introduction to Pattern Recognition
Chương 3: Phân loại theo khoảng cách

Giảng viên: Phạm Văn Hà

Hà Nội – 2013


2

Nội dung

Chương 1: Tổng quan về nhận dạng
 Chương 2: Hàm quyết định
 Chương 3: Phân loại theo khoảng cách
 Chương 4: Phân loại theo hàm hợp lý
 Chương 5: Tiếp cận perceptron
 Chương 6: Véc tơ hỗ trợ máy (SVM)
 Chương 7: Tiền xử lý và lựa chọn dấu hiệu

ĐH Công nghiệp Hà Nội




3


Tài liệu tham khảo






ĐH Công nghiệp Hà Nội



S. Theodoridis , K. Koutroumbas, Pattern Recognition,
Academic Press,1999.
Srihari, S.N., Covindaraju, Pattern recognition, Chapman
&Hall, London, 1034-1041, 1993.
Sergios Theodoridis, Konstantinos Koutroumbas , Pattern
Recognition 4th ed. ,Elsevier(USA)), 2009.
R.O. Duda, P.E. Hart, and D.G. Stork, Pattern Classification,
New York: John Wiley, 2001.


Phân loại theo khoảng cách
Giới thiệu

Trong kỹ thuật này, các đối tượng nhận dạng là các
đối tượng định lượng.
 Mỗi đối tượng được biểu diễn bởi một véctơ nhiều
chiều.
 Các hàm phân biệt thường được xây dựng dựa trên
khái niệm khoảng cách hay dựa vào xác suất có điều

kiện.
 Khoảng cách là một công cụ rất tốt để xác định xem
đối tượng có "gần nhau" hay khơng. Nếu khoảng cách
nhỏ hơn một ngưỡng  nào đấy ta coi 2 đối tượng là
giống nhau và gộp chúng vào một lớp. Ngược lại ,
nếu khoảng cách lớn hơn ngưỡng , có nghĩa là
chúng khác nhau và ta tách thành 2 lớp.

ĐH Công nghiệp Hà Nội




Một số thuật tốn nhận dạng theo
khoảng cách


Thực tế có nhiều thuật toán nhận dạng theo
khoảng cách. Ở đây, chúng ta xem xét các thuật
tốn hay được sử dụng:




ĐH Cơng nghiệp Hà Nội



Phân loại theo khoảng cách cực tiểu
Thuật toán nhận dạng dựa vào khoảng cách lớn nhất

Thuật toán K- trung bình (K mean)
Thuật tốn ISODATA


6

Phân loại theo khoảng cách cực tiểu
Cho đối tượng x và các lớp
ωi, i=1..m. Việc phân loại x
vào lớp ωi nào đó tương
ứng với việc tìm hàm d(x,ωi)
sao cho d(x,ωi)≤d(x,ωj), với
mọi j≠i
 Có nhiều cách tính khoảng cách từ x đến ωi:
ĐH Cơng nghiệp Hà Nội







Tính khoảng cách đến tâm của lớp
Phương pháp “hàng xóm gần nhất” (K-NN)
Tính khoảng cách đến đối tượng mẫu


Phân lớp và dự đoán
bằng thuật toán K-Nearest Neighbors (K-NN)
Xét trường hợp phân lớp: biến phụ thuộc Y là

biến phân loại (categorical variable)
 Trường hợp dự đoán: biến phụ thuộc Y có giá trị
định lượng (Quantitative value)
 Trước tiên để hiểu vấn đề ta xét tới trường hợp
dùng K-NN để dự đốn.
ĐH Cơng nghiệp Hà Nội




Trường hợp dự đốn:

ĐH Cơng nghiệp Hà Nội



Dưới đây trình bày từng bước cách sử dụng KNN
trong việc dự đoán với biến phụ thuộc định lượng  
1. Xác định tham số K (số láng giềng gần nhất)
2. Tính khoảng cách (Distance) giữa Query point và tất cả
training samples
3. Sắp xếp khoảng cách và xác định K láng giềng gần nhất
với Query point
4. Lấy giá trị của biến phụ thuộc Y tương ứng của K láng
giềng gần nhất
5. Sử dụng giá trị trung bình (average) của biến phụ thuộc Y
của K láng giềng gần nhất là giá trị dự đoán của Query
point.



Example (KNN for prediction)
 Có 5 training samples (X,Y) như sau
 Vấn đề là sử dụng KNN để dự đoán giá trị của biến
phụ thuộc Y của query point X=6.5
1. Xác định số láng giềng gần nhất  K  (Giả sử rằng K=2)
2. Tính khoảng cách giữa Query Point với tất cả training
samples
 Trong ví dụ này, dữ liệu về query point là 1 chiều (X)
nên khoảng cách được tính đơn giản là lấy trị tuyệt đối
của hiệu giữa X và các giá trị X trong training samples
 Chẳn hạn, với X=5.1, khoảng cách được tính là | 6.5 –
5.1 | = 1.4, với X = 1.2  khoảng cách là | 6.5 – 1.2 | = 5.3
,vv.
3. Săp xếp khoảng cách để xác định K láng giềng gần
nhất (trong ví dụ này K=2)
4. Lấy giá trị của biến phụ thuộc Y của K (=2) láng giềng
gần nhất


ĐH Công nghiệp Hà Nội



Y=27 và Y=8

5. Giá trị dự đốn là trung bình của các giá trị Y của K (=2)
láng giềng gần nhất.
 Trong ví dụ này, giá trị dự đoán là (27+8)/2 = 17.5



Giới thiệu thuật toán K-Nearest
Neighbors trong phân lớp
K-NN là phương pháp để phân lớp các đối tượng dựa vào khoảng
cách gần nhất giữa đối tượng cần xếp lớp (Query point) 
 Một đối tượng được phân lớp dựa vào K láng giềng của nó. K là số
nguyên dương được xác định trước khi thực hiện thuật toán. Người
ta thường dùng khoảng cách Euclidean để tính khoảng cách giữa
các đối tượng.
 Thuật tốn K-NN được mô tả như sau:
1.    Xác định giá trị tham số K (số láng giềng gần nhất)
2.    Tính khoảng cách giữa đối tượng cần phân lớp (Query Point) với
tất cả các đối tượng trong training data (thường sử dụng khoảng
các Euclidean)
3.    Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng
giềng gần nhất với Query Point
4.    Lấy tất cả các lớp của K láng giềng gần nhất đã xác định
5.    Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp
cho Query Point

ĐH Công nghiệp Hà Nội




Giới thiệu thuật toán K-Nearest
Neighbors trong phân lớp
Để hiểu K-NN được dùng để phân lớp thế nào ta
xem minh họa dưới đây.
 Trong hình dưới đây, training Data được mơ tả bởi
dấu (+) và dấu (-), đối tượng cần được xác định lớp

cho nó (Query point) là hình trịn đỏ. Nhiệm vụ của
chúng ta là ước lượng (hay dự đoán) lớp của Query
point dựa vào việc lựa chọn số láng giềng gần nhất
với nó. Nói cách khác chúng ta muốn biết liệu Query
Point sẽ được phân vào lớp (+) hay lớp (-)
 Ta thấy rằng:
1-Nearest neighbor : Kết quả là + (Query Point được
xếp vào lớp dấu +)
2-Nearest neighbors : không xác định lớp cho Query
Point vì số láng giềng gần nhất với nó là 2 trong đó
1 là lớp + và 1 là lớp – (khơng có lớp nào có số đối
tượng nhiều hơn lớp kia)
5-Nearest neighbors : Kết quả là - (Query Point được
xếp vào lớp dấu – vì trong 5 láng giềng gần nhất với
nó thì có 3 đối tượng thuộc lớp - nhiều hơn lớp + chỉ
có 2 đối tượng).

ĐH Công nghiệp Hà Nội




ĐH Cơng nghiệp Hà Nội

Thuật tốn dựa vào khoảng cách lớn nhất
a) Nguyên tắc
 Cho một tập gồm m đối tượng.
 Xác định khoảng cách giữa các đối tượng và khoảng cách lớn
nhất ứng với phần tử xa nhất tạo nên lớp mới.
 Sự phân lớp được hình thành dần dần dựa vào việc xác định

khoảng cách giữa các đối tượng và các lớp.
b) Thuật toán
 Bước 1
 Chọn hạt nhân ban đầu: giả sử X1єC1 gọi là lớp g1. Gọi Z1 là
phần tử trung tâm của g1.

Tính tất cả các khoảng cách Dj1 = D(Xj,Z1) với j =1, 2,..., m
 Tìm Dk1= maxjDj1. Xk là phần tử xa nhất của nhóm g1. Như vậy Xk
là phần tử trung tâm của lớp mới g2, kí hiệu Z2.

Tính d1 = D12 = D(Z1,Z2).


Thuật toán dựa vào khoảng cách lớn nhất


Bước 2





Nguyên tắc chọn



ĐH Cơng nghiệp Hà Nội







Tính các khoảng cách Dj1, Dj2.
Dj1=D(Xj,Z1),Dj2=D(Xj,Z2). Đặt Dk(2)= maxjDj
Nếu Dk(2)<d1 ->kết thúc thuật toán. Phân lớp xong.
Nếu khơng, sẽ tạo nên nhóm thứ ba. Gọi Xk là phần tử trung
tâm của g3, kí hiệu Z3.
Tính d3 = (D12 + D13 + D23)/3

với  là ngưỡng cho trước và D13 = D(Z1,Z3), D23 =
D(Z2,Z3).
Quá trình cứ lặp lại như vậy cho đến khi phân xong. Kết
quả là ta thu được các lớp với các đại diện là Z1, Z2 ,...,
Zm.


I. PHÂN CụM
1. Phân cụm là gì?


K-Mean và ứng dung

Quá trình phân chia 1 tập dữ liệu ban đầu thành các
cụm dữ liệu thỏa mãn:
 Các đối tượng trong 1 cụm “tương tự” nhau.
 Các đối tượng khác cụm thì “khơng tương tự” nhau.
Giải quyết vấn đề tìm kiếm, phát hiện các cụm, các
mẫu dữ liệu trong 1 tập hợp ban đầu các dữ liệu khơng
có nhãn.


ĐH Cơng nghiệp Hà Nội



14


I. PHÂN CụM

ĐH Công nghiệp Hà Nội

K-Mean và ứng dung

Nếu X : 1 tập các điểm dữ liệu
Ci : cụm thứ i
X = C1
Ci



Ck

 
Cj =








Cngoại lai

 

15


I. PHÂN CụM
2. Một số độ đo trong phân cụm

n

p
(||
x

y
||
 i i )

 Với

1
p

i 1

xi,yi là 2 vector


K-Mean và ứng dung

 Minkowski

ĐH Công nghiệp Hà Nội

 Euclidean:

p=2
 Độ đo tương tự (gần nhau): cosin hai vectơ
v.w
cosµ =
|| v || . || w ||
16


I. PHÂN CụM


Xác định được bản chất của việc nhóm các đối tượng trong 1 tập dữ liệu
khơng có nhãn.



Phân cụm không dựa trên 1 tiêu chuẩn chung nào, mà dựa vào tiêu chí
mà người dùng cung cấp trong từng trường hợp.

K-Mean và ứng dung


ĐH Công nghiệp Hà Nội

3. Mục đích của phân cụm

17


I. PHÂN CụM
5. Một số phương pháp phân cụm điển hình

ĐH Cơng nghiệp Hà Nội

cụm phân hoạch
 Phân cụm phân cấp
 Phân cụm dựa trên mật độ
 Phân cụm dựa trên lưới
 Phân cụm dựa trên mơ hình
 Phân cụm có ràng buộc

K-Mean và ứng dung

 Phân

18


II.PHÂN CụM PHÂN HOạCH


ĐH Công nghiệp Hà Nội






K-Mean và ứng dung



Phân 1 tập dữ liệu có n phần tử cho trước thành k tập con dữ liệu (k
≤ n), mỗi tập con biểu diễn 1 cụm.
Các cụm hình thành trên cơ sở làm tối ưu giá trị hàm đo độ tương tự
sao cho:
 Các đối tượng trong 1 cụm là tương tự.
 Các đối tượng trong các cụm khác nhau là không tương tự nhau.
Đặc điểm:
 Mỗi đối tượng chỉ thuộc về 1 cụm.
 Mỗi cụm có tối thiểu 1 đối tượng.
Một số thuật tốn điển hình : K-mean, PAM, CLARA,…
19


II.2. Thuật toán K-Means



Số cụm: K

xi  R


d

K-Mean và ứng dung

Phát biểu bài toán:
 Input
 Tập các đối tượng X = {xi| i = 1, 2, …, N},

Output
 Các cụm Ci ( i = 1 ÷ K) tách rời và hàm tiêu chuẩn E đạt giá trị tối
thiểu.
ĐH Công nghiệp Hà Nội



20


II.1. KHÁI QT Về THUậT
TỐN
 Thuật

tốn hoạt động trên 1 tập vectơ d chiều, tập dữ
liệu X gồm N phần tử:

ĐH Công nghiệp Hà Nội



K-Mean lặp lại nhiều lần quá trình:

 Gán dữ liệu.
 Cập nhật lại vị trí trọng tâm.

 Quá

K-Mean và ứng dung

X = {xi | i = 1, 2, …, N}

trình lặp dừng lại khi trọng tâm hội tụ và mỗi21đối
tượng là 1 bộ phận của 1 cụm.


II.1. KHÁI QUÁT Về THUậT
TOÁN


Hàm đo độ tương tự sử dụng khoảng cách Euclidean
E=



i 1 xi C j

(|| xi  c j || )

trong đó cj là trọng tâm của cụm Cj

ĐH Công nghiệp Hà Nội




2

K-Mean và ứng dung

N

Hàm trên khơng âm, giảm khi có 1 sự thay đổi trong 1 trong 2
bước: gán dữ liệu và định lại vị trí tâm.

22


II.2. CÁC BƯớC CủA THUậT
TOÁN
 Bước

1 - Khởi tạo
Chọn K trọng tâm {ci} (i = 1÷K).

 Bước

S

2 - Tính tốn khoảng cách

( t )= {
i


 Bước

x j :|| x j  ci |||| x j  ci* ||
(t )

( tfor
) all

= 1,*…, k}

i

3 - Cập nhật lại trọng tâm

1
c
 (t )  x j
Si | x j Si( t )
 Bước 4 – Điều kiện |dừng

ĐH Công nghiệp Hà Nội

( t 1)
i

Lặp lại các bước 2 và 3 cho tới khi khơng có sự thay đổi
trọng tâm của cụm.

23



II.2. CÁC BƯớC CủA THUậT TỐN
Bắt đầu

ĐH Cơng nghiệp Hà Nội

Trọng tâm

Khoảng
cách các
đối tượng
đến các
Nhóm
các
trọng
tâm
đối tượng
vào các
cụm

Khơng
có đối
tượng
chuyể
n
nhóm

K-Mean và ứng dung

Số

cụ
mK

+

Kết
thúc

24


II.3 VÍ Dụ MINH HọA
Thuộc tính 1
(X)

Thuộc tính 2
(Y)

A

1

1

B

2

1


C

4

3

D

5

4

K-Mean và ứng dung

ĐH Công nghiệp Hà Nội

Đối tượng

25


×