Tải bản đầy đủ (.pdf) (54 trang)

(Luận văn thạc sĩ) ỨNG DỤNG LB-CNN CHO BÀI TOÁN NHẬN DẠNG CẢM XÚC MẶT NGƯỜI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 54 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC
THÀNH PHỐ HỒ CHÍ MINH

NGUYỄN SƠN HĨA

ỨNG DỤNG LBP-CNN CHO BÀI TOÁN NHẬN DIỆN
CẢM XÚC MẶT NGƯỜI

LUẬN VĂN THẠC SĨ

NGÀNH: CƠNG NGHỆ THƠNG TIN
MÃ SỐ: 60480201

TP.HỒ CHÍ MINH – Tháng 05 Năm 2019


B GIÁO
BỘ
ÁO DỤC VÀ
V ĐÀO
O TẠO

TRƯỜN
NG ĐẠII HỌC
H
NG
GOẠI NG
GỮ- TIN
N HỌC


THÀNH
H PHỐ HỒ
H CHÍ M
MINH

NGU
GUYỄN SƠN HĨA
A

ỨNG
NG DỤNG
G LBP-CN
CNN CHO
O BÀI TO
OÁN NH
HẬN DIỆN
N
CẢM XÚC MẶ
ẶT NGƯ
ƯỜI

LUẬ
ẬN VĂN
N THẠC S


NGÀN
NH: CÔN
NG NGH
HỆ THÔN

NG TIN
MÃ SỐ
Ố: 60480
80201

NGƯ HƯỚNG
NGƯỜI
HƯỚ G DẪN KHOA
HOA HỌC:: PGS.TS
TS PHẠM
M THẾ BẢ
ẢO
TP.HỒ
HỒ CHÍ
HÍ MINH – Tháng
T
05 Năm 2019
20


LỜI CAM ĐOAN
Luận văn này là cơng trình nghiên cứu của cá nhân tôi, được thực hiện dưới
sự hướng dẫn khoa học của PGS.TS Phạm Thế Bảo. Các số liệu, những kết luận
nghiên cứu được trình bày trong luận văn là hồn tồn trung thực.
Tơi hồn tồn chịu trách nhiệm về lời cam đoan này.
Người cam đoan

Nguyễn Sơn Hóa



Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

Mục lục
Chương 1: Tổng quan ...................................................................................................... 6
1.1 Giới thiệu .................................................................................................................. 6
1.2 Các hướng tiếp cận ................................................................................................... 7
1.3 Khó khăn và thách thức ............................................................................................ 9
1.4 Đề xuất hướng giải quyết ......................................................................................... 9
Chương 2: Cơ sở lý thuyết ............................................................................................. 11
2.1 Các phương pháp phát hiện khuôn mặt người........................................................ 11
2.1.1 Hướng tiếp cận dựa trên tri thức ...................................................................... 11
2.1.2 Hướng tiếp cận dựa trên so khớp mẫu ............................................................. 13
2.1.3 Hướng tiếp cận dựa trên diện mạo................................................................... 15
2.2 LBP ........................................................................................................................ 19
2.3 Mạng nơ-ron tích chập ........................................................................................... 27
2.3.1 Tổng quan mạng nơ-ron nhân tạo.................................................................... 27
2.3.2 Mạng nơ-ron tích chập..................................................................................... 28
Chương 3: Xây dựng thuật giải ..................................................................................... 32
3.1 Xác định vị trí khn mặt ....................................................................................... 32
3.2 Trích đặc trưng LBP ............................................................................................... 34
3.3 Mơ hình CNN với đặc trưng LBP .......................................................................... 35
Chương 4: Kết quả và hướng phát triển ...................................................................... 37
4.1 Cơ sở dữ liệu........................................................................................................... 37
4.1.1 Cơ sở dữ liệu CK+ ........................................................................................... 37
4.1.2 Cơ sở dữ liệu FER2013 ................................................................................... 37
4.2 Môi trường thực nghiệm ......................................................................................... 40
4.3 Thiết kế thực nghiệm .............................................................................................. 40
4.4 Kết quả .................................................................................................................... 41

4.4.1 Cơ sở dữ liệu CK+ ........................................................................................... 41
4.4.2 Cơ sở dữ liệu FER2013 ................................................................................... 45
4.5 Đánh giá .................................................................................................................. 49
4.5.1 Ưu điểm ........................................................................................................... 49
4.5.2 Khuyết điểm..................................................................................................... 49
4.6 Hướng phát triển ..................................................................................................... 50
Tài liệu tham khảo .......................................................................................................... 51
Trang 1/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

LỜI CẢM ƠN
Chân thành cảm ơn các Thầy, Cô khoa CNTT Trường Đại học Huflit TPHCM cũng
như các Thầy Cô đã giảng dạy và truyền đạt nhiều kiến thức quý báu.
Đặc biệt cảm ơn PGS.TS Phạm Thế Bảo đã dành rất nhiều thời gian và tận tình
hướng dẫn trong suốt quá trình thực hiện luận văn.

Trang 2/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

DANH MỤC TỪ VIẾT TẮT
FER


Facial Expression Recognition

LBP-CNN

Local Binary Pattern Convolutional Neural Networks

FACS

Face Action Coding System

CK+

The Extended Cohn-Kanada AU-Coded Expression Database

Trang 3/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

DANH MỤC CÁC SƠ ĐỒ, HÌNH VẼ, BẢNG BIỂU
- Sơ đồ 1 - Các bước căn bản trong FER
- Hình 1 - (a) Ảnh ban đầu có độ phân giải n=1; (b), (c), (d) Ảnh có độ phân giải n=4, 8,
16
- Hình 2 - Một loại tri thức của nghiên cứu phân tích trên khn mặt
- Hình 3 - Phương pháp chiếu: (a) Ảnh chỉ có 1 khn mặt và hình nền đơn giản; (b) Ảnh
chỉ có 1 khn mặt và hình nền phức tạp; (c) Ảnh có nhiều khn mặt
- Hình 4 - Mẫu khn mặt, có 16 vùng và 23 quan hệ (các mũi tên)
- Hình 5 - Mơ hình mạng nơ-ron theo Rowley

- Hình 6 - Mơ hình Markov ẩn: (a) các vector quan sát để huấn luyện cho HMM; (b)
năm trạng thái ẩn
- Hình 7 - Xác định khuôn mặt bằng HMM các trạng thái, mỗi trạng thái lại có những
trạng thái nhỏ bên trong: trạng thái trán có ba trạng thái nhỏ bên trong; trạng thái mắt có
năm trạng thái nhỏ bên trong
- Hình 8 - Tập hợp các điểm xung quanh Ptt: (a) bán kính 1 pixel; (b) bán kính 2.5 pixel;
(c) bán kính 4 pixel
- Hình 9 - Các biến thể của LBP LBP đồng dạng
- Hình 10 - Bảng thống kê các mẫu của uniform LBP
- Hình 11 - Minh họa các trường hợp của LBP khi quay với góc 15 độ: (a) ảnh xoay α
độ; (b) tám mẫu LBP tương ứng
- Hình 12 - Ví dụ về q trình tính tốn đặc trưng
- Hình 13 - Cấu trúc nơ-ron nhân tạo
- Hình 14 - Mơ hình mạng neural tích chập
- Hình 15 - Mơ hình trường tiếp nhận cục bộ
- Hình 16 - Quan hệ neuron ẩn và pooling
- Hình 17 - Số lượng neuron tương ứng
Trang 4/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

- Hình 18 - Kích thước giảm
- Hình 19 - Phát hiện khn mặt với Viola-Jones
- Hình 20 - Trích xuất đặc trưng LBP ảnh khn mặt người
- Hình 21 - Mơ hình chúng tơi thiết kế cho CNN phân lớp 07 cảm xúc mặt người
- Hình 22 - Ảnh mẫu của cơ sở dữ liệu CK+
- Hình 23 - Một số ảnh và nhãn gây nhầm lẫn trong FER2013

- Hình 24 - Cấu trúc csv của cơ sở dữ liệu FER2013
- Hình 25 - Biểu đồ phân bố cảm xúc trong cơ sở dữ liệu FER2013
- Hình 26 - So sánh hiệu suất giữa TN1 và TN2 trên cơ sở dữ liệu CK+
- Hình 27 - So sánh hiệu suất giữa TN1 và TN2 trên cơ sở dữ liệu FER2013
- Hình 28 - Một số dữ liệu phân loại sai trong dữ liệu CK+
- Hình 29 - Một số dữ liệu phân loại sai trong dữ liệu FER2013
- Biểu đồ 4.1 - So sánh hiệu suất giữa các cảm xúc trong cơ sở dữ liệu CK+
- Biểu đồ 4.2 - So sánh hiệu suất giữa các cảm xúc trong cơ sở dữ liệu FER2013
- Bảng 4.1 - Kết quả phân loại của CNN trên cơ sở dữ liệu CK+
- Bảng 4.2 - Kết quả phân loại của CNN trên cơ sở dữ liệu FER2013

Trang 5/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

Chương 1: Tổng quan
1.1 Giới thiệu
Nhận dạng cảm xúc mặt người (Facial Expression Recognition – FER) giữ vai trò
quan trọng trong tương tác giữa người và máy, trong các hệ thống an ninh với sự phổ
biến của các camera an ninh ở các sân bay, văn phòng, trường đại học, máy ATM, ngân
hàng… FER cịn có thể được sử dụng trong nghiên cứu tâm lý học hành vi, chăm sóc
khách hàng hay trong các hệ thống khuyến nghị dựa trên hình ảnh.
Biểu hiện trên khuôn mặt thể hiện tâm trạng hoặc trạng thái cảm xúc của một cá nhân
ở một thời điểm cụ thể như buồn, hạnh phúc, tức giận… Paul Ekman [1] cho thấy sáu
cảm xúc phổ biến là buồn (sad), hạnh phúc (happy), tức giận (angry), sợ hãi (fear), ghê
tởm (disgust) và ngạc nhiên (surprise). Phát hiện khuôn mặt là bước đầu tiên của nhận
dạng cảm xúc khuôn mặt, trong đó khn mặt được xác định từ ảnh đầu vào và loại bỏ

các đối tượng khác (nếu có). Sau khi đã xác định được khuôn mặt người, bước tiếp theo
thực hiện trích xuất đặc trưng và biểu diễn các đặc trưng đó. Với đặc trưng thu được,
cơng việc cuối cùng là phân loại các đặc trưng vào một trong 6 loại cảm xúc phổ biến ở
trên, sơ đồ 1. Nhiều cơng trình nghiên cứu đã được thực hiện nhằm nâng cao độ chính
xác cho bài tốn FER. Tiếp cận ở giai đoạn trích xuất và biểu diễn đặc trưng có các
phương pháp như Gabor Wavelet, LBP (Local Binary Pattern), PCA (Principal
Component Analysis), LDA (Linear Discriminant Analysis), LDP (Local Directional
Pattern), HOG (Histogram of Oriented Gradients). Mỗi phương pháp đều có ưu khuyết
điểm riêng, LBP với ưu điểm chính là ít chịu ảnh hưởng của những thay đổi về độ sáng,
góc quay, độ co giãn, chi phí tính tốn thấp, tốc độ xử lý nhanh nên được ứng dụng nhiều
trong bài tốn phát hiện và nhận diện khn mặt. Ở giai đoạn phân loại, rất nhiều thuật
toán cũng đã được nghiên cứu và cơng bố như Mơ hình Markov ẩn (Hidden Markov
Model), Naïve Bayesian, KNN (K-nearset Neighbours), SVM (Suport Vector Machine),
Mạng nơ ron tích chập (Convolutaion Neural Networks – CNN)… [1][2][3]. Trong đó,
CNN thể hiện ưu thế vượt trội với khả năng xử lý tập dữ liệu lớn cũng như rất nhiều kiến
trúc mạng được nghiên cứu và công bố… Với những ưu điểm đó của LBP và CNN, luận
văn tập trung tìm hiểu, nghiên cứu kiến trúc mà dữ liệu đầu vào của CNN là đặc trưng
LBP hay còn gọi là mạng nơ ron tích chập mẫu nhị phân cục bộ (LBP-CNN – Local
Trang 6/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

Binary Pattern Convolutional Neural Networks) cho bài toán nhận dạng cảm xúc mặt
người.

Sơ đồ 1 - Các bước căn bản trong FER


1.2 Các hướng tiếp cận
Nhận dạng cảm xúc mặt người (FER) là quá trình giúp nhận biết tâm trạng và cảm
xúc của mỗi cá nhân. Rất nhiều cơng trình đã được thực hiện. FER có hai hướng tiếp cận
chính [2][3] đó là:
• Dựa theo diện mạo (appearance); cách tiếp cận dựa theo diện mạo sẽ xem xét
các thơng tin có được từ giá trị cường độ của các điểm ảnh hay toàn bộ ảnh
bằng cách áp dụng các phép biến đổi, bộ lọc hoặc phương pháp máy học,
thống kê…
• Dựa theo hình học (geometric); trong cách tiếp cận dựa theo hình học, hình
dạng, khoảng cách, vị trí của sự thay đổi của các thành phần mặt như: cơ mặt,
mắt, miệng, trán… sẽ được xem xét.
Năm 1978, Ekman giới thiệu một hệ thống để đo biểu hiện khuôn mặt được gọi là FACS
(Face Action Coding System - Hệ thống mã hoá hành động mặt) dựa trên tâm lý học [4].
FACS được phát triển bằng cách phân tích các mối quan hệ giữa sự co giãn cơ và sự thay
đổi diện mạo khuôn mặt do chúng gây ra. Sự co giãn của các cơ chịu trách nhiệm cho
cùng một hành động được đánh dấu như là một đơn vị hành động (Action Unit - AU).
Mặt có thể được chia thành các đơn vị hành động mặt trên (Upper Face AU) và các đơn
Trang 7/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

vị hành động mặt dưới (Lower Face AU). Có 46 AU đại diện cho sự thay đổi biểu hiện
trên khuôn mặt và 12 AU liên quan đến hướng nhìn mắt và hướng đầu. AU có tính mơ tả
cao về cử động khuôn mặt, tuy nhiên chúng không cung cấp bất kỳ thông tin đại diện
nào. Các AU được gán nhãn với sự mô tả của các hành động. Nhiệm vụ phân tích cảm
xúc bằng cách sử dụng FACS là dựa trên sự phân rã các biểu hiện quan sát được vào tập
các AU, sau đó cảm xúc được xác định.

Caifeng Shan, Shaogang Gong, Peter W. McOwan [5] đã thực hiện kiểm tra, so sánh
đặc trưng LBP với đặc trưng Gabor Wavelet kết hợp với các thuật toán phân lớp như
LDA, KNN, SVM trên một số cơ sở dữ liệu như JAFFE, CK+. Cụ thể, LBP kết hợp với
SVM đạt 88.9% trong khi Gabor và SVM chỉ đạt 86.8% (Table 6). LBP và SVM đạt
80.2% chiếm ưu thế hơn hẵn với 73.4% của LBP và LDA+NN (Table 8). Ưu điểm tốc độ
của LBP cũng được nhóm tác giả kiểm chứng trên Matlab, 0.03s là thời gian xử lý của
LBP trong khi Gabor cần 30s để hồn thành cơng việc trích xuất đặc trưng. Điều này dễ
hiểu bởi Gabor xử lý số chiều đặc trưng là 42,650 trong khi đó LBP chỉ phải xử lý 2478.
Hầu hết các tiếp cận FER đều hoạt động tốt với các cơ sở dữ liệu được kiểm sốt
nhưng lại thất bại trong mơi trường thực tế. Lý do là vì các tập dữ liệu này có các ảnh
nền khác nhau, đôi khi phức tạp với nhiều ngoại vật xen kẻ với ảnh người… vì thế khơng
thể đưa ra được các cảm xúc chung. Shan và cộng sự thực nghiệm với các tập dữ liệu
khác nhau. Nhóm thực thiện huấn luyện phân loại với thuật toán SVM bằng việc trích
xuất đặc trưng LBP (Local Binary Pattern) trên tập dữ liệu Cohn-Kanade. Sau đó kiểm
tra bộ phân lớp đã được huấn luyện trên tập dữ liệu MMI và JAFFE. Họ quan sát thấy,
hiệu suất tổng quát trên các tập dữ liệu là thấp hơn nhiều, chẳng hạn như khoảng 50%
trên cơ sở dữ liệu MMI và khoảng 40% trên cơ sở dữ liệu JAFFE (Table 18). Nhóm của
Littlewort và cộng sự huấn luyện các đặc trưng Gabor Wavelet theo SVM trên tập dữ
liệu Cohn-Kanade và kiểm tra chúng trên cơ sở dữ liệu khác, tỷ lệ công nhận đạt được
cũng chỉ là 56% -60%. [6]
Gần đây, một số thuật toán học sâu đã được đề xuất trong học máy và áp dụng cho
phát hiện và nhận dạng các đối tượng thị giác, phân loại hình ảnh, xác minh khn mặt
và nhiều vấn đề nghiên cứu khác. Các nền tảng học sâu như CNN, Stacked
AutoEncoders (SAE) và Deep Belief Network (DBN) đã được trình bày, nhiều phương
Trang 8/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN


pháp tiếp cận theo hướng học sâu cũng được phát triển dựa trên các nền tảng này. Những
tiếp cận học sâu sử dụng một số lượng lớn các hình ảnh để học và đạt được hiệu suất cao.
Shiam và Aza [7] đã ứng dụng CNN để thực hiện nhận diện cảm xúc mặt người. Họ thực
hiện huấn luyện CNN với nhiều mức sâu khác nhau và sử dụng tập ảnh xám từ trang web
Kaggle với kết quả đạt được là 65%. Nhóm tác giả cũng thực nghiệm kết hợp đặc trưng
HOG với CNN và kết quả đạt được không thay đổi nhiều so với CNN thuần túy.
Mundher Al-Shabi, Wooi Ping Cheah, Tee Connie [8] đã nghiên cứu đặc trưng SIFT kết
hợp với CNN và đạt 73.4% trên FER2013 và 99.1% trên CK+.

1.3 Khó khăn và thách thức
Tuy đạt được những kết quả tương đối khả quan do sự phát triển của nhiều phương
pháp như trí tuệ nhân tạo, mạng nơ ron… nhưng bài tốn nhận dạng cảm xúc mặt người
vẫn cịn tồn tại nhiều khó khăn và thách thức. Khó khăn trong việc phát hiện mặt người
khi ảnh đầu vào có nhiều ngoại vật khác, hướng nghiêng của mặt hay mặt bị che khuất
một phần cũng là một thách thức lớn. Ngồi ra khi xác định được khn mặt người, kích
thước ảnh mặt được cắt ra thường nhỏ nên độ phân giải tương đối thấp, chưa kể một số
ảnh đầu vào có độ phân giải thấp gây khó khăn cho bước tiếp theo là trích xuất và biểu
diễn đặc trưng.
Nhầm lẫn giữa các cảm xúc như ghê tởm (disgust), tức giận (angry) khi phân loại
cũng là thách thức cho bài toán FER vì mức độ tương đồng. Hay mơi trường sẽ tác động
đến việc nhận biết các cảm xúc, như ánh sáng q chói làm hệ thống khơng phân biệt sự
khác biệt này.

1.4 Đề xuất hướng giải quyết
Với những khó khăn và thách thức trên, luận văn giới hạn với tập ảnh đầu vào có mặt
người nhìn thẳng, ít hoặc khơng có các vật cản che khuất như kính râm, nón… Chúng tơi
tập trung vào bài tốn nhận dạng cảm xúc nên áp dụng thuật tốn phát hiện khn mặt
người trong ảnh do Viola & John công bố để xác định vùng khuôn mặt trong ảnh,
phương pháp này cho phép xác định khn mặt được chụp thẳng với độ chính xác rất cao

và xử lý với thời gian nhanh [3][6]. Đặc trưng LBP có những ưu điểm giúp hệ thống ít bị
tác động từ môi trường trường xung quanh như ánh sáng, kích thước, góc quay, và tốc độ
Trang 9/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

xử lý nhanh [5] nên chúng tơi sẽ trích đặc trưng trên khuôn mặt bằng phương pháp LBP.
Với sức mạnh của phương pháp học sâu (Deep Learning) hiện nay mà cụ thể là mạng
neural tích chập (Convolution Neural Network – CNN) cho nhận dạng xử lý ảnh cũng
như nhận dạng cảm xúc mặt người [7], chúng tôi đề xuất dùng CNN để nhận dạng từ đặc
trưng LBP đã được trích trước đó.

Trang 10/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

Chương 2: Cơ sở lý thuyết
2.1 Các phương pháp phát hiện khn mặt người
Đã có nhiều nghiên cứu tìm phương pháp xác định khuôn mặt người, từ ảnh xám đến
ngày nay là ảnh màu [11][12]. Dựa vào tính chất của các phương pháp xác định khuôn
mặt người trên ảnh, chúng ta có thể chia các phương pháp này thành bốn hướng tiếp cận
chính sau:
- Hướng tiếp cận dựa trên tri thức: Mã hóa các hiểu biết của con người về các loại
khuôn mặt người thành các luật. Thông thường các luật mô tả quan hệ của các đặc trưng.

- Hướng tiếp cận dựa trên đặc trưng không thay đổi: Mục tiêu các thuật tốn đi
tìm các đặc trưng mơ tả cấu trúc khuôn mặt người mà các đặc trưng này sẽ khơng thay
đổi khi tư thế khn mặt, vị trí đặt thiết bị thu hình hoặc điều kiện ánh sáng thay đổi.
- Hướng tiếp cận dựa trên so khớp mẫu: Dùng các mẫu chuẩn của khuôn mặt
người (các mẫu này được chọn lựa và lưu trữ) để mô tả cho khuôn mặt người hay các đặc
trưng khuôn mặt (các mẫu này phải chọn làm sao cho tách biệt nhau theo tiêu chuẩn mà
các tác giả định ra để so sánh).
- Hướng tiếp cận dựa trên diện mạo: Trái ngược hẳn với so khớp mẫu, các mơ hình
học ở đây được học từ một tập ảnh huấn luyện cho trước. Sau đó hệ thống sẽ xác định
khuôn mặt người. Một số tác giả còn gọi hướng tiếp cận này là hướng tiếp cận theo
phương pháp học.
2.1.1 Hướng tiếp cận dựa trên tri thức
Trong hướng tiếp cận này, các luật sẽ phụ thuộc rất lớn vào tri thức của những tác giả
nghiên cứu về bài tốn xác định khn mặt người. Đây là hướng tiếp cận dạng top-down.
Dễ dàng xây dựng các luật cơ bản để mô tả các đặc trưng của khuôn mặt và các quan hệ
tương ứng. Ví dụ, một khn mặt thường có hai mắt đối xứng nhau qua trục thẳng đứng
ở giữa khn mặt và có một mũi, một miệng. Các quan hệ của các đặc trưng có thể được
mô tả như quan hệ về khoảng cách và vị trí. Thơng thường các tác giả sẽ trích đặc trưng
của khn mặt trước tiên để có được các ứng viên, sau đó các ứng viên này sẽ được xác
định thơng qua các luật để biết ứng viên nào là khuôn mặt và ứng viên nào không phải
Trang 11/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

khn mặt. Một vấn đề khá phức tạp khi dùng hướng tiếp cận này là làm sao chuyển từ
tri thức con người sang các luật một cách hiệu quả. Nếu các luật này quá chi tiết (chặt
chẽ) thì khi xác định có thể xác định thiếu các khn mặt có trong ảnh, vì những khn

mặt này khơng thể thỏa mãn tất cả các luật đưa ra. Nhưng các luật tổng quát q thì có
thể chúng ta sẽ xác định lầm một vùng nào đó khơng phải là khn mặt mà lại xác định
là khn mặt. Và cũng khó khăn khi cần mở rộng yêu cầu của bài toán để xác định các
khn mặt có nhiều tư thế khác nhau.

Hình 1 - (a) Ảnh ban đầu có độ phân giải n=1; (b), (c), (d) Ảnh có độ phân
giải n=4, 8, 16
Yang và Huang dùng một phương thức theo hướng tiếp cận này để xác định các
khuôn mặt. Hệ thống của hai tác giả này bao gồm ba mức luật. Ở mức cao nhất, dùng
một khung cửa sổ quét trên ảnh và thông qua một tập luật để tìm các ứng viên có thể là
khuôn mặt. Ở mức kế tiếp, hai ông dùng một tập luật để mơ tả tổng qt hình dáng
khn mặt. Còn ở mức cuối cùng lại dùng một tập luật khác để xem xét ở mức chi tiết
các đặc trưng khuôn mặt. Một hệ thống đa độ phân giải có thứ tự được dùng để xác định,
hình 1. Các luật ở mức cao nhất để tìm ứng viên như: “vùng trung tâm khn mặt (phần
tối hơn trong hình 2) có bốn phần với một mức độ đều cơ bản”, “phần xung quanh bên
trên của một khuôn mặt (phần sáng hơn trong hình 2) có một mức độ đều cơ bản”, và
“mức độ khác nhau giữa các giá trị xám trung bình của phần trung tâm và phần bao bên
trên là đáng kể”. Ở mức hai, xem xét biểu đồ của các ứng viên để loại bớt ứng viên nào
không phải là khn mặt, đồng thời dị ra cạnh bao xung quanh ứng viên. Ở mức cuối
cùng, những ứng viên nào còn lại sẽ được xem xét các đặc trưng của khuôn mặt về mắt
và miệng. Hai ông đã dùng một chiến lược “từ thô đến mịn” hay “làm rõ dần” để giảm số
lượng tính tốn trong xử lý. Mặc dù tỉ lệ chính xác chưa cao, nhưng đây là tiền đề cho
nhiều nghiên cứu sau này.
Trang 12/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN


Hình 2 - Một loại tri thức của nghiên cứu phân tích trên khn mặt
Kotropoulos và Pitas đưa một phương pháp dùng trên độ phân giải thấp. Hai ông
dùng phương pháp chiếu để xác định các đặc trưng khuôn mặt. Kanade đã thành công
với phương pháp chiếu để xác định biên của khuôn mặt, các hàm để chiếu ảnh theo
phương ngang và thẳng đứng, hình 3.

(a)

(b)

(c)

Hình 3 - Phương pháp chiếu: (a) Ảnh chỉ có 1 khn mặt và hình nền đơn giản;
(b) Ảnh chỉ có 1 khn mặt và hình nền phức tạp; (c) Ảnh có nhiều khn mặt
Dựa trên biểu đồ hình chiếu ngang, có hai cực tiểu cục bộ cho ta biết vị trí miệng,
đỉnh mũi, và hai mắt. Các đặc trưng này đủ để xác định khuôn mặt.
2.1.2 Hướng tiếp cận dựa trên so khớp mẫu
Trong so khớp mẫu, các mẫu chuẩn của khuôn mặt (thường là khuôn mặt được chụp
thẳng) sẽ được xác định trước hoặc xác định các tham số thông qua một hàm. Từ một
ảnh đưa vào, tính các giá trị tương quan so với các mẫu chuẩn về đường viền khuôn mặt,
mắt, mũi và miệng. Thông qua các giá trị tương quan này mà các tác giả quyết định có
hay khơng có tồn tại khn mặt trong ảnh. Hướng tiếp cận này có lợi thế là rất dễ cài đặt,
nhưng không hiệu quả khi có sự thay đổi về tỉ lệ, tư thế và hình dáng.
Sinha dùng một tập nhỏ các bất biến ảnh trong không gian ảnh để mô tả không gian
các mẫu ảnh. Tư tưởng chính của ơng dựa vào sự thay đổi mức độ sáng của các vùng
khác nhau của khuôn mặt (như hai mắt, hai má, và trán), quan hệ về mức độ sáng của các
vùng còn lại thay đổi không đáng kể. Xác định các cặp tỉ số của mức độ sáng của một số
Trang 13/51



Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

vùng (một vùng tối hơn hay sáng hơn) cho ta một lượng bất biến khá hiệu quả. Các vùng
có độ sáng đều được xem như một mẫu tỉ số mà là mẫu thô trong không gian ảnh của
một khuôn mặt với độ thích hợp ít dùng để chọn như các đặc trưng chính của khn mặt
như hai mắt, hai má, và trán. Lưu giữ thay đổi độ sáng của các vùng trên khn mặt
trong một tập thích hợp với các cặp quan hệ sáng hơn – tối hơn giữa các vùng nhỏ.
Một khuôn mặt được xác định khi một ảnh phù hợp tất cả các cặp sáng hơn – tối hơn.
Ý tưởng này xuất phát từ sự khác biệt của cường độ giữa các vùng kề cục bộ, sau này
được mở rộng trên cơ sở biến đổi Wavelet để biểu diễn cho xác định người đi bộ, xác
định xe hơi, xác định khn mặt. Hình 4 cho thấy mẫu nổi bật trong 23 quan hệ được
định nghĩa. Dùng các quan hệ này để phân loại, có 11 quan hệ thiết yếu (các mũi tên màu
đen) và 12 quan hệ xác thực (các mũi tên xám). Mỗi mũi tên là một quan hệ. Một quan
hệ thỏa mãn mẫu khuôn mặt khi tỉ lệ giữa hai vùng vượt qua một ngưỡng và 23 quan hệ
này vượt ngưỡng thì xem như xác định được một khuôn mặt.
Phương pháp so khớp mẫu theo thứ tự để xác định khn mặt người do Miao trình
bày. Ở giai đoạn đầu tiên, ảnh sẽ được xoay từ -200 đến 200 với mỗi bước là 50 và theo
thứ tự. Xây dựng ảnh đa độ phân giải, rồi dùng phép tốn Laplace để xác định các cạnh.
Một mẫu khn mặt gồm các cạnh mô tả sáu thành phần: hai lông mày, hai mắt, một
mũi, và một miệng.

Hình 4 - Mẫu khn mặt, có 16 vùng và 23 quan hệ (các mũi tên)
Wei và Lai dùng bộ lọc để phân đoạn kết hợp thuật tốn tìm láng giềng gần nhất xác
định ứng viên khn mặt, từ ứng viên này sau đó so khớp với các mẫu đã xác định trước
để biết ứng viên có phải là khn mặt hay khơng. Tỉ lệ chính xác là 80%.

Trang 14/51



Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

2.1.3 Hướng tiếp cận dựa trên diện mạo
Trái ngược với các phương pháp so khớp mẫu với các mẫu đã được định nghĩa trước
bởi những chuyên gia, các mẫu trong hướng tiếp cận này được học từ các ảnh mẫu. Một
các tổng quát, các phương pháp theo hướng tiếp cận này áp dụng các kỹ thuật theo
hướng xác suất thống kê và máy học để tìm những đặc tính liên quan của khuôn mặt và
không phải là khuôn mặt. Các đặc tính đã được học ở trong hình thái các mơ hình phân
bố, hay các hàm biệt số có thể dùng các đặc tính này để xác định khn mặt người. Đồng
thời, bài toán giảm số chiều thường được quan tâm để tăng hiệu quả tính tốn cũng như
hiệu quả xác định. Một ảnh hay một vector đặc trưng xuất phát từ một ảnh được xem như
một biến ngẫu nhiên x, và biến ngẫu nhiên có đặc tính là khn mặt hay khơng phải
khn mặt bởi cơng thức tính theo các hàm mật độ phân lớp theo điều kiện p(x | khn
mặt) và p(x | khơng phải khn mặt). Có thể dùng phân loại Bayes hoặc khả năng cực đại
để phân loại một ứng viên là khuôn mặt hay không phải là khuôn mặt. Không thể cài đặt
trực tiếp phân loại Bayes bởi vì số chiều của x khá cao, bởi vì p(x | khn mặt) và p(x |
khơng phải khn mặt) là đa thức và chưa thể hiểu nếu xây dựng các dạng tham số hóa
một cách tự nhiên cho p(x | khuôn mặt) và p(x | không phải khuôn mặt). Có khá nhiều
nghiên cứu theo hướng tiếp cận này quan tâm xấp xỉ có tham số hay khơng có tham số
cho p(x | khuôn mặt) và p(x | không phải khuôn mặt). Các tiếp cận khác trong hướng tiếp
cận dựa trên diện mạo là tìm một hàm biệt số (như: mặt phẳng quyết định, siêu phẳng để
tách dữ liệu, hàm ngưỡng) để phân biệt hai lớp dữ liệu: khuôn mặt và khơng phải khn
mặt. Bình thường, các mẫu ảnh được chiếu vào khơng gian có số chiều thấp hơn, rồi sau
đó dùng một hàm biệt số (dựa trên các độ đo khoảng cách) để phân loại, hoặc xây dựng
mặt quyết định phi tuyến bằng mạng nơ-ron đa tầng. Hoặc dùng SVM (Support Vector
Machine) và các phương thức kernel, chiếu hồn tồn các mẫu vào khơng gian có số
chiều cao hơn để dữ liệu bị rời rạc hoàn toàn và ta có thể dùng một mặt phẳng quyết

định, phân loại các mẫu khuôn mặt và không phải khuôn mặt.
2.1.3.1 Eigenface
Kohonen đã đưa ra phương pháp dùng vector riêng để nhận dạng khuôn mặt, ông
dùng một mạng nơ-ron đơn giản để chứng tỏ khả năng của phương pháp này trên các ảnh

Trang 15/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

đã được chuẩn hóa. Mạng nơ-ron tính một mơ tả của khuôn mặt bằng cách xấp xỉ các
vector riêng của ma trận tương quan của ảnh.
Các vector riêng sau này được biết đến với cái tên Eigenface. Kirby và Sirovich
chứng tỏ các ảnh có các khn mặt có thể được mã hóa tuyến tính bằng một số lượng
vừa phải các ảnh cơ sở. Tính chất này dựa trên biến đổi Karhunen-Lịeve, mà còn được
gọi dưới một cái tên khác là PCA và biến đổi Hotelling. Ý tưởng này được xem là của
Pearson trình bày đầu tiên vào năm 1901 và sau đó là Hotelling vào năm 1933. Cho một
tập các ảnh huấn luyện có kích thước n x m được mơ tả bởi các vector có kích thước m x
m, các vector cơ sở cho một không gian con tối ưu được xác định thơng qua lỗi bình
phương trung bình khi chiếu các ảnh huấn luyện vào không gian con này. Các tác giả gọi
tập các vector cơ sở tối ưu này là ảnh riêng, sau đó gọi cho đơn giản là vector riêng của
ma trận hiệp phương sai, được tính từ các ảnh khn mặt đã vector hóa trong tập huấn
luyện.
Turk và Pentland áp dụng PCA để xác định và nhận dạng khuôn mặt. Tương tự, dùng
PCA trên tập huấn luyện ảnh các khuôn mặt để sinh các ảnh riêng (cịn gọi là Eigenface)
để tìm một khơng gian con (khơng gian khuôn mặt) trong không gian ảnh. Các ảnh
khuôn mặt được chiếu vào không gian con này và được gom nhóm lại. Tương tự các ảnh
khơng có khn mặt dùng để huấn luyện cũng được chiếu vào cùng không gian con và

gom nhóm lại. Các ảnh khi chiếu vào khơng gian khn mặt thì khơng bị thay đổi tính
chất cơ bản, trong khi chiếu các ảnh khơng có khn mặt thì xuất hiện nhiều sự khác
nhau. Xác định sự có mặt của một khuôn mặt trong ảnh thông qua tất cả khoảng cách
giữa các vị trí trong ảnh và khơng gian ảnh. Khoảng cách này dùng để xem xét có hay
khơng có khn mặt người, kết quả khi tính tốn các khoảng cách sẽ cho ta một bản đồ
về khuôn mặt. Có thể xác định được từ cực tiểu cục bộ của bản đồ này. Có nhiều nghiên
cứu về xác định khn mặt, nhận dạng, và trích đặc trưng từ ý tưởng vector riêng, phân
rã và gom nhóm.
2.1.3.2 Mạng Nơ-ron
Mạng nơ-ron được áp dụng khá thành công trong các bài toán nhận dạng mẫu, như:
nhận ký tự, đối tượng, robot tự động vận hành. Xác định khn mặt người có thể xem là
bài tốn nhận dạng hai loại mẫu, có nhiều kiến trúc mạng nơ-ron đã được trình bày. Một
Trang 16/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

thuận lợi khi dùng mạng nơ-ron để xác định khuôn mặt là tính khả thi của hệ thống học
khi có sự phức tạp trong lớp của các mẫu khuôn mặt. Tuy nhiên, một điều trở ngại là các
kiến trúc mạng đều tổng quát, khi áp dụng thì phải xác định rõ ràng số lượng tầng, số
lượng node, tỉ lệ học … cho từng trường hợp cụ thể, hình 5.

Hình 5 - Mơ hình mạng nơ-ron theo Rowley
2.1.3.3 Support Vector Machine
Support Vector Machine (SVM) là một kỹ thuật học được Vapnik đề xuất. Phương
pháp này rất hiệu quả với tập dữ liệu lớn, nhưng lại gặp khó khăn khi cần phải mơ tả lại
chính xác các khn mặt (vì tính biến thiên của khuôn mặt).
Osuna áp dụng phương pháp này đầu tiên để xác định khuôn mặt người. SVM được

xem như là một kiểu mới dùng huấn luyện để phân loại theo hàm đa thức. Trong khi hầu
hết các phương pháp khác dùng huấn luyện để phân loại (Mạng Bayes, Nueral, RBF) đều
dùng tiêu chí tối thiểu lỗi huấn luyện (rủi ro do kinh nghiệm), trong khi SVM dùng quy
nạp (được gọi là tối thiểu rủi ro cấu trúc), mục tiêu là làm tối thiểu một bao bên trên lỗi
tổng quát. Một phân loại SVM là một phân loại tuyến tính, dùng một mặt phẳng để tách
dữ liệu. Dựa trên một kết hợp có các trọng số của một tập con nhỏ các vector huấn luyện,
các vector này được gọi là support vector. Ước lượng mặt phẳng tương đương với việc
giải một bài tốn tuyến tính bậc hai. Osuna đã phát triển một phương pháp hiệu quả để
huấn luyện một SVM với tỉ lệ lớn để áp dụng cho bài toán xác định khn mặt người.
Ơng dùng 10,000,000 mẫu có kích thước 19 x 19 điểm ảnh, hệ thống của ơng có tỉ lệ lỗi
ít hơn Sung và Poggio, nhưng nhanh hơn gần 30 lần. SVM cũng có thể dùng xác định
khn mặt người và người đi bộ với phân tích Wavelet.

Trang 17/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

2.1.3.4 AdaBoost
AdaBoost là một phân loại mạnh phi tuyến phức HM(x), được xây dựng từ M phân
loại yếu. Mục tiêu của Adaboost là học một dãy các phân loại yếu. Giả sử có một tập N
mẫu huấn luyện đã được gán nhãn {(x1,y1), …, (xN,yN)}, với yi là nhãn tương ứng của
mẫu xi ∈ Rn. Tính một phân bố của các mẫu huấn luyện [w1,…, wN] cập nhật trong suốt
quá trình học. Sau bước lặp m, mẫu khó phân loại (xi,yi) có trọng số mới wi (m), đến
bước lặp thứ (m+1), mẫu này sẽ có tầm quan trọng hơn. Viola và Jones dùng AdaBoost
kết hợp Cascade để xác định khuôn mặt người với các đặc trưng dạng Haar Wavelet-like.
2.1.3.5 Mơ hình Markov ẩn
Samaria và Young dùng Mơ hình Markov ẩn một chiều (Hidden Markov Model –

HMM) (hình 6) và hai chiều (hình 7) để trích đặc trưng khn mặt dùng để nhận dạng
khuôn mặt. HMM khai thác cấu trúc của khuôn mặt tuân theo các chuyển tiếp trạng thái.
Từ các cùng có đặc trưng quan trọng như: tóc, trán, mắt, mũi, và miệng, hai ơng phân
tích theo tự nhiên từ trên xuống dưới, mỗi vùng được thiết kế thành một trạng thái 1chiều. Mỗi ảnh được phân đoạn chuẩn thành năm vùng theo thứ tự từ trên xuống dưới tạo
thành năm trạng thái.

Hình 6 - Mơ hình Markov ẩn: (a) các vector quan sát để huấn luyện cho HMM;
(b) năm trạng thái ẩn

Trang 18/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

Hình 7 - Xác định khuôn mặt bằng HMM các trạng thái, mỗi trạng thái lại có
những trạng thái nhỏ bên trong: trạng thái trán có ba trạng thái nhỏ bên trong;
trạng thái mắt có năm trạng thái nhỏ bên trong

2.2 LBP
Mẫu nhị phân địa phương (Local Binary Pattern - LBP) được Ojala trình bày vào năm
1996 như là một cách đo độ tương phản cục bộ của ảnh. Phiên bản đầu tiên của LBP
được dùng với 8 điểm ảnh láng giềng và sử dụng giá trị của điểm ảnh ở trung tâm làm
ngưỡng. Giá trị LBP được xác định bằng cách nhân các giá trị ngưỡng với trọng số ứng
với mỗi điểm ảnh sau đó cộng tổng lại.
Dãy LBP được Ojala cải tiến trình bày vào năm 2002. Định nghĩa một cấu trúc điểm
ảnh T là một phân phối đại số của cấp độ xám của P +1 (P > 0) điểm ảnh như công thức
(2.1).
T = t(gc,g0,…,gp-1)


(2.1)

Với gc ứng với cấp độ xám của điểm ảnh trung tâm Ptt , gp (p = 0,…,1) tương ứng với
P điểm ảnh xung quanh, P điểm ảnh này nằm trên đường tròn bán kính R và tâm là Ptt,
hình 8.

Trang 19/51


Nguyễn Sơn Hóa

Nhận dạng cảm xúc mặt người với LBP-CNN

(b) P=12, R=2.5

(a) P=8, R=1.0

(c) P=16, R=4.0

Hình 8 - Tập hợp các điểm xung quanh Ptt: (a) bán kính 1 pixel; (b) bán kính 2.5
pixel; (c) bán kính 4 pixel
Khơng mất thơng tin, ta có thể trừ gp đi một lượng là gc như công thức (2.2).

T = t(gc,g0 – gc ,…,gp – gc)

(2.2)

Giả sử sự sai số giữa gp và gc là độc lập với gc, ta có thể nhân tử hóa gc như sau:


T = t(gc)t(g0- gc,…,gp-1- gc)

(2.2.1)

t(gc) biểu thị xu hướng độ sáng tối của cả bức ảnh nên không liên quan đến kết cấu
của ảnh cục bộ do đó có thể bỏ qua

T~ t((g0 – gc),…,(gp-1 – gc))

(2.2.2)

Mặc dù tính bất biến ngược với độ thay đổi tỷ lệ xám của điểm ảnh, sự khác biệt ảnh
hưởng bởi tỷ lệ. Để thu được đặc điểm bất biến với bất kỳ một sự thay đổi nào của ảnh
đen trắng (gray scale) chỉ quan tâm đến dấu của độ lệch:

T ~ t (s(g0 – gc),…,s(gp-1 – gc))
Với s là hàm dấu:

s(x) =

(2.2.3)

1 x≥0
0 x<0

Trọng số 2p được dùng cho các hàm dấu, s(gp – gc) để chuyển sự khác biệt giữa các
điểm ảnh bên cạnh về một giá trị duy nhất, công thức 2.3.
LBPP,R = ∑

s(gp – gc)*2p


(2.3)

Với P pixel thì có 2p giá trị LBPP,R trong khoảng [0,2p-1 ] nhưng để đơn giản ta
có thể chọn một số giá trị trong 2p giá trị ký hiệu là

Trang 20/51

,


Nhận dạạng cảm xúcc mặt ngườ
ời với LBP-C
CNN

Nguyễn Sơn Hóa
Thuậật tốn LB
BP

Thơnng tin LBP của pixel tại trung tâm
m của mỗi kkhối ảnh sẽẽ được tính dựa trên thhơng
tin của các
c pixel lậnn cận. Có thhể tóm tắt ccác bước tiếến hành như
ư sau:
Bướcc 1: Xác địnnh bán kính
h làm việc.
Bướcc 2: Tính giá
g trị LBP cho pixel ở trung tâm
m (xc, yc) khhối ảnh dựaa trên thôngg tin
của các pixel

p
lân cậận:
Tronng đó, (gp) là
l giá trị grrayscale của các pixell lân cận, (ggc) là giá trrị grayscalee của
các trung
g tâm và (s)) là hàm nhhị phân được xác định nnhư sau: s(zz) = 1 nếu giá
g trị z ≥0.
Ví dụ


1*220 + 1*21 + 1*22 + 1*223 + 0*24 + 0*25 + 0*26 + 0*27 = 15.
Hình 9 - Các biến tthể của LB
BP LBP đồn
ng dạng
Một mẫu nhị ph
hân được gọi
g là đồngg dạng khi xxét chuỗi bbit xoay vịnng thì có nnhiều
nhất là 2 lần thay đổi (transitioons) từ giá ttrị bit 0 sang 1 hoặc từ
ừ giá trị bit 1 sang 0. Víí dụ:
000000000 có 0 trannsitions, 01
1110000 có 2 transitionns, 110011111 có 2 trannsitions nênn đây
là uniforrm LBP. 11
1001001 cóó 4 transitioons, 010100
011 có 6 trannsitions nên
n không phhải là
uniform LBP.
Dựa trên định nghĩa
n
này, bbảng ánh xạạ cho bán kíính làm việcc P -neighbbours sẽ có P(P1) + 3 nh
hãn. Có ngh

hĩa là có 599 nhãn trongg trường hợ
ợp làm việcc với 8-neigghbour. Hìnnh vẽ
sau đây thể hiện 599 nhãn (mẫu
u) và minh hhọa về histo
ogram của đđặc trưng L
LBP đồng ddạng,
hình 10..

T
Trang 21/511


Nhận dạạng cảm xúcc mặt ngườ
ời với LBP-C
CNN

Nguyễn Sơn Hóa

Hình 10 - Bảng
B
thốngg kê các mẫẫu của uniiform LBP
Nguyyên lý phân
n lớp khôn
ng tham biếến
Tronng phân lớp, sự khác biiệt giữa mẫẫu và mơ hìình phân phhối LBP đượ
ợc đánh giảả bởi
kiểm traa thống kê không tham
m số. Phươ
ơng pháp tiếếp cận này có ưu điểm
m là khơngg cần

phải có những giả thiết về phhân phối củaa các đặc trrưng. Thônng thường, nnhững kiểm
m tra
thống kkê được chhọn cho mụục đích là nguyên lý
ý cross-entrropy được giới thiệu bởi
Kullbackk (1968). Sau
S đó, Sokaal và Rohlf (1969) gọi cách đo nàày là thống kê
k G.
G(S,M)) = 2* ∑

2∑

Sb log

!SSb ∗ logSb + Sb ∗ logM
Mb1

Với S, M kí hiệệu phân phốối mẫu và mơ
m hình mong
m
muốn.. Sb và Mb là
l xác suất để b
thuộc vàào phân phốối mẫu hoặcc mơ hình. B là số phầần tử trong phân phối. Thống kê G sử
dụng troong phân lớp
p có thể viếết lại như saau:
L(S,M) = − ∑

Sb log Mb

Kiếnn trúc mơ hìình có thể xem
x

như xử
ử lý ngẫu nhiên
n
có đặặc tính có th
hể xác địnhh bởi
phân phố
ối LBP. Troong một ph
hân lớp đơnn giản , mỗii lớp được bbiểu diễn bở
ởi một mô hhình
phân phố
ối đơn giảnn Mi. Tươngg tự , một kkiến trúc mẫẫu khơng xxác định có thể miêu tảả bởi
phân phốối S. L là một
m giả ma trận
t
đo khả năng mẫu S có thể thuuộc lớp i.
Lớp C của mộtt mẫu khơnng xác định có thể đượ
ợc xác địnhh bởi luật “láng

giềng gần
nhất” theeo công thứ
ức (2.4).
"#$%&'( ) )-, /( 00

(
(2.4)

Bên cạnh đó, một
m đại lượnng của thốngg kê là log--likelihood có thể xem
m như đơn vvị đo
sự khác biệt và có thể sử dụnng để liên kkết nhiều bộ

ộ phân lớp giống như bộ phân lớ
ớp kT
Trang 22/511


×