Tải bản đầy đủ (.pdf) (75 trang)

TRÍCH CHỌN ĐẶC TRƯNG KẾT CẤU MÀU CỤC BỘ CHO BÀI TOÁN NHẬN DẠNG ẢNH MÀU MẶT NGƯỜI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.33 MB, 75 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

---------------------------

NGUYỄN ĐỨC DŨNG

TRÍCH CHỌN ĐẶC TRƯNG KẾT CẤU MÀU CỤC BỘ
CHO BÀI TOÁN NHẬN DẠNG ẢNH MÀU MẶT NGƯỜI

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201

TP. HỒ CHÍ MINH, tháng 7 năm 2015


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

---------------------------

NGUYỄN ĐỨC DŨNG

TRÍCH CHỌN ĐẶC TRƯNG KẾT CẤU MÀU CỤC BỘ
CHO BÀI TOÁN NHẬN DẠNG ẢNH MÀU MẶT NGƯỜI

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201


CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS. ĐẶNG THANH DŨNG
TP. HỒ CHÍ MINH, tháng 7 năm 2015


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

Cán bộ hướng dẫn khoa học : TS. ĐẶNG THANH DŨNG

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM
ngày … tháng … năm …
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:

TT
1
2
3
4
5

Họ và tên

Chức danh Hội đồng
Chủ tịch
Phản biện 1
Phản biện 2
Ủy viên
Ủy viên, Thư ký

Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được

sửa chữa (nếu có).
Chủ tịch Hội đồng đánh giá LV


TRƯỜNG ĐH CÔNG NGHỆ TP. HCM
PHÒNG QLKH – ĐTSĐH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày..… tháng….. năm 20..…

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Đức Dũng

Giới tính: Nam

Ngày, tháng, năm sinh: 07/05/1989

Nơi sinh: TP.HCM

Chuyên ngành: Công nghệ thông tin

MSHV: 1341860004

I- Tên đề tài:
Trích chọn đặc trưng kết cấu màu cục bộ cho bài toán nhận diện ảnh màu mặt người
..................................................................................................................................................
..................................................................................................................................................
II- Nhiệm vụ và nội dung:
Nhiệm vụ tổng quát của đề tài là: Đề xuất được phương pháp trích chọn đặc trưng kết cấu

màu cục bộ cho bài toán nhận dạng ảnh màu mặt người, trên cơ sở cải tiến phương pháp
của Choi et al, sao cho tăng độ chính xác nhận dạng (so với phương pháp của Choi et al).
III- Ngày giao nhiệm vụ: 18/08/2014
IV- Ngày hoàn thành nhiệm vụ: 15/6/2015
V- Cán bộ hướng dẫn: TS. Đặng Thanh Dũng
..................................................................................................................................................
..................................................................................................................................................
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

KHOA QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)


i

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu
trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào
khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.
Học viên thực hiện Luận văn

Nguyễn Đức Dũng


ii

LỜI CÁM ƠN

Để hoàn thành luận văn này, tác giả xin tỏ lòng biết ơn sâu sắc nhất đến Thầy TS.
Đặng Thanh Dũng, người đã tận tình hướng dẫn trong suốt quá trình viết luận văn.
Đồng thời, tác giả cũng xin chân thành cảm ơn gia đình, bạn bè và các anh chị em
trong Công ty CP Giải pháp CNTT Tân Cảng đã giúp đỡ và tạo điều kiện thuận lợi để tác
giả có thể hoàn thành luận văn thạc sỹ này.
Tác giả cũng xin chân thành cảm ơn quý Thầy, Cô trong khoa Công nghệ thông tin,
trường Đại học Công Nghệ TP. Hồ Chí Minh đã tận tình truyền đạt kiến thức trong những
năm tháng học tập. Với vốn kiến thức được tiếp thu trong quá trình học không chỉ là nền
tảng cho quá trình nghiên cứu mà còn là hành trang quí báu để tác giả có thể bước vào đời
một cách vững chắc và tự tin.
Cuối cùng, tác giả xin kính chúc quý Thầy, Cô dồi dào sức khỏe và thành công trong
sự nghiệp, đạt được nhiều thành công tốt đẹp trong công việc và cuộc sống.
Nguyễn Đức Dũng


iii

TÓM TẮT
Trong bài cáo cáo “Color Local Texture Features for Color Face Recognition” của
Choi et al năm 2012, nhóm tác giả Choi et al đã đề xuất phương pháp kết hợp các đặc trưng
kết cấu cục bộ LBP trích từ các kênh màu khác nhau của ảnh màu mặt người (được biểu
diễn trên một không gian màu, chẳng hạn RQCr) để làm đặc tả ảnh màu mặt người (color
face descriptor). Đặc tả này được nhóm tác giả gọi là đặc trưng kết cấu màu cục bộ (color
local texture feature – CLTF). Kết quả các thí nghiệm được tiến hành trong bài báo cáo
trên chứng tỏ rằng CLTF giúp tăng độ chính xác nhận dạng.
Tuy nhiên, nhóm tác giả cũng chỉ ra trong phần kết luận một số hạn chế trong
phương pháp xây dựng CLTF được nêu trong công trình này. Một trong những hạn chế đó
là, khi xây dựng CLTF, các đặc trưng kết cấu cục bộ (local texture feature, LTF) thành
phần được trích chọn từ cùng một không gian màu gồm 3 thành phần (ví dụ RQCr). Xử lý
theo cách này sẽ không tận dụng được điểm mạnh của các không gian màu khác nhau. Mỗi

không gian màu có các đặc điểm riêng có thể được tận dụng để làm tăng độ chính xác nhận
dạng.
Trong nghiên cứu này, tác giả sẽ xây dựng đặc trưng kết cấu màu cục bộ (CLTF),
trong đó các thành phần đặc trưng kết cấu cục bộ được chọn lọc từ các không gian màu
khác nhau một cách phù hợp, sao cho chứa được nhiều thông tin phân loại (discriminant
information) nhất. Tác giả sẽ xây dựng các không gian màu bằng cách kết hợp các thành
phần màu từ các không gian màu cố định và sau đó thử nghiệm độ chính xác của các không
gian màu kết hợp trên cùng một bộ dữ liệu hình ảnh. Ở đây tác giả sử dụng bộ dữ liệu Color
Feret và so sánh các kết quả thực nghiệm giữa phương pháp của Choi et al và phương pháp
cải tiến nhằm nâng cao hiệu suất nhận diện khuôn mặt màu một cách tốt nhất.


iv

MỤC LỤC
CHƯƠNG 1: TỔNG QUAN ............................................................................................. 1
1.1 Giới thiệu .................................................................................................................. 1
1.1.1 Đặt vấn đề .......................................................................................................... 1
1.1.2 Tính cấp thiết của đề tài ................................................................................... 2
1.2 Mục tiêu của đề tài: ................................................................................................. 3
1.3 Nội dung nghiên cứu: .............................................................................................. 4
CHƯƠNG 2: CÁC KIẾN THỨC NỀN TẢNG VỀ NHẬN DIỆN ẢNH MẶT
NGƯỜI. .............................................................................................................................. 5
2.1 Các không gian màu ................................................................................................ 5
2.1.1 Không gian màu RGB ...................................................................................... 5
2.1.2 Không gian màu CMYK. ................................................................................. 5
2.1.3 Không gian màu HSV. ..................................................................................... 6
2.1.4 Các không gian màu CIE ................................................................................. 7
2.2 Bài toán nhận dạng ảnh mặt người........................................................................ 9
2.3 Một số độ đo khoảng cách. .................................................................................... 11

2.3.1. Các độ đo khoảng cách giữa các đối tượng ................................................. 11
2.3.2. Độ đo khoảng cách giữa các dãy................................................................... 13
2.3.3. Độ đo theo lý thuyết thông tin....................................................................... 16
CHƯƠNG 3: KỸ THUẬT TRÍCH CHỌN KẾT CẤU ĐẶC TRƯNG MÀU CỤC
BỘ. .................................................................................................................................... 20
3.1 Mẫu nhị phân cục bộ (Local Binary Pattern – LBP). ........................................ 20
3.1.1 Thuật toán LBP .............................................................................................. 20
3.1.2 Thuật toán Opponent color LBP (OCLBP) ................................................. 21
3.1.3 Mẫu nhị phân đồng dạng – Uniform Pattern .............................................. 21
3.2 Các bước xử lý trong phương pháp trích trọn đặc trưng. ................................. 22
3.2.1 Mô hình trích chọn đặc trưng của Choi et al ............................................... 22
3.2.2 Trích chọn đặc trưng Gabor Wavelet màu cục bộ (CLGW) ..................... 24
3.2.3 Trích chọn đặc trưng kết cấu màu cục bộ ................................................... 27
3.2.5 Kết hợp: ........................................................................................................... 31
CHƯƠNG 4: MÔ HÌNH ĐỀ XUẤT .............................................................................. 33
4.1 Mô hình đề xuất ..................................................................................................... 33


v

4.2. Các không gian màu lựa chọn. ............................................................................ 35
4.2.1 Không gian màu YIQ ...................................................................................... 35
4.2.2 Không gian màu ZRG ..................................................................................... 36
4.2.3 Không gian màu RCrQ ................................................................................... 36
4.2.4 Kết hợp các không gian màu ......................................................................... 36
4.3 Cơ sở dữ liệu ảnh màu Color Feret ..................................................................... 37
4.3.1 Giới thiệu ......................................................................................................... 37
4.3.2 Quy tắc đặt tên hình ảnh................................................................................ 38
4.3.2 Ground Truth File .......................................................................................... 38
4.4 Cơ sở lý thuyết PCA .............................................................................................. 39

4.4.1 Giới thiệu ......................................................................................................... 39
4.1.2 Thuật toán PCA .............................................................................................. 41
CHƯƠNG 5: THỰC NGHIỆM VÀ KẾT LUẬN ......................................................... 45
5.1 Mô tả thí nghiệm .................................................................................................. 45
5.3 Kết luận .................................................................................................................. 47
5.4 Hướng phát triển ................................................................................................... 48
Tài liệu tham khảo: ............................................................................................................ 47


vi

Danh mục các từ viết tắt
STT

Từ viết tắt Từ gốc

Nghĩa tiếng việt

1

FR

Face Recognitions

Nhận diện khuôn mặt

2

LBP


Local Binary Pattern

Mẫu nhị phân cục bộ

3

CLTF

Color Local Texture Feature

Đặc trưng kết cấu màu cục
bộ

4

CLBP

Color Local Binary Pattern

Mẫu nhị phân cục bộ màu

5

CLGW

Color Local Gabor Wavelet

Gabor Wavelet cục bộ
màu


6

LTF

Local Texture Feature

Đặc trưng kết cấu cục bộ

7

HCI

Human–computer interaction

Tương tác người - máy

8

PIN

9

ATM

Automated Teller Machine

Máy rút tiền tự động

10


CIE

Commission Internationale de
l’Eclairage

Ủy ban quốc tế về chiếu
sáng

11

PCA

Principal component Analysis

Phương pháp phân tích
thành phần chính

12

LDA

Linear Discriminant Analysis

phương pháp phân tích sự
khác biệt tuyến tính

13

EBGM


Elastic Bunch Graph
Matching

Phương pháp đối sánh bó
đồ thị co giãn

14

OCLBP

Opponent Color Local Binary
Pattern

Mẫu nhị phân màu đối lập
cục bộ

15

NTSC

National Teltevision System
Committee

Ủy ban quốc gia hệ thống
truyền hình

Personal identification number

16


NIST

National Institute of Standards
and Technology

Mã số định danh cá nhân

Viện tiêu chuẩn và công
nghệ quốc gia Hoa Kỳ


vii

17

NN

18

CSDL

Nearest Neighbor

Phương pháp láng giềng
gần nhất
Cơ sở dữ liệu


viii


Danh mục các bảng
Bảng 2.1 Bảng tham chiếu các độ đo khoảng cách giữa các đối tượng ............................ 12
Bảng 5.1 Kết quả thực nghiệm .......................................... Error! Bookmark not defined.

Danh mục các biểu đồ, đồ thị, sơ đồ, hình ảnh
Hình 2.1 Không gian màu RGB .......................................................................................... 5
Hình 2.2 Không gian màu CYMK ...................................................................................... 6
Hình 2.3 Không gian màu HSV .......................................................................................... 7
Hình 2.4 Hệ thống quan sát CIE .......................................................................................... 8
Hình 2.5 Phạm vi quan sát trong mô hình của CIE ............................................................. 9
Hình 2. 6 Minh họa của khoảng cách Hausdorff giữa 2 tập hợp A và B: .......................... 18
Hình 2.7 Mã chuỗi biểu diễn: a: kết quả của việc lấy mẫu lại; b: mã chuỗi cơ sở ..... Error!
Bookmark not defined.

Hình 3.1 Mô tả thuật toán LBP gốc ................................................................................... 20
Hình 3. 2 Số lượng điểm P cách đều trên các đường tròn với bán kính khác nhau .......... 20
Hình 3.3 Các mẫu nhị phân đồng dạng và không dồng dạng. ........................................... 22
Hình 3. 4 Framework nhận diện khuôn mặt màu sử dụng đặc trưng kết cấu màu cục bộ. 23
Hình 3.5 Các histogram được trích xuất từ thuật toán LBP .............................................. 30
Hình 3.6 Mô hình đề xuất cải tiến ..................................... Error! Bookmark not defined.

Hình 4.1 Mô hình đề xuất cải tiến ..................................................................................... 34
Hình 4. 2 Ví dụ mô tả về số lượng chiều của dữ liệu. ....................................................... 40
Hình 4. 3 Minh họa sự biến thiên dữ liệu trong không gian đa chiều trước và sau khi sử
dụng thuật toán PCA ......................................................................................................... 41

Hình 5.1: Mô hình thực nghiệm ........................................................................................ 46


ii


Hình 5.2: Đồ thị mô tả độ chính xác trên các không gian mà u ..................................... 47


1

CHƯƠNG 1: TỔNG QUAN
1.1 Giới thiệu
1.1.1 Đặt vấn đề
Nhận dạng ảnh mặt người (FR – Face Recognition) có nhiều ứng dụng thực tế,
như Giám sát qua camera (Bowyer, 2004), Nhận dạng bằng đặc điểm sinh trắc (Jain et
al., 2004), Đánh chỉ mục nội dung multimedia, v..v; vì vậy, trong những năm gần đây đã
thu hút được nhiều quan tâm trong các nghiên cứu về thị giác máy tính (computer vision)
và nhận dạng mẫu (pattern regconition).
Trích chọn đặc trưng (feature extraction) ảnh mặt người là một bước xử lý rất quan
trọng trong toàn bộ quá trình xử lý tính toán cho FR. Gần đây, đặc trưng kết cấu cục bộ
(local texture feature) được xem là một đặc tả mặt (face descriptor) tốt bởi nó ít thay đổi
trong điều kiện có thay đổi về biểu hiện cảm xúc trên mặt, về độ nghiêng gương mặt được
chụp, về các phần khuất trên gương mặt (do xõa tóc, đội nón, đeo kính)(Choi et al., 2010),
v..v.. Đặc biệt, đặc trưng mẫu nhị phân cục bộ (Local binary pattern texture feature – LBP
texture feature) đã được chứng minh là một đặc tả mặt rất tốt cho FR(Ahonen et al., 2006).
Trong (Choi et al., 2012), các tác giả đã đề xuất phương pháp kết hợp các đặc trưng
kết cấu cục bộ LBP trích từ các kênh màu khác nhau của ảnh màu mặt người (được biểu
diễn trên một không gian màu nào đó, chẳng hạn RGB) để làm đặc tả mặt ảnh màu mặt
người (color face descriptor). Đặc tả này được nhóm tác giả của (Choi et al., 2012) gọi là
color local texture feature (CLTF). Kết quả các thí nghiệm được tiến hành trong (Choi et
al., 2012) chứng tỏ rằng CLTF giúp tăng độ chính xác nhận dạng.
Tuy nhiên, nhóm tác giả của (Choi et al., 2012) cũng chỉ ra (trong phần kết luận)
một số hạn chế trong phương pháp xây dựng CLTF được nêu trong công trình này. Một
trong những hạn chế đó là, khi xây dựng CLTF trong (Choi et al., 2012), các đặc trưng kết

cấu cục bộ (local texture feature, LTF) thành phần được trích chọn từ cùng một không gian
màu gồm 3 thành phần (ví dụ RQCr). Xử lý theo cách này sẽ không tận dụng được điểm
mạnh của các không gian màu khác nhau. Theo (Stokman and Gevers, 2007), mỗi không
gian màu có các đặc điểm riêng có thể được tận dụng để làm tăng độ chính xác nhận dạng.


2

Vì vậy, trong nghiên cứu này, tác giả sẽ tìm cách xây dựng CLTF, trong đó các LTF
thành phần được chọn lọc từ các không gian màu khác nhau một cách phù hợp, sao cho
chứa được nhiều thông tin phân loại (discriminant information) nhất. Điều này có thể đạt
được bằng cách sử dụng giải pháp được mô tả trong (Choi et al., 2011) (multiclass boosting
color feature selection).
1.1.2 Tính cấp thiết của đề tài
Nhận dạng ảnh mặt người (FR – Face Recognition) có nhiều ứng dụng thực tế hiện
nay, chẳng hạn như Giám sát qua camera (Bowyer, 2004), Nhận dạng bằng đặc điểm sinh
trắc (Jain et al., 2004), Đánh chỉ mục nội dung multimedia, v..v. Ngoài ra, các hệ thống
tương tác người máy (HCI) thông minh cũng rất cần đến kết quả của bài toán nhận dạng
mặt người để có thể hỗ trợ người dung bảo quản được các thông tin nhạy cảm mà không
cần phải lo lắng về việc đánh mất hoặc mất cắp thông tin xác thực (như số PIN để truy cập
ATM, password để truy cập máy tính và các hệ thống trên mạng Internet).
Ưu điểm của việc sử dụng FR trong an ninh là nó cho phép xác thực người dung mà
không cần sự hợp tác của đối tượng. So với các phương pháp xác thực dựa trên sinh trắc
học khác như Nhận dạng dấu vân tay, tròng mắt, v.v… (mặc dù rất đáng tin cậy và chính
xác, nhưng lại đòi hỏi sự hợp tác của người dùng), đây là một lợi thế lớn. Vì vậy, trong
khoảng 10 năm trở lại đây, bài toán nhận dạng mặt người thu hút nhiều sự quan tâm của
các nhà nghiên cứu trong các lĩnh vực nhận dạng, xử lý ảnh, thị giác máy tính. Việc tìm ra
các phương pháp làm tăng độ chính xác nhận dạng mặt không có giá trị khoa học, mà còn
có giá trị thực tiễn rất lớn.
Một cách tiếp cận đối với việc tăng độ chính xác nhận dạng mặt là tối ưu hóa quá

trình trích chọn vector đặc trưng ảnh mặt người, sao cho vector này chứa nhiều thông tin
phân loại nhất (discriminant information).
Theo cách tiếp cận này, tác giả đặt mục tiêu nghiên cứu trong luận văn thạc sỹ là
tìm cách xây dựng đặc trưng ảnh màu mặt người, bằng cách cải biên phương pháp do Choi


3

và các đồng tác giả đưa ra vào năm 2012 (Choi et al., 2012). Để đạt được mục tiêu này,
luận văn sẽ phải giải quyết các câu hỏi sau đây:
- Tìm hiểu đặc điểm của các không gian màu quan trọng (chẳng hạn RGB, ZRG,
RQCr) trong bài toán nhận dạng ảnh màu mặt người.
- Chọn lọc các kênh màu (từ các không gian màu thích hợp) sẽ được sử dụng cho
việc rút trích đặc trưng.
- Tìm cách kết hợp các đặc trưng từ các kênh màu nêu trên.
Các giả thuyết được dùng trong luận văn:
- Đặc trưng kết cấu màu cục bộ chứa nhiều thông tin nhận dạng hơn đặc trưng kết
cấu toàn cục (Ahonen et al., 2006).
- Đặc trưng ảnh màu chứa thông tin kết cấu (texture information) từ các kênh màu
khác nhau chứa nhiều thông tin nhận dạng hơn đặc trưng ảnh chứa thông tin kết cấu từ một
kênh màu duy nhất (Choi et al., 2012).
- Các thông tin nhận dạng được rút trích từ các không gian màu khác nhau sẽ có ảnh
hưởng khác nhau đến kết quả nhận dạng (Stokman and Gevers, 2007).
1.2 Mục tiêu của đề tài:
- Mục tiêu tổng quát của đề tài là: Đề xuất được phương pháp trích chọn đặc trưng
kết cấu màu cục bộ cho bài toán nhận dạng ảnh màu mặt người, trên cơ sở cải tiến phương
pháp của Choi et al. (Choi et al., 2012), sao cho tăng độ chính xác nhận dạng (so với phương
pháp của Choi et al.(Choi et al., 2012) ).
- Mục tiêu cụ thể của đề tài bao gồm:
1. Chọn các không gian màu phù hợp.

2. Chọn các kênh màu phù hợp trong từng không gian màu trên.
3. Trích chọn đặc trưng kết cấu màu cục bộ cho từng kênh màu nêu trong (2).
4. Tìm cách kết hợp các đặc trưng kết cấu cục bộ để cho ra được Đặc trưng kết cấu
màu cục bộ cho ảnh màu mặt người.
5. Cài đặt thử nghiệm và tiến hành thí nghiệm, đánh giá.


4

1.3 Nội dung nghiên cứu:
1. Cách biểu diễn màu và các không gian màu.
2. Khái quát về trích chọn đặc trưng ảnh và nhận dạng dựa trên đặc trưng ảnh.
3. Thuật toán LBP và Local Ternary Pattern (LTP) (Tan and Triggs, 2007).
4. Tìm hiểu phương pháp rút trích đặc trưng ảnh đề xuất bởi Choi et al. năm 2012
(Choi et al., 2012).
5. Tìm hiểu phương pháp chọn lựa kênh màu được trình bày trong (Choi et al.,
2011).
6. Đề xuất phương pháp rút trích đặc trưng kết cấu màu cục bộ.
7. Tìm hiểu một số Tập ảnh màu mặt người miễn phí dùng cho mục đích đánh giá
các phương pháp nhận dạng ảnh màu mặt người.
8. Thực nghiệm và đánh giá phương pháp đề xuất.


5

CHƯƠNG 2: CÁC KIẾN THỨC NỀN TẢNG VỀ NHẬN DIỆN ẢNH MẶT NGƯỜI.
2.1 Các không gian màu
Không gian màu là một mô hình toán học dùng để mô tả các màu sắc trong thực tế
được biểu diễn dưới dạng số học. Trên thực tế có rất nhiều không gian màu khác nhau được
mô hình để sử dụng vào những mục đích khác nhau.

2.1.1 Không gian màu RGB
RGB là không gian màu rất phổ biến được dùng trong đồ họa máy tính và nhiều
thiết bị kĩ thuật số khác (“RGB color model,” 2015). Ý tưởng chính của không gian màu
này là sự kết hợp của 3 màu sắc cơ bản : màu đỏ (R, Red), xanh lục (G, Green) và xanh lơ
(B, Blue) để mô tả tất cả các màu sắc khác.
Nếu như một ảnh số được mã hóa bằng 24 bit, nghĩa là 8 bit cho kênh R, 8 bit cho
kênh G, 8 bit cho kênh B, thì mỗi kênh này màu này sẽ nhận giá trị từ 0-255. Với mỗi giá
trị khác nhau của các kênh màu kết hợp với nhau ta sẽ được một màu khác nhau, như vậy
ta sẽ có tổng cộng 255x255x255 = 1.66 triệu màu sắc. Ví dụ: màu đen là sự kết hợp của
các kênh màu (R, G, B) với giá trị tương ứng (0, 0, 0) màu trắng có giá trị (255, 255, 255),
màu vàng có giá trị (255, 255, 0), màu tím đậm có giá trị (64, 0, 128) ...Nếu ta dùng 16bit
để mã hóa một kênh màu (48bit cho toàn bộ 3 kênh màu) thì dãi màu sẽ trãi rộng lên tới
3*2^16 = ... Một con số rất lớn.

Hình 2.1 Không gian màu RGB
2.1.2 Không gian màu CMYK.


6

CMYK là không gian màu được sử dụng phổ biến trong ngành công nghiệp in ấn.Ý
tưởng cơ bản của hệ không gian này là dùng 4 màu sắc cơ bản để phục vụ cho việc pha
trộn mực in. Trên thực tế, người ta dùng 3 màu là C = Cyan: xanh lơ, M = Magenta: hồng
sẫm, và Y = Yellow: vàng để biểu diễn các màu sắc khác nhau. Nếu lấy màu hồng sẫm
cộng với vàng sẽ ra màu đỏ, màu sẫm kết hợp với xanh lơ sẽ cho xanh lam ... Sự kết hợp
của 3 màu trên sẽ cho ra màu đen, tuy nhiên màu đen ở đây không phải là đen tuyệt đối và
thường có độ tương phản lớn, nên trong ngành in, để tiết kiệm mực in người ta thêm vào
màu đen để in những chi tiết có màu đen thay vì phải kết hợp 3 màu sắc trên. Và như vậy
ta có hệ màu CMYK. chữ K ở đây là để kí hiệu màu đen (Black) (“CMYK color model,”
2015).

Nguyên lý làm việc của hệ màu này như sau : Trên một nền giấy trắng, khi mỗi màu
này được in lên sẽ loại bỏ dần đi thành phần màu trắng. 3 màu C, M, Y khác nhau in theo
những tỉ lệ khác nhau sẽ loại bỏ đi thành phần đó một cách khác nhau và cuối cùng cho ta
màu sắc cần in. Khi cần in màu đen, thay vì phải in cả 3 màu người ta dùng màu đen để in
lên. Nguyên lý này khác với nguyên lý làm việc của hệ RGB ở chỗ hệ RGB là sự kết hợp
của các thành phần màu, còn hệ CMYK là sự loại bỏ lẫn nhau của các thành phần màu.

Hình 2.2 Không gian màu CYMK
2.1.3 Không gian màu HSV.
HSV và cũng gần tương tự như HSL là không gian màu được dùng nhiều trong việc
chỉnh sữa ảnh, phân tích ảnh và một phần của lĩnh vực thị giác máy tính. Hệ không gian
này dựa vào 3 thông số sau để mô tả màu sắc: H = Hue: màu sắc, S = Saturation: độ đậm


7

đặc, sự bảo hòa, V = value: giá trị cường độ sáng. Không gian màu này thường được biểu
diễn dưới dạng hình trụ hoặc hình nón.(“HSL and HSV,” 2015)

Hình 2.3 Không gian màu HSV
Theo đó, đi theo vòng tròn từ 0 -360 độ là trường biểu diễn màu sắc (Hue). Trường
này bắt đầu từ màu đỏ đầu tiên (red primary) tới màu xanh lục đầu tiên (green primary)
nằm trong khoảng 0-120 độ, từ 120 - 240 độ là màu xanh lục tới xanh lơ (green primary blue primary). Từ 240 - 360 là từ màu đen tới lại màu đỏ.
Theo như cách biểu diễn không gian màu theo hình trụ như trên, đi từ giá trị độ sáng
(V) được biểu diễn bằng cách đi từ dưới đáy hình trụ lên và nằm trong khoảng từ 0 -1. Ở
đáy hình trụ V có giá trị là 0, là tối nhất và trên đỉnh hình trụ là độ sáng lớn nhất (V = 1).
Đi từ tâm hình trụ ra mặt trụ là giá trị bão hòa của màu sắc (S). S có giá trị từ 0 - 1. 0 ứng
với tâm hình trụ là chỗ mà màu sắc là nhạt nhất. S = 1 ở ngoài mặt trụ, là nơi mà giá trị
màu sắc là đậm đặc nhất.
Như vậy với mỗi giá trị (H, S, V) sẽ cho ta một màu sắc mà ở đó mô tả đầy đủ thông

tin về máu sắc, độ đậm đặc và độ sáng của màu đó.
2.1.4 Các không gian màu CIE
CIE là tên viết tắt của Commission Internationale de l’Eclairage, hiệp hội được
thành lập vào năm 1913 với chức năng như một diễn đàn quốc tế cung cấp, trao đổi thông
tin và các ý tưởng về mọi vấn đề liên quan đến chiếu sáng. Trong đó, nghiên cứu màu sắc
là một trong những nhiệm vụ chính của tổ chức này (“International Commission on
Illumination,” 2015).
Mô hình màu CIE được phát triển để có thể độc lập với bất kì một phương tiện chiếu
sáng nào và dựa trên nền tảng cảm thụ màu sắc của mắt người. Chìa khóa quan trọng của


8

mô hình CIE là sự định nghĩa cụ thể các nguồn sáng chuẩn và sự quy định cụ thể đối với
người quan sát chuẩn.
Các nguồn sáng chuẩn
Các nguồn sáng chuẩn được định nghĩa năm 1913 :
• Nguồn A : bóng đèn sợi tóc Tungsten với nhiệt độ màu 2854 K
• Nguồn B : mô hình ánh sáng mặt trời vào buổi trưa với nhiệt độ 4800 K
• Nguồn C : mô hình ánh sáng mặt trời ban ngày với nhiệt độ 6500 K
Nguồn B và C thật ra xuất phát từ nguồn A thông qua sử dụng các tấm lọc thay đổi
sự phân bố nguồn quang phổ. Bên cạnh đó, CIE cũng đã định nghĩa 1 series các nguồn
sáng daylight gọi là daylight D. Trong đó, D65 với nhiệt độ màu ở 6500 K được sử dụng
làm hệ tham chiếu phổ biến nhất.

Hình 2.4 Hệ thống quan sát CIE
CIE thường sử dụng hai hệ thống người quan sát chuẩn : hệ quan sát 1913 và 1964.
Trong cả hai trường hợp, người quan sát chuẩn là sự tổng hợp của những nhóm nhỏ từ 15
– 20 người và như thế, đại diện cho sự quan sát màu sắc của con người bình thường.
Người quan sát sẽ nhìn vào 1 màn hình bị chia đôi với độ phản xạ là 100% (trắng

tinh khiết). Ở 1 nửa màn hình, 1 bóng đèn kiểm tra sẽ chiếu 1 màu sắc lên, ở nửa còn lại,
3 bóng đèn đỏ, xanh dương, xanh lá sẽ thay đổi hàm lượng ánh sáng để có thể tạo ra màu
giống với màu trong nửa màn hình thứ nhất. Người quan sát sẽ nhìn thông qua 1 lỗ hổng


9

và quyết định khi nào thì màu sắc của 2 màn hình giống hệt nhau. Bộ 3 thông số (tritimulus)
RGB cho mỗi 1 màu sắc sẽ có được theo cách thức này.

Hình 2.5 Phạm vi quan sát trong mô hình của CIE
Một khi các giá trị tristimulus RGB đã thu được, chúng sẽ được sử dụng trong các
mô hình mẫu của màu sắc. Do sự ràng buộc của các gam màu, mô hình màu sắc RGB
không thể sao chép toàn bộ ánh sáng quang phổ mà không đưa vào các giá trị thông số
RGB âm. CIE đã chuyển đổi các giá trị của bộ 3 thông số RGB vào trong 1 hệ khác chỉ sử
dụng hoàn toàn các giá trị dương, được gọi là XYZ. Đây cũng chính là mô hình mẫu đầu
tiên của CIE, còn gọi là không gian màu CIE XYZ(Yang et al., 2010).
2.2 Bài toán nhận dạng ảnh mặt người.
Trong nhiều năm qua, có rất nhiều công trình nghiên cứu về bài toán nhận dạng mặt
người. Các nghiên cứu đi từ bài toán đơn giản, từ việc nhận dạng một mặt người trong ảnh
đen trắng cho đến mở rộng cho ảnh mầu và có nhiều mặt người trong ảnh. Đến nay các bài
toán xác định mặt người đã mở rộng với nhiều miền nghiên cứu như nhận dạng khuôn mặt,
định vị khuôn mặt, theo dõi mặt người hay nhận dạng cảm xúc mặt người…(Bowyer, 2004)
Phát hiện mặt người trong ảnh là phần đầu tiên của một hệ thống nhận dạng mặt
người. Các hệ thống nhận dạng khuôn mặt được bắt đầu xây dựng từ những năm 1970, tuy
nhiên do còn hạn chế về các luật xác định mặt người nên chỉ được áp dụng trong một số
ứng dụng như nhận dạng thẻ căn cước. Nó chỉ được phát triển mạnh mẽ từ những năm


10


1990 khi có những tiến bộ trong công nghệ video và ngày nay thì các ứng dụng của xác
định mặt người đã trở nên phổ biến trong cuộc sống.
Bài toán xác định khuôn mặt người (Face Regconition) là một kỹ thuật máy tính để
xác định các vị trí và các kích thước của khuôn mặt trong ảnh bất kỳ (ảnh kỹ thuật số). Kỹ
thuật này nhận biết các đặc trưng khuôn mặt và bỏ qua những thứ khác như: toà nhà, cây
cối cơ thể .
Một số ứng dụng của bài toán xác định khuôn mặt là: hệ thống tương tác giữa người
và máy (điều kiển máy tính qua các cử động của khuôn mặt), hệ thống nhận dạng người
(giúp cho các cơ quan an ninh quản lý con người), hệ thống quan sát theo dõi, hệ thống
quản lý việc ra vào cho các cơ quan và công ty, hệ thống kiểm tra người lái xe có ngủ gật
hay không, hệ thống phân tích cảm xúc trên khuôn mặt, và hệ thống nhận dạng khuôn mặt
cho các máy ảnh kỹ thuật số…
Thuật toán nhận diện khuôn mặt hiện chia làm hai loại là hình học (geometric) và
trắc quang (photometric). Hình học nhận diện khuôn mặt dựa trên các đặc trưng trên khuôn
mặt như mắt, mũi, miệng, gò má; trong khi trắc quang là phương pháp biến hình ảnh thành
các giá trị và so sánh với giá trị mẫu để nhận diện. Các nhà nghiên cứu ngày nay đã phát
triển những kỹ thuật nhận diện khuôn mặt riêng, nhưng phổ biến nhất hiện có ba loại chính
là phân tích thành phần chính (PCA), phân tích phân lớp tuyến tính (LDA) và phương pháp
đồ thị đàn hồi (EBGM).
Cách nhận diện khuôn mặt sử dụng phương pháp PCA phụ thuộc rất nhiều vào cơ
sở dữ liệu ban đầu chứa các ảnh mẫu và góc quay camera cũng như ánh sáng. Sử dụng các
thuật toán đại số để tìm giá trị mặt riêng và vector riêng rồi so sánh với giá trị mẫu, ta thu
được khuôn mặt cần nhận diện. Đặc điểm của phương pháp này là giảm thiểu được dữ liệu
cần sử dụng làm mẫu. Trong khi đó, phương pháp LDA lại phân loại các lớp chưa biết
thành các lớp đã biết, mà ở đó các khuôn mặt tạo thành một lớp và sự khác biệt giữa các
khuôn mặt trong một lớp là rất nhỏ. Cả PCA và LDA đều chọn cách thống kê lấy mẫu,
chọn lọc để nhận diện khuôn mặt.
Phương pháp còn lại EBGM chia mặt thành mạng lưới gồm các nút với mỗi khuôn
mặt có khoảng 80 điểm nút. Vị trí của các nút giúp xác định khoảng cách giữa hai mắt, độ



11

dài của sống mũi, độ sâu của hốc mắt, hình dạng của gò má… Điểm khó của phương pháp
này là cần tính toán chính xác khoảng cách giữa các điểm nút, và do đó đôi khi nó phải
dùng kết hợp với các phương pháp như PCA hay LDA.
Với những hạn chế khi sử dụng công nghệ nhận diện khuôn mặt truyền thống,
phương pháp nhận diện 3D đã trở thành hướng đi mới trong việc ứng dụng công nghệ nhận
diện khuôn mặt. Phương pháp này lưu lại hình ảnh 3D của khuôn mặt với các điểm đặc
trưng như độ cong của cằm, mũi, hốc mắt… Ưu điểm của nó là có thể nhận diện khuôn
mặt ở nhiều góc độ khác nhau, không bị ảnh hưởng bởi ánh sáng.
Cũng như những phương pháp truyền thống, phương pháp nhận diện khuôn mặt 3D
cũng dựa trên các thuật toán. Nó tính toán các đường cong, những điểm đặc trưng trên
khuôn mặt để tạo thành những dòng lệnh duy nhất và so sánh với cơ sở dữ liệu. Chúng ta
có thể dễ dàng bắt gặp quá trình so sánh này trong các bộ phim hành động của Mỹ, khi
hình ảnh của một người được camera ghi lại và ngay lập tức nó được so sánh liên tục với
hàng triệu khuôn mặt trong cơ sở dữ liệu của cảnh sát.
Ngày nay, các công ty của Mỹ đã cải tiến phương pháp nhận diện 3D bằng việc bổ
sung thêm nhận diện mẫu da, được gọi là phương pháp phân tích vân bề mặt. Phương pháp
này cũng sử dụng các thuật toán chia nhỏ vùng da thành các không gian có thể đo đếm
được, giúp xác định danh tính của cả những cặp sinh đôi.
Nhận diện khuôn mặt 3D vẫn chưa hoàn hảo, nó vẫn bị hạn chế đáng kể bởi các yếu
tố bên ngoài như khuôn mặt bị tóc che phủ, đeo kính, hình ảnh quá mờ. Các công ty của
Mỹ hiện vẫn đang liên tục tìm cách cải tiến để tăng độ chính xác cho công nghệ nhận diện
khuôn mặt mà không gây khó chịu cho người bị nhận diện.
2.3 Một số độ đo khoảng cách.
2.3.1. Các độ đo khoảng cách giữa các đối tượng (Pękalska and Duin, 2005)
Để phân tích sự khác biệt giữa các đối tượng được mô tả bởi các vectơ trong
một không gian đặc trưng, một số độ đo khác nhau có thể được xem xét. Nếu các vectơ

trung bình được sử dụng để làm đại diện cho toàn bộ các đối tượng, chúng có thể được sử
dụng để tính toán khoảng cách giữa các nhóm theo các công thức từ bảng 2.1.


12

Bảng 2.1 Bảng tham chiếu các độ đo khoảng cách giữa các đối tượng
Ref.
Euclidean
Weight

Độ đo tương tự d(x,y)

D
𝐷𝐸 , 𝐷2
𝐷𝜔𝐸

Euclidean
City Block

√(𝑥 − 𝑦)𝑇 (𝑥 − 𝑦)
√(𝑥 − 𝑦)𝑇 𝑑𝑖𝑎𝑔(𝑤𝑖2 )(𝑥 − 𝑦)
𝑚

𝐷1

|𝑥𝑖 − 𝑦𝑖 |




M

E

Yes

Yes

Yes

Yes

Yes

No

Yes

No

Yes

No

Yes

Yes

𝑖=1


Max norm
ℓ𝑝 or

𝐷𝑝

𝑖

𝑚

(∑

Minkowski
Mahalanobis

max|𝑥𝑖 − 𝑦𝑖 |

𝐷max

|𝑝

1
𝑝

|𝑥𝑖 − 𝑦𝑖 ) , 𝑝 ≥ 1, 𝑝 ≠ 2

𝑖=1

𝐷𝑀

√(𝑥 − 𝑦)𝑇 𝐶 −1 (𝑥 − 𝑦); C is psd


𝐷𝑚𝑒𝑑

𝐷[𝑛]−𝑟𝑎𝑛𝑘

No

No

𝐷𝑐𝑜𝑟𝑟

1
𝑥𝑇 𝑦
(1 −
)
‖𝑥‖2 + ‖𝑦‖2
2

No

No

𝐷𝑐𝑜𝑟𝑟2

1
𝑥𝑇 𝑦
(1 −
)
‖𝑥‖2 + ‖𝑦‖2 − 2𝑥 𝑇 𝑦
2


No

No

Cosine

𝐷𝑐𝑜𝑠

1
𝑥𝑇 𝑦
(1 −
)
‖𝑥 ‖‖𝑦‖
2

No

No

Divergene

𝐷𝑑𝑖𝑣

No

No

Median


2

distance
Correlationbase
Correlationbase

𝑛

(𝑥𝑖 − 𝑦𝑖 )2
√∑
(𝑥𝑖 + 𝑦𝑖 )2
𝑖=1

Bray and

𝐷𝐵𝐶

∑𝑛𝑖=1|𝑥𝑖 − 𝑦𝑖 |
∑𝑛𝑖=1 𝑥𝑖 + 𝑦𝑖

No

No

𝐷𝑆

∑𝑛𝑖=1|𝑥𝑖 − 𝑦𝑖 |
∑𝑛𝑖=1 max{𝑥𝑖 , 𝑦𝑖 }

No


No

No

No

Curtis
Soergel
Ware and
Hedges

𝐷𝑊𝐻

𝑛


𝑖=1

(1 −

min{𝑥𝐼 , 𝑦𝑖 }
)
max{𝑥𝑖 , 𝑦𝑖 }


×