Nhận dạng diện mạo đối tượng sử dụng phương pháp PCA kết hợp Mô hình Markov ẩn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.31 MB, 78 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC

TRẦN TUẤN CƯỜNG

Nghiªn cøu nhËn d¹ng diÖn m¹o
®èi t-îng sö dông ph-¬ng ph¸p PCA
kÕt hîp m« h×nh Markov Èn

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Huế, 2015

MỤC LỤC
Lời cam đoan
Lời cảm ơn
Mục lục
Danh mục các thuật ngữ
Danh mục các từ viết tắt
Danh mục các bảng
Danh mục các hình vẽ và đồ thị
MỞ ĐẦU ................................................................................................................... 1
1. Lý do chọn đề tài .................................................................................................... 1
2. Tổng quan tài liệu ................................................................................................... 2
3. Mục tiêu nghiên cứu ............................................................................................... 3
4. Đối tượng nghiên cứu: ............................................................................................ 3

5. Phương pháp nghiên cứu: ....................................................................................... 4
6. Phạm vi nghiên cứu ................................................................................................ 4
7. Cấu trúc và nội dung luận văn: ............................................................................... 4
Chương 1. TỔNG QUAN VỀ LÝ THUYẾT NHẬN DẠNG ĐỐI TƯỢNG ....... 6
1.1 Giới thiệu về nhận dạng ....................................................................................... 6
1.2 Nhận dạng đối tượng và những khó khăn ............................................................ 7
1.2.1 Nhận dạng đối tượng ........................................................................................ 7
1.2.2 Những khó khăn của nhận dạng đối tượng....................................................... 7
1.3 Các ứng dụng hiện nay liên quan đến nhận dạng đối tượng ................................ 7
1.4 Các khái niệm cơ sở ............................................................................................. 8
1.5 Mô hình hóa bài toán nhận dạng đối tượng: ........................................................ 9
1.6 Các phương pháp nhận dạng đối tượng được sử dụng hiện nay........................ 10
1.6.1 Hướng tiếp cận dựa trên tri thức..................................................................... 11
1.6.2 Hướng tiếp cận dựa trên đặc trưng không đổi ................................................ 14
1.6.3 Hướng tiếp cận dựa trên so khớp mẫu............................................................ 14

1.6.4 Hướng tiếp cận dựa vào mô hình đối tượng để nhận dạng đối tượng ............ 15
1.6.5 Hướng tiếp cận dựa trên diện mạo ................................................................. 16
1.7 Đánh giá về hướng tiếp cận dựa trên diện mạo ................................................. 17
1.8 Tiểu kết chương 1 .............................................................................................. 18
Chương 2. NHẬN DẠNG DIỆN MẠO ĐỐI TƯỢNG SỬ DỤNG
PHƯƠNG PHÁP PCA KẾT HỢP MÔ HÌNH MARKOV ẨN ................... 19
2.1 Giới thiệu về nhận dạng đối tượng dựa vào diện mạo ....................................... 19
2.1.1 Diện mạo đối tượng ........................................................................................ 19
2.1.2 Nhận dạng đối tượng dựa vào diện mạo......................................................... 20
2.2 Phương pháp phân tích thành phần chính PCA ................................................. 21
2.2.1 Giới thiệu PCA ............................................................................................... 21
2.2.2 Các thuật toán của PCA .................................................................................. 23
2.2.3 Xác định vùng chứa khuôn mặt trong ảnh với PCA ...................................... 35

2.2.4 Trích chọn thành phần đặc trưng với PCA ..................................................... 37
2.3 Mô hình Markov ẩn ........................................................................................... 40
2.3.1 Mô hình Markov ẩn ........................................................................................ 40
2.3.2 Xác suất của chuỗi quan sát............................................................................ 41
2.3.3 Huấn luyện dữ liệu cho các mô hình HMM ................................................... 46
2.3.4 Nhận dạng đối tượng với mô hình Markov ẩn ............................................... 47
2.4 Mô hình kết hợp PCA – HMM trong nhận dạng............................................... 48
2.4.1 Giai đoạn huấn luyện hệ thống ........................................................................ 50
2.4.2 Biểu diễn dữ liệu khuôn mặt theo mô hình Markov ẩn ................................... 51
2.4.3 Các bước huấn luyện HMM để nhận dạng khuôn mặt .................................... 54
2.5 Nhận dạng khuôn mặt bằng mô hình kết hợp PCA và HMM ........................... 55
2.6 Tiểu kết chương 2 .............................................................................................. 57
Chương 3. MÔ PHỎNG PHƯƠNG PHÁP PCA KẾT HỢP HMM NHẬN DẠN
KHUÔN MẶT ................................................................................................. 58
3.1 Thu nhập bộ dữ liệu thực nghiệm ...................................................................... 58
3.2 Phân tích, thiết kế hệ thống và cài đặt chương trình .......................................... 59
3.2.1 Phân tích bài toán ............................................................................................. 59

3.2.2 Thiết kế hệ thống ............................................................................................. 60
3.2.3 Cài đặt chương trình ....................................................................................... 61
3.2.4 Yêu cầu cấu hình để chạy chương trình ......................................................... 63
3.3 Thực nghiệm, lượng hóa và đánh giá kết quả .................................................... 64
3.3.1 Phương pháp thực nghiệm, lượng hóa............................................................ 64
3.3.2 Đánh giá kết quả thực nghiệm ........................................................................ 65
3.4 Tiểu kết chương 3 .............................................................................................. 66
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................................... 67
TÀI LIỆU THAM KHẢO ........................................................................................ 68

DANH MỤC CÁC THUẬT NGỮ
Giải thích

Thuật ngữ
2D

2 chiều

2.5D

2.5 chiều

3D

3 chiều

Principal Components Analysis

Phương pháp trích chọn đặc trưng

Hidden Markov Models

Mô hình Markov ẩn

Open source Computer Vision

Mã nguồn mở thị giác máy tính

Mean square error

Trung bình bình phương lỗi

Eigenvalue Decompostion

Phân tích giá trị riêng

Singular Value Decomposition

Phân tích giá trị đơn

Minimum Description Length

Mô tả chiều dài tối thiểu

Support Vector Machine

Máy vector hỗ trợ

DANH MỤC CÁC TỪ VIẾT TẮT
Chữ viết tắt

Từ nguyên gốc

2D

2-Dimensional

2.5D

2.5-Dimensional

3D

3-Dimensional

CSDL

Cơ sở dữ liệu

PCA

Principal Components Analysis

HMM

Hidden Markov Models

OpenCV

Open source Computer Vision

MSE

Mean square error

DCT

Discrete Cosine Transform

EVD

Eigenvalue Decomposition

SVD

Singular Value Decomposition

MDL

Minimum Description Length

SVM

Support Vector Machine

DANH MỤC CÁC BẢNG
Tên bảng

Số hiệu
Bảng 3.1

Kết quả thực nghiệm

Trang
65

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

Tên hình vẽ và đồ thị

Số hiệu

Trang

1.1

Nhận dạng mẫu

6

1.2

Sơ đồ tổng quát của hệ thống nhận dạng

10

1.3

Độ phân giải của ảnh

11

1.4

Một loại tri thức của người nghiên cứu phân tích trên khuôn mặt

12

1.5

Các phương pháp chiếu

13

1.6

Chiếu từng phần ứng viên để xác định khuôn mặt

13

1.7

Nhận dạng dựa vào mô hình đối tượng

16

1.8

Diện mạo đối tượng là xe hơi

17

2.1

Diện mạo xe hơi từ nhiều góc quan sát

19

2.2

Diện mạo của đối tượng biểu diễn trong không gian

20

2.3

Mô hình nhận dạng đối tượng dựa vào diện mạo

21

2.4

2.5

2.6

Minh họa PCA tìm các trục tọa độ mới sao cho dữ liệu có độ
biến thiên cao nhất
PCA giảm số chiều nhưng vẫn đảm bảo được các thông tin quan
trọng nhất
Phân tích PCA: Dữ liệu được biểu diễn bằng kích thước nhỏ
hơn

22

22

32

2.7

Hình kiểm tra và tái tạo của nó

32

2.8

Ảnh gốc về khuôn mặt người chuyển sang eigenface

39

2.9

Mô hình Markov ẩn 3 trạng thái

41

2.10

Tính toán thủ tục tiến ở một thời điểm

42

2.11

Tính toán thủ tục lùi ở một thời điểm

43

2.12

Xác suất chuyển từ trạng thái i tại t sang trạng thái j tại t+1

44

2.13

Xác suất chuyển trạng thái i ở trạng thái t

45

2.14

Sơ đồ bài toán huấn luyện dữ liệu với HMM

47

2.15

Sơ đồ bài toán nhận dạng đối tượng với HMM

48

2.16

Sơ đồ hoạt động của hệ thống PCA-HMM

49

2.17

Phương pháp tạo ra chuỗi các khối eigenface

50

2.18

Sơ đồ huấn luyện khuôn mặt bằng HMM

51

2.19

Ảnh khuôn mặt chuyển thành eigenface cho huấn luyện HMM

51

2.20

Tách mẫu huấn luyện HxW thành một chuỗi các khối con PxW

52

2.21

2.22

Mẫu eigenface tách thành các khối thứ tự trái sang phải với mỗi
khối 32x8 pixels
Mẫu eigenface tách thành các khối thứ tự từ trên xuống với mỗi
khối là 8x32 pixels

53

53

2.23

Dùng HMM để nhận dạng khuôn mặt qua eigenface

56

3.1

Các khuôn mặt khác nhau của một đối tượng

59

3.2

Hiển thị kết quả nhận dạng

61

3.3

Giao diện chính của chương trình

63

3.4

Cấu trúc tập tinh .xml lưu trữ kết quả huấn luyện của mô hình

64

1

MỞ ĐẦU
1. Lý do chọn đề tài
Ngành khoa học nhận dạng đang được nghiên cứu rộng rãi, các hệ thống nhận
dạng ngày càng có nhiều ứng dụng thực tiễn quan trọng trong cuộc sống. Nhờ các hệ
thống nhận dạng thông minh, con người giảm được khối lượng công việc đáng kể cũng
như tăng sự chính xác trong việc đưa ra các quyết định liên quan đến xử lý nhận dạng
trên nhiều lĩnh vực: quốc phòng, an ninh, kỹ nghệ hóa sinh, giải phẫu học, hệ thống
giám sát, quản lý… Vì vậy, việc xử lý nhanh nhận dạng chính xác một đối tượng cụ
thể luôn nhận được sự quan tâm lớn của các nhà nghiên cứu khoa học trong lĩnh vực
nhận dạng và thị giác máy tính hiện nay.
Trên thực tế đã có nhiều phương pháp nhận dạng theo những hướng tiếp cận
khác nhau như hướng tiếp cận dựa trên tri thức, hướng tiếp cận dựa trên đặc trưng bất
biến, hướng tiếp cận dựa trên so khớp mẫu, hướng tiếp cận dựa trên diện mạo… Trong
đó, nhận dạng dựa vào diện mạo đối tượng chính là phương pháp tìm sự liên hệ giữa
những hình ảnh được huấn luyện của một đối tượng và sử dụng mối quan hệ này cho
sự phân lớp một bộ mẫu thử mới. Điều kiện tiên quyết cho sự nhận dạng tốt là những
hình ảnh thử phải liên quan đến những hình ảnh huấn luyện. Hình thử phải rất giống
với các dữ liệu huấn luyện, được nhận dạng và phân loại một cách chính xác. Hình ảnh

chưa được huấn luyện sẽ không được xác định vì chúng không có đại diện phù hợp.
Nhận dạng dựa vào diện mạo đối tượng sử dụng phương pháp trích chọn đặc
trưng diện mạo của đối tượng. Đây là hướng tiếp cận dựa vào cấu trúc phân bổ cường độ
sáng của điểm ảnh trên bề mặt đối tượng để trích chọn các đặc trưng. Diện mạo của các
đối tượng phản chiếu được xác định bằng bề mặt đối tượng phản chiếu ánh sáng. Trích
chọn những đặc trưng của diện mạo nhằm phát hiện ra những thay đổi bên ngoài của đối
tượng, qua đó có thể phát hiện và nhận dạng đối tượng một cách chính xác hơn.
Nghiên cứu nhận dạng đối tượng dựa vào diện mạo đi theo hướng tìm kiếm các
đặc trưng diện mạo có khả năng phân biệt giữa các đối tượng. Tuy nhiên phương pháp
này phải đối mặt với vấn đề là một khi các đặc trưng có sẵn từ một quan sát hay từ một

2

ảnh đơn nhất là không đủ để xác định định danh của đối tượng quan sát, một khó khăn
khác là khi cơ sở dữ liệu đối tượng lớn. Nhằm khắc phục những hạn chế trên, luận văn
này nghiên cứu một giải pháp cho vấn đề này là sử dụng các thông tin chứa trong
nhiều quan sát khác nhau của đối tượng sử dụng phương pháp trích chọn đặc trưng dựa
vào phân tích thành các thành phần chính kết hợp với tiếp cận mô hình Markov ẩn cho
nhận dạng đối tượng dựa vào diện mạo.
Luận văn nghiên cứu về: “Nhận dạng diện mạo đối tượng sử dụng phương pháp
PCA kết hợp Mô hình Markov ẩn”.
2. Tổng quan tài liệu
Diện mạo đối tượng là hình ảnh trên bề mặt của đối tượng từ góc quan sát được
thu nhận lại bằng thiết bị cảm biến (ví dụ camera, mắt người) dưới dạng các hình ảnh.
Chúng ta có thể thu nhận nhiều hình ảnh của đối tượng từ nhiều góc quan sát khác
nhau (có thể quan sát từng mặt, quan sát một phần, quan sát nghiêng, quan sát trực
diện…). Diện mạo ở đây là diện mạo trực quan của đối tượng vì được lấy từ ảnh của
đối tượng. Trái ngược với những phương pháp so khớp mẫu với các mẫu đã được định
nghĩa trước bởi chuyên gia, các mẫu trong hướng tiếp cận này được học từ các ảnh

mẫu và mẫu ở đây là các diện mạo của đối tượng.
Trong thời gian qua đã có nhiều nghiên cứu thành công về nhận dạng đối tượng
dựa trên phương pháp nhận dạng dựa vào diện mạo đối tượng theo những hướng tiếp
cận khác nhau. Năm 1989, nghiên cứu về nhận dạng hình ảnh sử dụng diện mạo cục
bộ được giới thiệu vởi de Verdiere và Crowwley. Một họ các hướng tiếp cận sử dụng
phương pháp biểu diễn biểu đồ kết hợp toàn phần như: (Swain và Ballard, 1990) đề
xuất đại diện cho một đối tượng bằng một biểu đồ màu, cách tiếp cận này được cải tiến
bởi (Healey và Slater, 1994) để khai thác điều kiện chiếu sáng không đổi. Khái niệm
biểu đồ kết hợp được tổng quát hóa bởi (Schiele, 2000). Nổi bật là một lớp các phương
pháp nhận dạng dựa vào diện mạo đối tượng dựa trên máy vector hỗ trợ (SVM) được
nghiên cứu bởi (Pontil và Verri, 2000), (Roobaert, 2001), (Barla, 2002). Hướng tiếp
cận dựa trên kích thước đo lường giống nhau giữa các hình dạng cũng được
(Hagedoorn, 2000), (Cyr và Kimia, 2001), (Belongie và các cộng sự, 2002) nghiên

3

cứu. Trong đó, Cyr và Kimia đề xuất cách đo khoảng cách được hoạch định và phân
đoạn cho hình khối của đối tượng 3D. Phương pháp tiếp cận đặc trưng cục bộ và đặc
trưng toàn cục diện mạo được Perter M. Roth và Martin Winter giới thiệu [4].
Cách tiếp cận dựa trên diện mạo được sử dụng chủ yếu trong huấn luyện được
T.E. Boult, R.S. Blum, S.K. Nayar, P.K. Allen, J.R. Kender cùng nghiên cứu năm
1988 và tiếp tục phát triển cho đến nay, ở đó các đối tượng được mô hình hóa như là
một tập hợp các điểm. Thông thường một tập hợp các tính chất đặc trưng được trích
chọn và phù hợp với các mô hình đối tượng được lưu trữ trong cơ sở dữ liệu. Ở đây, ta
sử dụng phương pháp chuyển đổi Karhunen – Loeve còn gọi là phương pháp phân tích
thành phần chính PCA (Principal Component Analysis) [1,3,4]. Dựa vào các trích
chọn đặc trưng dùng mô hình Markov ẩn (HMM) [1,2,5,6] để xây dựng các mô hình
huấn luyện mẫu và các thuật toán suy diễn để hệ thống có thể ra quyết định và nhận
dạng một cách tốt hơn.

3. Mục tiêu nghiên cứu
Đề tài nhằm nghiên cứu những vấn đề sau:
- Mục tiêu chung:
Nghiên cứu về nhận dạng dựa vào diện mạo của đối tượng sử dụng phương pháp
phân tích thành các thành phần chính (PCA) kết hợp với mô hình Markov ẩn.
- Các mục tiêu cụ thể:
 Tổng quan về lý thuyết nhận dạng, và tổng quan về nhận dạng diện mạo đối
tượng, các phương pháp tiếp cận cơ bản.
 Nghiên cứu phương pháp trích chọn đặc trưng vào PCA.
 Nghiên cứu phương pháp nhận dạng dựa vào mô hình Markov ẩn
 Mô hình Markov ẩn kết hợp với PCA phù hợp cho bài toán nhận dạng diện mạo
đối tượng 2D, 2.5D và 3D.
4. Đối tượng nghiên cứu:
Đối tượng nghiên cứu chính của đề tài là:
- Dữ liệu đầu vào: ảnh, chuỗi video, thông tin thu nhận trực tiếp từ camera…
- Phương pháp PCA và mô hình Markov ẩn.

4

- Cơ sở khoa học lý thuyết, các thuật toán và các kỹ thuật liên quan đến đề tài.
5. Phương pháp nghiên cứu:
- Lý thuyết: tìm hiểu, tổng hợp, phân tích và lựa chọn các phương pháp, thuật toán
và kỹ thuật thích hợp.
- Thực nghiệm: cài đặt mô phỏng, đánh giá kết quả
6. Phạm vi nghiên cứu
- Tổng quan về lý thuyết nhận dạng.
- Phương pháp PCA: Phân tích thành phần chính, trích chọn đặc trưng, thuật toán
huấn luyện và thuật toán nhận dạng dựa trên PCA.
- Mô hình Markov ẩn: sử dụng mô hình Markov để nhận dạng, các thuật toán tối

ưu trên mô hình và thuật toán nhận dạng với mô hình Markov ẩn
- Mô hình markov ẩn kết hợp với PCA cho bài toán nhận dạng đối tượng dựa vào
diện mạo
- Đối tượng bao gồm: mặt người trong ảnh, đồ vật…
7. Cấu trúc và nội dung luận văn:
Luận văn có ba phần chính:
- Phần mở đầu: Trình bày lý do chọn đề tài, tổng quan tài liệu, mục tiêu, đối tượng
nghiên cứu, phương pháp nghiên cứu, phạm vi nghiên cứu, cấu trúc và nội dung
luận văn.
- Phần nội dung: gồm 3 chương
Chương 1: Tổng quan về Lý thuyết nhận dạng
Tổng quan về lý thuyết nhận dạng và tổng quan về nhận dạng dựa vào diện mạo
đối tượng. Cung cấp cái nhìn tổng quát về các vấn đề cơ bản, hệ thống nhận dạng đối
tượng, vai trò ý nghĩa mỗi giai đoạn của hệ thống nhận dạng, các thành phần và kiến
trúc của hệ thống nhận dạng.
Chương 2: Nhận dạng diện mạo đối tượng sử dụng phương pháp PCA kết hợp
mô hình Markov ẩn

5

Trình bày các nội dung chính của luận văn: Cơ sở lý thuyết, các mô hình toán
học của phương pháp phân tích thành các thành phần chính (PCA). Trình bày lý thuyết
mô hình Markov ẩn kết hợp với PCA trong việc kết hợp các ưu điểm của hai phương
pháp này trong huấn luyện mẫu và phân lớp dữ liệu. Trong chương 2 cũng trình bày
phương pháp biểu diễn, tiền xử lý dữ liệu và một số thuật toán chính: thuật toán trích
chọn đặc trưng PCA, mô hình Markov ẩn, thuật toán nhận dạng. Thuật toán huấn
luyện mẫu dựa trên HMM với PCA, thuật toán nhận dạng HMM.
Chương 3: Mô phỏng phương pháp PCA kết hợp HMM cho bài toán nhận
dạng khuôn mặt

Đề xuất ứng dụng nhận dạng đối tượng dựa vào diện mạo cho hệ thống có tính
thực tế. Đề xuất mô hình cài đặt và triển khai thực nghiệm, đánh giá kết quả của việc
thực nghiệm.
Cuối cùng là phần kết luận và hướng phát triển của luận văn.

6

Chương 1
TỔNG QUAN VỀ LÝ THUYẾT NHẬN DẠNG ĐỐI TƯỢNG
1.1 Giới thiệu về nhận dạng
Nhận dạng trong tự nhiên là khả năng các cơ thể sống phát hiện ra trong các luồng
thông tin của những đối tượng, quy luật, hiện tượng xác định thu được bởi các giác
quan. Các cơ thể sống này thực hiện việc nhận dạng một cách hiệu quả theo bản năng.
Nhận dạng được thực hiện trên cơ sở các thông tin đến từ tất cả các cơ quan cảm giác.
Trong khoa học kỹ thuật các thuật ngữ như phát hiện, phân loại, phân nhóm… được
sử dụng phổ biến. Hạt nhân của các khái niệm này là khái niệm nhận dạng mẫu
(Pattern Recognition).
Nhận dạng là ngành khoa học nghiên cứu về các phương pháp và thuật toán
phân loại các đối tượng có bản chất tự nhiên khác nhau, nghiên cứu lý thuyết và
phương pháp giúp cho máy tính có thể tự nhận dạng các mẫu trong dữ liệu nhiễu hoặc
trong môi trường phức tạp. Mục đích hướng đến của nhận dạng là phân loại các đối
tượng thành nhiều chủng loại hoặc nhiều lớp. Nhận dạng còn là bộ phận tích hợp trong
hầu hết các hệ thống máy thông minh hỗ trợ ra quyết định. Nhận dạng mẫu là hành vi
tác động lên dữ liệu thô và đưa ra hành động dựa trên chủng loại mẫu.
Nhận dạng mẫu là ngành khoa học để làm sao máy tính có thể quan sát môi trường,
học cách phân biệt các mẫu quan tâm, đưa ra quyết định đúng đắn và hợp lý về các
chủng loại mẫu.

Hình 1.1. Nhận dạng mẫu

7

1.2 Nhận dạng đối tượng và những khó khăn
1.2.1 Nhận dạng đối tượng
Bài toán nhận dạng đối tượng cần xác định hai vấn đề chính: dùng thông tin nào
để nhận dạng: tập ảnh mẫu về diện mạo của đối tượng, ánh sáng phân bổ trên bề mặt,
mô hình đối tượng,… hay phải kết hợp các thông tin trên. Điều đặc biệt là dùng
phương pháp nào để huấn luyện cho máy nhận dạng dùng nguồn thông tin đó.
1.2.2 Những khó khăn của nhận dạng đối tượng
Những biến đổi quá lớn giữa các ảnh khác nhau của đối tượng từ một đối tượng
cần nhận dạng gồm hình dạng, trạng thái trên bề mặt, ánh sáng phản chiếu trên bề mặt
hay nói cách khác là diện mạo đối tượng và vị trí khác nhau của đối tượng đó. Sự biến
đổi về kích thước và hình dạng đối tượng giữa trước và sau khi thu nhập mẫu, sự che
khuất không gian, sự thay đổi cường độ sáng, đối tượng cần nhận dạng tương tự với
nền ảnh hay sự biến đổi bên trong một lớp là những nguyên nhân chính dẫn đến sự
thiếu chính xác trong nhận dạng.
Ngoài ra, giới hạn về số ảnh mẫu cần thiết cho việc nhận dạng, tập huấn luyện không
thể nào bao quát được hết tất cả các biến đổi có thể có trên diện mạo của một đối
tượng nhận dạng trong thế giới thực.
1.3 Các ứng dụng hiện nay liên quan đến nhận dạng đối tượng
- Nhận dạng đối tượng có phải là tội phạm truy nã hay không? Nhận dạng đối tượng
có phải là những vũ khí nguy hiểm cần cảnh báo ở các nơi công cộng hay không ?
Giúp cơ quan an ninh quản lý tốt con người. Công việc nhận dạng có thể ở trong
môi trường bình thường cũng như trong bóng tối (sử dụng các thiết bị cảm biến
hồng ngoại như camera hồng ngoại…).
- Nhận dạng các sản phẩm đặc trưng một cách thông minh ở các cửa hàng, siêu thị…,
giúp sự phân loại đồ vật một cách nhanh chóng và chính xác.
- Thẻ căn cước, chứng minh nhân dân (Face Indentification.)

- Lưu trữ (rút tiền ATM, để biết cá nhân rút tiền vào thời điểm đó), hiện nay có tình
trạng những người bị người khác lấy mất thẻ ATM hay mất mã số PIN và bị rút mất
tiền từ thẻ. Các ngân hàng có nhu cầu khi có giao dịch tiền sẽ kiểm tra hay lưu trữ
khuôn mặt người rút tiền để sau đó đối chứng và sử lý.

8

- Điểu khiển ra vào: văn phòng, công ty, trụ sở, máy tính… bằng nhận dạng khuôn
mặt, vân tay, mắt, mã vạch… Cho phép nhân viên được ra vào, truy nhập hệ thống
mà không cần nhớ tên đăng nhập cũng như mật khẩu mà chỉ cần xác định thông
qua các các thông tin nhận dạng trên.
- An ninh sân bay, xuất nhập cảnh (hiện nay cơ quan xuất nhập cảnh của rất nhiều
quốc gia như Mỹ, Canada, Anh, Pháp, Đức… đã áp dụng). Dùng để xác thực người
xuất nhập cảnh và kiểm tra có phải là nhân vật khủng bố không.
- Tương lai sẽ phát triển mạnh mẽ các thiết bị nhận dạng hiện đại như thẻ thông minh
có tích hợp sẵn đặc trưng của người dùng trên đó, khi người dùng khác dùng để truy
cập hay xử lý các hệ thống sẽ được yêu cầu kiểm tra các đặc trưng để xác định danh
tính so với thẻ để biết có phải đúng đối tượng hợp pháp hay không.
- Tìm kiếm và tổ chức dữ liệu liên quan đến con người, đồ vật… thông qua các đặc
trưng diện mạo trên nhiều hệ cơ sở dữ liệu lưu trữ thật lớn như internet, các hãng
truyền thông, dữ liệu an ninh…
1.4 Các khái niệm cơ sở
- Nhận dạng: đó là việc sắp xếp một đối tượng cụ thể nào đó (được thể hiện bằng các
thuộc tính của nó) vào một trong các lớp cố định cho trước theo các quy tắc giải
quyết nhất định, tương ứng với các mục tiêu đề ra.
Nhận dạng là môn khoa học nhằm trang bị phương pháp luận để mô phỏng nhận
thức, trang bị cho máy tính có khả năng nhận biết.
- Dạng / Mẫu / Đối tượng: là một thực thể có tính xác định áng chừng mà chúng ta có
thể gán cho nó một cái tên. Ví dụ: ảnh vân tay, chữ viết tay, khuôn mặt người, tín

hiệu giọng nói, chuỗi AND,…
- Nhận dạng đối tượng: là quá trình từ thông tin quan sát, cảm nhận (thu nhận số liệu)
cho đến khi nhận biết được tên gọi của đối tượng (gán cho đối tượng một tên gọi).
- Không gian biểu diễn đối tượng: tập hợp tất cả các biểu diễn, miêu tả đối tượng
quan sát.
- Không gian diễn dịch: tập hợp tất cả tên gọi của đối tượng.
- Lớp đối tượng (class): tập hợp các đối tượng cùng chung thuộc tính

9

- Sự phân lớp (Classification): quá trình tiến hành phân loại các đối tượng về các lớp
(nhận dạng)
1.5 Mô hình hóa bài toán nhận dạng đối tượng:
Nhận dạng đối tượng là một kiểu nhận dạng trực quan. Ở đây, diện mạo của đối
tượng được xem là một đối tượng ba chiều với sự thay đổi của ánh sáng, các góc quan
sát, tư thế cảm xúc… sẽ được xác định dựa trên ảnh hai chiều của nó.
Không gian biểu diễn đối tượng: Các đối tượng khi quan sát hay thu nhập được,
thường được biểu diễn bởi tập các đặc trưng hay đặc tính. Người ta thường phân các
loại đặc trưng này theo các loại như: đặc trưng tô pô, đặc trưng hình học và đặc trưng
chức năng. Việc biểu diễn ảnh theo đặc trưng là phụ thuộc vào ứng dụng tiếp theo.
Ở đây ta đưa ra một cách hình thức việc biểu diễn các đối tượng. Giả sử đối tượng X
(ảnh, chữ viết, dấu vân tay, diện mạo đồ vật,…) được biểu diễn bởi n thành phần (n
đặc trưng): X={x1, x2,…, xn}, mỗi xi biểu diễn một đặc tính. Không gian biểu diễn đối
tượng thường gọi tắc là không gian đối tượng χ được định nghĩa:
χ = {X1, X1,… ,Xm}
trong đó Xi biểu diễn một đối tượng. Không gian này có thể là vô hạn. Để tiện xem
xét chúng ta chỉ xét tập χ là hữu hạn.
Không gian diễn dịch: Không gian diễn dịch là tập các tên gọi của đối tượng.
Kết thúc quá trình nhận dạng ta xác định được tên gọi cho các đối tượng trong tập

không gian đối tượng hay nói là đã nhận dạng được đối tượng. Một cách hình thức tên
gọi Ω là tên tập đối tượng:
Ω = {w1, w2,… ,wk} với wi ,

i = 1,2,..,k là tên các đối tượng

Quá trình nhận dạng là tìm ra một ánh xạ ε từ χ vào Ω sao cho:
ε : χ → Ω, với mọi Xi → Wi
trong đó: cho biết không gian biểu diễn (quan sát), chưa biết ε và Ω
Cần một quá trình học để hình thành Ω, quá trình ra quyết định ε. (hệ thống tự cấu trúc
hóa).

10

Đầu vào
Đối tượng thực
(thực thể)

Hiển thị
kết quả

Quan sát và thu nhập
thông tin (số liệu, đặc
tính miêu tả

Trích lọc đặc tính

(Khối cảm nhận của máy
tính,

thiết bị cảm biến)

Giải thuật

Đánh giá
kết quả

Trả lời kết quả

Quá trình học và
ra quyết định

Đầu ra
Hình 1.2 . Sơ đồ tổng quát của hệ thống nhận dạng

1.6 . Các phương pháp nhận dạng đối tượng được sử dụng hiện nay
Có nhiều nghiên cứu tìm phương pháp xác định và nhận dạng đối tượng. Luận
văn sẽ trình bày một cách tổng quát nhất những hướng giải quyết chính cho bài toán, từ
những hướng chính này nhiều tác giả thay đổi một số ý nhỏ bên trong để có kết quả mới.
Dựa vào tính chất của các phương pháp nhận dạng đối tượng trên ảnh. Các
phương pháp này được chia làm năm hướng tiếp cận chính. Ngoài năm hướng này,
nhiều nghiên cứu có một hướng tiếp cận mà có liên quan nhiều hơn một hướng chính
thức:
- Hướng tiếp cận dựa trên tri thức: Mã hóa các hiểu biết của con người về các đối
tượng thành các luật, thông thường các luật mô tả quan hệ của các đặc trưng.
- Hướng tiếp cận dựa trên đặc trưng không đổi: Mục tiêu các thuật toán là đi tìm
các đặc trưng mô tả cấu trúc đối tượng mà các đặc trưng này sẽ không thay đổi khi
tư thế của đối tượng, vị trí đặc thiết bị thu hình hoặc điều kiện ánh sáng thay đổi.
- Hướng tiếp cận dựa trên so khớp mẫu: Dùng các mẫu chuẩn của đối tượng (các
mẫu này được chọn lựa và lưu trữ) để mô tả cho đối tượng hay các đặc trưng của

đối tượng (các mẫu này phải chọn làm sao cho tách biệt nhau theo tiêu chuẩn mà
các tác giả định ra để so sánh). Các mối liên quan giữa dữ liệu ảnh đưa vào và các
mẫu dùng để xác định đối tượng.
- Hướng tiếp cận dựa vào mô hình đối tượng để nhận dạng đối tượng: Hệ thống
được phát triển thông qua việc thêm một mô hình đối tượng 2D, 2.5D và 3D trong

11

giai đoạn huấn luyện bộ phân loại. Mô hình đối tượng của tất cả các diện mạo
thuộc đối tượng đó trong cơ sở dữ liệu huấn luyện đã được tính toán. Chúng ta sẽ
tạo ra sự tổng hợp bất kỳ các hình ảnh đối tượng theo các tư thế và chiếu sáng
khác nhau để huấn luyện hệ thống nhận dạng dựa trên các thành phần.
- Hướng tiếp cận dựa trên diện mạo: Trái ngược hẳn với so khớp mẫu, các mô
hình (hay các mẫu) được học từ một tập ảnh huấn luyện trước đó. Sau đó hệ thống
(mô hình) sẽ xác định đối tượng. Hay một số tác giả còn gọi hướng tiếp cận này là
hướng tiếp cận theo phương pháp học.
1.6.1 Hướng tiếp cận dựa trên tri thức
Trong hướng tiếp cận này, các luật sẽ phụ thuộc rất lớn vào tri thức của những
tác giả nghiên cứu về bài toán xác định định danh đối tượng. Đây là hướng tiếp cận
dạng top-down. Dễ dàng xây dựng các luật cơ bản để mô tả các đặc trưng của diện
mạo và các quan hệ tương ứng. Ví dụ về khuôn mặt người, một khuôn mặt thường có
hai mắt đối xứng nhau qua trục thẳng đứng ở giữa khuôn mặt và có một mũi, một
miệng. Các quan hệ của các đặc trưng có thể được mô tả như quan hệ về khoảng cách
và vị trí. Thông thường các tác giả sẽ trích đặc trưng của khuôn mặt trước tiên để có
được các ứng viên, sau đó các ứng viên này sẽ được xác định thông qua các luật để
biết ứng viên nào là khuôn mặt và ứng viên nào không phải khuôn mặt. Thường áp
dụng quá trình xác định để giảm số lượng xác định sai.
Một vấn đề khá phức tạp khi dùng hướng tiếp cận này là làm sao chuyển từ tri
thức con người sang các luật một cách hiệu quả. Nếu các luật này quá chi tiết, chặt chẽ

thì khi xác định có thể xác định thiếu các đối tượng có trong ảnh, vì những đối tượng
này không thể thỏa mãn tất cả các luật đưa ra. Nhưng các luật tổng quát quá thì có thể
chúng ta sẽ xác định lầm một vùng nào đó không phải là đối tượng cần định danh mà
lại được xác định là đối tượng cần định danh. Và cũng khó khăn mở rộng yêu cầu từ
bài toán để xác định diện mạo các đối tượng có nhiều tư thế khác nhau.

Hình 1.3. Độ phân giải của ảnh

12

(a) Ảnh ban đầu có độ phân giải n=1.
(b), (c), và (d) Ảnh có độ phân giải n=4, 8, và 16.

Hình 1.4. Một lọai tri trức của nghiên cứu phân tích trên khuôn mặt.
Yang và Huang dùng một phương thức theo hướng tiếp cận này để xác định các
diện mạo đối tượng. Hệ thống của hai tác giả này bao gồm ba mức luật. Ở mức cao
nhất, dùng một khung cửa sổ quét trên ảnh và thông qua một tập luật để tìm các ứng
viên có thể là đối tượng cần định danh. Ở mức kế tiếp, hai ông dùng một tập luật để
mô tả tổng quát diện mạo đối tượng. Còn ở mức cuối cùng lại dùng một tập luật khác
để xem xét ở mức chi tiết các đặc trưng của diện mạo.
Kotropoulos và Pitas đưa một phương pháp tương tự dùng trên độ phân giải
thấp. Hai ông dùng phương pháp chiếu để xác định các đặc trưng diện mạo, Kanade đã
thành công với phương pháp chiếu để xác định biên của vùng chứa đối tượng. Với
I(x,y) là giá trị xám của một điểm trong ảnh có kích thước mxn ở tại vị trí (x,y), các
hàm để chiếu ảnh theo phương ngang và thẳng đứng được định nghĩa như sau:
n

HI(x) = ∑

m

I(x, y) và VI(y) = ∑

y=1

I(x, y)

x=1

Dựa trên biểu đồ hình chiếu ngang, có hai cực tiểu trong vùng khi hai ông xét
quá trình thay đổi độ đốc của HI, đó chính là cạnh bên trái và phải của hai bên đầu.
Tương tự với hình chiếu dọc VI, các cực tiểu trong vùng cũng cho ta biết vị trí khác
nhau của các vùng trên bề mặt đối tượng. Các đặc trưng này đủ để xác định đối tượng.
Hình 1.5.a cho một ví dụ về cách xác định như trên. Cách xác định này có tỷ lệ xác
định chính xác là 86.5% cho trường hợp chỉ có một khuôn mặt thẳng trong ảnh và hình
nền không phức tạp. Nếu hình nền phức tạp thì rất khó tìm, hình 1.5.b. Nếu ảnh có
nhiều khuôn mặt thì sẽ không xác định được, hình 1.5.c.

13

Hình 1.5. Các phương pháp chiếu.
(a) Ảnh chỉ có một khuôn mặt và hình nền đơn giản.
(b) Ảnh chỉ có một khuôn mặt và hình nền phức tạp.
(c) Ảnh có nhiều khuôn mặt.

Hình 1.6. Chiếu từng phần ứng viên để xác định khuôn mặt.
Một phương pháp xác định khuôn mặt theo hướng tiếp cận top-down. Các luật được xây
dựng dựa vào tri thức của người nghiên cứu về các đặc trưng của khuôn mặt (ví dụ như

cường độ phân phối và sự khác nhau) của các vùng trên khuôn mặt.
Fan phân đoạn ảnh màu để tìm cạnh thông qua thuật toán tăng vùng để xác định
các ứng viên. Dùng đặc tính các hình trong tập huấn luyện của diện mạo đối tượng để
xác định ứng viên nào là đối tượng cần phải định danh. Tỷ lệ chính xác khoảng 8794%. Phương pháp chỉ xử lý cho các khung ảnh chỉ có một đối tượng và ảnh này phải
chụp trực diện lấy các phần đặc trưng nhất.
Sahbi và Boujemaa sử dụng mạng neural học để ước lượng các tham số cho mô
hình Gauss, mục đích để tìm ứng viên trên sắc màu bề mắt đối tượng. Sau khi có ứng
viên, hai ông chiếu lên hai trục: đứng và ngang để xác định đối tượng.

14

1.6.2 Hướng tiếp cận dựa trên đặc trưng không đổi
Đây là hướng tiếp cận theo kiểu bottom-up. Các tác giả cố gắng tìm các đặc
trưng không thay đổi của diện mạo đối tượng để xác định đối tượng. Dựa trên nhận xét
thực tế, con người dễ dàng nhận biết các diện mạo và các đối tượng trong các tư thế
khác nhau và điều kiện ánh sáng khác nhau, thì phải tồn tại các thuộc tính hay đặc
trưng không thay đổi. Có nhiều nghiên cứu đầu tiên xác định các đặc trưng diện mạo
rồi chỉ ra có khuôn mặt trong ảnh hay không. Các đặc trưng như các góc, cạnh, chỗ lồi
lõm, đường viền phân chia các đối tượng khác nhau trên ảnh, các vùng có sự phân bổ
độ sáng khác nhau được trích bằng phương pháp xác định cạnh. Trên cơ sở các đặc
trưng này, xây dựng một mô hình thống kê để mô tả quan hệ của các đặc trưng này và
xác định sự tồn tại của diện mạo đối tượng cần định danh trong ảnh. Một vấn đề của
các thuật toán theo hướng tiếp cân đặc trưng cần phải điều chỉnh cho phù hợp điều
kiện ánh sáng, nhiễu, và bị che khuất. Đôi khi bóng của đối tượng khi lấy diện mạo sẽ
tạo thêm cạnh mới, mà cạnh này lại rõ hơn cạnh thật sự của đối tượng, vì thế nếu dùng
cạnh để xác định sẽ gặp khó khăn.
1.6.3 Hướng tiếp cận dựa trên so khớp mẫu
Trong so khớp mẫu, các mẫu chuẩn của diện mạo đối tượng (thường là diện
mạo được chụp thẳng) sẽ được xác định trước hoặc xác định các tham số thông qua

một hàm. Từ một ảnh đưa vào, tính các giá trị tương quan so với các mẫu chuẩn.
Thông qua các giá trị tương quan này mà các tác giả quyết định có hay không có tồn
tại của đối tượng trong ảnh. Hướng tiếp cận này có lợi thế là rất dễ cài đặt, nhưng
không hiệu quả khi tỷ lệ, tư thế, và hình dáng thay đổi. Nhiều độ phân giải, đa tỷ lệ,
các mẫu con, và các mẫu biến dạng được xem xét thành bất biến về tỷ lệ và hình dáng.
Oh phân đoạn để tìm ứng viên là đối tượng cần định danh, tác giả dùng các mẫu mặt
có trước để so khớp với các vùng quan tâm để tìm vị trí đặc trưng nhất trong ứng viên.
Sau đó tiếp tục tìm các vị trí còn lại để xác định ứng viên này có phải là đối tượng cần
nhận dạng hay không.

15

1.6.4 Hướng tiếp cận dựa vào mô hình đối tượng để nhận dạng đối tượng
Mô hình đối tượng là mô hình thống kế hình dạng đối tượng, nó biến đổi liên tục
để phù hợp với một mẫu của đối tượng trong một hình ảnh mới, được phát triển bới
Tim Cootes và Chris Taylor vào năm 1995. Mô hình thống kê hình dạng để thay đổi
duy nhất trong cách nhìn thấy trong một tập huấn luyện các mẫu có gán nhãn. Mô hình
của đối tượng được biểu diễn một tập các điểm. Mục đích là để tham chiếu mô hình
mới một hình ảnh mới. Nó hoạt động luân phiên theo thứ tự các bước sau:
-

Quan sát trong mỗi điểm trên hình ảnh cho một vị trí tốt hơn tại thời điểm đó.

-

Cập nhật các tham số của mô hình phù hợp tốt nhất để cho những vị trí mới
được tìm thấy.

Để xác định vị trí tốt hơn cho mỗi điểm để có thể tìm cạnh bền vững hơn hoặc tham

chiếu tới một mô hình thống kê của những gì được mong đợi tại thời điểm đó. Kỹ
thuật này được sử dụng rộng rãi để phân tích hình ảnh của các đối tượng là khuôn mặt
người, cớ khí lắp ráp, hình ảnh y tế (2D, 2.5D và 3D).
Hướng tiếp cận dựa vào mô hình đối tượng để nhận dạng đối tượng là dựa vào
mỗi đối tượng hoặc cấu trúc của hình ảnh được biểu hiện thông qua một tập các điểm.
Các điểm có thể được biểu hiện trên ranh giới, chức năng bên trong hoặc bên ngoài
như trung tâm của vùng lõm biên. Các điểm là trong cùng một cách mỗi bộ huấn luyện
của đối tượng mẫu. Điều này được thực hiện thông qua các công cụ hỗ trợ người dùng.
Thiết lập các điểm là sắp xếp tự động để giảm thiểu sai trong khoảng cách giữa các
điểm tương đương. Bẳng cách kiểm tra các số liệu thống kê của các vị trí các điểm có
nhãn là “mô hình phân bố điểm” có nguồn gốc. Mô hình cho các vị trí trung bình của
điểm và có một tham số điều khiển mô hình chính của sự thay đổi hàng trong quá trình
huấn luyện.
Do đó, một mô hình và hình ảnh chứa các mẫu của mô hình đối tượng, phân
tích hình ảnh bao gồm chọn giá trị của tham số để tìm ra mô hình thích hợp với hình
ảnh nhất. Hướng tiếp cận giải quyết một điều rất khó khăn ban đầu là đoán các hình
dạng tốt nhất, định hướng, trạng thái và vị trí được lọc bằng cách so sánh các mẫu mô
hình giả thuyết với dữ liệu hình ảnh và các thức sử dụng khác nhau giữa mô hình và
hình ảnh bị méo mó về hình dạng.

16

Hình 1.7. Nhận dạng dựa vào mô hình đối tượng
1.6.5 Hướng tiếp cận dựa trên diện mạo
Trái ngược với các phương pháp so khớp mẫu với các mẫu đã được định nghĩa
trước bởi những chuyên gia, các mẫu trong hướng tiếp cận này được học từ các ảnh
mẫu. Một các tổng quát, các phương pháp theo hướng tiếp cận này áp dụng các kỹ
thuật theo hướng xác suất thống kê và máy học để tìm những đặc tính liên quan của
đối tượng và không phải là đối tượng. Các đặc tính đã được học ở trong hình thái các

mô hình phân bố hay các hàm biệt số nên dùng, và có thể dùng các đặc tính này để xác
định đối tượng trong ảnh. Đồng thời, bài toán giảm số chiều thường được quan tâm để
tăng hiệu quả tính toán cũng như hiệu quả xác định.
Có nhiều phương pháp áp dụng xác suất thống kê để giả quyết. Một ảnh hay
một vector đặc trưng xuất phát từ một ảnh được xem như một biến ngẫu nhiên x, và
biến ngẫu nhiên có đặc tính là diện mạo của đối tượng hay không phải là diện mạo đối
tượng bởi công thức tính theo các hàm mật độ phân lớp theo điều kiện p(x | đối tượng)
và p(x | không phải đối tượng). Có thể dùng phân loại Bayes hoặc khả năng cực đại để
phân loại một ứng viên là đối tượng cần nhận dạng hay không phải là đối tượng.
Không thể cài đặt trực tiếp phân loại Bayes bởi vì số chiều của x khá cao, bởi vì p(x |
đối tượng) và p(x | không phải đối tượng) là đa phương thức, và chưa thể hiểu nếu xây
dựng các dạng tham số hóa một cách tự nhiên cho p(x|đối tượng) và p(x|không phải
đối tượng). Có khá nhiều nghiên cứu theo hướng tiếp cận này quan tâm xấp xỉ có tham
số hay không có tham số cho p(x|đối tượng) và p(x|không phải đối tượng).
Các tiếp cận khác trong hướng tiếp cận dựa trên diện mạo là tìm một hàm biệt
số (như mặt phẳng quyết định, siêu phẳng để tách dữ liệu, hàm ngưỡng) để phân biệt
hai lớp dữ liệu: đối tượng và không phải đối tượng. Bình thường, các mẫu ảnh được

Nhận dạng diện mạo đối tượng sử dụng phương pháp PCA kết hợp Mô hình Markov ẩn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về