Tải bản đầy đủ (.pdf) (65 trang)

Nghiên cứu một số kỹ thuật phát hiện hướng mặt người trong ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.99 MB, 65 trang )

...

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
----------------

NGUYỄN QUANG HUY

NGHIÊN CỨU MỘT SỐ KỸ THUẬT
PHÁT HIỆN HƯỚNG MẶT NGƯỜI TRONG ẢNH

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Ngun - 2012

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
----------------

NGUYỄN QUANG HUY

NGHIÊN CỨU MỘT SỐ KỸ THUẬT
PHÁT HIỆN HƯỚNG MẶT NGƯỜI TRONG ẢNH

Chuyên ngành: Khoa học máy tính


Mã số: 60.48.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS Đỗ Năng Toàn

Thái Nguyên - 2012

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




1

LỜI CẢM ƠN
Trước tiên, em xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo, người
hướng dẫn khoa học PGS.TS. Đỗ Năng Tồn (Viện Cơng nghệ thơng tin Viện Khoa học và Công nghệ Việt Nam). Thầy đã giúp đỡ em rất nhiều trong
quá trình định hướng nghiên cứu, tìm hiểu, xây dựng và phát triển bài tốn để
em có thể hồn thành luận văn chun đề: "Nghiên cứu một số kỹ thuật phát
hiện hướng mặt người trong ảnh".
Em chân thành biết ơn các Thầy giáo công tác tại Viện Công nghệ thông
tin - Viện Khoa học và Công nghệ Việt Nam, trường Đại học Công nghệ
thông tin và Truyền thông - Đại học Thái Nguyên, đã truyền đạt, trang bị kiến
thức để em có thể tìm hiểu, nghiên cứu và thực hiện được đề tài luận văn.
Em chân thành cảm ơn Thư viện trường Đại học Công nghệ thông tin và
Truyền thông, Trung tâm học liệu - Đại học Thái Nguyên đã hết sức tạo điều
kiện, phương tiện cho chúng em tìm hiểu, tham khảo, tra cứu tư liệu nhằm
phục vụ cho công việc viết luận văn tốt nghiệp.

Cuối cùng, em xin bày tỏ lòng biết ơn đến đồng nghiệp, Khoa Công nghệ
thông tin, Ban giám hiệu trường Cao đẳng nghề Việt - Đức Vĩnh Phúc đã tạo
điều kiện để em hồn thành khóa học này.
Thái Ngun, tháng 8 năm 2012
Học viên

Nguyễn Quang Huy

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




2

LỜI CAM ĐOAN
Luận văn "Nghiên cứu một số kỹ thuật phát hiện hướng mặt người
trong ảnh" là cơng trình nghiên cứu của bản thân tôi dưới sự hướng dẫn trực
tiếp của PGS.TS. Đỗ Năng Tồn - Viện Cơng nghệ thơng tin, Viện Khoa học
và Công nghệ Việt Nam.
Các số liệu trong luận văn đã được công bố trong các tài liệu mà tôi tham
khảo, liệt kê trong phần tài liệu tham khảo cuối tập luận văn.
Luận văn này không trùng hợp về mặt hình thức cũng như nội dung với
bất kỳ một luận văn nào.
Nếu trái với các điều trên, tơi xin hồn tồn chịu trách nhiệm.
Thái Ngun, tháng 8 năm 2012
Học viên

Nguyễn Quang Huy


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




3

MỤC LỤC
Lời cảm ơn .................................................................................................... i
Lời cam đoan ................................................................................................. ii
Mục lục .......................................................................................................... iii
Danh mục các ký hiệu, các chữ viết tắt ........................................................ iv
Danh mục các hình vẽ ................................................................................... v
PHẦN MỞ ĐẦU ........................................................................................... 1
CHƢƠNG 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ NHẬN DẠNG MẶT
NGƢỜI .......................................................................................................... 4
1.1. Khái quát về xử lý ảnh ........................................................................... 4
1.1.1. Ảnh số .......................................................................................... 4
1.1.2. Biểu diễn ảnh số ........................................................................... 5
1.1.2.1. Mơ hình Raster ............................................................... 5
1.1.2.1. Mơ hình Vector ............................................................... 6
1.1.3. Xử lý ảnh số ................................................................................. 7
1.1.4. Thu thập ảnh số ............................................................................ 8
1.1.5. Nắn chỉnh biến dạng ảnh số ......................................................... 8
1.1.6. Nén ảnh ........................................................................................ 9
1.1.7. Trích chọn đặc điểm ..................................................................... 10
1.1.8. Nhận dạng ảnh ............................................................................. 11
1.2. Nhận dạng mặt người và những khó khăn của nhận dạng khuôn mặt .... 12
1.2.1. Nhận dạng mặt người ................................................................... 12
1.2.2. Các ứng dụng liên quan đến nhận dạng mặt người...................... 12

1.2.3. Những khó khăn và thách thức của nhận dạng khuôn mặt .......... 13
1.2.4. Các hướng tiếp cận liên quan đến nhận dạng khn mặt ............ 14
1.3. Bài tốn phát hiện hướng mặt người trong ảnh ...................................... 16
1.3.1. Giới thiệu tổng qt bài tốn ........................................................ 16
1.3.2. Mơ hình mặt người trong không gian 3D .................................... 17
CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÁT HIỆN HƢỚNG MẶT
NGƢỜI TRONG ẢNH ................................................................................ 19

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




4

2.1. Phát hiện hướng mặt người trong ảnh dựa trên tâm mắt ........................ 19
2.1.1. Tách mặt người trong ảnh ............................................................ 19
2.1.1.1. Sử dụng ngưỡng màu ...................................................... 19
2.1.1.2. Phương pháp trừ ảnh với nền khơng đổi ........................ 20
2.1.2. Chuẩn hóa ảnh .............................................................................. 21
2.1.3. Cắt và xoay chuẩn ảnh ................................................................. 21
2.1.3.1. Xác định tâm mắt ............................................................ 21
2.1.3.2. Xoay ảnh và tắt khung mặt ............................................. 23
2.1.3.3. Chuẩn sáng ảnh ............................................................... 24
2.2. Phát hiện hướng mặt người trong ảnh dựa theo các đặc trưng Haar ...... 25
2.2.1. Nhận dạng đối tượng dựa theo các đặc trưng Haar ..................... 25
2.2.1.1. Giới thiệu khái quát ........................................................ 25
2.2.1.2. Đặc trưng Haar (Haar Like Feature)............................... 26
2.2.1.3. Huấn luyện các bộ nhận dạng Haar ................................ 31
2.2.1.4. Chuỗi các bộ nhận dạng Haar ......................................... 33

2.2.1.5. Bộ nhận dạng Haar riêng lẻ ............................................ 35
2.2.1.6. Kiến trúc hệ thống .......................................................... 36
2.2.2. Xác định mắt, mũi, miệng và vùng bao quanh khuôn mặt .......... 37
2.2.3. Tính tốn góc quay theo 3 chiều .................................................. 38
2.2.3.1. Xác định góc quay theo hướng  ................................... 38
2.2.3.2. Xác định góc quay theo hướng  .................................... 39
2.2.3.3. Xác định góc quay theo hướng  .................................... 40
CHƢƠNG 3: CHƢƠNG TRÌNH THỬ NGHIỆM ................................... 42
3.1. Bài tốn phát hiện hướng mặt người trong ảnh ...................................... 42
3.2. Tư thế khuôn mặt người .......................................................................... 42
3.3. Các tư thế khác nhau của khuôn mặt ...................................................... 43
3.4. Chương trình thử nghiệm ........................................................................ 57
3.5. Một số trường hợp đặc biệt ..................................................................... 50
PHẦN KẾT LUẬN ....................................................................................... 53
TÀI LIỆU THAM KHẢO ........................................................................... 55

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




5

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

SAT: Summed Area Table

Bảng tổng hợp vùng

RSAT: Rotated Summed Area Table


Bảng tổng hợp vùng quay

CART: Classification And Regression Tree Cây nhận dạng và hồi quy
HCI: Human Computer Interaction

Tương tác người máy

TP: True Positive

Phát hiện đúng

FP: False Positive

Phát hiện sai

HCC: Haar Cascade Classifier

Bộ nhận dạng theo tầng Haar

NB: Neighbour

Láng giềng

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




6


DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Q trình hiển thị, chỉnh sửa và lưu trữ ảnh thơng qua DIB
Hình 1.2: Sự chuyển đổi giữa các mơ hình biểu diễn ảnh
Hình 1.3: Hệ tọa độ 3D trên khuôn mặt và các góc quay tương ứng
Hình 2.1: Phương pháp trừ ảnh với nền khơng đổi
Hình 2.2: Sơ đồ thực hiện xác định tâm mắt
Hình 2.3: Xác định góc nghiêng dựa theo tâm mắt
Hình 2.4: Cân bằng mức xám cho hình ảnh
Hình 2.5: Bốn đặc trưng Haar - Like cơ bản
Hình 2.6: Các đặc trưng mở rộng của các đặc trưng Haar-Like cơ sở
Hình 2.7: Cách tính Integral Image của ảnh
Hình 2.8: Cách tính nhanh tổng các điểm ảnh của vùng D trên ảnh
Hình 2.9: Cách tính tổng điểm ảnh của vùng D với đặc trưng xoay 45o
Hình 2.10: Một vài nguyên mẫu được sử dụng trong xác định vùng mắt
Hình 2.11: Dựng thẳng, xoay các hình chữ nhật trong cửa sổ phát hiện
Hình 2.12: Một số mẫu dương dùng trong việc xác định khn mặt
Hình 2.13: Một số mẫu âm dùng trong việc xác định khn mặt
Hình 2.14: Chuỗi các nhận dạng theo tầng
Hình 2.15: Kết quả sau khi phát hiện các đặc điểm
Hình 3.1: Khn mặt chuẩn và các tư thế thay đổi
Hình 3.2: Tư thế khn mặt khi hướng sang trái
Hình 3.3: Tư thế khn mặt khi hướng sang phải
Hình 3.4: Tư thế khn mặt khi hướng lên trên
Hình 3.5: Tư thế khn mặt khi hướng xuống dưới
Hình 3.6: Tư thế khn mặt khi hướng lên trên sang trái
Hình 3.7: Tư thế khn mặt khi hướng lên trên sang phải
Hình 3.8: Tư thế khuôn mặt khi hướng xuống dưới sang trái

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





7

Hình 3.9: Tư thế khn mặt khi hướng xuống dưới sang phải
Hình 3.10: Giao diện chính của chương trình
Hình 3.11: Chương trình nhận dạng các thành phần trên khn mặt
Hình 3.12: Chương trình nhận dạng nhiều khn mặt
Hình 3.13: Sự xuất hiện của mắt kính trên khn mặt
Hình 3.14: Sự xuất hiện của chiếc mũ trên khn mặt
Hình 3.15: Sự xuất hiện của cả kính và mũ trên khn mặt
Hình 3.16: Khn mặt khơng được nhận dạng bởi góc quay q lớn
Hình 3.17: Khn mặt khơng được nhận dạng do tư thế che khuất

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




8

PHẦN MỞ ĐẦU
Hiện nay, cùng với sự phát triển của xã hội, vấn đề an ninh bảo mật
đang được yêu cầu khắt khe tại mọi quốc gia trên thế giới. Các hệ thống nhận
dạng con người được ra đời với độ tin cậy ngày càng cao. Một trong các bài
toán nhận dạng con người rất được quan tâm hiện nay là nhận dạng khn
mặt. Vì nhận dạng khn mặt là cách mà con người sử dụng để phân biệt
nhau. Bên cạnh đó, việc thu thập xử lý thơng tin qua ảnh để nhận biết đối

tượng đang được quan tâm và ứng dụng rộng rãi. Với phương pháp này chúng
ta có thể thu nhận được nhiều thông tin từ đối tượng mà không cần tác động
nhiều đến đối tượng nghiên cứu. Sự phát triển của khoa học máy tính tạo mơi
trường thuận lợi cho bài toán nhận dạng mặt người từ ảnh số. Các hệ thống
nhận dạng offline đã ra đời và có độ tin cậy cao, tuy nhiên các hệ thống nhận
dạng online lại chưa đáp ứng được nhiều.
Hơn một thập kỷ qua có rất nhiều cơng trình nghiên cứu về bài tốn xác
định khn mặt người từ ảnh đen trắng, xám đến ảnh màu như ngày hôm nay.
Các nghiên cứu đi từ bài toán đơn giản, mỗi ảnh chỉ có một khn mặt người
nhìn thẳng vào thiết bị thu hình và đầu ở tư thế thẳng đứng trong ảnh đen
trắng. Cho đến ngày hơm nay bài tốn mở rộng cho ảnh màu, có nhiều khn
mặt trong cùng một ảnh, có nhiều tư thế, góc nghiêng thay đổi trong ảnh.
Khơng những vậy, bài tốn cịn mở rộng cả phạm vi, từ mơi trường xung
quanh khá đơn giản (trong phịng thí nghiệm) cho đến môi trường xung quanh
rất phức tạp (như trong tự nhiên) nhằm đáp ứng nhu cầu thật sự và rất nhiều
của con người.
Trong thực tế các hệ thống nhận dạng mặt người chỉ có thể nhận dạng
và nhận dạng chính xác nếu các bức ảnh chứa khn mặt ở tư thế thẳng đứng,
vng góc với trục ống kính của máy ảnh. Tuy nhiên có rất nhiều ảnh đầu vào

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




9

chứa khn mặt ở những tư thế khác nhau. Đó là một trong những khó khăn,
thách thức của các bài tốn nhận dạng mặt người.
Ngay từ khi cịn nhỏ, con người đã có khả năng sử dụng sự định hướng

và chuyển động của đầu người để đưa ra những ý định và sử dụng nó như là
một hình thức phi ngôn ngữ trong các giao tiếp với người xung quanh một
cách dễ dàng. Tuy nhiên sự dễ dàng này lại gây ra những khó khăn thách thức
cho các hệ thống tính tốn trong nhiều năm qua. Trong bối cảnh máy tính,
việc ước lượng đánh giá tư thế của đầu là q trình suy luận có định hướng từ
các hình ảnh kỹ thuật số. Nó địi hỏi một loạt các bước biến đổi ảnh gốc dựa
trên các điểm ảnh sang các khái niệm cao hơn theo các hướng khác nhau.
Giống như các bước trong quá trình xử lý nhận dạng các thành phần trên
khuôn mặt, phương pháp đánh giá tư thế đầu phải được chứng minh bất biến
với sự thay đổi của hàng loạt các yếu tố của bức ảnh. Những yếu tố này bao
gồm các hiện tượng vật lý như biến dạng máy ảnh, các phép chiếu hình học,
điều kiện ánh sáng thay đổi cũng như sự xuất hiện của các yếu tố, phụ kiện
như kính, mũ, ria mép, ….
Mặc dù thấy đó là những đặc điểm kỹ thuật rõ ràng nhưng việc đánh
giá tư thế đầu cũng có nhiều cách thể hiện khác nhau. Ở mức độ thấp, việc
đánh giá tư thế đầu áp dụng với các thuật toán xác định tư thế đầu theo vài
hướng riêng biệt như ngửa mặt về phía trước, quay trái, quay phải…. Ở mức
độ tốt hơn, việc đánh giá tư thế đầu phải trong mơ hình 3D kết hợp với mức
độ tự do của các chuyển động của cơ trên khuôn mặt và hàm. Việc phát hiện
tư thế của đầu người có thể được thông qua việc phát hiện các đặc điểm trên
khuôn mặt và áp dụng một số cơng thức để tìm ra được tư thế đầu người
chuẩn xác nhất.
Việc phát hiện các đặc điểm trên khn mặt có thể thơng qua một số
phương pháp như xác định dựa trên màu sắc các đặc điểm, dựa trên sự xuất

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





10

hiện của các điểm ảnh trên khuôn mặt hoặc dựa trên các thống kê, mẫu có
sẵn, bộ nhận dạng…. Mỗi phương pháp khi áp dụng đều có những ưu điểm và
nhược điểm riêng.
Trong luận văn này sẽ sử dụng phương pháp dựa trên các bộ nhận dạng
và tập dữ liệu được đào tạo trước để xác định đánh giá tư thế của đầu người
trong ảnh. Các bước xây dựng bộ nhận dạng, lựa chọn đặc trưng dữ liệu đầu
vào, tính toán xác định tư thế của đầu người sẽ được trình bày trong các
chương của luận văn.
Từ những phân tích trên, tôi đã lựa chọn đề tài "Nghiên cứu một số kỹ
thuật phát hiện hướng mặt người trong ảnh" là hướng nghiên cứu chính cho
luận văn của mình.
Ngồi phần mở đầu, kết luận, tài liệu tham khảo và phụ lục, luận văn
được tổ chức thành ba chương với bố cục như sau:
Chƣơng 1: Khái quát về xử lý ảnh và nhận dạng mặt ngƣời
Giớí thiệu khái qt bài tốn phát hiện hướng mặt người trong ảnh.
Tình hình nghiên cứu trong và ngồi nước về lĩnh vực nhận dạng nói chung
trong đó nổi bật là nhận dạng khn mặt.
Chƣơng 2: Một số kỹ thuật phát hiện hƣớng mặt ngƣời trong ảnh
Thu thập và tiền xử lý dữ liệu hình ảnh phục vụ cho việc thử nghiệm.
Trình bày các giải pháp kỹ thuật, thuật toán nhằm xác định, phát hiện được
hướng mặt người trong ảnh.
Chƣơng 3: Chƣơng trình thử nghiệm
Xây dựng và cài đặt chương trình thử nghiệm, bao gồm mơ tả bài toán,
tập dữ liệu thử nghiệm, thiết kế hệ thống, cài đặt thuật toán và đánh giá kết
quả thử nghiệm.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





11

CHƢƠNG I
KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ NHẬN DẠNG MẶT NGƢỜI
1.1. Khái quát về xử lý ảnh
1.1.1. Ảnh số
Ảnh số là kết quả của quá trình ghi lại hình ảnh của sự vật, hiện tượng và
được mã hóa thành tín hiệu số.
Ảnh số là một dạng tín hiệu hai chiều, biểu diễn sự quan hệ về độ sáng
giữa các điểm trong một mặt phẳng. Mỗi phần tử của ma trận ảnh biểu diễn
cho mức xám hay còn gọi là cường độ sáng cho điểm đó. Mỗi phần tử ảnh
thơng thường được gọi là pixel. Mức xám của mỗi điểm ảnh được mã hóa và
dựa vào số bit mã hóa người ta phân loại ảnh số thành các dạng sau:
- Ảnh đen trắng: Sử dụng một bit để mã hóa. Nếu pixel nhận giá trị 0,
điểm đó có màu đen. Nếu pixel nhận giá trị 1, điểm đó có màu trắng.
- Ảnh xám: Sử dụng 8 bit để biểu diễn mức xám, giá trị của mỗi pixel
nhận giá trị nguyên từ 0 - 255. Với mức 0 biểu diễn cho mức cường độ tối
nhất và 255 biểu diễn cho mức cường độ sáng nhất.
- Ảnh màu: Cách biểu diễn tương tự như với ảnh xám, chỉ khác là mỗi
pixel được tổ hợp bởi các màu riêng biệt. Ví dụ hệ màu RGB (Red-GreenBlue), mỗi pixel được tổng hợp từ ba màu Red, Green và Blue. Mỗi màu được
biểu diễn bằng 8 bit và có dải từ 0-255. Các kênh màu thường được sử dụng:
RGB, YcbCr, HSV,…. Tùy vào việc ứng dụng để lựa chọn kênh màu phù
hợp. Giữa các kênh màu thường có các phép chuyển đổi.
Px = A x P’x
Trong đó:
Px: Khơng gian biểu diễn màu ban đầu
P’x: Khơng gian biểu diễn màu mới

A: Ma trận biểu diễn phép biến đổi

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




12

Nói tóm lại, ảnh số được xem như là một tập hợp các điểm ảnh. Điểm
ảnh được xem như là dấu hiệu hay cường độ sáng tại một tọa độ trong không
gian của đối tượng.
1.1.2. Biểu diễn ảnh số
Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hóa
được nhúng vào các thiết bị kỹ thuật khác nhau. Q trình lưu trữ ảnh nhằm
hai mục đích:
- Tiết kiệm bộ nhớ.
- Giảm thời gian xử lý.
Việc lưu trữ thơng tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển
thị, in ấn và xử lý. Ảnh được xem như là một tập hợp các điểm với cùng kích
thước nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn, càng
thể hiện rõ hơn chi tiết của ảnh. Người ta gọi đặc điểm này là độ phân giải của
ảnh.
Việc lựa chọn độ phân giải thích hợp tùy thuộc vào nhu cầu sử dụng,
đặc trưng của mỗi ảnh cụ thể, trên cơ sở đó các ảnh thường được biểu diễn
theo các mơ hình cơ bản. Đó là mơ hình Raster và Vector.
1.1.2.1. Mơ hình Raster
Đây là cách biểu diễn ảnh thông dụng nhất hiện nay, ảnh được biểu
diễn dưới dạng các ma trận điểm ảnh. Ảnh thường được thu nhận qua các
thiết bị như camera, scanner. Tùy theo yêu cầu thực tế mà mỗi điểm ảnh được

biểu diễn qua một hay nhiều bit.
Mơ hình Raster thuận lợi cho hiển thị và in ấn. Ngày nay, công nghệ
phần cứng cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ
nhanh và chất lượng cao cho cả đầu vào và đầu ra. Một thuận lợi cho việc
hiển thị trong môi trường Windows là Microsoft đưa ra khn dạng ảnh DIB

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




13

(Device Independent Bitmap) làm trung gian. Hình 1.1 thể hiện quy trình
chung để hiển thị ảnh Raster thơng qua DIB.
Một trong những hướng nghiên cứu cơ bản trên mơ hình biểu diễn này
là kỹ thuật nén ảnh. Các kỹ thuật nén ảnh lại chia theo hai khuynh hướng là
nén bảo tồn và khơng bảo tồn thơng tin. Nén bảo tồn có khả năng phục hồi
hồn tồn dữ liệu ban đầu cịn nén khơng bảo tồn chỉ có khả năng phục hồi
với độ sai số cho phép nào đó. Theo cách tiếp cận này người ta đã đề ra nhiều
quy cách khác nhau như BMP, TIF, GIF, PCX….
Hiện nay trên thế giới có trên 50 khn dạng ảnh thơng dụng bao gồm
cả trong đó các kỹ thuật nén có khả năng phục hồi dữ liệu 100% và nén có
khả năng phục hồi với độ sai số nhất định.
Paint
BMP
PCC
.
.
.


Cửa sổ

DIB
Thay đổi

Hình 1.1. Quá trình hiển thị, chỉnh sửa và lưu trữ ảnh thơng qua DIB
1.1.2.2. Mơ hình Vector
Biểu diễn ảnh ngồi mục đích tiết kiệm khơng gian lưu trữ, dễ dàng cho
hiển thị và in ấn còn phải đảm bảo dễ dàng trong lựa chọn sao chép, di
chuyển, tìm kiếm. Theo những u cầu này, kỹ thuật biểu diễn theo mơ hình
vector tỏ ra ưu việt hơn.
Trong mơ hình vector người ta sử dụng hướng giữa các vector của điểm
ảnh lân cận để mã hóa và tái tạo hình ảnh ban đầu. Ảnh vector được thu nhận

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




14

trực tiếp từ các thiết bị số hóa như Digital hoặc được chuyển đổi từ ảnh Raster
thông qua các chương trình số hóa.
Cơng nghệ phần cứng cung cấp những thiết bị xử lý với tốc độ nhanh
và chất lượng cho cả đầu vào và đầu ra nhưng lại chỉ hỗ trợ cho ảnh Raster.
Do vậy những nghiên cứu về biểu diễn vector đều tập trung từ chuyển
đổi ảnh từ ảnh Raster.
Vector
hóa


RASTER

VECTOR

Raster
hóa

RASTER

Hình 1.2. Sự chuyển đổi giữa các mơ hình biểu diễn ảnh
1.1.3. Xử lý ảnh số
Ảnh số mang thông tin về hình ảnh đối tượng, biểu diễn thơng tin đó
dưới dạng mức xám của điểm ảnh và mối quan hệ giữa các mức xám đó. Do
vậy, qua việc phân tích các mối quan hệ đó ta có thể xác định hoặc ước lượng
được thông tin về vật thể cần quan tâm. Tùy vào lĩnh vực và mục đích mà xử
lý ảnh số được áp dụng theo các mức độ khác nhau. Trong lĩnh vực đo lường
điều khiển, kết quả từ xử lý ảnh số (nhận dạng vật thể, ước lượng vật thể,…)
được sử dụng làm tín hiệu cho các cơ cấu điều khiển về sau.
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng
vai trị quan trọng nhất. Những năm trở lại đây với sự phát triển của phần
cứng máy tính, xử lý ảnh và đồ họa phát triển một cách mạnh mẽ và có nhiều
ứng dụng trong cuộc sống. Xử lý ảnh và đồ họa đóng một vai trị quan trọng
trong tương tác người máy.
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào
nhằm cho ra kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh
có thể là một ảnh “tốt hơn” hoặc một kết luận.
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như
là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




15

đối tượng trong khơng gian và nó có thể xem như một hàm n biến P(c1, c2, …,
cn). Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều.
1.1.4. Thu thập ảnh số
Các thiết bị thu nhận ảnh có hai loại chính ứng với hai loại ảnh thông
dụng Raster và Vector.
Các thiết bị thu nhận ảnh thông thường Raster là camera. Các thiết bị thu
nhận ảnh thông thường Vector là sensor hoặc bàn số hóa Digitalizer hoặc
được chuyển đổi từ ảnh Raster.
Nhìn chung các hệ thống thu nhận ảnh thực hiện một quá trình.
+ Cảm biến: biến đổi năng lượng quang học thành năng lượng điện.
+ Tổng hợp năng lượng điện thành ảnh.
Bộ thu nhận ảnh số bao gồm thiết bị thu thập (Camera, Sensor,...) và
thiết bị thu nhận. Hiện nay, thông dụng trên thị trường là camera số. Camera
số là bộ thu thập tích hợp cả hai thiết bị trên, đầu ra là ảnh số với nhiều mức
độ phân giải có thể lựa chọn được. Bộ thu thập Webcam có các đặc điểm sau:
- Đầu vào: Hình ảnh thực.
- Đầu ra: Ảnh số có độ phân giải 480 x 680 pixel, 600 x 800 pixel.
- Truyền nhận theo chuẩn USB. Đây là chuẩn có tốc độ đảm bảo và
thơng dụng trên thị trường hiện nay.
Tín hiệu vào của khối xử lý ảnh lấy ra từ camera. Để tận dụng phần cứng
sẵn có, chương trình thử nghiệm sử dụng máy tính xách tay được tích hợp
camera hoặc máy tính cá nhân với khả năng giao tiếp theo chuẩn USB.
1.1.5. Nắn chỉnh biến dạng ảnh số

Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và điện tử.
Để khắc phục những biến dạng này người ta thường sử dụng các phép chiếu.
Các phép chiếu được xây dựng trên tập các điểm điều khiển.
Giả sử (Pi, Pi’) i=1…n có n các tập điều khiển

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




16

Tìm hàm f: Pi→f(Pi) sao cho:
n



f ( Pi )  Pi '

i 1

2

 min

Giả sử ảnh bị biến đổi chỉ bao gồm: Tịch tiến, quay, tỷ lệ, biến dạng
bậc nhất tuyến tính. Khi đó hàm f có dạng:
f ( x, y)  (a1 x  b1 y  c1 , a2 x  b2 y  c2 )

Ta có:

   ( f ( Pi )  Pi ' ) 2   (a1 xi  b1 yi  c1  xi' ) 2  (a2 xi  b2 yi  c2  yi' ) 2 
n

n

i 1

i 1

Để cho  → min
n
n
n
 
n
2
a
x

b
x
y

c
x

xi xi'

0





1 i
1 i i
1 i


i 1
i 1
i 1
 a1
 i 1
n
n
n
 
n
2
 0   a1 xi yi   b1 yi   c1 yi   yi xi'

i 1
i 1
i 1
 b1
 i 1
n
n
n
 


'
0

 a1 xi   b1 yi  nc1   xi
i 1
i 1
 i 1
 c1

Giải hệ phương trình tuyến tính tìm được a1, b1, c1. Tương tự tìm được
a2, b2, c2. Do đó xác định được hàm f.
1.1.6. Nén ảnh
Nhằm giảm thiểu không gian lưu trữ. Nén ảnh được tiến hành theo hai
khuynh hướng là nén ảnh có bảo tồn khơng tin và khơng bảo tồn thơng tin.
Nén khơng bảo tồn thơng tin thường có khả năng nén cao hơn nhưng khả
năng phục hồi thì kém hơn. Trên cơ sở hai khuynh hướng, có bốn cách tiếp
cận cơ bản trong nén ảnh.
Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần suất xuất
hiện của các giá trị điểm ảnh, trên cơ sở đó có chiến lược mã hóa thích hợp.
Một ví dụ điển hình cho kỹ thuật mã hóa này là các ảnh có định dạng *.TIF.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




17

Nén ảnh không gian: Kỹ thuật này dựa vào vị trí khơng gian của các điểm

ảnh để tiến hành mã hóa. Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh
trong các vùng gần nhau. Ví dụ mã nén *.PCX
Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng nén
khơng bảo tồn thơng tin và do vậy kỹ thuật nén thường kém hiệu quả hơn.
Định dạng *.JPG chính là tiếp cận theo kỹ thuật nén này.
Nén ảnh Fractal: Sử dụng tính chất Fractal của các đối tượng ảnh thể hiện
sự lặp lại của các chi tiết. Kỹ thuật nén sẽ tính tốn để chỉ cần lưu trữ phần
gốc của ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal.
1.1.7. Trích chọn đặc điểm
Các đặc điểm của đối tượng được trích chọn tùy theo mục đích nhận
dạng trong q trình xử lý ảnh.
Có thể nêu ra một số đặc điểm của ảnh như sau:
Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ,
điểm uốn,….
Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc
thực hiện lọc vùng (Zonal Filtering). Các bộ lọc vùng được gọi là “mặt nạ đặc
điểm” (Feature Mask) thường là các khe hẹp với hình dạng khác nhau (chữ
nhật, tam giác, cung trịn,…).
Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng
và do vậy rất hữu ích trong việc trích chọn các thuộc tính bất biến được dùng
khi nhận dạng đối tượng. Các đặc điểm này có thể được trích chọn nhờ toán
tử Gradient, toán tử la bàn, toán tử Laplace, tốn tử Zero Crossing,….
Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối
tượng ảnh chính xác, với tốc độ tính tốn cao và dung lượng bộ nhớ lưu trữ
ảnh giảm xuống.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





18

1.1.8. Nhận dạng ảnh
Nhận dạng tự động (Automatic Recognition) mô tả đối tượng, nhận
dạng và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy,
được ứng dụng trong nhiều ngành khoa học khác nhau. Tuy nhiên một câu hỏi
được đặt ra là: mẫu(Pattern) là gì? Watanabe - một trong những người đi đầu
lĩnh vực này đã định nghĩa “Ngược lại với hỗn loạn (Chaos), mẫu là một thực
thể (Entity) được xác định một cách ang áng (Veguely Defined) và có thể gán
cho nó một tên gọi nào đó”. Ví dụ mẫu có thể là ảnh của vân tay, ảnh của một
vật nào đó được chụp, một chữ viết, khn mặt người hoặc một ký hiệu tiếng
nói. Khi biết một mẫu nào đó, để nhận dạng mẫu đó có thể lựa chọn:
Nhận dạng có mẫu (Supervised Classification): chẳng hạn phân tích
tách biệt (Discrimiant Analysis) trong đó mẫu đầu vào được định danh như
một thành phần của một lớp đã xác định.
Nhận dạng khơng có mẫu (Unsupervised Classification hay Clustering)
trong đó các mẫu được gán vào các lớp khác nhau dựa trên một tiêu chuẩn
đồng dạng nào đó. Các lớp này cho đến thời điểm nhận dạng vẫn chưa biết
hay chưa được định danh.
Hệ thống nhận dạng tự động gồm ba khâu tương ứng với ba giai đoạn
chủ yếu sau:
- Thu nhận dữ liệu và tiền xử lý
- Biểu diễn dữ liệu
- Nhận dạng, ra quyết định
Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:
- Đối sánh mẫu dựa trên các đặc trưng được trích chọn
- Nhận dạng thống kê
- Đối sánh cấu trúc
- Nhận dạng dựa trên mạng nơ ron nhân tạo


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




19

Trong các ứng dụng rõ ràng là không thể chỉ dùng một cách tiếp cận
đơn lẻ để nhận dạng “tối ưu”. Do vậy cần sử dụng cùng một lúc nhiều phương
pháp và cách tiếp cận khác nhau. Các phương pháp nhận dạng tổ hợp hay
được sử dụng khi nhận dạng hiện nay đã có nhưng kết quả triển vọng dựa trên
thiết kế các hệ thống lại bao gồm nhiều mô hình kết hợp.
Việc giải quyết bài tốn nhận dạng trong những ứng dụng mới, nảy
sinh trong cuộc sống không chỉ tạo ra những thách thức về thuật giải mà còn
đặt ra những u cầu về tốc độ tính tốn. Đặc điểm chung của tất cả những
ứng dụng đó là những đặc điểm đặc trưng cần thiết thường là nhiều, không
thể do chuyên gia đề xuất, mà phải được trích chọn dựa trên các thủ tục phân
tích dữ liệu.
1.2. Nhận dạng mặt ngƣời và những khó khăn của nhận dạng khn mặt
1.2.1. Nhận dạng mặt ngƣời
Hệ thống nhận dạng mặt người là một hệ thống nhận vào là một ảnh
hoặc một đoạn video (một chuỗi các ảnh). Qua xử lý tính tốn hệ thống xác
định được vị trí mặt người trong ảnh (nếu có) và xác định là người nào trong
số những người hệ thống đã được biết (qua quá trình học) hoặc là người lạ.
Xác định khuôn mặt người (Face Detection) là một kỹ thuật máy tính để
xác định các vị trí và các kích thước của các khn mặt người trong các ảnh
bất kỳ (ảnh kỹ thuật số). Kỹ thuật này nhận biết các đặc trưng của khuôn mặt
và bỏ qua những thứ khác như: tòa nhà, cây cối, cơ thể,…
1.2.2. Các ứng dụng liên quan đến nhận dạng mặt ngƣời

Bài tốn nhận dạng mặt người có thể áp dụng rộng rãi trong nhiều ứng
dụng tư thế khác nhau. Đó chính là lý do mà bài tốn này hấp dẫn rất nhiều
nhóm nghiên cứu trong thời gian dài. Các ứng dụng liên quan đến nhận dạng
mặt người có thể kể như:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




20

- Hệ thống phát hiện tội phạm: camera được đặt tại một số điểm công
cộng như: siêu thị, nhà sách, trạm xe buýt, sân bay, …. Khi phát hiện được sự
xuất hiện của các đối tượng là tội phạm, hệ thống sẽ gửi thông điệp về cho
trung tâm xử lý.
- Hệ thống theo dõi nhân sự trong một đơn vị: giám sát giờ ra vào của
từng nhân viên và chấm công.
- Hệ thống giao tiếp người máy: Thay thế việc tương tác giữa người và
máy theo những cách truyền thống như: bàn phím, chuột, …. Thay vào đó là
sử dụng các giao tiếp trực quan: biểu cảm khuôn mặt, dấu hiệu, cử chỉ bằng
tay (Visual Input, Visual Interaction)
- Hệ thống tìm kiếm thơng tin trên ảnh, video dựa trên nội dung (chỉ mục
theo người). Chẳng hạn như: đài truyền hình Việt Nam (VTV) có một kho dữ
liệu video tin tức khá lớn cần tìm kiếm nhanh những đoạn video nào có một
nhân vật nào đó.
- Tương lai sẽ phát triển các loại thẻ thơng minh có tích hợp sẵn đặc
trưng của người dùng trên đó, khi bất cứ người dùng nào khác chủ thẻ sử
dụng thẻ để truy cập hay xử lý tại các hệ thống sẽ được yêu cầu kiểm tra các
đặc trưng khuôn mặt so với thẻ để xác định đó có phải là chủ thẻ hay khơng.

- Hệ thống kiểm tra trạng thái người lái xe có ngủ gật, mất tập trung hay
không và hỗ trợ thông báo khi cần thiết.
- Các hệ thống bảo mật dựa trên thông tin trắc sinh học: mặt người, vân
tay, .… thay vì xác nhận mật khẩu, khóa, ….
1.2.3. Những khó khăn và thách thức của nhận dạng khn mặt
Bài tốn nhận dạng mặt người là bài toán đã được nghiên cứu từ những
năm 70. Tuy nhiên, đây là một bài tốn khó nên những nghiên cứu hiện tại
vẫn chưa đạt được kết quả mong muốn. Chính vì thế vấn đề này vẫn đang

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




21

được nhiều nhóm trên thế giới quan tâm nghiên cứu. Khó khăn của bài tốn
nhận dạng mặt người có thể kể như sau:
a. Tư thế, góc chụp: ảnh chụp khn mặt có thể thay đổi rất nhiều bởi vì
góc chụp giữa camera và khuôn mặt. Chẳng hạn như: chụp thẳng, chụp xéo
bên trái 450, chụp từ trên xuống, chụp từ dưới lên,…. Với các tư thế khác
nhau, các thành phần trên khn mặt như mắt, mũi, miệng có thể bị khuất một
phần hoặc có thể khuất hết.
b. Sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt. Các đặc
trưng như: râu mép, râu hàm, mắt kính, … có thể xuất hiện hoặc không. Vấn
đề này càng làm cho bài tốn trở nên khó hơn rất nhiều.
c. Sự biểu cảm của khuôn mặt: Biểu cảm của khuôn mặt người có thể
làm ảnh hưởng đáng kể lên các thơng số của khuôn mặt. Chẳng hạn, cùng một
khuôn mặt một người, nhưng có thể sẽ rất khác khi họ cười hoặc sợ hãi, ….
d. Sự che khuất: Khn mặt có thể bị che khuất bởi các đối tượng khác

hoặc các khuôn mặt khác.
e. Hướng của ảnh: Các ảnh của khuôn mặt có thể biến đổi rất nhiều với
các góc quay khác nhau của trục camera. Chẳng hạn chụp với trục máy ảnh
nghiêng làm cho khuôn mặt bị nghiêng so với trục của ảnh.
f. Điều kiện của ảnh: Ảnh được chụp trong các điều kiện khác nhau về
chiếu sáng, về tính chất camera (máy kỹ thuật số, máy hồng ngoại, ...) ảnh
hưởng rất nhiều đến chất lượng ảnh khuôn mặt.
1.2.4. Các hƣớng tiếp cận liên quan đến nhận dạng khn mặt
Có nhiều nghiên cứu tìm phương pháp xác định khn mặt người, từ
ảnh xám đến ngày nay là ảnh màu. Dựa vào tính chất của các phương pháp
xác định khn mặt người trên ảnh thì các phương pháp này được chia làm
bốn hướng tiếp cận chính: dựa trên tri thức (Knowledge - Base), đặc trưng bất
biến (Feature Invariant), đối sánh ngẫu (Template Matching) và dựa vào diện

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




22

mạo (Appearance - Base). Hướng tiếp cận dựa vào diện mạo thường dùng
một mơ hình máy học nên cịn được gọi là phương pháp dựa trên máy học
(Machine Learning – Based).
Hướng tiếp cận dựa trên tri thức: Hướng tiếp cận này chủ yếu dựa trên
những luật được định nghĩa trước về khn mặt người. Mã hóa các hiểu biết
của con người về các loại khuôn mặt thành các luật. Những luật này thường là
các mối quan hệ giữa các thành phần trên khuôn mặt. Thông thường các luật
mô tả quan hệ của các đặc trưng.
Hướng tiếp cận dựa trên các đặc trưng bất biến: Hướng tiếp cận này cố

gắng tìm kiếm những đặc trưng độc lập – những đặc trưng không phụ thuộc
vào tư thế khuôn mặt, điều kiện ánh sáng và các khó khăn khác. Các đặc
trưng như thế được gọi là bất biến và được sử dụng để phát hiện khuôn mặt.
Mục tiêu của hướng tiếp cận này là các thuật tốn đi tìm các đặc trưng mơ tả
cấu trúc khuôn mặt người mà các đặc trưng này sẽ không thay đổi khi các yếu
tố khác thay đổi.
Hướng tiếp cận dựa trên đối sánh mẫu: Trong hướng tiếp cận này một
mẫu khuôn mặt chuẩn được định nghĩa bằng tay trước hoặc được tham số hóa
bằng một hàm số. Mẫu này được sử dụng để phát hiện khuôn mặt bằng cách
qt nó qua ảnh và tính tốn giá trị tương đồng cho mỗi vị trí. Việc xuất hiện
một khn mặt tại một vị trí nào đó trong ảnh phụ thuộc vào giá trị tương
đồng của điểm đó so với mẫu chuẩn.
Hướng tiếp cận dựa trên diện mạo: Ngược với phương pháp đối sánh
mẫu sử dụng các mẫu được các chuyên gia định nghĩa trước, phương pháp
này sử dụng các mẫu được rút trích qua một q trình học. Nói cách khác, các
thuật toán dựa trên máy học dùng các kỹ thuật phân tích thống kê và máy học
để xấp xỉ một hàm phân lớp tuyến tính. Có rất nhiều mơ hình máy học được
áp dụng trong hướng tiếp cận này.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




23

1.3. Bài toán phát hiện hƣớng mặt ngƣời trong ảnh
1.3.1. Giới thiệu tổng qt bài tốn
Một trong những khó khăn của các bài tốn phát hiện và nhận dạng
khn mặt là hướng (Pose) của khuôn mặt trong ảnh. Đa số các bài tốn nhận

dạng khn mặt chỉ có thể thực hiện được hoặc đạt kết quả chính xác nếu các
bức ảnh chứa khuôn mặt ở tư thế thẳng đứng, vuông góc với trục ống kính
của máy ảnh. Bài tốn phát hiện hướng khn mặt người trong ảnh sẽ góp
phần khơng nhỏ vào quá trình nhận dạng mặt người. Sử dụng kết quả của bài
tốn phát hiện hướng khn mặt người trong ảnh vào giai đoạn tiền xử lý hình
ảnh, những bức ảnh chứa khuôn mặt người ở các tư thế khác nhau sẽ được qui
chuẩn làm cơ sở đầu vào cho các hệ thống nhận dạng. Với kết quả nghiên cứu
của luận văn, bài tốn nhận dạng mặt người có thể áp dụng để nhận dạng
khn mặt ở nhiều góc nghiêng khác nhau.
Không chỉ áp dụng cho các bước tiền xử lý hình ảnh trong nhận dạng
khn mặt, phát hiện hướng mặt người trong ảnh còn được áp dụng vào các
hệ thống tương tác người máy. Thông qua các biểu hiện khuôn mặt để điều
khiển các chức năng của hệ thống. Ví dụ như thơng qua hướng của khn mặt
để điểu khiển hướng của xe lăn trợ giúp người tàn tật.
Cùng trong một bức ảnh có thể có nhiều khn mặt ở những tư thế khác
nhau. Sử dụng bài toán phát hiện hướng khn mặt nhằm xác định chính xác
hướng của từng khn mặt trong ảnh. Qua đó kết hợp với quá trình tiền xử lý
hình ảnh nhằm tạo ra những ảnh đầu vào tốt hơn rất nhiều cho các hệ thống
nhận dạng.
Việc xác định tư thế khuôn mặt con người đặt ra nhiều vấn đề hơn so với
các đối tượng khác bởi khuôn mặt người là một đối tượng động với nhiều
hình thức thể hiện và màu sắc khác nhau. Ngồi ra, việc phát hiện và theo dõi
khn mặt cung cấp rất nhiều lợi ích. Việc nhận dạng khn mặt khơng thể

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





×