Hệ thống phát hiện khuôn mặt dựa trên mạng neural và phương pháp vân vùng màu da

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.79 MB, 123 trang )

TÓM TẮT
Phát hiện khuôn mặt là một vấn đề cơ bản trong ngành học quan sát bằng
máy tính. Là một trong những giai đoạn của hệ thống nhận dạng mặt người cùng
với nhiều ứng dụng rộng rãi và phổ biến khác như chỉ số hóa nội dung trong
ảnh, hệ thống giám sát, hội thảo truyền hình…, phát hiện khuôn mặt đã và đang
dành được sự quan tâm nghiên cứu của nhiều người trong suốt hai thập kỷ qua.
Tuy nhiên, với những thách thức rất lớn gây ra do tính biến động của môi trường
cũng như tính biến đổi cao của khuôn mặt, phát hiện mặt người vẫn đang là một
trong những vấn đề mở đối với các nhà nghiên cứu. Và cho đến nay vẫn chưa có
một phương pháp nào thực sự giải quyết hết các thách thức của phát hiện khuôn
mặt. Nhiều cải tiến, nhiều đề xuất đã được đưa ra nhằm cải thiện chất lượng phát
hiện khuôn mặt. Và một trong những cải tiến đó là dựa trên những đặc điểm bất
biến hoặc có sự biến động có thể phân vùng được của khuôn mặt mà màu da của
con người chính là một trong những đặc điểm đó.
Xuất phát từ ý tưởng kết hợp giữa màu da và một phương pháp phát hiện
khuôn mặt hiệu quả, đồ án đã tập trung xây dựng một hệ thống kết hợp giữa hệ
thống phát hiện khuôn mặt dựa trên mạng neural và phương pháp phân vùng
màu da dựa trên mô hình màu da có tham số sử dụng phân phố Gaussian.
Hệ thống phát hiện được xây dựng về cơ bản có nguyên tắc hoạt động
theo mô hình mạng neural kinh điển. Đó là mô hình mạng neural Perceptron đa
lớp, sử dụng thuật toán lan truyền nguợc và phương pháp giảm gradient để học
mạng. Về cơ bản kiến trúc mạng neural xây dựng không có gì thay đổi, tuy
nhiên, ở đây chúng ta sẽ cải tiến kiến trúc một điểm với việc sử dụng thêm mô
hình xác suất dựa trên lý thuyết Bayes để có thể có sự mềm dẻo hơn trong việc
đánh giá kết quả cuối cùng của mạng. Ngoài ra, đồ án cũng nêu ra một chiến
thuật huấn luyện hợp lý, cho phép huấn luyện nhanh mà vẫn đảm bảo được tính
1
tổng quát và hiệu quả của mạng. Đó là chiến thuật huấn luyện mạng chủ động có
học.
Phương pháp phân vùng màu da được kết hợp vào hệ thống như là một
giới hạn cho phép giảm không gian tìm kiếm, tức là khuôn mặt sẽ chỉ được tìm

kiếm trên các vùng màu da. Việc phân vùng này đã giúp cho thời gian phát hiện
của hệ thống cải thiện đáng kể, hơn nữa nó còn giúp cho hệ thống hoạt động hiệu
quả hơn.
Để giúp cho kết quả phát hiện được rõ ràng và chất lượng, đồ án cũng đã
nêu ra các heuristic cụ thể phù hợp cho hệ thống, Những heursitic này dựa trên
kết quả thực tế cũng như thống kê của quá trình huấn luyện và kiểm thử hệ
thống.
Đồ án với tên gọi là “Hệ thống phát hiện khuôn mặt dựa trên mạng
neural và phương pháp vân vùng màu da” được bộ cục làm năm mục chính.
Chương I: Giới thiêu – Là chương giới thiệu, bao gồm ba phần nhỏ.
Phần đầu là tổng quan các hướng tiếp cận, các phương pháp phát hiện mặt người
đã được để xuất. Phần hai là tổng quan các phương pháp phân vùng màu da dựa
trên tính chất điểm ảnh. Qua phần này với những đánh giá các phương pháp sẽ
giúp chúng ta chọn được phương pháp phân vùng phù hợp cho hệ thống. Phần
ba sẽ là cơ sở lý thuyết cơ bản nhất về mạng neural MPL và thuật toán lan truyền
ngược. Đây là kiến trúc mạng và thuật toán sẽ được sử dụng cho hệ thống mạng
neural của đồ án.
Chương II: Tổng thể hoạt động của hệ thống và vấn đề chuẩn bị cơ sở
dữ liệu – Đây là chương miêu tả mô hình thuật toán hoạt động tổng thể nhất của
hệ thống sẽ được xây dựng. Đồng thời sẽ đề cập vấn đề chuẩn bị và tiền xử lý
cho các tập cơ sở dữ liệu đựoc dùng để huấn luyện mạng neural cũng như luyện
tập phân vùng màu da. Đây là một trong những công việc quan trọng quyết định
đến chất lượng của hệ thống.
2
Chương III: Phát hiện khuôn mặt dựa trên mạng neural và phương
pháp phân vùng màu da – Đây là chương quan trọng nhất của đồ án. Nó sẽ
miêu tả đầy đủ kiến trúc hệ thống được xây dựng. Thuật toán và phương pháp
huấn luyện mạng neural. Thuật toán và phương pháp huấn luyện phân vùng màu
da. Và sẽ đề xuất ra những heuristic giúp cải thiện chất lượng phát hiện và thời
gian chạy của hệ thống.

Chương IV: Phân tích thiết kế và cài đặt chương trình
Chưong V: Khảo sát thực nghiệm và đánh giá chương trình – Đây là
chương sẽ miêu tả kết quả việc kiểm thử chương trình dựa trên bộ test chuẩn và
bộ test tự tạo. Đồng thời sẽ có những đánh giá và nhận xét về kết quả của
chương trình.
Kết luận và hướng phát triển
Trong phạm vi bài đồ án, với việc hệ thống được xây dựng trên một mạng
neural đơn lẻ, vì vậy em đã tiến hành huấn luyện cho mạng nhận biết những
khuôn mặt với tư thể nhìn thẳng (frontal), có độ nghiêng và góc quay không
đáng kể. Các khuôn mặt có thể có nhiều trạng thái khác nhau. Các ảnh được
dùng để kiểm thử bao gồm cả ảnh chân dung và ảnh tập thể. Ảnh không và có
nhiễu (tự thêm) để kiểm tra thêm về tính hiệu quả của hệ thống. Các ảnh được
kiểm thử có kích thước bao gồm 240 x 180, 320 x 240, 480 x 360 điểm ảnh.
Với bộ test bao gồm 300 ảnh chân dung kích thước 320 x 240; 320 ảnh
này đựoc thêm nhiễu, 320 ảnh này được thu nhỏ lại kích thước 240 x 180 để
kiểm tra hệ thống có thể phát hiện các khuôn mặt có kích thước khác nhau, 320
ảnh này được thêm nhiễu.
Ngoài tập ảnh chân dung chuẩn ra, chương trình còn test với 100 ảnh tập
thể tự tạo với nhiều mục đích khác nhau. 100 ảnh này cũng được thêm nhiễu để
tiến hành kiểm thử.
3
CHƯƠNG I: GIỚI THIỆU
1. Tổng quan về các phương pháp phát hiện mặt người
1.1 Phát hiện mặt người và ứng dụng
Nhận biết đối tượng nói chung và nhận biết mặt người nói riêng là bài
toán cơ bản và quan trọng trong lĩnh vực quan sát bằng máy tính. Nhận biết mặt
nguời thu hút sự tập trung nghiên cứu của nhiều nhà nghiên cứu trong suốt nhiều
thập kỷ qua. Tuy nhiên vẫn chưa có một hướng tiếp cận nào thực sự trọn vẹn
mang lại hiệu quả và giải quyết hết các thách thức và tình huống trong vấn đề
phát hiện mặt người, nguyên nhân là do tính biến đổi cao của khuôn mặt con

người. Chính vì vậy, đây vẫn là vấn đề mở và tiếp tục thu hút sự nghiên cứu sâu
hơn với các kỹ thuật mới được đề xuất. Các kỹ thuật đã được áp dụng có thể chia
thành một trong hai tiếp cận: so sánh sự phù hợp với các mô hình hình học hai,
ba chiều vào ảnh, hay phương pháp so sánh sự phù hợp các mô hình khung nhìn
vào ảnh có chứa khuôn mặt cần nhận biết. Các nghiên cứu trước đây cho thấy
rằng các hương pháp dựa trên khung nhìn có thể nhận biết các khuôn mặt thẳng
trong nền phức tạp một cách hiệu quả.
Với mục đích tận dụng những ưu điểm của các kỹ thuật đã đuợc đề xuất,
kết hợp chúng lại để có thể xây dựng đuợc một hệ thống phát hiện mặt người
một cách hiệu quả. Đồ án đã tập trung vào vấn đề phát hiện mặt người trong ảnh
màu tĩnh, nhằm kết hợp những đặc trưng của mặt người trong ảnh màu cụ thể là
sử dụng kỹ thuật phân vùng màu da người trong ảnh màu kết hợp với hướng tiếp
cận dựa trên khung nhìn với mục đích sử dụng mạng neural nhân tạo - một
phương pháp tuy kinh điển nhưng vẫn rất mở và chứa đựng nhiều ưu điểm trong
vấn đề nhận dạng, để xây dựng hệ thống phát hiện mặt người.
4
Kỹ thuật phân vùng da nguời trong ảnh màu được áp dụng trong hệ thống
nhận biết mặt người với mục đích cuối cùng là giảm không gian tìm kiếm mặt
người trong ảnh, giúp cho hiệu năng hoạt động của hệ thống được nâng cao hơn.
Còn ưu điểm nổi bật của mạng neural nhân tạo nói riêng và phướng tiếp cận dựa
trên máy học nói chung trong việc phát hiện mặt nguời đó là có thể miêu tả và
phát hiện khuôn mặt trong nhiều tình huống khác nhau. Những tình huống gặp
phải khi phát hiện khuôn mặt bao gồm:
 Tư thế của khuôn măt (Pose): Khuôn mặt là nghìn thẳng (frontal),
nghiêng một phần (partial profile) hay nghiêng hoàn toàn (full profile).
Khuôn mặt hướng thẳng đứng (upright) hay là khuôn mặt xoay một góc
nào đó (rotate)
 Nội dung khuôn mặt: Khuôn mặt chứa đầy đủ các đặc trưng như mắt,
mũi, miệng, tai hay thiếu một vài đặc trưng nào đó.
 Trạng thái của khuôn mặt: Đó chính là trạng thái tình cảm của khuôn

mặt như cuời, khóc, tức giận…
Đây là những tình huống mà các hướng tiệp cận khác phải mất nhiều công
sức và phức tạp để có thể miêu tả được. Nhưng với mạng neural, thông qua tập
mẫu và quá trình huấn luyện mạng hiệu quả, kết quả mang lại là có thể rất khả
quan.

Ứng dụng
Công nghệ nhận biết mặt người có sự ứng dụng rộng rãi trong thực tế.
Trong nhận dạng sinh trắc học, trong hội thảo truyền hình, trong chỉ số hoá ảnh
và cơ sở dữ liệu video, trong tương tác người máy. Nhận biết mặt người là giai
đoạn đầu trong hệ thống nhận dạng mặt người.
Hai bài toán nhận biết và nhận dạng đối tượng có liên quan mật thiết. Hệ
thống nhận dạng đối tượng có thể xây dựng mà không có tập bộ nhận biết đối
tượng, mỗi bộ nhận biết phát hiện một đối tượng quan tâm. Tương tự, bộ nhận
5
biết đối tượng có thể được xây dựng mà không có hệ thống nhận dạng đối tượng;
bộ nhận dạng đối tượng này cần phân biệt đối tượng mong muốn với mọi đối
tượng khác có thể xuất hiện hay là lớp đối tượng chưa biết. Do đó hai bài toán là
như nhau, dù trong thực hành hầu hết các hệ thống nhận dạng đối tượng ít khi
giải quyết nền tuỳ ý, và các hệ thống nhận biết đối tượng ít khi được huấn luyện
trên đủ loại đối tượng để xây dựng hệ thống nhận dạng. Điểm chú trọng khác
nhau của các bài toán này dẫn đến các trình bày và thuật toán khác nhau.
Thông thường, các hệ thống nhận dạng khuôn mặt làm việc bằng cách
trước hết áp dụng bộ nhận biết khuôn mặt để định vị khuôn mặt, sau đó áp dụng
thuật toán nhận dạng để nhận diện khuôn mặt.
1.2 Các thách thức trong vấn đề phát hiện mặt người
Việc nhận biết đối tượng là bài toán xác định cửa sổ con của ảnh có thuộc
về tập các ảnh của đối tượng quan tâm hay không. Do đó, đường biên quyết định
của tập ảnh đối tượng phức tạp sẽ làm tăng độ khó của bài toán và có thể tăng số
lỗi nhận biết. Giả sử ta muốn phát hiện khuôn mặt nghiêng trong mặt phẳng ảnh,

ngoài các khuôn mặt thẳng. Việc thêm các khuôn mặt nghiêng vào tập các ảnh ta
muốn nhận biết làm tăng độ biến thiên của tập, và có thể làm tăng độ phức tạp
của đường biên quyết định của tập ảnh. Độ phức tạp này làm bài toán nhận biết
khó hơn. Việc thêm ảnh mới vào tập ảnh đối tượng có thể làm đường biên quyết
định đơn giản hơn và dễ học hơn. Có thể tưởng tượng điều này là đường biên
quyết định được làm trơn bằng việc thêm các ảnh vào tập. Có nhiều nguồn biến
đổi trong bài toán nhận biết đối tượng, và cụ thể trong bài toán nhận biết khuôn
mặt. Có các nguồn biến đổi sau [6]:
 Biến đổi trong mặt phẳng ảnh: loại biến đổi ảnh khuôn mặt đơn giản
nhất có thể được biểu diễn độc lập với khuôn mặt, bằng cách quay, dịch
chuyển, biến đổi tỷ lệ và lấy đối xứng ảnh.
6
 Biến đổi độ sáng và ngữ cảnh: biến đổi do đối tượng và môi trường gây
ra, cụ thể các thuộc tính bề mặt của đối tượng và các nguồn sáng. Các thay
đổi về nguồn sáng nói riêng có thể biến đổi hoàn toàn vẻ bề ngoài của
khuôn mặt.
 Biến đổi nền: Nhiều nhà nghiên cứu cho răng với kỹ thuật nhận dạng mẫu
hiện nay, tiếp cận dựa trên khung nhìn để nhận biết đối tượng chỉ thích
hợp cho các đối tượng có “đường biên ảnh có thể dự đoán được”. Khi đối
tượng có hình dáng dự đoán được, ta có thể trích ra window chỉ chứa các
pixel bên trong đối tượng, và bỏ qua nền.
 Biến đổi hình dáng: với khuôn mặt, loại biến đổi này bao gồm biểu lộ
tình cảm khuôn mặt, miệng và mắt mở hay đóng, và hình dáng khuôn mặt
của từng người.
1.3 Các vấn đề liên quan đến phát hiện mặt người
Bên cạnh vấn đề phát hiện mặt người, có nhiều vấn đề khác có quan hệ
mật thiết với phát hiện mặt người mà nhiều khi gây ra nhầm lẫn nếu không được
tìm hiểu một cách kỹ càng.
Những vấn đề đó bao gồm [7]
 Định vị khuôn mặt hay xác định vị trí khuôn mặt: Đây là vấn đề rất

gần với vấn đề phát hiện mặt người. Nếu như phát hiện mặt người trong
ảnh là phải trả lời các câu hỏi có tồn tại khuôn mặt trong ảnh hay không ?
Nếu tồn tại thì tồn tại bao nhiêu khuôn mặt? Vị trí của khuôn mặt ở đâu ?
Thì vấn đề định vị mặt người chỉ trả lời cho câu hỏi vị trí mặt người ở đâu
trong một ảnh đã biết trước là có một mặt người . Như vậy có thể thấy,
định vị khuôn mặt là một phần công việc của phát hiện mặt người.
7
 Phát hiện các đặc trưng của khuôn mặt: Đây là vấn đề cũng rất gần với
vấn đề định vị khuôn mặt. Nó cũng giả thiết rằng chỉ có một khuôn mặt
trong ảnh. Và việc phát hiện đặc trưng khuôn mặt là tìm ra vị trí của các
đặc trưng như đôi mắt, mũi, miệng, môi, tai…
 Bám sát khuôn mặt: Mục đích của vấn đề này là ước lượng liên tục sự
thay đổi về vị trí và huớng của khuôn mặt trong một chuỗi ảnh thời gian
thực.
 Nhận biết trạng thái khuôn mặt: Mục tiêu của vấn đề này là nhận biết
trạng thái của khuôn mặt con người (hạnh phúc, tức giận, đau khổ…). Đây
là vấn đề rất khó và thú vị vì trạng thái khuôn mặt của từng người có thể là
rất khác nhau trong cùng một trạng thái tâm lý.
 Nhận dạng khuôn mặt: Trong vấn đề này, chúng ta phải đối sánh khuôn
mặt cần nhận dạng với các khuôn mặt có sẵn trong thư viện và tìm ra
nhưng thông tin cần thiết về khuôn mặt cần nhận dạng nếu nó có đăc trưng
tương đồng với khuôn mặt nào đó trong thư viện.
 Thẩm tra và xác minh khuôn mặt: Đây là vấn đề nằm trong vấn đề nhận
dạng khuôn mặt. Thông thường sau khi nhận dạng khuôn mặt, người ta
phải tiến hành một giai đoạn nữa gọi là thẩm tra và xác minh tính đúng
đắn của khuôn mặt được nhận dạng. Nó cho phép tăng sự đúng đắn của
vấn đề nhận dạng khuôn mặt.
Trong những vấn đề nêu trên, có thể thấy nhận biết khuôn mặt và nhận
dạng khuôn mặt là hai vấn đề cơ bản và có thể chứa đựng các vấn đề còn lại. Và
thông thường, nhận biết khuôn mặt sẽ là giai đoạn đầu của hệ thống nhận dạng

khuôn mặt. Sự khác nhau cơ bản giữa phát hiện khuôn mặt với nhận dạng khuôn
mặt đó là: Nếu như nhận dạng khuôn mặt là phân biệt những khuôn mặt khác
nhau trong tập danh mục các khuôn mặt, còn nhận biết khuôn mặt đó là phân lớp
đuợc đâu là danh mục các khuôn mặt và đâu là danh mục các ảnh không phải
khuôn mặt.
8
1.4 Tổnq quan các hướng tiếp cận phát hiện khuôn mặt
Trong suốt quá trình hơn ba thập kỷ, đã có rất nhiều các hướng tiếp cận và
xử lý khác nhau được đề xuất để giải quyết bài toán phát hiện mặt người. Các
hướng tiếp cận và xử lý thông thường nhằm giải quyết những yêu cầu cụ thể và
khác nhau ,trong từng ứng dụng cụ thể. Chính vì vậy có nhiều cách để có thể
phân loại các phương pháp, các kỹ thuật, các hướng tiếp cận phát hiện khuôn
mặt. Trong bài luận văn này, sẽ phân loại các hướng tiếp cận theo phương pháp
được sử dụng nhiều nhất. Đó là chia các hướng tiếp cận theo hai hướng chính:
Hướng tiếp cận dựa trên đặc trưng của ảnh (Feature-based) và hướng tiếp cận
dựa trên thông tin xuất hiện trên ảnh (Image-based).
Các phương pháp, kỹ thuật phân chia theo cách này có thể nhìn thấy trong
sơ đồ dưới đây [7]:
9
Hình 1: Sơ đồ các hướng tiếp cận và phương pháp phát hiện mặt
người
1.4.1 Hướng tiếp cận dựa trên đặc trưng của ảnh (Feature-based
approaches)
10
Phương pháp tiệp cận dựa trên đặc trưng của khuôn mặt được chia thành
ba vấn đề. Giả sử cần phải phát hiện một khuôn mặt trong một nền ảnh lộn xộn,
phân tích mức thấp (low-level analysis) thực hiện phân đoạn các đặc trưng của
ảnh dựa trên những thuộc tính của điểm ảnh như độ xám hay màu sắc. Sự phân
đoạn lúc này còn mập mờ và chưa rõ ràng. Vấn đề thứ hai là phân tích đặc trưng,
các đặc trưng của ảnh được tổ chức thành các đặc trưng khuôn mặt có tính tổng

quát hơn dựa trên đặc tính hình học của khuôn mặt. Sau giai đoạn này, tính mập
mờ của các đặc trưng của ảnh đã được giảm bớt, đồng thời, vị trí khuôn mặt
cùng với các đặc trưng khuôn mặt đã được xác định. Tiếp theo sẽ là việc sử dụng
mô hình hình dạng (active shape models). Những mô hình này bao gồm từ mô
hình dạng rắn (snakes - được đề xuất vào những năm 80) cho tới mô hình phân
tán điểm (PDM – Point Distributed Model) được đề xuất vào những năm gần
đây để trích chọn đặc trưng có sự biến động phức tạp như mắt, môi,…
1.4.1.1 Phân tích mức thấp (Low-level analysis)
Người ta gọi là phân tích mức thấp vì việc phân tích ở đây là phân tích dựa
trên các đặc trưng rất cơ bản và mang tính trực quan, những đặc trưng đó bao
gồm biên ảnh, thông tin đa mức xám, màu sắc, chuyển động, tính đối xứng của
khuôn mặt.
1.4.1.1.1 Biên ảnh (Edges)
Đây là một đặc trưng cơ bản nhất trong các ứng dụng về xử lý ảnh, sử
dụng biên để phát hiện khuôn mặt được thực hiện đầu tiên bởi Sakai. Dựa trên
việc phân tích các đường ảnh của khuôn mặt, với mục đích là định vị những đặc
điểm trên khuôn mặt. Một mô hình được đề xuất để tìm ra những đường nét của
mặt người. Công việc tìm ra hình dáng của mặt người được triển khai bao gồm
một đường cong bám sát vào khuôn mặt với một độ cong xác định và ràng buộc
để tránh sự ảnh hưởng của các nhiễu biên. Những đặc tính của đương trong hình
11
dáng của đầu người sau đó được đưa ra để phân tích đặc trưng sử dụng độ nét và
vị trí của khuôn mặt. Kỹ thuật dò tìm dựa vào đường biên này còn được áp dụng
để phát hiện cặp kính trên khuôn mặt.
Trong hướng tiếp cận phát hiện mặt người dựa vào đường biện, những
đường biên cần được gán nhãn và được phù hợp với mô hình khuôn mặt được
sắp xếp để có thể giúp chúng ta xác minh sự đúng đắn của việc phát hiện đó.
Người ta có thể thiết lập sự gán nhãn biên đó bằng các sử dụng mặt trái, đường
tóc hoặc mặt phải của khuôn mặt. Việc gán nhãn này làm cho khả năng phát hiện
chính xác khuôn mặt trong một bức ảnh với không gian phức tạp và có nhiều

khuôn mặt.
Một trong những phương pháp được biết đến đó là phương pháp gán nhãn
của Govindaraju, phương pháp này sử dụng hệ số vàng của khuôn mặt lý tưởng ,
đó là hệ số giữa độ dài và độ rỗng của khuôn mặt:
(I.1)
Sử dụng phương pháp này, người ta đã kiểm thử 60 ảnh có nền phức tạp
bao gồm 90 khuôn mặt thì thấy khả năng hệ thống có thể phát hiện chính xác là
76% với mức độ trung bình là sai 2 mặt lỗi / ảnh.
1.4.1.1.2 Thông tin đa mức xám (Grayscale Information)
Bên cạnh đường biên, thì thông tin về mức xám trong khuôn mặt cũng có
thể được xem như là một đặc trưng. Những đặc trưng khuôn mặt như là lông
mày, động tử hay, môi thương xuất hiện với mức xám lớn hơn những thành phần
phụ cận bao quanh chúng. Tính chất này có thể được khai thác để phân biệt các
thành phần khác nhau của khuôn mặt. Những thuật toán trích chọn đặc trưng
khuôn mặt gần đây thường dựa vào mức xám nhỏ nhất trong một vùng khuôn
mặt. Trong những thuật toán này, bức ảnh đầu vào đầu tiên được cải thiển bằng
12
viêc làm tăng độ tương phản và biến hình mức xám (gray-scale morphological)
để có thể tăng độ tối của những vùng nói trên, từ đó việc nhân biết sẽ dễ dàng
hơn. Những vùng tối này được trích chọn bằng phép lấy ngưỡng dưới. Bên cạnh
đó, người ta đã tiến hành xây dựng hệ thống tự động tìm kiếm các vùng tối thuộc
mặt thông qua sự phân tích về màu sắc. Hệ thống sử dụng một mẫu mắt gán
trọng số để xác định cac vị trí có thẻ có của cặp mắt.
1.4.1.1.3 Màu (color)
Trong khi thông tin về mức xám được xem là một đặc trưng cơ bản của
ảnh, màu sắc có ý nghĩa nhiều trong việc nhận biết sự xuất hiện của đối tượng.
Một trong những không gian màu được biết đến rỗng rãi nhất đó là không gian
RGB, đó là không gian mà mỗi màu được đĩnh nghĩa bởi sự kết hợp của ba
thành phần màu là Red, Green và Blue. Do đó sự thanh đổi chủ yếu trong màu
sắc của da đó là do sự thay đổi về độ chói, thông thường các màu RGB được coi

trọng hơn, do đó, ảnh hưởng của độ chói có thể được lọc bỏ. Người ta có thể
chuẩn hóa các thành phần màu từ RGB thành rgb như sau:
(I.2)
Từ hệ thức trên chúng ta có thể thấy rằng r+g+b = 1. Việc chuẩn hóa màu
này có ý nghĩa là, chỉ cần viết hai trong số ba giá trị trên là chúng ta có thể tìm ra
giá trị còn lại. Trong việc phân tích màu sắc của da, một biểu đổ màu dựa vào r
và g chỉ ra rằng màu của khuôn mặt tập trung thành một cụm nhỏ trong biểu đồ
mức xám. Để so sánh thông tin màu của một pixel với giá trị của r và g trong
13
cụm trên, và từ đó tạo ra khả năng các pixel thuộc vùng da của mặt có thể được
tìm ra.
Bên cạnh mô hình RGB, chúng ta còn có một vài mô hình màu khác được
sử dụng trong việc nghiên cứu vấn đề nhận dạng mặt người. Mô hình HIS là một
ví dụ, mô hình này có những ưu điểm so với các mô hình khác trong việc mang
lại sự phân biệt rõ ràng giữa các cụm màu của các đặc trưng khuôn mặt. Do đó
mô hình này thường được sử dụng cho công việc trích chọn đặc trưng của khuôn
mặt như môi, mắt, lông mày. Do việc này có quan hệ chặt chẽ với việc cảm thụ
màu sắc ở con người, nó cũng được sử dụng phổ biến trong các sơ đồ phần vùng
khuôn mặt.
Một mô hình khác được biết đến trong việc áp dụng để nhận dạng khuôn
mặt đó là mô hình YIQ. Để chuyển đổi từ không gian màu RGB sang không gian
YIQ, chúng ta thấy có thành phần I, đó là khoảng màu từ cam (orange) -> xanh
lơ (Cyan), giống như khoảng màu của da người châu á. Việc chuyển đổi này
cũng ảnh hưởng tới việc triệt tiêu nền các màu khác và cho phép nhận biết những
khuôn mặt nhỏ trong một môi trường tự nhiên. Các mô hình màu khác cũng
được áp dụng cho việc nhận biết mặt người còn có HSV, YES, YCrCb, YUV,
CIE-xyz, L*u*v, CSN và UCS(Farnsworth).
Việc phân vùng màu có thể được thực hiện bằng việc sử dụng các ngưỡng
xấp xỉ màu khi màu da được mô hình hóa thông qua biểu đồ mức xám. Phương
pháp phức tạp hơn đó là sử dụng phương pháp tính toán thống kê, sự thay đổi

khuôn mặt của mô hình là trong một phổ rộng. Người ta đã tiến hành sử dụng
phân phối Gaussian để tập hợp hàng ngàn mẫu màu của da từ các loài khác nhau.
Phân phối Gaussian được đặc trưng bởi vector trung bình µ và ma trận hiệp
phương sai ∑. Màu của điểm ảnh từ ảnh đầu vào có thể được so sánh với màu
da của mô hình bằng cách tính hệ số khoảng cách Mahalanobis. Hệ số này sẽ cho
biết độ tương đồng của màu pixel với màu da của mô hình.
14
Một ưu điểm của mô hình màu dựa vào phương pháp thống kê đó là sự sai
khác về màu của những đối tượng mới có thể được phù hợp vào mô hình bằng
phương pháp huấn luyện. Sử dụng phương pháp này, sự nhận biết màu có thể sẽ
hiệu quả hơn, chống lại sự thay đổi của các nhân tố môi trường như là điều kiện
chiếu sáng và đặc tính riêng của máy ảnh.
1.4.1.1.4 Chuyển động
Nếu như chúng ta phát hiện khuôn mặt cho video, khi đó thông tin về sự
chuyển động, cử chỉ, dáng điệu có ý nghĩa rất lớn trong việc xác định đối tượng
chuyển động. Các chuyển động liên tục kế nhau được phân chia bằng việc phân
tích các frame khác nhau. Hướng tiếp cận này, nói chúng là khá đơn giản, được
hộ trợ để phân biệt một chuyển động cận cảnh và có hiệu quả không phụ thuộc
điều kiện nội dung bối cảnh. Bên cạnh vùng mặt, người ta còn tiến hành thực
hiện trên nhiều frame khác nhau để định vị các đặc trưng của khuôn mặt. Như là
trạng thái của đôi mắt bằng cách tính toán độ lớn về chiều ngang và chiều dọc
giữa những vùng liên tiếp nhận được trong các frame khác nhau.
Một cách khác để có thể tính toán các chuyển động trực quan đó là thông
qua việc ước lượng sự chuyển động của các đường viền của ảnh. So sánh các
frame khác nhau, kết quả có được từ sự chuyển động của các đường viền là có
thể tin cậy, đặc biệt là khi chuyển động đó là không quan trọng. Một bộ lọc
Gaussian có tính không gian và thời gian được sử dụng bởi hệ thống McKenna
để phát hiện chuyển động của vùng bao khuôn mặt cũng như vùng bao toàn bộ
cơ thể con người. Tiến trình này yêu cầu giá trị mức xám của ảnh I(x,y) với một
toán tử biên phụ thưộc thời gian m(x,y,t) được định nghĩa từ bộ lọc Gaussian

G(x,y,t) như sau:

(I.3)
15
Trong đó u là hệ số thời gian, a là độ rộng bộ lọc. Toán tử biên phụ thuộc
thời gian sau đó được nhân chập với các frame của ảnh theo bởi công thức:
(I.4)
Kết quả của tiến trình xử lý miền thời gian này S(x,y,t) sẽ cho ta một chỉ
số trực tiếp của sự chuyển động biên trong I(x,y,t).
Mặc dù phương pháp này miêu tả việc nhận biết biên và vùng chuyển
động, nhưng chúng cũng cho phép chúng ta tin vào sự chính xác của việc ước
lượng tốc độ của chuyển động luồng sáng hay còn gọi là luồng quang (optical
flow). Bởi vì việc ước lượg này dựa trên các mẫu chuyển động trong một khoảng
ngắn, và có cảm giác như chuyển động đó là rất trơn và mịn. Dựa vào thông tin
của chuyển động, khuôn mặt chuyển động trong ảnh tuần tự được phân vùng.
Luồng quang được mô hình bởi luồng ảnh với phương trình ràng buộc sau đây:
(I.5)
Trong đó, Ix, Iy và It là các đạo hàm miền thời gian của cường độ ảnh và
Vx và Vy là tốc độ chuyển ảnh. Để giải phương trình trên cho Vx, Vy, một vùng
bao gồm các điểm ảnh chuyển động theo một quỹ đạo được ghi nhận. Những
vùng đáp ứng tới những quỹ đạo chuyển động khác nhau được phân lớp trong
vùng chuyển động và vùng không chuyển động.
1.4.1.1.5 Tiểu chuẩn suy rộng (Generalized Measure)
Những đặc trưng trực quan như đường biên, màu sắc hay chuyển động là
giai đoạn đầu tiên trong hệ thống quan trắc con người. Quá trình này cho phép
16
những thông tin trực quan được tổ chức lại thành những nhóm hoạt động mức
cao. Dựa vào việc quan sát, Reisfeld đã đề xuất rằng một hệ thống quan sát bằng
máy nên được bắt đầu với việc tính toán mức thấp ở giai đoạn tiền tập trùng các
tính chất ảnh được tổng hợp. Ban đầu, Reisfeld và Yeshurun đã giới thiệu một

toán tử đối xứng tổng quát dựa vò toán tử điểm biển. Do những đặc trưng của
khuôn mặt có tính đối xứng một cách tự nhiên. Khi thực hiện, toán tử đối xứng
này sẽ tính toán và gán cho mỗi điểm ảnh một cường độ gọi là cường độ điểm
ảnh dựa trên mức độ ảnh hưởng của vùng bao điểm dó. Cường độ đối xứng đó ,
M
σ
(p), cho mỗi điểm ảnh được xác định bằng:
(I.6)
Trong đó, C(i,j) là mức độ ảnh hưởng của vùng biên điểm i,j (của pixel)
trong tập các pixel được đĩnh nghĩa bởi Г(p). Nó được xác định theo công thức:
(I.7)
Trong đó, D(i,j) là hàm hệ số độ dài, P(i,j) là hàm hệ số phase, r
i
và r
j
được
xác định theo công thức dưới đây:
(I.8)
17
Trong đó p
k
chỉ điểm (x
k
, y
k
) với k = 1…K, là gradient của cường độ
tại điểm p
k
,α
ij

là góc theo chiều ngược kim đồng hồ giữa đường thằng qua pi và
pj so với mặt ngang. Hình dưới đây miêu tả một ví dụ về cách tính M
σ
(p) từ
gradient của mătj trước ảnh mặt người. Cường độ đối xứng được tham chiếu một
cách rõ ràng thể hiện sự định vị các đặc trưng của khuôn mặt như là mắt và
miệng.
1.4.1.2 Phân tích đặc trưng (Feature analysis)
Những đặc trưng được tạo ra từ quá trình phân tích mức thấp thực ra là
không rõ ràng. Quả vậy, trong việc định vị vùng mặt sử dụng mô hình màu da,
các đối tượng có cùng màu nền tương tự như màu da có thể cũng được nhận biết.
Điều này có thể được giải quyết bằng việc phân tích mức cao. Trong nhiều kỹ
thuật nhận biết khuôn mặt, những tích lũy hiểu biết hình thái về khuôn mặt đó sẽ
được áp dụng để có thể đặc tính hóa và để xác minh lại những đặc trưng đó từ
những trạng thái mập mờ. Có hai hướng tiếp cận trong ứng dụng về hình thái
khuônn mặt. Hướng tiếp cận đầu tiên liên quan đến chiến lược truy tìm đặc trưng
dựa vào mối quan hệ về vị trí dựa các đặc trưng. Những đặc trưng được nhận
biết nhờ các đặc trưng đã tồn tại. Kỹ thuật thứ hai đó sử dụng kỹ thuật nhóm đặc
trưng thnàh các “chòm sao” bằng cách sử dụng một số mô hình khuôn mặt khác
nhau.
14.1.2.1 Tìm kiếm đặc trưng
18
Việc truy tìm các đặc trưng của khuôn mặt là truy tìm các đặc trưng nổi
bật của khuôn mặt bằng cách dựa vào hình thái của chúng. Việc truy tìm này dựa
vào mối quan hệ dựa các đặc trưng đó về khoảng cách hình học, vị trị trong
khuôn mặt.
Nhiều thuật toán, mô hình đã được xây dựng cho công việc này. De Silva
là một thuật toán tiêu biểu. Mô hình của Jeng cũng là hệ thống phát hiện đặc
trưng được biết đến rỗng rãi. Trong hệ thống này, việc khởi tạo sẽ được xác định
bằng việc định vị vị trí của đôi mắt trong bức ảnh. Từ việc xác định đôi mắt, quá

trình sẽ truy tìm các đặc trưng khác như mũi, miệng và động tử. Mỗi đặc trưng
sau khi truy tìm đều thiết lập các hàm quan hệ với các đặc trưng khác, điều này
giúp cho việc xác định khuôn mặt có thể tin cậy hơn, các hàm quan hệ này chính
là các hệ số được miêu tả như trong đẳng thức dưới dây:
(I.9)
Bên cạnh đó, nhiều hệ thống truy tìm đặc trưng cũng được đề xuất như hệ
thống GAZE của Herpers dựa vào sự chuyển động của mắt trong hệ thống trực
quan con người HVS. Điểm cốt yếu của hệ thống là thuật toán định vị các đặc
trưng nổi bạt. Một thuật toán đa mức sử dụng bộ lọc đa hướng Gaussian.
1.4.1.2.2 Phân tích “chòm sao”
Một vài thuật toán đề cập đến trong phần trên có độ tin cậy phụ thuộc vào
mức đột đúng đắn về thông tin được tìm ra từ các tập mô hình ảnh mặt với dưới
những điều kiện cố định. Nếu như khi điều kiện đó không còn thỏa mãn, như là
định vị khuôn mặt trong một bối cảnh phức tạp, nhiều thuật toán có thể không
còn chính xác. Vì vậy vấn đê đặt ra là làm thế nào để chúng ta có thể nhóm các
đặc trưng khuôn mặt đó lại thành từng chùm với những tham số đại diễn chung
nhất, phản ánh được hết các trường hợp xẩy ra của các đặc trưng, bằng việc sử
19
dụng phương pháp mô hình hóa hiệu quả như là phương pháp phân tích thống
kê.
Nhiều phương pháp nhóm thành các “chòm sao” được đề xuất. Trong đó
nổi bật là phương pháp sử dụng lý thuyết độ nét thống kê từ bộ lọc đa cấp
Gaussian. Một mô hình thống kê trong miền không gian của các đặc trưng khuôn
mặt cho phép phát hiện một cách linh hoạt hơn. Thuật toán hộ trợ việc quản lý sự
thiếu hụt đặc trưng cũng như cho phép sử dụng các hệ số mở rộng. Mức độ thành
công của mô hình này là 84% khi nghiên cứu tập 150 bức ảnh. Việc phát hiện sai
được xác định là do hệ số phụ thuộc của đặc trưng đầu.
Mô hình thống kê cho ảnh có sự xuất hiện nhiều khuôn mặt cũng được đề
xuất, trong mô hình này, các khuôn mặt được phân lớp thành từng nhóm với
những đặc trưng chung nhất. Những nhóm này lại được phân lớp tiếp trong các

thành phần đặc trưng khuôn mặt. Sau khi đặc trưng này nhận được từ việc xử lý
mức thấp. Việc nhóm đặc trưng này có tác dụng giảm bớt sai số đặc trưng sinh ra
do ảnh hưởng của bối cảnh hỗn tạp. Một mạng theo luật Bayesian sẽ được hỗ trợ
kết hợp với việc phát hiện riêng cho từng nhóm đặc trưng để có thể chắc chắn
rằng giả thuyết về sự đúng đắn của khuôn mặt có được sự tin cậy với mức độ
cao.
Hệ thống sử dụng phương pháp này nổi tiếng nhất là hệ thống của Maio và
Maltoni. Trong hệ thống này ảnh đầu vào được chuyển đổi trực tiếp bằng cách
sử dụng một toán tử gradient có cửa sổ 7*7. Từ ảnh chuyển đổi trực tiếp này,
người ta áp dụng hai giai đoạn nhận biết khuôn mặt. Ảnh được nhận biết sẽ được
khoanh vùng trong một hình ellipse. Hệ thống của Maio và Maltoni là hệ thống
thời gian thực với mức độ phát hiện khi test là 69/70 bức ảnh mà không bị một
lỗi nào.
1.4.1.3 Các mô hình hình dạng tích cực (Active shape models)
20
Đây là mô hình thời gian thực hiệu quả và là thành tựu quan trọng của
hướng tiếp cận dựa vào phân tích đặc trưng. Mô hình dựa vào tính chất vật lý
thật sự và sự xuất hiện mức cao của các đặc trưng. Mô hình ASM tương tác với
các đặc trưng ảnh cục bộ (biên, độ sáng) và dần dần làm biến dạng độ nét của
đặc trưng đó. Co ba dạng của mô hình ASM đang được nghiên cứu. Đầu tiên là
mô hình sử dụng một đường đi kích hoạt (active contour) gọi là snakes (dạng
con rắn). Mô hình thứ hai là mô hình dữa vào các dạng mẫu biến đổi
(deformable templates) cho phép thực hiện hiệu quả hơn mô hình snakes. Mô
hình thứ ba là mô hình Smart snakes (con rắn hoạt thông minh) và PDM (mô
hình phân bố điểm). Mô hình này dựa trên tập các điểm được gán nhãn và chỉ
cho phép biến đổi theo một vài hình dạng dựa trên quá trình học.
1.4.1.3.1 Mô hình dạng con rắn (Snake)
Được sử dụng để xác định đường bao của đầu. Để thực hiện việc này, một
con rắn ban đầu được khởi tạo tại một vùng lân cận xung quanh vùng biên đầu.
Sau đó co dần về phía các đường biên và đưa ra hình dạng giả định của vùng

đầu. Sự tiến hóa của con rắn đựoc thực hiện thông qua việc cực tiểu hóa một
hàm năng lượng dạng E
snake
(tương tự như trong vật lý) và được biểu diễn như
sau:
E
snake
= E
bên trong
+ E
bên ngoài
(I.10)
Trong đó E
bên trong
và E
bên ngoài
lần lượt là các hàm năng lượng bên trong và
bên ngoài. Năng lượng bên trong là phần năng lượng phụ thuộc và các thuộc tính
bản chất của con rắn và tạo nên sự tiến hóa tự nhiên của đường biên động. Các
tiến hóa tự nhiên và điển hình của con rắn là sự co ngắn và sự mở rộng. Trong
khi đó, năng lượng bên ngoài có khuynh hướng chống lại năng lượng bên trong
và làm cho các đường biên động sai lệch so với tiến hóa tự nhiên thậm chí thừa
21
nhận hình dạng của các đặc tính gần nhất là hình dạng của vùng đầu khi ở trạng
thái cân bằng.
Hai vấn đề chính cần quan tâm trong việc áp dụng mô hình con rắn là lựa
chọn cách tính năng lượng chính xác và kỹ thuật cực tiểu hóa hăng lượng. Năng
lượng Elastic được sử dụng phổ biến như là năng lượng bên trong. Khoảng cách
giữa các điểm điều khiển trên đường biên động được cân đối và do đó đem lại
cho đường biên đặc tính giống như sợi dây cao su có thể co hoặc dãn. Vấn đề

năng lượng bên ngoài được xem xét dựa vào kiểu dạng của đặc trưng ảnh được
xem xét. Có thể tính năng lượng này theo các thông số gradient. Và theo
cáchnày, các đường biên động thường hội tụ về phía các vị trí biện. Bên cạnh các
thông số về gradient, mộ số cách tính năng lượng bên ngoài khác còn bao gồm
cả các hàm liên tục liên quan đến màu da trong đó hấp dẫn các con rắn về phía
các vùng mặt.
Mặc dù phương pháp con rắn một cách tổng quát có thể xác định đựoc các
đường bao quanh các vùng đặc trưng nhưng việc triển khai phương pháp vẫn bị
cản trở bởi hai vấn đề. Thứ nhất là các phần của con rắn hay bị bẫy vào các vùng
đặc trưng ảnh không đúng. Thứ hai là phương pháp con rắn không thực sự hiệu
quả trong xác định các đặc trưng không lồi (đặc trưng xuất hiện nổi bật) do xu
hướng tiến tới cực tiểu độ cong của con rắn.
1.4.1.3.2 Dạng mẫu có thể biến đổi (Deformable templates)
Xác định đường bao của một vùng đặc trưng khuôn mặt không phải là một
vấn đề dễ giải quyết bởi vì các dấu hiệu cục bộ của các đường biên mặt khó có
thể đựoc tổ chức thành các thự thể tổng thể nhận biết thông qua các đương biên.
Độ tương phản thấp về độ sáng xung quanh một số vùng đặc trưng ảnh cũng làm
cho quá trình do tìm biên khó thực hiện. Yuille và cộng sự đã mở rộng khái niệm
con rắn thông qua việc kết hợp các thông tin tổng thể về cặp mắt để nâng cao độ
tin cậy của quá trình trích chọn đặc trưng. Một mẫu có thể thay đổi của mắt dựa
22
trên các đặc trưng nổi bật của chúng được tham số hóa sử dụng 11 tham số. Hoạt
động theo nguyên tắc giống như con rắn, một mẫu nếu được khởi đầu gần với
các đặc trưng mắt sẽ tự biến đổi hướng tới đường bao đặc trưng tối ưu. Cơ chế
biến đổi liên quan đến phương pháp cực tiểu hóa giảm gradient dốc nhất của tổ
hợp năng lượng ngoài do các vùng trũng, đường biên, đỉnh và độ sáng của ảnh
(E
v
,

E
e
,

E
p
, E
i
) được tính theo công thức:
E = E
v
+

E
e
+

E
p
+ E
i
+ E
bên trong
(I.11)
Tất cả các biểu thức năng lượng trên được biểu diễn bằng một tích phân sử
dụng các thuộc tính mẫu như diễn tích và độ dài của đường tròn và đường
parabol.
Có thể thấy rằng, chiến lược đối sánh mẫu là cố định, do đó vị trí khởi đầu
của các mẫu sẽ ảnh hưởng nhiều đến quá trình tiến hóa. Người ta đã chỉ ra rằng,
nếu mẫu được khởi đâu tại trên mắt thì nó sẽ bị hấp dẫn bởi lông mày thay vì cặp

mắt. Ngoài ra, thời gian xử lý cũng sẽ rất lớn trong quá trình thực hiện cực tiểu
hóa. Vì vậy những nghiên cứu gần đầy tập trung vào việc giảm thời gian thực
hiện, thay đổi các mẫu và biểu thức năng lượng. Trong một phát triển gần đây,
Lam và Yan sử dụng các thông tin về góc mắt để đánh giá các tham số khởi đầu
của mô hình mẫu mắt. Sự gia tăng về thông tin làm cho phép so sánh mẫu sẽ
chính xác, tin cậy hơn. Thời gian để mẫu đạt được vị trí tối ưu cũng đã giảm đến
40% (so sánh với mẫu ban đầu). Bên cạnh mẫu mắt, các mẫu miệng cũng được
sử dụng với cùng một chiến lược.
1.4.1.3.3 Mô hình phân phối điểm (PDM – Point Distributed Models)
Là một mô hình mô tả tham số hóa tối ưu của hình dạng dựa trên phưong
pháp thống kê. Kiến trúc của quá trình so khớp của PDM khác với các mô hình
hình dạng động khác. Các đương biên đọng của PDM được rời rạc hóa thành các
23
tập điểm được đánh nhãn. Sự biến đổi của các tập điểm này trước hết được tham
số hóa thông qua các tập mẫu học.chứa các đối tượng có hình dạng và tư thé
khác nhau. Sử dụng phương pháp phân tích thành phần chính PCA, sự biến đổi
của các đặc trưng trong tập mẫu học được xây dựng thành một mô hình linh
động tuyến tính. Mô hình đựoc cấu thành từ trung bình của tất cả các đặc trưng
trong tập hợp và mô hình cơ bản của sự biến đổi từng điểm ảnh:x = x
tb
+ Pv
(I.12)
Trong đó, x biểu diễn một điểm trong PDM và x
tb
là đặc tính trung bình
trong tập mẫu đối với điểm đó, P = [p
1
, p
2
, …, p

t
] là ma trận chưa t vector biến
đổi quan tọng nhất của ma trận hiệp phương sai, còn v là vector trọng số.
Mô hình PDM đầu tiên đựoc phát triển bới Lanitis và cộng sự. Mô hình
minh họa dáng vẻ tổng thể của khuôn mặt bao gồm đặc tính như lông mày, mũi,
mắt. Sử dụng 152 điểm điều khiển được chọn bằng tay và 160 ảnh mặt mẫu, một
mô hình PDM được xây dựng. Chỉ sử dụng 16 trọng số, mô hình có thể xấp xỉ
được 95% các hình dạng khuôn mặt trong tập mẫu. Để so khớp một môhnhf
PDM với một mặt, mô hình hình dạng trung bình (với điểm đánh nhãn là x
tb
) đầu
tiên được đặt gần mặt. Sau đó các chiến lược tìm kiếm trên mức xám cục bộ
được sử dụng để đưa từng điểm hướng đến điểm tưng ứng thuộc đường bao.
Trong suốt quá trình biến đổi này, hình dạng chỉ được phép thay đổi theo một
cách phù hợp với các thông tin đựoc mô hình hóa trong tập mẫu.
Ưu điểm cua PDM là sử dụng mô hình khuôn mặt với các tham số tối ưu.
Đặc tính tổng thể của mô hình cũng cho phép tất cả các đặc trưng được xác định
song song với nhau và do đó giảm bớt đựoc yêu cầu phải tìm kiếm lần lượt các
đặc trưng. Hơn nữ, sự thiếu vắng một đặc trưng nào đó không phảilà một vấn đề
nghiêm trọng khi mà đến các đặc trưng khác trong mô hình vẫn có thể đạt tới
một giải pháp tối ưu toàn thể.
24
1.4.2 Hướng tiếp cận dựa trên thông tin xuất hiện trong ảnh (Image-based
approach)
Hạn chế của hướng tiếp cận dựa vào đặc trưng của hình ảnh đó là khả
năng nhận biết nhiều khuôn mặt trong một bức ảnh có bối cảnh phức tạp là
không cao cho dù đã có nhiều nỗ lực cải tiến và nâng cao chất lượng dò tìm.
Điều đó đòi hỏi một phương pháp mới, một hướng tiếp cận mới để giải quyết
vấn đề này. Và hướng tiếp cận dựa vào thông tin hình ảnh là hướng tiếp cận có
thể đáp ứng nhu cầu đó.

Hầu hết các phương pháp trong hướng tiếp cận này đều sử dụng chung
một kỹ thuật đó la kỹ thuật quét cửa sổ hay còn gọi là kỹ thuật quét khung nhìn
để nhận biết khuôn mặt. Thuật toán quét cửa sổ sẽ dò tìm trong ảnh đầu vào tất
cả các khuôn mặt có thể có trong ảnh. Kích thước của cửa sổ, hệ số lấy mẫu,
kích thước của bước quét phụthuộc vào mục đích của phương pháp cũng như
hiệu năng của hệ thống.
Nhận biết khuôn mặt dữa vào thông tin hình ảnh được chia làm ba hướng
nghiên cứu con chính đó là phương pháp không gian con tuyến tính, phương
pháp dựa vào mạng neural và phương pháp thống kê.
1.4.2.1. Phương pháp không gian con tuyến tính (Linear Subspace
Methods)
Hình ảnh của khuôn mặt con người nằm trên một không gian con của toàn
bộ không gian hình ảnh. Để thể hiện không gian con này, người ta có thể sử
dụng phương pháp về thần kinh, tuy nhiên vẫn có vài phương pháp có liên quan
chặt chẽ hơn với phân tích thống kê độ biến thiên tiêu chuẩn cái mà có thể ứng
dụng được. Các kĩ thuật trong phương pháp này bao gồm phân tích thành phần
chính (PCA principal component analysis), phân tích biệt số tuyến tính (LDA),
và phân tích hệ số (FA).
25

Hệ thống phát hiện khuôn mặt dựa trên mạng neural và phương pháp vân vùng màu da

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về