Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.01 MB, 69 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

NGUYỄN XUÂN THUYẾT

CÁC KỸ THUẬT LỰA CHỌN, TRÍCH RÚT,
GHI NHẬN TRẠNG THÁI BIỂU CẢM CƠ BẢN
CỦA MẶT NGƯỜI

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2017

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

NGUYỄN XUÂN THUYẾT

CÁC KỸ THUẬT LỰA CHỌN, TRÍCH RÚT,
GHI NHẬN TRẠNG THÁI BIỂU CẢM CƠ BẢN
CỦA MẶT NGƯỜI
Chuyên ngành: Khoa học máy tính
Mã số: 60480101

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS ĐỖ NĂNG TOÀN

THÁI NGUYÊN - 2017

i

LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thật sự của cá
nhân, được thực hiện dưới sự hướng dẫn khoa học của PGS.TS. Đỗ Năng Toàn.
Các số liệu và thông tin thứ cấp sử dụng trong luận văn được trích dẫn rõ ràng.
Tôi hoàn toàn chịu trách nhiệm về tính xác thực và nguyên bản của luận văn.
Học viên

Nguyễn Xuân Thuyết

ii

MỤC LỤC
MỤC LỤC .................................................................................................... i
DANH MỤC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ...................................... iv
DANH MỤC CÁC HÌNH ........................................................................... v
PHẦN MỞ ĐẦU .......................................................................................... 1
Chương 1: KHÁI QUÁT VỀ BIỂU CẢM KHUÔN MẶT VÀ BÀI TOÁN
TRÍCH RÚT ĐẶC TRƯNG BIỂU CẢM KHUÔN MẶT ............................ 1

1.1. Khái quát về biểu cảm khuôn mặt ........................................................ 1
1.1.1. Khái niệm biểu cảm khuôn mặt .................................................... 1
1.1.2. Vấn đề biểu diễn biểu cảm khuôn mặt 3D .................................... 6
1.2. Bài toán trích rút đặc trưng phục vụ biểu diễn biểu cảm khuôn mặt
3D .............................................................................................................. 10
1.2.1. Giới thiệu bài toán ....................................................................... 10
1.2.2. Một số vấn đề trong việc triển khai thực tế ................................ 13

1.2.2.1. Vấn đề ràng buộc dữ liệu ..................................................... 13
1.2.2.2. Vấn đề lựa chọn tập điểm điều khiển ................................... 14
1.2.3. Một số ứng dụng liên quan ......................................................... 16
Chương 2: MỘT SỐ KỸ THUẬT LỰA CHỌN, TRÍCH RÚT, GHI NHẬN
TRẠNG THÁI BIỂU CẢM MẶT NGƯỜI ................................................ 18

2.1. Kỹ thuật SIFT ..................................................................................... 19
2.1.1.Tổng quan về SIFT....................................................................... 19
2.1.2. Nội dung giải thuật ...................................................................... 21
2.1.2.1. Dò tìm cực trị cục bộ ............................................................ 21
2.1.2.2. Trích xuất keypoint .............................................................. 25
2.1.2.3. Gán hướng cho các keypoint................................................ 28
2.1.2.4. Tạo bộ mô tả cục bộ ............................................................. 29
2.1.3. Kỹ thuật đối sánh ........................................................................ 30

iii

2.1.4. Một số hướng cải tiến, phát triển thuật toán SIFT ...................... 32
2.1.4.1. Giảm số lượng keypoint trích xuất ở mỗi ảnh ..................... 32
2.1.4.2. Dùng lược đồ màu loại trừ trước các ảnh ít khả năng tương
đồng ................................................................................................... 32
2.1.4.3. Trích xuất đối tượng ra khỏi ảnh theo đối tượng mẫu ......... 33
2.2. Kỹ thuật AAM.................................................................................... 33
2.2.1. Giới thiệu về mô hình biểu diễn động......................................... 33
2.2.2. Mô hình thống kê của sự biểu diễn đối tượng ............................ 35
2.2.2.1. Phương pháp phân tích đặc trưng chính (Principle
component analysis - PCA)............................................................... 36
2.2.2.2. Mô hình thông kê của hình dạng đối tượng ......................... 37
2.2.2.3. Mô hình thống kê của kết cấu đối tượng ............................. 38

2.2.2.4. Sự tổng hợp mô hình hình dạng và kết cấu thành mô hình
biểu diễn ............................................................................................ 40
2.2.2.5. Tổng quan quá trình tìm kiếm dựa vào AAM...................... 42
2.2.3. Ràng buộc tìm kiếm trong AAM ................................................ 44
2.2.3.1. Mô hình so khớp .................................................................. 45
2.2.3.2. Tìm kiếm vị trí định trước của mô hình ............................... 47
2.2.4. Ứng dụng mô hình biễu diễn động vào nhận dạng khuôn mặt ... 47
2.2.4.1. Giới thiệu bài toán nhận dạng khuôn mặt và vai trò của AAM. 47
2.2.4.2. Dữ liệu huấn luyện ............................................................... 48
Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM ........................................ 53

3.1. Phân tích yêu cầu bài toán .................................................................. 53
3.2. Phân tích lựa chọn công cụ ................................................................ 54
3.3. Một số kết quả chương trình .............................................................. 56
KẾT LUẬN .............................................................................................. 56
TÀI LIỆU THAM KHẢO ...................................................................... 58

iv

v

DANH MỤC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
STT

Ký hiệu

Viết đầy đủ

Ý nghĩa

1

AAM

Active Aperence Model

Mô hình biểu diễn động

2

ASM

Active Shape Model

Mô hình hình dạng động

3

SIFT

Scale Invariant Feature
Transform

Phép biến đổi đặc trưng bất
biến tỷ lệ

4

DoG

Deffirence of Gaussisan

Hàm sai khác Gaussian

5

VR

Virtual Reality

Thực tại ảo

6

PCA

Principle component
analysis

Phân tích đặc trưng chính

7

CSDL

Cơ sở dữ liệu

vi

DANH MỤC CÁC HÌNH
Hình 1.1. Mô tả dưới dạng ma trận của các loại cảm xúc theo 2 chiều: cường
độ cao hay thấp(I) và đánh giá positive hay negative(E) của Shaver ............... 2
Hình 1.2. 7 Trạng thái cảm xúc khuôn mặt cơ bản tronng nghiên cứu của
Matsumoto ......................................................................................................... 3
Hình 1.3. Hệ cơ mặt .......................................................................................... 3
Hình 1.4. Mô hình hệ thống biểu diễn biểu cảm khuôn mặt ........................... 10
Hình 1.5. Phát hiện và gán nhãn điểm đánh dấu trong công trình của Arman
Savran và các đồng nghiệp .............................................................................. 11
Hình 1.6. Công nghệ giám sát điểm đánh dấu trong phim Avatar ................. 12
Hình 1.7. Hệ thống điểm của MPEG-4 ........................................................... 15
Hình 1.8. Tập điểm của Luxand ...................................................................... 16
Hình 2.2. Quá trình tính không gian đo (L) và hàm sai khác D ..................... 23
Hình 2.3. Quá trình tìm điểm cực trị trong các hàm sai khác DoG ................ 25
Hình 2.4. Mô phỏng sử dụng công thức mở rộng của Taylor cho hàm DoG . 26
Hình 2.5. Minh họa các bước của quá trình lựa chọn các điểm keypoints ..... 27
Hình 2.6. Mô tả tạo bộ mô tả cục bộ ............................................................... 30
Hình 2.7. Tóm tắt thuật toán SIFT .................................................................. 31
Hình 2.8. Hình ảnh mô tả quá trình huấn luyện dữ liệu bằng việc mô hình hóa
thống kê hình dáng và kết cấu của đối tượng.................................................. 35
Hình 2.9. Phần tử x được xấp xỉ bằng phần tử x’ trên hệ trục tọa độ ............. 36
Hình 2.10. Ví dụ về hình dạng bàn tay khi thay đổi các tham số ................... 38
Hình 2.11. Ví dụ về hình dạng khuôn mặt khi thay đổi các tham số .............. 38
Hình 2.12. Hai mô hình với độ biến đổi độ xám 3sd ................................... 40
Hình 2.13. Tập dữ liệu huấn luyện .................................................................. 49
Hình 2.14. Ví dụ về sự biến đổi hình dạng và kết cấu trên 2 mô hình khác nhau... 49
Hình 2.15. Biểu đồ mô tả sự khớp nhau trong việc tiên đoán góc giữa mô hình
thật và dữ liệu huấn luyện ............................................................................... 51

Hình 2.17. Ví dụ minh họa những mô hình có thể suy ra khi ta đã tiến hành so
khớp và tìm ra độ nghiêng một góc của một dữ liệu ảnh................................ 52
Hình 3.1. Ảnh khuôn mặt đầu vào: ................................................................. 53
Hình 3.2. Mô hình chức năng nhận dạng đối tượng ....................................... 54

vii

Hình 3.3. Truy vấn và so khớp đối tượng ứng với trạng thái vui vẻ .............. 56
Hình 3.4. Truy vấn và so khớp đối tượng ứng với trạng thái ngạc nhiên ....... 56

1

PHẦN MỞ ĐẦU
Chương 1: KHÁI QUÁT VỀ BIỂU CẢM KHUÔN MẶT VÀ BÀI TOÁN
TRÍCH RÚT ĐẶC TRƯNG BIỂU CẢM KHUÔN MẶT
1.1. Khái quát về biểu cảm khuôn mặt
1.1.1. Khái niệm biểu cảm khuôn mặt
Theo cách hiểu thông thường, biểu cảm khuôn mặt có thể hình dung là
thể hiện bên ngoài tương ứng với một trạng thái của hệ cơ nét mặt nằm dưới
vùng da mặt [5]. Đây cũng là một khái niệm gần gũi với con người trong cuộc
sống hàng ngày bởi con người trong sinh hoạt, lao động, giao tiếp đều cần phải
biểu lộ thông tin mà mình muốn truyền đạt hoặc thậm chí là phản xạ, trong đó,
biểu cảm khuôn mặt gắn liền với việc biểu lộ thông tin qua khuôn mặt là một
trong những cách thức cơ bản và phổ dụng nhất.
Các nhà tâm lý học nhìn nhận biểu cảm khuôn mặt dựa trên những trạng
thái tâm lý con người. Có thể hình dung, khi nói đến tâm trạng hay trạng thái
tâm lý là nói đến một dạng cảm xúc có cường độ nhất định, tồn tại trong một
khoảng thời gian tương đối. Những trạng thái tâm lý có tác động mạnh vào các

quyết định của con người như các thao tác, hành vi, hoạt động. Theo hướng
này, trạng thái biểu cảm có thể được hiểu là cách thức con người thể hiện cảm
xúc, dự đoán hay chia sẻ tình cảm của mình.
Có nhiều cách nhìn nhận về việc phân chia các trạng thái biểu cảm.,
chẳng hạn như chia thành 3 mức chính: mức cao, mức trung và mức thấp. Trong
đó mức cao thể hiện sự khác biệt rõ rệt giữa hài lòng và không hài lòng. Mức
chung thể hiện cảm giác như tức giận, khiếp sợ, vui mừng và ngạc nhiên. Mức
thấp thể hiện khác biệt nhỏ như với trạng thái tức giận ta có những mức độ khác
nhau. Bên cạnh đó, một cách phân chia trạng thái biểu cảm khác là theo tâm

2

trạng negative (buồn), negative hay positive (ngạc nhiên) và positive (vui).
Chẳng hạn như trong nghiên cứu của Shaver và các đồng nghiệp về việc phân
tích liên quan đến các trạng thái yêu (Love), vui mừng (Joy), Ngạc nhiên
(Surprise), tức giận (Anger), buồn (Sadness) và sợ hãi (Fear).

Hình 1.1. Mô tả dưới dạng ma trận của các loại cảm xúc theo 2 chiều:
cường độ cao hay thấp(I) và đánh giá positive hay negative(E) của Shaver
Gần đây, Matsumoto và các đồng nghiệp sử dụng cách phân chia các
trạng thái cảm xúc của khuôn mặt đã chia thành 7 nhóm thể hiện chính.

3

Hình 1.2. 7 Trạng thái cảm xúc khuôn mặt cơ bản tronng nghiên cứu của
Matsumoto
Hệ cơ mặt đóng vai trò quan trọng trong việc tạo ra các biểu cảm của
mặt, các cơ trên khuôn mặt ở trạng thái khác nhau với những trạng thái biểu

cảm khác nhau.

Hình 1.3. Hệ cơ mặt

4

Nói chung, trước khi có những sự phát triển trong lĩnh vực công nghệ
thông tin, đặc biệt là trong lĩnh vực thị giác máy, việc phân tích biểu cảm khuôn
mặt về cơ bản là vấn đề của những nhà nghiên cứu tâm lý và bác sĩ. Tuy nhiên
sau đó đã có những sự thay đổi và đã xuất hiện nhiều nhóm nghiên cứu, nhiều
công ty đầu tư vào vấn đề phân tích biểu cảm khuôn mặt trên phương diện xử
lý ảnh và đồ họa máy tính. Có thể kể đến một vài kết quả khởi đầu như: vào
năm 1978, Suwa và các cộng sự đã trình bày một khảo sát sơ bộ về việc phân
tích biểu cảm khuôn mặt tự động từ một chuỗi các hình ảnh; vào những năm
90, vấn đề nghiên cứu biểu hiện khuôn mặt tự động đạt được nhiều sự quan tâm
với sự tiên phong của Mase và Pentland, trong công trình này các tác giả trình
bày một phương pháp sử dụng luồng quang học để ước lượng các cử động của
cơ mặt và dựa vào đó để nhận dạng một số biểu cảm đặc trưng, theo đó những
thí nghiệm ban đầu cho thấy độ chính xác khoảng 80% khi nhận bốn loại: hạnh
phúc, giận dữ, ghê tởm, và ngạc nhiên.
Nghiên cứu về biểu cảm khuôn mặt trong lĩnh vực công nghệ thông tin
rất được quan tâm đến chính bởi vì nó hứa hẹn rất nhiều ứng dụng trong cuộc
sống, chẳng hạn như:
Các hệ thống xác thực bằng sinh trắc học trong thời gian thực cho phép
người dùng đăng nhập bằng cách nhìn vào ống kính camera
Các hệ thống kiểm soát vào ra và có lưu vết thời gian
Các ứng dụng nhận dạng đối tượng không cần sự ghi danh trước
Hệ thống giám sát video và nhận dạng khuôn mặt tự động
Hệ thống tìm ảnh dựa trên nội dung

Các ứng dụng giải trí trên thiết bị di động
Các ứng dụng phân tích tâm lý con người ứng dụng trong phát hiện nói
dối, đánh giá sự hài lòng của khách hang với các dịch vụ…

5

Xây dựng các hoạt cảnh khuôn mặt trong ngành công nghiệp
giải trí
Các ứng dụng tăng cường chất lượng ảnh và biên tập đồ họa
Có rất nhiều điều liên quan đến các đặc trưng thể hiện cử chỉ, trạng thái
biểu cảm khuôn mặt trong một hệ thống phân tích biểu hiện khuôn mặt. Các
biểu cảm khuôn mặt được sinh ra từ sự chuyển động của các cơ nét mặt, kết
quả là tạo ra những biến dạng tạm thời của những thành phần khuôn mặt như
mí mắt, lông mày, mũi, môi và da như nếp nhăn và những chỗ phình. Những
thay đổi thông thường của các cơ nét mặt thường rất ngắn, chỉ khoảng vài giây,
hiếm khi dài hơn 5s và ngắn hơn 250ms. Các đặc trưng của biểu hiện khuôn
mặt thường yêu cầu một độ đo chính xác và một thuật ngữ hữu ích cho việc
miêu tả chúng. Vấn đề thường được đặt ra là việc định vị các cử động trên
khuôn mặt cũng như cường độ của chúng. Cường độ của các biểu hiện khuôn
mặt có thể được đo bằng cách xác định những biến đổi hình học của các đặc
trưng khuôn mặt hay mật độ các nếp nhăn xuất hiện trên vùng mặt. Ví dụ như
độ mỉm cười được truyền đạt dựa trên độ phình của má và việc nâng cao điểm
góc môi cũng như việc biểu hiện các nếp nhăn. Do có sự ảnh hưởng của tính
chất cá nhân lên cử động của khuôn mặt nên rất khó để xác định một cách tuyệt
đối cường độ của biểu hiện khuôn mặt mà không sử dụng đến một khuôn mặt
trung tính cho chủ thể được đề cập tới. Chú ý rằng việc đo cường độ của những
biểu cảm tự nhiên trên khuôn mặt là khó khăn hơn khi so sánh với những biểu
hiện khuôn mặt trong một tình huống cụ thể, khi đó các biểu hiện thường có
cường độ phóng đại và có thể được xác định dễ dàng hơn. Không chỉ bản chất

tự nhiên của những biến dạng thành phần khuôn mặt mang ý nghĩa, mà còn thời
gian diễn ra tương đối cũng như quá trình chuyển đổi theo thời gian. Bài toán
xây dựng hệ thống thường được đặt ra với đầu vào dữ liệu là cả video và ảnh
tĩnh, ngoài ra hiện nay còn có sự góp mặt của ảnh chiều sâu của của một số loại

6

cảm biến như Kinect. Thông thường hình ảnh tĩnh không thể hiện rõ những
thay đổi tinh tế trên khuôn mặt do đó nhiều hệ thống hướng đến việc sử dụng
dữ liệu đầu vào là một luồng ảnh như trực tiếp từ camera hoặc từ video để có
thể tận dụng thêm thông tin có được theo chuỗi thời gian.
1.1.2. Vấn đề biểu diễn biểu cảm khuôn mặt 3D
Xét một cách tổng quát, trên thế giới hiện nay, những người tham gia
vào công việc liên quan đến biểu diễn biểu cảm khuôn mặt người thường rơi
vào một trong hai nhóm: những người làm việc trong lĩnh vực khoa học máy
tính và những họa sỹ.
Những người làm việc trong lĩnh vực khoa học máy tính quan tâm đến
những vấn đề chi tiết về nhiều khía cạnh theo cách nhìn của kỹ thuật và công
nghệ. Họ dùng nhiều thời gian trong việc nghiên cứu, thử nghiệm và triển khai
những phương pháp mô hình hóa, định vị và hoạt hóa khuôn mặt người và
những đặc trưng khuôn mặt dựa trên nhiều tiếp cận khác nhau. Có những hướng
tiếp cận phân tích thuần túy những tính chất bất biến trong vùng ảnh mặt người
đồng thời có khả năng phân biệt với những loại dữ liệu khác để áp dụng trong
công đoạn xác định vị trí cùng phạm vi vùng ảnh khuôn mặt trong một bức ảnh
hoặc trong luồng video. Những nghiên cứu này cũng là một phần quan trọng
trong việc thiết kế những hệ thống thực hiện bám sát những điểm đặc trưng
khuôn mặt trong một luồng video, có thể với nhiều yêu cầu cụ thể hơn như phải
xử lý thời gian thực và có thể không bao gồm việc đánh dấu những điểm đó
khuôn mặt. Nhiều nghiên cứu khác lại nhìn nhận vấn đề theo khía cạnh kết hợp

dữ liệu ảnh với những nghiên cứu về cơ thể người như trong giải phẫu học, tâm
lý học hay nhân chủng học. Các nghiên cứu theo tiếp cận này cũng quan tâm
đến nhiều vấn đề, chẳng hạn như lợi dụng một số loại mặt mẫu có sẵn để làm
cơ sở cho những đánh giá tiếp theo trong việc phân tích khuôn mặt; hoặc theo

7

cách nhìn vật lý, mô phỏng lại hình dáng cùng sự chuyển động của xương, cơ
và mô với nhiều mức độ chi tiết khác nhau. Ngoài ra còn một số hướng quan
tâm đến việc tiếp cận từng ứng dụng cụ thể, như nhận dạng cảm xúc khuôn mặt,
tương tác người máy bằng cử chỉ mặt, tổng hợp biểu hiện khuôn mặt từ lời
thoại…
Những họa sĩ thì có những mối quan tâm cụ thể và gần với nhiều thứ
xuất hiện trong đời sống hơn. Đó là những công việc mang tính chất thực hành
và kỹ năng nhiều hơn, như việc tạo ra các hoạt cảnh khuôn mặt chất lượng cao
cho những chương tình TV, cho những trò chơi, cho phim ảnh, quảng cáo…
Những người làm công tác này hầu như sẽ không quan tâm đến phương diện
nghiên cứu tạo ra một phương pháp mới, công nghệ mới mà khi làm việc họ
cần chủ yếu là những kỹ năng thao tác, những kinh nghiệm làm việc cùng với
những phương thức tốt nhất hiện có. Các phương thức này liên quan đến sự hỗ
trợ về mặt học thuật và công nghệ dựa trên môt phần mềm mô hình hóa, thường
là 3D mà họ có khả năng thao tác và làm việc hiệu quả.
Ngoài những nhóm người trên, vẫn còn những người khác có liên quan
nhưng sự xuất hiện của họ ít hơn, và nếu có thường mang tính chất kết hợp liên
ngành cho những người làm kỹ thuật với chuyên ngành khoa học máy tính, đó
là những người chuyên gia về tâm lý học, giải phẫu học, nhân chủng học…
Những người này cung cấp những tri thức chuyên gia trong chuyên ngành hẹp
của họ cho những người làm toán và lập trình. Đây cũng là cách tiếp cận rất tự
nhiên cho việc phân tích và tổng hợp khuôn mặt. Tuy nhiên, thông thường

những ứng dụng mà yêu cầu có sự tham gia sâu của nhóm chuyên gia này
thường rất chuyên biệt và có thể chính là để phục vụ cho chuyên ngành của họ.
Biểu diễn biểu cảm khuôn mặt 3D có thể hiểu chi tiết hơn là việc thể hiện
khuôn mặt người trong môi trường thực tại ảo với những tư thế, hình dáng, kết

8

cấu hình ảnh hoặc chuyển động dựa trên những biểu cảm của khuôn mặt người
thật theo cách phù hợp với yêu cầu của ứng dụng đặt ra, khuôn mặt 3D theo
cách hình dung này có thể hiểu là một mô hình 3D có hình dạng và kết cấu dựa
trên khuôn mặt người thật. Các yêu cầu với việc biểu diễn sẽ rất khác nhau tùy
vào từng ứng dụng, có thể chỉ mang tính chất ước lệ, tượng trưng như trong
chương trình ca sĩ ảo Hatsune Miku của Crypton Future Media hoặc trong một
số game 3D, nhưng cũng có thể phải chính xác đến từng chi tiết nhỏ như với
các ứng dụng trong y học, giải phẫu..
Một mô hình 3D có thể hiểu về mặt bản chất là một tập điểm trong không
gian 3 chiều cùng với mối quan hệ giữa các điểm đó, do vậy, việc biến đổi mô
hình 3D cũng không nằm ngoài việc biến đổi những dữ liệu này. Xét trên bài
toán biểu diễn biểu cảm khuôn mặt, mô hình mặt gần như không có sự thay đổi
về chất liệu ảnh cũng như sự liên kết đặc trưng giữa các điểm dẫn đến thay đổi
hoàn toàn mô hình mà chỉ là những sự dịch chuyển có giới hạn và ràng buộc
cục bộ của các điểm trong mô hình. Bởi vậy kết quả của việc biểu diễn biểu
cảm khuôn mặt có thể hiểu là thao tác thay đổi tọa độ của một tập điểm trong
mô hình mặt 3D với một số giới hạn cùng với ràng buộc đã được xác định trước.
Để thực hiện việc này, người ta thường chọn 1 tập điểm điều khiển và trên cơ
sở đó khi cần người ta sẽ thực hiện biến đổi trực tiếp trên tập điểm này. Tập
điểm được chọn sau khi biến đổi sẽ định hướng điều khiển sự thay đổi cho các
điểm khác. Thông thường tập điểm điều khiển sẽ được chọn bởi các chuyên
gia, những người có chuyên môn trong ứng dụng cần triển khai hoặc công trình

cần nghiên cứu, những người này có thể là những chuyên gia tâm lý, bác sĩ
pháp y hoặc những người làm về nhân chủng học… nói chung là những người
có kiến thức chuyên biệt theo yêu cầu bài toán. Do vậy với những ứng dụng
khác nhau, số lượng điểm điều khiển cũng sẽ rất khác, có thể dao động từ vài

9

điểm đến vài trăm điểm. Bài toán được quan tâm ở đây chính là việc biểu diễn
biểu cảm khuôn mặt 3D từ dữ liệu đầu vào là ảnh số, có thể là ảnh tĩnh hoặc
luồng video. Trong trường hợp này, để xác định sự biến đổi của tập điểm điều
khiển trong mô hình khuôn mặt 3D, một tập điểm 2D trên ảnh được xác định.
Tập điểm 2D này được hiểu là hình chiếu của tập điểm điều khiển 3D trên ảnh.
Trên cơ sở dố, tọa độ của tập điểm 3D được ước lượng dựa vào sự phân bố của
tập điểm điều khiển 2D này.
Xét từ vấn đề tổng quan cho một hệ thống, mô hình hệ thống biểu diễn
biểu cảm khuôn mặt trên thực tế để triển khai có rất nhiều biến thể khác nhau
tùy vào cách tiếp cận, có người tiếp cận dựa trên việc nhận dạng một tập giới
hạn các biểu cảm rồi dựa trên đó mô phỏng tương ứng loại biểu cảm và cường
độ nếu có, có hướng tiếp cận chỉ mang tính chất phát hiện một số đặc điểm
khuôn mặt và biến đổi mô hình mặt theo, không cần quan tâm sâu hơn về ý
nghĩa của những biểu hiện đó là do xuất phát từ những trạng thái cảm xúc hay
những hành động cụ thể gì của khuôn mặt theo cách hiểu thông thường của con
người hay của những chuyên gia tâm lý học và giải phẫu học. Ngay trong những
hướng tiếp cận trên cũng có rất nhiều mô hình hệ thống biểu diễn biểu cảm
khuôn mặt được đề xuất. Xuất phát điểm cho sự đa dạng về mặt thiết kế những
hệ thống này đến từ sự đa dạng trong những lựa chọn sử dụng cũng như những
yêu cầu của hệ thống và chuyên môn sâu của những nhóm nghiên cứu thị giác
máy.
Nói chung, các mô hình hệ thống biểu diễn biểu cảm khuôn mặt được

thiết kế trong những năm gần đây thường có thể hình dung một cách đơn giản
như sau:

10

Expression
recognition

Face detection

Shape location

Expression
simulation

Hình 1.4. Mô hình hệ thống biểu diễn biểu cảm khuôn mặt
Từ những khung hình đầu vào, khuôn mặt được định vị một cách tương
đối và làm thông tin để tiến hành xác định một tập điểm điều khiển mô tả hình
dạng. Từ kết quả của việc xác định tập điểm này, các hệ thống được thiết kế
chia làm 2 hướng tiếp cận. Hướng thứ nhất là các hệ thống sẽ thực hiện nhận
dạng ra một vài loại biểu cảm khuôn mặt đã được định nghĩa trước từ đó tiến
hành mô phỏng theo. Các trạng thái biểu cảm đặc trưng sẽ được nhận dạng theo
tiếp cận này thường được lấy theo các trạng thái tâm lý như hạnh phúc, giận
dữ, ghê tởm, ngạc nhiên…, ngoài ra còn có thể chia nhỏ ra thành từng đơn vị
cử động trên khuôn mặt như nhướn mày, trề môi… Hướng thứ hai là trực tiếp
tiến hành mô phỏng lại các biểu hiện trên khuôn mặt để biểu diễn biểu cảm dựa
trên những vị trí tương đối của những điểm trong tập điểm điều khiển đã tính
toán được.
1.2. Bài toán trích rút đặc trưng phục vụ biểu diễn biểu cảm khuôn mặt 3D

1.2.1. Giới thiệu bài toán
Trích rút đặc trưng thể hiện cử chỉ, trạng thái biểu cảm khuôn mặt trong
ảnh là một kỹ thuật tính toán nhằm ước lượng các thông số cho các mô hình
toán học đã được nghiên cứu nhằm mục đích phân tích và tổng hợp biểu hiện
khuôn mặt trong ảnh. Bài toán trích rút đặc trưng phục vụ biểu diễn biểu cảm
khuôn mặt 3D là bài toán trích rút đặc trưng thể hiện cử chỉ, trạng thái biểu cảm

11

khuôn mặt trong ảnh phục vụ cho hệ thống mô phỏng biểu cảm khuôn mặt 3D
trong lĩnh vực thực tại ảo [5].
Trích rút đặc trưng phục vụ biểu diễn biểu cảm khuôn mặt 3D là một
khâu quan trọng trong hệ thống biểu diễn biểu cảm, đóng vai trò nhận và xử lý
dữ liệu ảnh đầu vào và kết quả đầu ra được sử dụng làm dữ liệu làm đầu vào
cho công đoạn mô phỏng biểu cảm khuôn mặt 3D. Cụ thể hơn, thao tác này cho
ra kết quả là tọa độ 2D trên ảnh của tập điểm điều khiển đặc trưng của khuôn
mặt.
Một hướng tiếp cận với hiệu quả khá cao đó là giám sát điểm đánh dấu.
Theo tiếp cận này, người ta thực hiện đánh dấu bằng cách chấm lên mặt với
những màu cụ thể trước khi quay lại bằng camera. Hướng này được đưa ra để
giải quyết vấn đề đo đạc sự biến dạng tại một số vùng trên mặt, nơi mà nằm
trên những mốc của các cơ mặt nhưng có kết cấu hình ảnh thường là vùng da
khá đơn điệu. Arman Savran và các đồng nghiệp đã sử dụng không gian màu
HSI để phân đoạn những vùng màu đánh dấu kết hợp với việc lọc bằng việc
tính thành phần liên thông và độ dài bán kính.

Hình 1.5. Phát hiện và gán nhãn điểm đánh dấu trong công trình của
Arman Savran và các đồng nghiệp

12

Tiếp cận sử dụng giám sát điểm đánh dấu để ghi nhận lại biểu cảm khuôn
mặt được sử dụng nhiều trong công nghệ làm phim.

Hình 1.6. Công nghệ giám sát điểm đánh dấu trong phim Avatar
Hướng tiếp cận khác là không dựa trên tập điểm đánh dấu. Tiếp cận này
hướng đến việc xây dựng những thuật toán cho phép trích rút tự động những
điểm đặc trưng hình dạng được định nghĩa trước, cụ thể hơnlà những điểm quan
trọng trong mỗi ảnh khuôn mặt mà trong đó mỗi điểm mang một đặc trưng phân
biệt nào đó. Cootes [8] xây dựng AAM - mô hình thống kê tương ứng với sự
hiển thị của đối tượng trong ảnh kết hợp với một thuật toán tối ưu để xác định
tham số cho thể hiện tương ứng của mô hình trong ảnh; Iain Matthews and
Simon Baker đã cải tiến AAM và cho kết quả thực hiện chính xác hơn và hội
tụ thời gian thực trong những trường hợp sử dụng cụ thể; họ cũng đưa ra cải
tiến AAM bằng cách kết hợp thông tin 2D và 3D ;Tian và các cộng sự đã sử
dụng các mô hình thành phần khác nhau cho môi, mắt, lông mày và thực hiện
giám sát những điểm đặc trưng để thích ứng với các mô hình đường biên tương
ứng với sự biến dạng.

13

1.2.2. Một số vấn đề trong việc triển khai thực tế
1.2.2.1. Vấn đề ràng buộc dữ liệu
Tùy từng yêu cầu của hệ thống khác nhau mà người nghiên cứu sẽ phải
đối mặt với những vấn đề dữ liệu và các ràng buộc cụ thể về mặt người trong
ảnh. Nói một cách khác, việc nghiên cứu các kỹ thuật trích rút đặc trưng phụ
thuộc rất nhiều vào khái niệm “ảnh khuôn mặt” mà từng hệ thống sẽ định nghĩa

và giới hạn [5]. Nếu xét trường hợp tổng quát không hạn chế, vấn đề dữ liệu có
thể xảy ra trong một số trường hợp sau:
 Ảnh đen trắng, ảnh màu hay ảnh xám.
 Độ phân giải của ảnh.
 Ảnh chụp hình, ảnh in trên áo, ảnh trên trang báo, bìa sách.
 Ảnh bị xé, ghép, vò nhàu.
 Ảnh họa sĩ vẽ lại, ảnh truyền thần, ảnh mô tả tội phạm.
 Ảnh được thu nhận từ máy quét, camera, webcam, điện thoại di động.
 Ảnh tĩnh hay video, format nào.
 Tư thế, góc chụp ảnh, độ nghiêng đầu trái phải trên dưới.
 Sự xuất hiện hay thiếu sót một số thành phần như râu, ria mép.
 Người trong ảnh đeo kính, khẩu trang.
 Ảnh có đầy đủ các bộ phận của khuôn mặt như mắt, mũi, miệng.
 Phạm vi ảnh có chứa các tóc, ngực áo không.
 Vùng da mặt chứa bao nhiêu phần trăm diện tích ảnh. Tâm khuôn mặt
(ví dụ chân mũi) có trùng tâm ảnh không.
Dựa vào các thông số cụ thể của các tiêu chí như trên ta có thể xây dựng,
triển khai các kỹ thuật phù hợp và tối ưu hệ thống, ví dụ:

14
 Với ảnh màu và điều kiện ánh sáng ổn định, ta có thể sử dụng kỹ thuật
phát hiện da nhằm tăng tốc độ và độ chính xác cho quá trình định vị
khuôn mặt trong ảnh.
 Với nguồn video, camera, ta có thể sử dụng tiếp cận phát hiện và giám
sát đối tượng chuyển động.
 Từ chi tiết về độ phân giải của ảnh, tỉ lệ khuôn mặt trong ảnh, ta có
thể xác định các thông số tối ưu cho cửa sổ trượt khi dò tìm ảnh khuôn
mặt.
 Với yêu cầu ảnh chụp thẳng, ta có thể sử dụng các đặc trưng không

bất biến với góc quay, ví dụ như đặc trưng Haar trong kỹ thuật Haar
+ Adaboost.
 Với điều kiện phải có xuất hiện đầy đủ bộ phận khuôn mặt, ta có thể
xây dựng hướng tiếp cận dựa trên các tiêu chí cơ bản để mô tả các bộ
phận khuôn mặt cùng quan hệ giữa chúng, như một khuôn mặt có hai
mắt, một mũi, một miệng, hai mắt đối xứng nhau qua trục giữa khuôn
mặt, mũi và miệng nằm trên trục giữa khuôn mặt.
1.2.2.2. Vấn đề lựa chọn tập điểm điều khiển
Ta xét đến việc chọn tập điểm điều khiển đối với đối tượng ảnh. Nói chung,
tập điểm điều khiển của một đối tượng được hiểu là tập những điểm có tính
phân biệt với những điểm khác đồng thời có tính nhất quán trên những ảnh khác
nhau của một đối tượng [6]. Ví dụ nếu ta quan tâm đến đối tượng là con mắt
trên ảnh khuôn mặt, các điểm phù hợp có thể là những điểm góc mắt – những
điểm có thể dễ dàng xác định và đánh dấu trên ảnh. Bản thân tính chất này của
tập điểm điều khiển đã hạn chế rất nhiều những trường hợp có thể áp dụng,
chẳng hạn như đối yêu cầu đối tượng trong ảnh phải có một cấu trúc liên kết và
đối tượng không thể thay đổi đến mức không tồn tại một vài điểm mốc nào đó.

15

Một số trường hợp bị loại bỏ có thể hình dung như một số đối tượng trong ảnh
viễn thám hoặc ảnh vùng sữa hoặc bột bị đổ…Tính chất của tập điểm điều khiển
yêu cầu đến những tri thức về bản thân đối tượng trong thực tế, do đó việc lựa
chọn thường dựa trên tri thức chuyên gia, có thể là một người nào đó có kiến
thức vững chắc về đối tượng thực hiện lựa chọn.
Một tập điểm đã được đưa vào chuẩn MPEG-4, là một chuẩn nén đa
phương tiện dựa trên đối tượng. MPEG-4 đặc tả khuôn mặt với 84 điểm đặc
trưng cùng với các tham số hoạt hóa, các tham số hoạt hóa tương ứng với các
hành động của khuôn mặt mà kết quả là gây ra sự biến dạng của mô hình mặt

so với trạng thái trung tính. Việc đặc tả quá trình biến dạng của mô hình mặt
với một vài tham số hoạt hóa cùng với những giá trị thời gian sẽ sinh ra chuỗi
hoạt cảnh của khuôn mặt. Các điểm đặc trưng tương ứng với các vị trí chính
trên một khuôn mặt người như là các cơ, vị trí mắt, miệng,… Tập điểm điều
khiển này được chọn để phản ánh hiệu quả cơ chế di chuyển của mặt người.
Các điểm đặc trưng được sắp xếp theo nhóm như má, mắt, miệng, …

Hình 1.7. Hệ thống điểm của MPEG-4
Một tập điểm điều khiển khác cũng đạt được nhiều thành công đó là bộ
66 điểm đặc trưng khuôn mặt được đưa ra trong bộ công cụ phát triển của công

16

ty Luxand. Tập điểm này được đặc tả tương ứng với 66 tọa độ của các thành
phần khuôn mặt như mắt, viền mắt, lông mày, viền môi, mũi, má và cằm. Bộ
công cụ phát triển của Luxand đã được sử dụng trong nhiều ứng dụng như giám
sát an ninh, điều khiển vào ra, xây dựng hoạt cảnh…

Hình 1.8. Tập điểm của Luxand
Ngoài ra đối với một hệ thống biểu diễn khuôn mặt 3D trong lĩnh vực
thực tại ảo, việc có được mô hình 3D khuôn mặt phù hợp là vấn đề cơ sở được
đặt ra. Có nhiều cách để xây dựng mô hình 3D khuôn mặt như dựng từ hình
chụp cắt lớp, từ máy quét 3D, từ ảnh chụp với các góc độ khác nhau. Tham
khảo phụ lục A về việc xây dựng mô hình 3D khuôn mặt từ ảnh chụp với các
góc độ khác nhau.
1.2.3. Một số ứng dụng liên quan
Như đã nói ở trên, trích rút đặc trưng biểu cảm khuôn mặt trong ảnh là
một khâu quan trọng trong một hệ thống phân tích ảnh khuôn mặt mà mục tiêu
cuối là nhận dạng hoặc mô phỏng biểu hiện khuôn mặt [5]. Những hệ thống

này sẽ có những yêu cầu và ràng buộc cụ thể rất khác nhau.
Trong một hệ thống xác thực và giám sát mặt người từ luồng video trực
tuyến thu tại những địa điểm không có yêu cầu cao về tính bảo mật và chuyên
biệt như cửa vào một cơ quan, thang máy, hành lang của một tòa nhà… thông
thường hệ thống sẽ yêu cầu xác thực và giám sát với cả những cá nhân không

Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về