Tải bản đầy đủ (.docx) (61 trang)

Nghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặt​

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.7 MB, 61 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

DƯƠNG VĂN CƯỜNG

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG
CHO ẢNH VÀ ỨNG DỤNG TRONG BÀI TỐN PHÂN LOẠI TRẠNG
THÁI CẢM XÚC KHN MẶT

Chun ngành: Khoa học máy tính
Mã số: 84 8 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. VŨ VIỆT VŨ

THÁI NGUYÊN, 2018


i

MỤC LỤC
MỤC LỤC.........................................................................................................i
DANH MỤC CÁC CHỮ VIẾT TẮT............................................................iii
DANH MỤC CÁC HÌNH VẼ.......................................................................iv
Mở đầu.............................................................................................................1
Chương 1. Tổng quan về khai phá dữ liệu ứng dụng.................................. 3
1.1. Khái niệm về lĩnh vực khai phá dữ liệu và phát hiện tri thức.......3
1.1.1. Khái niệm........................................................................................3
1.1.2. Các mơ hình học máy cơ bản..........................................................5
1.1.3. Ứng dụng của học máy................................................................... 8


1.2. Tổng quan về bài tốn trích chọn đặc trưng, trích chọn đặc trưng
cho dữ liệu hình ảnh....................................................................................9
1.3. Bài tốn phân loại cảm xúc khn mặt......................................... 11
1.4. Những vấn đề nghiên cứu của luận văn.........................................12
Chương 2. Nghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh
14
2.1. Tổng quan về trích chọn đặc trưng.................................................. 14
2.2. Phương pháp trích chọn đặc trưng Gabor...................................... 15
2.3. Phương pháp trích chọn đặc trưng HoG.........................................18
2.3.1. Giới thiệu...................................................................................... 18
2.3.2. Các bước trích trọn đặc trưng HoG trên ảnh...............................19
2.4. Phương pháp trích chọn đặc trưng LBP..........................................25
2.5. Một số phương pháp học máy ứng dụng trong bài tốn phân loại
trạng thái cảm xúc khn mặt.................................................................31
2.5.1. Phương pháp học không giám sát.................................................31
2.5.2 Phương pháp phân cụm bán giám sát............................................33
2.5.3. Phương pháp học có giám sát.......................................................35


ii

2.6.Kết luận ................................................
Chương 3. Kết quả thực nghiệm ..................................................................

3.1.Giới thiệu ................................................

3.2.Kết quả thực nghiệm .............................

3.2.1Thực hiện p


3.2.2Kết quả thự
SSDBSCAN..............................................................................................

3.2.3Kết quả thự

3.3.Kết luận .................................................
KẾT LUẬN ....................................................................................................




Những kết quả đã đạt được ............................................................

Hướng phát triển tiếp theo của đề tài ............................................
TÀI LIỆU THAM KHẢO ............................................................................


iii

DANH MỤC CÁC CHỮ VIẾT TẮT
DBSCAN

Phương pháp phân cụm dựa trên mật độ (Density Based Spatial
Clustering of Application with Noise)

HoG

Biểu đồ các đường dốc (Histogram of Gradients)

LBP


Mẫu nhị phân địa phương (Local Binary Pattern)

LDA

Phân tích phân biệt tuyến tính (Linear Discriminant Analysis)

PCA Phân tích thành phần chính (Principal Component Analysis)
SSDBSCAN Thuật toán phân cụm bán giám sát dựa trên mật độ (Semi

supervised Density Based Spatial Clustering of Application
with Noise)
SSGC

Thuật toán phân cụm bán giám sát dựa trên đồ thị (Semi supervised Graph Clustering)

SVM

Máy hỗ trợ véc tơ (Support Vector Machine)


iv

DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Các bước của q trình khai phá dữ liệu
......................................................................................................................................................................

3
Hình 1.2 Mơ hình học có giám sát
......................................................................................................................................................................


6
Hình 1.3 Mơ hình học khơng giám sát
......................................................................................................................................................................

6
HÌnh 1.4 Mơ hình học bán giám sát
......................................................................................................................................................................

7
Hình 1.5 Ví dụ về khả năng của Deep learning
......................................................................................................................................................................

8
Hình 1.6 (a). Ví dụ về trích chọn đặc trưng từ ảnh
......................................................................................................................................................................

9
Hình 1.6 (b). Ví dụ về trích chọn đặc trưng từ ảnh
....................................................................................................................................................................

10
Hình 1.7. Ví dụ về tập dữ liệu mô tả trạng thái cảm xúc khn mặt.....................11
Hình 1.8. Ví dụ về thu thập ảnh trạng thái khn mặt từ Video
....................................................................................................................................................................

12
Hình 2.1. Bộ lọc Gabor với 5 loại tần số và 8 hướng khác nhau
....................................................................................................................................................................


16
Hình 2.2 Ảnh sau khi sử dụng bộ lọc Gabor tương ứng với hình 2.1
....................................................................................................................................................................

17
Hình 2.3: R-HOG và C-HOG
....................................................................................................................................................................

19
Hình 2.4: Chia khối trích đặc trưng HOG


....................................................................................................................................................................

20
Hình 2.5: Ví dụ về trích chọn đặc trưng bởi HoG
....................................................................................................................................................................

23
Hình 2.6 Tiền xử lý ảnh
....................................................................................................................................................................

23
Hình 2.7. Gradient theo hướng x (trái), hướng y (giữa) và tổng hợp gradient (phải)
....................................................................................................................................................................

24

Hình 2.8. Chia ảnh thành các ơ để tính các biểu đồ
....................................................................................................................................................................


24
Hình 2.9. Tính lược đồ mức xám
....................................................................................................................................................................

25
Hình 2.10. Ví dụ về phương pháp LBP
....................................................................................................................................................................

26
Hình 2.11. Ví dụ về ảnh khn mặt (trái) và các đặc trưng LBP (phải)
....................................................................................................................................................................

26
Hình 2.12. Tập hợp các điểm xung quanh Ptt.
....................................................................................................................................................................

27
Hình 2.13. Các biến thể của LBP, LBP đồng dạng.
....................................................................................................................................................................

28
Hình 2.14. Bảng thống kê các mẫu của LBP đồng dạng
....................................................................................................................................................................

29
Hình 2.15. Ví dụ về q trình tính tốn đặc trưng
....................................................................................................................................................................

30

Hình 2.16. Phương pháp LBP khơng phụ thuộc vào độ sáng ảnh chụp cho
cùng một đối tượng giống nhau
.........................................................................................................................................................

31


v

Hình 2.17. Ví dụ về dữ liệu của bài tốn phân cụm: hình bên trái bao gồm 3
cụm rời nhau tuyến tính trong khi hình bên phải có các cụm hình dạng
bất kỳ và khơng tuyến tính.
.........................................................................................................................................................

32
Hình 2.18. Kết quả phân cụm bằng thuật toán DBSCAN và Graph
clustering (trái) và bằng K-Means, Fuzzy C-Means (phải)
.........................................................................................................................................................

33
Hình 2.19. Dữ liệu đầu vào cho 3 loại thuật tốn học (a) học có giám sát,
(b,c) học bán giám sát, và (d) học không giám sát
.........................................................................................................................................................

33
Hình 2.20. Mơ hình học có giám sát
....................................................................................................................................................................

35
Hình 3.1 Ví dụ về ảnh trong tập CK+

....................................................................................................................................................................

39
Hình 3.2. Ví dụ về ảnh trong tập dữ liệu ITI
....................................................................................................................................................................

40
Hình 3.3. Kết quả thực nghiệm cho tập dữ liệu CK+
....................................................................................................................................................................

42
Hình 3.4. Kết quả thực nghiệm cho tập dữ liệu ITI
....................................................................................................................................................................

43
Hình 3.5 Kết quả phân loại trạng thái cảm xúc khuôn mặt bằng phương
pháp Seed K-Means
.........................................................................................................................................................

44
Hình 3.6. Kết quả phân cụm cho tập ITI
....................................................................................................................................................................

44


1

Mở đầu
Trong tất cả các nền văn minh từ trước đến nay, giao tiếp là một hoạt

động không thể thiếu, nó xuất hiện mọi nơi mọi lúc, trong mọi lĩnh vực và ảnh
hưởng trực tiếp tới cuộc sống của từng cá thể. Giao tiếp là một nhu cầu xã hội
cơ bản, nó xuất hiện sớm nhất trong đời sống của mỗi người và là yếu tố ảnh
hưởng trực tiếp tới quá trình hình thành lên tâm sinh lý của con người. Hơn
thế nữa, giao tiếp giúp con người có thể truyền tải thông tin, học hỏi tri thức
và thể hiện cảm xúc. Nhờ có giao tiếp làm cho con người văn hóa, xã hội văn
minh và đất nước phát triển. Nhận thấy tầm quan trọng của hoạt động giao
tiếp nên con người đã bỏ rất nhiều thời gian và công sức vào nghiên cứu yếu
tố quyết định thành công của việc giao tiếp, không chỉ trong lĩnh vực giao tiếp
giữa con người với con người, mà ngày nay con người đã bắt đầu nghiên cứu
về các hệ thống tương tác người – máy. Mặt khác, trong giao tiếp thì khn
mặt là nơi con người thể hiện suy nghĩ, tình cảm, thái độ nên để con người và
máy tính có thể tương tác với nhau tự nhiên hơn thì các hệ thống được xây
dựng dựa trên nền tảng là những thay đổi của khn mặt. Cần phải có một
cơng cụ có thể thực hiện được cơng việc này. Đó là lí do tôi chọn đề tài:
"Nghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng
dụng trong bài tốn phân loại trạng thái cảm xúc khn mặt". Dựa vào các
phương pháp trích chọn đặc trưng, tác giả muốn xây dựng một ứng dụng có
khả năng phân loại cảm xúc khuôn mặt người. Từ những bức ảnh mặt người
thu nhận được từ camera quan sát, chương trình có thể phân biệt được các
trạng thái cảm xúc khuôn mặt như: hạnh phúc (happy), ngạc nhiên (surprise),
ghê tởm (disgust), buồn (sad), sợ hãi (fear), giận dữ (angry), và bình thường
(neutral).
Để thực hiện được bài tốn phân loại cảm xúc khn mặt, chúng ta
phải sử dụng đến các hệ thống học máy. Một hệ thống học máy thường có các
bước gồm thu thập dữ liệu, trích chọn đặc trưng từ dữ liệu, giảm số chiều dữ
liệu, xây dựng mơ hình phân lớp/phân cụm và thực hiện để thu được kết quả


2


và cuối cùng là biểu diễn và mô tả kết quả. Trong luận văn của mình tơi tập
trung vào nghiên cứu vấn đề trích chọn đặc trưng từ ảnh từ đó áp dụng các
thuật tốn học máy nhằm giải quyết bài toán đề xuất. Ứng dụng của lớp bài
toán phân loại, nhận dạng trạng thái cảm xúc khn mặt có thể kể đến như:
tương tác người-máy, phân tích cảm xúc, phát hiện trạng thái mệt mỏi của con
người, video tương tác, đánh chỉ mục của ảnh và video,…
Nội dung luận văn:
Nội dung cơ bản chương 1:
o

Tổng quan bài tốn trích chọn đặc trưng

o

Giới thiệu bài toán phân loại cảm xúc khn mặt

Nội dung cơ bản chương 2:
o

Phương pháp trích chọn đặc trưng Gabor

o

Phương pháp trích chọn đặc trưng HoG

o

Phương pháp trích chọn đặc trưng LBP


Nội dung cơ bản chương 3:
o

Thực nghiệm kết quả với phương pháp phân cụm K-Means,
SSDBSCAN, MCSSDBS

Kết luận


3

Chương 1. Tổng quan về khai phá dữ liệu và ứng dụng
1.1. Khái niệm về lĩnh vực khai phá dữ liệu và phát hiện tri thức
1.1.1. Khái niệm
Lĩnh vực khai phá dữ liệu và phát hiện tri thức từ dữ liệu (KDD) nhằm
mục đích tạo ra các mẫu, các luật, các tri thức quý từ một số lượng dữ liệu lớn
thu nhận được [12],[13]. Các ứng dụng của lĩnh vực này có thể kể như nhận
dạng hình ảnh, âm thanh, chẩn đốn trong y học, sử dụng trong các cơng cụ
tìm kiếm như Google,… Quy trình phát hiện tri thức thường tuân theo các
bước trong hình 1.1:
Tri thức

Cơ sở
dữ liệu

Lựa chọn

Hình 1.1: Các bước của quá trình khai phá dữ liệu



-

Bước thứ nhất: Hình thành, xác định và định nghĩa bài tốn. Tìm hiểu

lĩnh vực ứng dụng từ đó hình thành bài tốn, xác định các nhiệm vụ cần phải
hồn thành, thu thập dữ liệu. Bước này sẽ quyết định cho việc rút ra được các


4

tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích hợp
với mục đích ứng dụng và bản chất của dữ liệu.
-

Bước thứ hai: Xử lý thơ, cịn được gọi là tiền xử lý dữ liệu nhằm loại

bỏ nhiễu (làm sạch dữ liệu), xử lý việc thiếu dữ liệu (làm giàu dữ liệu), biến
đổi dữ liệu, trích rút đặc trưng và rút gọn dữ liệu nếu cần thiết, bước này
thường chiếm nhiều thời gian nhất trong tồn bộ qui trình phát hiện tri thức.
Do dữ liệu được lấy từ nhiều nguồn khác nhau, không đồng nhất, có thể gây
ra các nhầm lẫn. Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và
rời rạc hố.
-

Bước thứ ba: Lựa chọn đặc trưng, trích chọn đặc trưng và biến đổi đặc

trưng của dữ liệu. Đây là một bước rất quan trọng. Nhiệm vụ của bước này
khơng những làm giảm kích thước của dữ liệu mà còn chọn ra những đặc
điểm đặc trưng nhất nhằm tăng chất lượng của các bước sau. Tùy từng nhiệm
vụ và lĩnh vực bài tốn, chúng ta sẽ có các phương pháp trích rút đặc trưng

cho dữ liệu khác nhau.
-

Bước thứ tư: Khai phá dữ liệu, rút ra các tri thức, trích ra các mẫu

hoặc/và các mơ hình ẩn dưới các dữ liệu [13]. Giai đoạn này rất quan trọng,
bao gồm các công đoạn như: chức năng, nhiệm vụ và mục đích của khai phá
dữ liệu là gì, dùng phương pháp khai phá nào? Thơng thường, các bài tốn
khai phá dữ liệu bao gồm: các bài tốn mang tính mơ tả - đưa ra tính chất
chung nhất của dữ liệu, các bài toán dự báo - bao gồm cả việc phát hiện các
suy diễn dựa trên dữ liệu hiện có, các bài toán phân lớp, phân cụm, phát hiện
cấu trúc dữ liệu,… Tùy theo bài toán xác định được mà ta lựa chọn các
phương pháp khai phá dữ liệu cho phù hợp.
-

Bước thứ năm: Là hiểu và giải thích các tri thức/các mẫu/các luật đã

tìm được, đặc biệt là làm sáng tỏ các mơ tả và dự đốn. Các cơng cụ có dùng


5

như mô phỏng, thống kê, vẽ các biểu đồ, sơ đồ,… để làm rõ hơn nữa kết quả
của khai phá dữ liệu.
Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể
được lấy trung bình trên tất cả các lần thực hiện. Các kết quả của q trình
phát hiện tri thức có thể được đưa và ứng dụng trong các lĩnh vực khác nhau.
Do các kết quả có thể là các dự đốn hoặc các mơ tả nên chúng có thể được
đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hố q trình này.
Nghiên cứu về lĩnh vực khai phá dữ liệu liên quan đến nhiều lĩnh vực

như toán học, thống kê, tối ưu hóa, tính tốn tiến hóa, khoa học máy tính, cơ
sở dữ liệu, dữ liệu lớn,…
Một vấn đề quan trọng nữa là các nghiên cứu cho các ứng dụng chuyên
ngành, trường hợp này chúng ta phải làm việc với các chuyên gia lĩnh vực,
chẳng hạn lĩnh vực khai phá dữ liệu y sinh, khai phá dữ liệu gene,…
1.1.2. Các mơ hình học máy cơ bản
Trên thực tế có một số mơ hình học sau đây [15]:
-

Học có giám sát

-

Học khơng giám sát

-

Học bán giám sát

-

Học tăng cường

-

Học sâu (deep learning)
Phần sau đây sẽ trình bày một số phương pháp học cơ bản thuộc các

loại trên.
-


Học có giám sát là phương pháp học máy thông qua sử dụng tập

mẫu. Tập mẫu được cung cấp, hệ thống sẽ xây dựng mơ hình học trên bộ dữ
liệu này và có thể phân lớp/dự đốn,… cho các dữ liệu mới. Các phương pháp


6

học có giám sát có thể kể đến như mạng nơ ron, phân lớp Bayes, cây quyết
định, SVM (Support Vector Machine),… (xem hình 1.2)

x

y

Vào 1

- Ra 1

Vào 2
Vao 3

- Ra 2
- Ra 3

Vào - n

- Ra - n


Đầu ra y

Hình 1.2 Mơ hình học có giám sát
-

Học khơng giám sát là phương pháp phát hiện cấu trúc, xác định mối

liên kết, phát hiện dị thường, của một tập dữ liệu cho trước [14]. Loại học này
khơng có tập dữ liệu mẫu. Một số phương pháp trong loại học này như phân
cụm K-Means, Fuzzy C-Means, phát hiện dị thường ,… (xem hình 1.3)

Học khơng
giám sát

Hình 1.3 Mơ hình học khơng giám sát


7

-

Học bán giám sát nằm giữa học có giám sát và học không giám sát,

loại học này sẽ sử dụng một lượng ít dữ liệu mẫu, dữ liệu hướng dẫn để thực
hiện mơ hình (xem hình 1.4). Trên thực tế các thơng tin có được từ ban đầu
gồm hai dạng cơ bản: (1) một lượng nhỏ dữ liệu được gán nhãn (seed) hoặc
(2) một số lượng nhỏ các thông tin về các cặp dữ liệu must-link (phải liên
kết), cannot-link (không thể liên kết) thể hiện mối quan hệ giữa các cặp dữ
liệu trong tập dữ liệu cho trước: must-link (u,v) thể hiện u và v sẽ thuộc cùng
một cụm trong khi cannot-link (u,v) cho biết u và v sẽ thuộc về hai cụm khác

nhau.

Hình 1.4 Dữ liệu cho việc học bán giám sát
-

Học tăng cường là phương pháp học được bổ sung liên tục kỹ năng

trong quá trình giải quyết bài tốn. Ví dụ như hai người chơi cờ A và B, người
A có thể vừa thi đấu với người B nhưng lại có thể vừa học từ người B và
ngược lại.
-

Học sâu (deep learning), là loại học được quan tâm nhiều đặc biệt là

từ năm 2006 trở lại đây [16]. Bản chất của loại học này là dựa trên mạng nơ
ron nhiều lớp. Các ứng dụng hiệu quả cho loại học này là nhận dạng đối
tượng, nhận dạng âm thanh, và ứng dụng trong xử lý ngôn ngữ tự nhiên. Hình
1.5 minh họa ví dụ về việc xác định đối tượng trong bức ảnh. Phương pháp


8

học này cịn có khả năng chỉ rõ xem người trong ảnh là ai, đang làm gì,… Đối
với phương pháp học sâu chúng ta phải có đủ dữ liệu cần thiết (thường là lớn)
cũng như các hệ thống máy tính đủ lớn để thực hiện.

Hình 1.5 Ví dụ về khả năng của deep learning
1.1.3. Ứng dụng của học máy
Ứng dụng của học máy ngày càng đa dạng và quan trọng, sau đây là
một số ví dụ:

-

Xe tự lái: các hệ thống này là những ứng dụng rất nổi trội, hiện nay đã

có một số nơi triển khai thử nghiệm. Hệ thống học của xe sẽ học khả năng
điều khiển xe qua các thực nghiệm mẫu của người lái xe trên đường.
-

Xe tự dị tìm đường đi trong rừng: các hệ thống này sẽ được học qua

camera khi con người thực hiện đi mẫu trong rừng.
-

Trợ lý ảo: Đã ứng dụng thực tế, đây là những hệ thống lưu trữ, suy diễn

dữ liệu rất lớn và thông minh.
-

Nhận dạng đối tượng trong ảnh và video.

-

Chẩn đốn bệnh thơng qua dữ liệu lâm sàng

-

Ứng dụng trong nhà thông minh, thành phố thông minh: các ứng dụng

cụ thể như bật tắt đèn tự động, bãi đỗ xe thơng minh, tìm kiếm phương tiện
thơng minh

-

IoT: các bài toán thu thập dữ liệu từ nhiều nguồn khác nhau như sensor,

điện thoại, máy tính, camera để xử lý dữ liệu tổng hợp.


9

-

Robot, người máy

-

Xử lý ngôn ngữ tự nhiên,…

-

Hệ hỗ trợ quyết định

-

Phân lớp, phân cụm, phát hiện cấu trúc của dữ liệu

-

Phát hiện dị thường

-


Mua sắm thông minh,…

1.2. Tổng quan về bài tốn trích chọn đặc trưng, trích chọn đặc trưng
cho dữ liệu hình ảnh
Bài tốn trích trọn đặc trưng trên ảnh khuôn mặt người đã được quan
tâm từ khá lâu do có rất nhiều ứng dụng như: Sử dụng trong hệ thống nhận
dạng cảm xúc, hệ thống tương tác giữa người và máy (điều khiển máy tính
qua các cử động của khuôn mặt), hệ thống nhận dạng người (giúp cho các cơ
quan an ninh quản lý con người), hệ thống quan sát theo dõi như hệ thống
quản lý việc ra vào cho các cơ quan và công ty, hệ thống kiểm tra người lái xe
có ngủ gật hay khơng, hệ thống phân tích cảm xúc trên khn mặt, hệ thống
nhận dạng khuôn mặt cho các máy ảnh kỹ thuật số,...
Trích chọn đặc trưng là trích ra những đặc trưng quan trọng cơ bản nhất
của mỗi đối tượng [5]. Yêu cầu của trích chọn đặc trưng là phải đủ các thuộc
tính tuy nhiên với số lượng nhỏ nhất có thể và vẫn đảm bảo được việc phân
biệt đối tượng này với đối tượng kia (xem hình 1.6).

Đặc trưng

Từ điển hình


(a)


10

(b)
Hình 1.6 Ví dụ về trích chọn đặc trưng từ ảnh: (a) ảnh sẽ được trích từng

vùng và cho vào túi đựng các đối tượng đặc trưng, (b), các đặc trưng được
trích chọn sử dụng các biến đổi tốn học để tìm ra các điểm (vùng điểm)
quan trọng.
Đối với bài tốn trích chọn đặc trưng cho ảnh, cụ thể là ảnh mặt người,
trước hết chúng ta phải hiểu ảnh là gì. Ảnh bản chất là một ma trận các số,
mỗi số tương ứng với thông tin trên các điểm ảnh. Đối với ảnh, việc trích
chọn đặc trưng là bài tốn phức tạp vì mỗi ảnh chụp tại mỗi thời điểm của
cùng một đối tượng sẽ khác nhau (độ sáng, độ lệch, độ phân giải,…).
Vấn đề nghiên cứu trích chọn đặc trưng ảnh đã có từ lâu, tuy nhiên hiện
nay vẫn thu hút nhiều nhà nghiên cứu. Trong thời đại mà mỗi ngày có hàng tỷ
ảnh được đưa lên mạng, bài toán liên quan đến lĩnh vực xử lý ảnh là một trong
những bài toán thú vị.
Ứng dụng của bài toán trích chọn đặc trưng nằm trong pha thứ ba của
cả q trình giải bài tốn phát hiện tri thức và khai phá dữ liệu. Đây là khâu
quan trọng ảnh hướng đến tồn bộ các pha sau. Như đã trình bày, yêu cầu của
pha trích chọn đặc trưng là các thuộc tính được trích chọn phải đầy đủ và


11

tối ưu. Trong thực tế có rất nhiều phương pháp trích chọn đặc trưng đã được
nghiên cứu và trình bày. Mỗi phương pháp có ưu và nhược điểm riêng, phù
hợp với từng loại dữ liệu và ứng dụng.
1.3. Bài toán phân loại cảm xúc khuôn mặt
Trong những năm gần đây bài tốn phân loại, nhận dạng trạng thái cảm
xúc khn mặt được tập trung nghiên cứu nhiều vì có nhiều ứng dụng trong
thực tế: tương tác người - máy, phân tích cảm xúc, phát hiện trạng thái mệt
mỏi của con người, video tương tác, đánh chỉ mục của ảnh và video,…
Trên thực tế có 7 loại trạng thái cảm xúc khuôn mặt như sau: Hạnh
phúc (happy), ngạc nhiên (surprise), ghê tởm (disgust), buồn (sad), sợ hãi

(fear), giận dữ (angry), bình thường (neutral). Các ảnh khn mặt có thể thu
thập từ các ảnh hoặc từ các video (phim) sau đó chuẩn hóa để thu được tập dữ
liệu cần đánh giá, phân loại. Hình 1.7 minh họa tập dữ liệu mẫu thường dùng
trong bài tốn phân loại cảm xúc khn mặt.

Hình 1.7 Ví dụ về tập dữ liệu mơ tả trạng thái cảm xúc khuôn mặt


12

Hình 1.8. Ví dụ về hệ thống thu thập hình ảnh trạng thái khn mặt từ Video
Hình 1.8 minh họa việc trích chọn ảnh khn mặt từ Video. Các ảnh
phát hiện được từ video sẽ lưu vào tập cơ sở dữ liệu, sau đó áp dụng các
phương pháp tiền xử lý như loại bỏ ảnh nhiễu, chỉnh lại kích thước trước khi
được đưa vào thử nghiệm cũng như loại bỏ các ảnh dư thừa hoặc ảnh lỗi do hệ
thống phát hiện khuôn mặt gây ra.
1.4. Những vấn đề nghiên cứu của luận văn
Trong khuôn khổ luận văn Thạc sỹ của mình tơi lựa chọn nghiên cứu
vấn đề trích chọn đặc trưng cho dữ liệu hình ảnh áp dụng vào bài tốn phân
loại trạng thái cảm xúc khn mặt với những nội dung cơ bản sau đây:
-

Nghiên cứu tổng quan về bài tốn trích chọn đặc trưng và vai trị của

nó trong hệ thống khai phá dữ liệu và phát hiện tri thức. Các tìm hiểu về tổng
quan ứng dụng của lĩnh vực này cũng sẽ được trình bày trong luận văn.
-

Nghiên cứu một số phương pháp trích chọn đặc trưng trong ảnh và


ứng dụng, cụ thể trong luận văn này tơi nghiên cứu tìm hiểu ba phương pháp
gồm Gabor, HoG, và LBP. Đây cũng là nội dung nghiên cứu chính của luận
văn nhằm hiểu được các bước thực hiện trong q trình tríc h
chọn đặc trưng của mỗi phương pháp.
-

Ứng dụng các phương pháp trích chọn đặc trưng vào bài tốn phân

loại trạng thái cảm xúc khn mặt. Để giải quyết vấn đề này, sau khi


13

có dữ liệu từ pha trích chọn đặc trưng, chúng ta sẽ sử dụng phương pháp học
máy để tiến hành phân lớp hoặc phân cụm dữ liệu. Trong phần thực nghiệm
tơi trình bày phương pháp phân cụm dữ liệu cho bài tốn phân loại cảm xúc
khn mặt.


14

Chương 2. Nghiên cứu một số phương pháp trích chọn
đặc trưng cho ảnh
2.1. Tổng quan về trích chọn đặc trưng
Mỗi đối tượng nói chung đều có những đặc trưng riêng, đặc trưng chính
là yếu tố giúp phân biệt đối tượng này với đối tượng khác. Ví dụ đặc trưng
của xe ơ tơ là có 4 bánh, có vơ lăng,… cịn đặc trưng của xe máy là có hai
bánh; đặc trưng của mỗi con người thể hiện là chiều cao, cân nặng, màu tóc,
màu da,… Tóm lại đặc trưng là các yếu tố xác định nên đối tượng. Một đối
tượng chỉ được xác định khi có đủ số đặc trưng xác định nên nó.

Trong lĩnh vực nhận dạng mặt người nói chung bài tốn trích chọn đặc
trưng là khâu vơ cùng quan trọng, nó sẽ quyết định đến các pha tiếp theo như
phân lớp đối tượng, phân cụm đối tượng. Về mặt bản chất ảnh được biểu diễn
qua một ma trận kích thước m × n trong đó m là số hàng và n là số cột của
ảnh. Cách đơn giản nhất khi xây dựng véc tơ đặc trưng cho ảnh là đem m × n
điểm ảnh xếp vào véc tơ một chiểu sau đó có thể thực hiện các phép tốn trên
véc tơ đó. Tuy nhiên cách làm này có hạn chế rất lớn là sẽ làm mất đi tính
chất khơng gian của ảnh tức là mất đi thuộc tính vô cùng quan trọng của mỗi
điểm ảnh là những điểm hàng xóm của chúng. Chính vì vậy rất nhiều phương
pháp trích chọn đặc trưng được nghiên cứu và giới thiệu, các phương pháp
này nhằm mục đích tận dụng tối đa tính chất khơng gian của ảnh trong việc
xây dựng các véc tơ đặc trưng.
Trong chương này chúng tơi sẽ trình bày một số phương pháp trích
chọn đặc trưng cơ bản cho ảnh mặt người gồm phương pháp Gabor, phương
pháp LBP và phương pháp HoG nhằm làm cơ sở cho các thực nghiệm ở
chương tiếp theo.


15

2.2. Phương pháp trích chọn đặc trưng Gabor
Phương pháp trích chọn đặc trưng Gabor được giới thiệu vào những
năm 1990. Ý tưởng của phương pháp Gabor là sử dụng biến đổi dạng sóng.
Các đặc trưng Gabor được trích chọn trực tiếp từ ảnh mức xám. Tính chất
quan trọng của phương pháp này là nó làm việc tốt với ảnh bị quay, độc lập
với tỷ lệ ảnh, và biến đổi ảnh. [1],[2],[7],[17].
Đặc điểm của trích chọn đặc trưng Gabor là đặc biệt với tần số và
hướng đại diện, giống như hệ thống nhận diện khn mặt người. Nó đặc biệt
thích hợp cho cho trích chọn đặc trưng kết cấu và nhận diện. Bộ lọc Gabor
trích chọn trực tiếp từ ảnh cấp xám. Trong miền không gian hai chiều, Gabor

là một hàm Gaussian dạng sóng hình sin phức hợp, có thể thực hiện tính tốn
biến đổi bằng cơng thức:

1
Ψ

ω,θ

(x, y) =

2πσ 2

exp  −


 x'2 + y'2 


2σ2



x' = x cosθ + y sinθ
y' = − xsinθ + y cosθ
Trong trường hợp này:
(x, y) là tọa độ điểm (pixel) trong miền không gian ảnh

ω: Là tần số góc trung tâm
θ: Là hướng của bộ lọc Gabor
σ: Là biểu diễn độ sắc nét dọc theo cả hai hướng x và y.

Trên thực tế σ ≈ π/ω để xác định mối liên hệ giữa σ và ω trong các thí
nghiệm.


16

Hình 2.1. Bộ lọc Gabor với 5 loại tần số và 8 hướng khác nhau
Hình 2.1 minh họa bộ lọa Gabor trong trường hợp chọn 5 loại tần số và
8 hướng khác nhau tương ứng với ω. Trên thực tế đa số các thực nghiệm sẽ
chọn bộ thông số này. Công thức (2.2) và (2.3) sau đây tương ứng là giá trị
cho 5 loại tần số và 8 hướng với bộ lọc Gabor trong ví dụ trên:

ωu

θ

v

π
×
2

=
=

×v

π

, v = 0, 1, 2,


2

Giả sử chúng ta có ảnh kích thước 120×120, với việc sử dụng 40 bộ lọc
Gabor như hình 1, chúng ta sẽ có số lượng đặc trưng là 120 ×120×40 chiều.
Chúng ta có thể giảm số chiều bằng các phương pháp như PCA, LDA,…


×