TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA: CÔNG NGHỆ THÔNG TIN
---------------------------------------
ĐỒ ÁN CHUYÊN NGÀNH
NGÀNH: KHOA HỌC MÁY TÍNH
ĐỀ TÀI: NHẬN DIỆN TUỔI VÀ GIỚI TÍNH QUA KHN
MẶT SỬ DỤNG MẠNG NƠ-RON TÍCH CHẬP
GVHD: TS. Nguyễn Mạnh Cường
Nhóm: 6
Sinh viên: 1. Đinh Minh Đại
2. Hứa Như Duy
Lớp: KHMT02 – K15
Hà Nội ─ Năm 2023
MỤC LỤC
LỜI CẢM ƠN ........................................................................................................ i
LỜI NÓI ĐẦU ...................................................................................................... ii
DANH MỤC HÌNH VẼ ....................................................................................... iv
DANH MỤC BẢNG BIỂU ................................................................................. vi
DANH MỤC TỪ NGỮ VIẾT TẮT .................................................................... vii
CHƯƠNG 1.
TỔNG QUAN VỀ BÀI TỐN............................................. 1
1.1.
Giới thiệu về thị giác máy tính .............................................................. 1
1.2.
Giới thiệu bài tốn ................................................................................. 4
1.2.1.
Giới thiệu chung .............................................................................. 4
1.2.2.
Mơ tả ............................................................................................... 5
1.2.3.
Ứng dụng ......................................................................................... 7
CHƯƠNG 2.
MỘT SỐ KỸ THUẬT HIỆN CĨ CHO BÀI TỐN NHẬN
DẠNG GIỚI TÍNH VÀ TUỔI .............................................................................. 9
2.1.
Phương pháp học máy ........................................................................... 9
2.1.1.
Các kỹ thuật trích chọn đặc trưng ................................................... 9
2.1.2.
Các kỹ thuật phân lớp.................................................................... 12
2.1.3.
Nhận xét ........................................................................................ 14
2.2.
Phương pháp học sâu (CNN)............................................................... 15
2.2.1.
Nguồn gốc ..................................................................................... 16
2.2.2.
Cấu trúc ......................................................................................... 16
2.2.3.
Một số kiến trúc mạng CNN phổ biến .......................................... 18
2.2.4.
Ưu nhược điểm của mạng CNN trong bài tốn nhận diện ........... 22
2.3.
Mơ hình đề xuất cho bài toán .............................................................. 23
2.3.1.
Sử dụng mạng Multi-label Resnet50V2........................................ 24
2.3.2.
Mơ hình Multi-label CNN............................................................. 24
2.3.3.
Mơ hình CNN có hai output .......................................................... 26
CHƯƠNG 3.
KẾT QUẢ THỰC NGHIỆM .............................................. 27
3.1.
Dữ liệu thực nghiệm ............................................................................ 27
3.2.
Chuẩn bị cho q trình huấn luyện mơ hình ....................................... 28
3.3.
Kết quả huấn luyện .............................................................................. 30
3.3.1.
Kết quả của mơ hình Multi-label Resnet50V2 ............................. 30
3.3.2.
Mơ hình CNN có hai output .......................................................... 32
3.3.3.
Mơ hình CNN Multi-Label ........................................................... 35
3.4.
Nhận xét chi tiết................................................................................... 37
CHƯƠNG 4.
SẢN PHẨM DEMO ........................................................... 39
4.1.
Giới thiệu về cơng cụ Tkinter.............................................................. 39
4.2.
Phân tích thiết kế hệ thống .................................................................. 41
4.2.1.
Biểu đồ use case ............................................................................ 41
4.2.2.
Mô tả chi tiết các use case ............................................................. 41
4.3.
Giao diện ứng dụng ............................................................................. 43
KẾT LUẬN ......................................................................................................... 47
TÀI LIỆU THAM KHẢO ................................................................................... 48
i
LỜI CẢM ƠN
Trước khi đến với nội dung chính của bản báo cáo này, nhóm em xin
được gửi lời cảm ơn đến thầy Nguyễn Mạnh Cường khoa công nghệ thông tin vì
đã hướng dẫn tận tình cả nhóm trong q trình hồn thành bản báo cáo. Bên
cạnh đó, nhóm cũng gửi lời cảm ơn đến những người đã giúp nhóm trong q
trình tìm kiếm thơng tin liên quan đến đề tài.
Trong q trình làm bài chắc chắn khó tránh khỏi những thiếu sót. Do đó,
nhóm kính mong nhận được những lời góp ý của thầy/cơ để bản báo cáo này
ngày càng hoàn thiện hơn.
Xin chân thành cảm ơn!
ii
LỜI NĨI ĐẦU
Thị giác máy tính và trí tuệ nhân tạo là hai lĩnh vực công nghệ đang trải
qua sự biến đổi đột phá, đặc biệt trong thời kỳ số hóa mạnh mẽ và sự phát triển
khơng ngừng của cơng nghệ thơng tin. Sự hình thành của hai lĩnh vực đã mở ra
một loạt các cơ hội mới và thách thức thú vị, ảnh hưởng mạnh mẽ đến nhiều
khía cạnh của cuộc sống hàng ngày.
Tính đến hiện nay, lĩnh vực thị giác máy tính đã tiến xa hơn bao giờ hết
trong giải quyết các tác vụ, yêu cầu khác nhau như nhận diện người, nhận diện
xe cộc, v.v. Không dừng lại ở đó, các cơng nghệ, kỹ thuật ngày càng được hoàn
thiện nhằm cải tiến, giải quyết các yêu cầu của bài tốn. Việc tiếp tục phát triển
cơng nghệ tạo ra một cơ hội đột phá trong việc cải thiện cuộc sống và công việc,
từ tăng cường an ninh cá nhân đến cải thiện quy trình sản xuất và loại bỏ cơng
việc lặp đi lặp lại.
Bài tốn nhận diện tuổi và giới tính thơng qua khn mặt là một bài tốn
khơng mới trong lĩnh vực thị giác máy tính. Bài toán xuất hiện và được nghiên
cứu từ khá lâu, nhưng tiến bộ lớn của lĩnh vực thị giác máy tính trong những
năm gần đây, đặc biệt sau sự phát triển của học sâu (deep learning) và đặc biệt là
mạng nơ-ron tích chập (CNN) đã mang lại kết quả vượt trội so với các phương
pháp cũ. Điều này mở ra khả năng phát triển, ứng dụng rộng rãi hơn cho bài
toán vào cuộc sống và cùng là trọng tâm của bảo bán cáo này.
Với mong muốn giải quyết bài toán với phương pháp mới, nhóm quyết
định đã lựa chọn đề tài “Nhận dạng giới tính và tuổi thơng qua hình ảnh sử
dụng mạng nơron tích chập”. Mục tiêu chung của đề tài này là nghiên cứu và
áp dụng các phương pháp tiên tiến để cải thiện hiệu suất và khả năng nhận dạng
của CNNs trong các bài tốn nhận dạng hình ảnh.
Trong bản báo cáo này sẽ gồm có 4 chương, mỗi chương sẽ tập trung trình
bày về một vấn đề cụ thể. Nội dung chính của các chương là:
iii
- Chương 1: Tổng quan về bài toán nhận dạng giới tính và tuổi.
Chương này sẽ trình bày tóm tắt về thị giác máy tính, giới thiệu
chung về bài tốn để có cái nhìn tổng quan về
- Chương 2: Một số kỹ thuật hiện có cho bài tốn nhận dạng giới tính
và tuổi.
Chương 2 sẽ trình bày và phân tích ưu, nhược điểm một số kỹ thuật
có thể áp dụng để giải bài tốn. Ngồi ra, nội dung của chương sẽ cịn về
kỹ thuật mạng nơ-ron tích chập, nêu lên các nguyên lý và áp dụng vào bài
toán
- Chương 3: Kết quả thực nghiệm.
Báo cáo kết quả thực nghiệm sử dụng kỹ thuật mạng nơ-ron tích
chập cho bài tốn nhận diện tuổi và giới tính.
- Chương 4: Sản phẩm demo
Nội dung của chương sẽ trình bày về sẩn phẩm demo, các công cụ
để xây dựng sản phẩm, các giao diện của sản phẩm và kết quả
Hi vọng thông qua 4 chương của báo cáo này, nhóm sẽ làm rõ được bài
tốn nhận diện tuổi và giới tính thơng qua gương mặt, một số kỹ thuật để giải
quyết và đặc biệt là kỹ thuật mạng nơ-ron tích chập.
iv
DANH MỤC HÌNH VẼ
Hình ảnh 1.1 So sánh giữa thị giác máy tính và con người .................................. 2
Hình ảnh 1.2 Một số tác vụ của thị giác máy tính ................................................ 2
Hình ảnh 1.3 Ví dụ về thị giác máy tính trong chẩn đốn .................................... 3
Hình ảnh 1.4 Ví dụ về mơ hình CNN được dùng vào bài tốn ............................. 6
Hình ảnh 2.1 Minh họa thuật tốn HOG ............................................................. 10
Hình ảnh 2.2 Minh họa LBP ............................................................................... 11
Hình ảnh 2.3 Minh họa Eignfaces ....................................................................... 12
Hình ảnh 2.4 Minh họa SVM .............................................................................. 13
Hình ảnh 2.5 Minh họa KNN .............................................................................. 14
Hình ảnh 2.6 Minh họa mơ hình CNN ................................................................ 17
Hình ảnh 2.7 Kiến trục mạng AlaxNet ............................................................... 19
Hình ảnh 2.8 Kiến trúc mạng VGG .................................................................... 20
Hình ảnh 2.9 Kiến trúc mạng ResNet ................................................................. 20
Hình ảnh 2.10 Kiến trúc Residual ....................................................................... 21
Hình ảnh 2.11 Minh họa mơ hình Multi-label Resnet ........................................ 24
Hình ảnh 2.12 Mơ hình CNN tham khảo ............................................................ 25
Hình ảnh 2.13 Minh họa mơ hình Multi-label CNN ........................................... 26
Hình ảnh 2.14 Minh họa mơ hình CNN có hai output ........................................ 26
Hình ảnh 3.1 Một vài mẫu trong bộ dữ liệu ........................................................ 27
Hình ảnh 3.2 Biểu đồ cột thể hiện số mẫu theo giới tính .................................... 28
Hình ảnh 3.3 Biểu đồ cột thể hiện số mẫu theo tuổi ........................................... 28
Hình ảnh 3.4 Biểu đồ cột thể hiện số mẫu theo khoảng tuổi .............................. 29
Hình ảnh 3.5 Kết quả loss trong quá trình huấn luyện của Resnet ..................... 30
Hình ảnh 3.6 Kết quả accuracy trong q trình huấn luyện của mơ hình Resnet
............................................................................................................................. 31
Hình ảnh 3.7 Kết quả loss trong quá trình huấn luyện của mơ hình CNN có hai
output ................................................................................................................... 32
v
Hình ảnh 3.8 Kết quả accuracy cho thuộc tính giới tính trong q trình huấn
luyện của mơ hình CNN có hai output ................................................................ 33
Hình ảnh 3.9 Kết quả accuracy cho thuộc tính khoảng tuổi trong q trình huấn
luyện của mơ hình CNN có hai output ................................................................ 34
Hình ảnh 3.10 Kết quả loss trong q trình huấn luyện của mơ hình Multi-label
CNN..................................................................................................................... 35
Hình ảnh 3.11 Kết quả accuracy trong quá trình huấn luyện của mơ hình Multilabel CNN ............................................................................................................ 36
vi
DANH MỤC BẢNG BIỂU
Bảng 1-1 Kết quả của một vài mơ hình cho bài tốn ............................................ 5
Bảng 2-1 SVM cho phân loại tuổi cho bộ dữ liệu FG-Net và UTD Database ... 14
Bảng 2-2 Đánh giá Confusion Matrix cho (HOG, LBP) + SVM ....................... 15
Bảng 3-1 Bảng kết quả accuracy cho các mơ hình ............................................. 37
Bảng 3-2 Bảng kết quả micro precision, recall, f1-score cho các mơ hình trên tập
test ....................................................................................................................... 37
Bảng 3-3 Bảng các tham số mơ hình .................................................................. 38
vii
DANH MỤC TỪ NGỮ VIẾT TẮT
CNN
Convolutional Neural Network
LBP
Local Binary Pixel
HOG
Histogram Of Gradients
SVM
Support Vector Machine
GAP
Global Average Pooling
1
CHƯƠNG 1.
TỔNG QUAN VỀ BÀI TOÁN
1.1. Giới thiệu về thị giác máy tính
Thị giác máy tính là một lĩnh vực trí tuệ nhân tạo cho phép máy tính và
hệ thống lấy được thơng tin có ý nghĩa từ dữ liệu dạng hình ảnh kỹ thuật số đồng thời thực hiện hành động hoặc đưa ra đề xuất dựa trên thông tin đó. Cụ thể
hơn, nhiệm vụ thị giác máy tính bao gồm các phương pháp thu thập, xử lý, phân
tích và hiểu hình ảnh kỹ thuật số cũng như trích xuất dữ liệu nhiều chiều từ thế
giới thực để tạo ra thông tin số hoặc ký hiệu. Các thông tin số là đại lượng có thể
được đo lường hoặc đếm, ví dụ: Tọa độ của một vật trong ảnh, số lượng các vật
được phát hiện, v.v. Thông tin dạng ký hiệu là đại lượng được biểu diễn bởi kí
hiệu hoặc danh mục, các thơng tin đó có thể là nhãn gán cho đối tượng, mơ tả
của ảnh v.v. Tóm lại, nếu trí tuệ nhân tạo cho phép máy tính suy nghĩ thì thị giác
máy tính cho phép máy tính nhìn, quan sát và hiểu.
Nguyên lý của thị giác máy tính tương đối giống như thị giác của con
người, chính xác hơn là bắt chước thị giác của con người. Máy tính tiếp nhận
thơng tin dạng hình ảnh về thế giới thông qua các thiết bị cảm biến và các thông
tin sẽ được xử lý tại bộ phận xử lý trung tâm. Cách thức trên khá giống với thị
giác của con người, đều có bộ phận tiếp nhận thơng tin và bộ phận xử lý. Tuy
nhiên, thị giác của con người có lợi thế vượt trội hơn là trải qua quá trình tiến
hóa sinh học và q trình học hỏi khơng ngừng mỗi ngày. Điều này làm cho thị
giác của con người trở nên nhạy bén hơn do có kinh nghiệm tích lũy từ cuộc
sống. Ngồi ra, thị giác của con người có khả năng phân tích và hiểu ngữ cảnh,
nhận diện vật thể từ nhiều góc độ, ánh sáng khác nhau – điều mà thị giác máy
tính chưa thể hiện tốt. Song, thị giác máy tính lại có khả năng xử lý một cách
nhanh chóng, vượt trội ở các tác vụ đếm các đối tượng trong ảnh. Như vậy, thị
giác máy trở nên khả thi là có những hiểu biết về thị giác của con người. Mặc dù
chưa thể hiện tốt như thị giác của con người nhưng có những tác vụ mà thị giác
máy tính thể hiện vượt trội hoàn toàn so với con người.
2
Hình ảnh 1.1 So sánh giữa thị giác máy tính và con người
Trong thị giác máy tính, có rất nhiều các tác vụ được đề ra nhằm giải
quyết một yêu cầu xác định. Một số các tác vụ phổ biến có thể kể đến có trong
thị giác máy tính là: Phân loại ảnh (Image Classification), chọn vùng đối tượng
(Object Localization), phát hiện đối tượng (Object Detection), phân đoạn ảnh
(Semantic Segmentation), theo dõi (Tracking), v.v. Các tác vụ này có thể được
giải quyết bằng nhiều các kỹ thuật khác nhau, trong đó Học sâu (Deep learning)
và Mạng nơ-ron tích chập (CNNs) là hai kỹ thuật thiết yếu.
Hình ảnh 1.2 Một số tác vụ của thị giác máy tính
Tính đến thời điểm hiện tại, thị giác máy tính đã phát triển vượt bậc và
được ứng dụng trong nhiều lĩnh vực khác nhau. Trong lĩnh vực sản xuất, thị giác
3
máy tính được sử dụng cho việc giám sát chất lượng, quản lý từ xa và tự động
hóa hệ thống. Trong lĩnh vực y tế, các q trình phân tích hình ảnh X-ray, MRI
nhằm chẩn đốn được thực hiện một cách tự động nhờ có thị giác máy tính và
đem lại kết quả tốt. Trong việc bảo mật, các hệ thống nhận dạng, phát hiện các
đối tượng xâm nhập trở nên khả thi là nhờ có thị giác máy tính. Ngồi ra, vơ số
các ứng dụng khác của thị giác máy tính có thể được đưa vào trong đời sống
hằng ngày, cải thiện, nâng cao chất lượng cuộc sống.
Hình ảnh 1.3 Ví dụ về thị giác máy tính trong chẩn đốn
Mặc dù đã có những sự phát triển vượt bậc nhất định và được ứng dụng
nhiều trong đời sống nhưng thị giác máy tính vẫn cịn những thử thách, khó
khăn nhất định. Ở thời điểm hiện tại giới hạn về chất bán dẫn đang dần được thể
hiện rõ nét, hiệu năng của các vi xử lý thế hệ tăng không nhiều so với với thế hệ
cũ. Một khó khăn khác là thiếu nguồn dữ liệu huấn luyện cả về chất lượng lẫn số
lượng do thị giác máy tính cần rất nhiều dữ liệu để học. Ngồi ra cịn nhiều
những khó khăn khác về tối ưu hóa thuật tốn thu thập, lưu trữ và xử lý dữ liệu
phục vụ cho mục đích huấn luyện. Tóm lại, thị giác máy tính vẫn cịn nhiều
những thử thách và cần có giải pháp mang tính tồn diện.
4
Nhìn chung, thị giác máy tính là một lĩnh vực phát triển nhanh chóng với
nhiều ứng dụng vào cuộc sống và nhiều những cơ hội cải tiến, thúc đẩy công
nghệ. Với việc tiếp tục nghiên cứu và phát triển, hoàn tồn có thể mong đợi
được thấy những ứng dụng thú vị hơn nữa về thị giác máy tính trong tương lai.
1.2. Giới thiệu bài toán
1.2.1. Giới thiệu chung
Bài toán nhận dạng giới tính và tuổi thơng qua hình ảnh khn mặt đang là
một bài tốn khơng mới trong lĩnh vực thị giác máy tính và trí tuệ nhân tạo. Bài
tốn này yêu cầu hệ thống nhận dạng xác định giới tính (nam hoặc nữ) và
khoảng tuổi của một người dựa trên hình ảnh khn mặt của họ.
Tuổi và giới tính là hai thơng tin quan trọng về con người, đóng vai trò
quan trọng trong giao tiếp xã hội và trải nghiệm cá nhân. Các ứng dụng tiềm
năng của việc xác định tuổi và giới tính từ hình ảnh khn mặt rất đa dạng, từ
việc đảm bảo tuổi tác phù hợp cho nội dung truyền hình đến việc cung cấp dịch
vụ cá nhân hóa trong mơi trường mua sắm trực tuyến.
Do đó, việc tự động xác định giới tính và tuổi tác của một người qua hình
ảnh khn mặt có thể giúp cải thiện kiểm soát truy cập an ninh tại các khu vực
như sân bay, ngân hàng, hoặc cơ sở sản xuất. Ngồi ra, bài tốn này cũng có ứng
dụng trong lĩnh vực quảng cáo và tối ưu hóa trải nghiệm người dùng. Ví dụ, việc
biết được đối tượng là nam hay nữ và khoảng tuổi của họ có thể giúp cá nhân
hóa nội dung quảng cáo trực tuyến hoặc tạo ra trải nghiệm mua sắm tốt hơn cho
người dùng.
Hiện nay, bài tốn nhận dạng giới tính và tuổi đã thu hút sự quan tâm lớn
từ cộng đồng nghiên cứu trong những năm gần đây. Sự phát triển của công nghệ
học máy và xử lý hình ảnh, đặc biệt là sự gia tăng của mạng neural tích chập
(CNN), Vision Transformer, v.v. đã làm cho bài toán này trở nên khả thi hơn.
5
Các mơ hình CNN đặc biệt được thiết kế để nhận biết các đặc điểm quan trọng
trong hình ảnh khn mặt và tự động học cách nhận dạng giới tính và tuổi.
Tuy nhiên, mặc dù đã có sự tiến bộ đáng kể, bài toán vẫn đối mặt với nhiều
thách thức. Hình ảnh khn mặt có thể bị ảnh hưởng bởi nhiều yếu tố như ánh
sáng, góc chụp, biểu hiện khn mặt, và nhiều yếu tố khác. Thách thức cụ thể
bao gồm độ phân giải thấp, hình ảnh mờ, che khuất, và biểu hiện khuôn mặt đa
dạng. Một phần lý do cho khó khăn này là sự đa dạng lớn của hình ảnh khn
mặt trong thế giới thực và khả năng thay đổi của chúng.
Bảng 1-1 Kết quả của một vài mơ hình cho bài tốn
Mơ hình
Độ chính xác (5-fold)
Năm
MiVOLO-D1
68.69
2023
67.47
2018
67.3
2017
66.74
2017
AL-ResNets-34 +
IMDB-WIKI
AL-ResNets-34 +
IMDB-WIKI
MWR
Ngoài ra, vấn đề quyền riêng tư cũng là một yếu tố quan trọng phải xem
xét. Việc thu thập và sử dụng thơng tin về giới tính và tuổi của người dùng có
thể liên quan đến vấn đề bảo mật và quyền riêng tư, đặc biệt khi thông tin này
được sử dụng mà khơng có sự đồng ý của họ.
1.2.2. Mơ tả
Đối với các bài tốn phân lớp, dữ liệu đầu vào phục vụ cho mục đích phân
lớp là đặc trưng của đối tượng và kết quả của bài toán phân lớp phải thuộc vào
một trong các lớp đã được định nghĩa trước được định nghĩa trước. Các đặc
6
trưng được sử dụng để phân biệt giữa các đối tượng với nhau phải là các đặc
trưng mang nhiều thông tin quan trọng trong quá trình phân lớp. Các lớp cần
được phân lớp phải rõ ràng và không chồng chéo, điều này đảm bảo rằng một
mẫu dữ liệu cụ thể chỉ thuộc vào một lớp duy nhất.
Bài toán nhận dạng giới tính và tuổi có mục tiêu rõ ràng là nhận diện một
cách chính xác giới tính và dự đốn tuổi của một người bất kỳ. Cụ thể hơn, với
một dữ liệu đầu vào là một ảnh chứa mặt của một người thì kết quả đầu ra được
tạo bởi một mơ hình sẽ là giới tính và tuổi của người trong ảnh.
Hình ảnh 1.4 Ví dụ về mơ hình CNN được dùng vào bài tốn
Dữ liệu đầu vào của mơ hình của mơ hình là ảnh màu có kích thước
128x128 có chứa gương mặt của một người bất kỳ. Nếu như ảnh chưa đúng với
kích thước trên thì tiến hành thay đổi kích thước ảnh. Tuy nhiên, điều này có thể
làm mất thông tin về đối tượng trong ảnh, ảnh hưởng trực tiếp đến kết quả phân
lớp.
Kết quả đầu ra của mơ hình là một vector với giá trị thể hiện xác suất một
dự đốn có thể xảy ra. Trong bài toán trên, một giá trị 𝑦𝑔𝑒𝑛𝑑𝑒𝑟 sẽ thể hiện xác
suất một người là nam, 5 giá trị 𝑦𝑎𝑔𝑒 , mỗi giá trị 𝑦𝑎𝑔𝑒,𝑖 thể hiện xác suất một
người sẽ thuộc nhóm tuổi cụ thể. Cụ thể hơn, nếu giá trị 𝑦𝑔𝑒𝑛𝑑𝑒𝑟 là 0 thì người
trong ảnh sẽ được dự đoán là nam, là 1 sẽ được dự đoán là nữ. Với 𝑦𝑎𝑔𝑒,𝑖 thì xác
7
suất người trong ảnh có độ tuổi thuộc một khoản cố định, với các khoảng cho
trước là: 0-15, 16-30, 31- 45, 46-60 và trên 60.
1.2.3. Ứng dụng
Việc ứng dụng nhận diện tuổi và giới tính thơng qua khn mặt có thể
được ứng dụng trong các q trình liên quan đến:
• Quản lý biên giới: Các cơ quan an ninh và cơ quan thực thi pháp luật có
thể sử dụng dự đốn giới tính và tuổi từ hình ảnh gương mặt để giúp xác
định danh tính của người dân trong các tình huống quản lý biên giới hoặc
kiểm tra an ninh sân bay.
• Xác minh tuổi khi mua hàng có độ tuổi hạn chế: Trong các trường hợp
mua hàng chứa chất có độ tuổi hạn chế, như rượu và thuốc lá, hệ thống dự
đốn tuổi từ hình ảnh gương mặt có thể được sử dụng để kiểm tra tuổi tác
của người mua.
• Quản lý sự kiện và giải trí: Tại các sự kiện lớn như hội chợ, concert, hệ
thống dự đoán tuổi và giới tính có thể giúp tổ chức sự kiện tối ưu hóa trải
nghiệm tham gia của khách hàng thơng qua dự đốn sở thích và mục tiêu
quảng cáo.
• Nghiên cứu thị trường: Doanh nghiệp và nhà quảng cáo có thể sử dụng
thơng tin về giới tính và độ tuổi của người tiêu dùng để phát triển chiến
dịch tiếp thị và sản phẩm dựa trên những dự đốn này.
• Dự đốn sở thích cá nhân: Dự đốn tuổi và giới tính từ hình ảnh gương
mặt có thể giúp các dịch vụ trực tuyến, như các trang web thương mại
điện tử hoặc nền tảng nội dung, cá nhân hóa trải nghiệm người dùng và
cung cấp nội dung hoặc sản phẩm liên quan.
• Chăm sóc sức khỏe và y tế: Trong lĩnh vực y tế, bài tốn này có thể được
sử dụng để theo dõi sự thay đổi trong tuổi tác và sức khỏe của bệnh nhân
theo thời gian, giúp cung cấp chăm sóc cá nhân hóa.
8
• Phân loại hình ảnh và video: Trong việc tổ chức và quản lý hình ảnh
hoặc video lớn, thơng tin về tuổi và giới tính có thể được sử dụng để tạo
các danh mục và phân loại tự động.
Nhìn chung, các ứng dụng của việc xác định tuổi và giới tính rất đa dạng và
phong phú. Việc ứng dụng hứa hẹn sẽ đem lại các kết quả tốt trong trong các
quá trình xác minh, quản lý, nghiên cứu xu hướng – các q trình cần nhiều sự
tự động hóa.
9
CHƯƠNG 2.
MỘT SỐ KỸ THUẬT HIỆN CĨ CHO BÀI
TỐN NHẬN DẠNG GIỚI TÍNH VÀ TUỔI
2.1. Phương pháp học máy
Các phương pháp học máy truyền thống nói chung sẽ có hai bước, trích
chọn đặc trưng và thiết kế bộ phân lớp, để giải quyết một bài toán liên quan đến
học máy. Trích chọn đặc trưng là q trình trích xuất ra các thơng tin liên quan
và có tính phân loại cao từ dữ liệu. Thiết kế bộ phân lớp là quá trình chọn một
thuật tốn phân lớp thích hợp cho bài toán.
Cụ thể hơn, đối với bài toán nhận diện tuổi và giới tính: các đặc trưng như
màu sắc, độ dài của tóc, kết cấu của da, hình dạng khn, v.v. mặt là những đặc
trưng mang tính quyết định cho kết quả phân lớp; các thuật tốn phân lớp có thể
được sử dụng như SVM, KNN, Decision Tree, v.v.
2.1.1. Các kỹ thuật trích chọn đặc trưng
Trong học máy, có rất nhiều các kỹ thuật trích chọn đặc trưng từ ảnh được
sử dụng và mỗi kỹ thuật sẽ trích chọn ra một số đặc trưng nhất định. Do đó, việc
sử dụng các kỹ thuật trích chọn đặc trưng phù hợp sẽ mang lại kết kết quả tốt.
Dưới đây là một số kỹ thuật trích chọn đặc trưng.
• Histogram of Oriented Gradients (HOG)
HOG là một kỹ thuật trích xuất đặc trưng từ ảnh, được sử dụng trong
các bài toán nhận dạng đối tượng trong thị giác máy tính và xử lý hình ảnh.
HOG có khả năng đếm số lần xuất hiện của các hướng cạnh (edge
orientations) trong các vùng nhỏ của ảnh, đặc biệt là để nhận dạng các cạnh
và hình dạng trong hình ảnh. Bản chất của phương pháp HOG là sử dụng
thông tin về sự phân bố của các cường độ gradient (intensity gradient) hoặc
của hướng biên (edge directins) để mô tả các đối tượng cục bộ trong ảnh.
10
Hình ảnh 2.1 Minh họa thuật tốn HOG
- Ưu điểm:
o HOG là một phương pháp mạnh mẽ để mô tả các đặc trưng hình
dạng và cạnh trong hình ảnh.
o Khơng yêu cầu dữ liệu huấn luyện và có khả năng tổng quát hóa tốt
trong việc nhận dạng đối tượng.
- Nhược điểm:
o HOG có thể khơng thực hiện tốt trong mơi trường với sự biến đổi
ánh sáng mạnh hoặc nhiễu cao.
o Không thể xử lý được các biến đổi phi tuyến tính lớn của hình ảnh.
• Local Binary Partterns (LBP)
Local Binary Patterns (LBP) hay gọi là mã nhị phân cục bộ là một
phương pháp rút trích đặc trưng trong xử lý ảnh. Đặc trưng được rút trích sẽ
tiếp tục được tiến hành chọn lọc (feature selection) thu gọn thành vector đặc
trưng. Vector đặc trưng này sau đó có thể dùng để đưa vào mơ hình học máy
để học/ phân loại. LBP cịn được sử dụng để trích xuất đặc trưng từ hình ảnh
để nhận dạng các cạnh, vùng kết cấu và đối tượng trong hình ảnh.
11
Hình ảnh 2.2 Minh họa LBP
- Ưu điểm:
o LBP là một phương pháp mạnh mẽ để mô tả các đặc trưng textura
trong hình ảnh.
o Nó khơng u cầu dữ liệu huấn luyện và có khả năng tổng quát hóa
tốt trong việc nhận dạng đối tượng dựa trên textura.
- Nhược điểm:
o LBP khơng thể mơ tả được các đặc trưng hình dạng và cạnh của đối
tượng, nó chủ yếu tập trung vào textura.
o Các tham số như kích thước ơ và số điểm ảnh lân cận cần được
điều chỉnh để phù hợp với ứng dụng cụ thể.
• Eigenfaces
Eigenfaces là một kỹ thuật trích xuất đặc trưng từ ảnh khn mặt, được
sử dụng trong các bài tốn nhận dạng khn mặt trong thị giác máy tính và
xử lý hình ảnh. Eigenfaces sử dụng phân tích thành phần chính (PCA) để
giảm kích thước của dữ liệu ảnh và tạo ra một không gian đặc trưng mới, nơi
mỗi đặc trưng là một tổ hợp tuyến tính của các ảnh khn mặt gốc.
12
Hình ảnh 2.3 Minh họa Eignfaces
- Ưu điểm:
o Eigenfaces là một phương pháp mạnh mẽ và hiệu quả để nhận dạng
khn mặt.
o Nó giúp giảm chiều dữ liệu và loại bỏ thông tin không quan trọng,
làm tăng hiệu suất.
- Nhược điểm:
o Eigenfaces không phân biệt được giữa các chi tiết nhỏ trên khuôn
mặt như mắt, miệng, mũi.
o Yêu cầu một tập dữ liệu huấn luyện lớn và đa dạng để đạt được
hiệu suất tốt.
o Nhạy cảm với sự thay đổi ánh sáng và góc nhìn.
Như đã đề cập, kết quả đầu ra của các kỹ thuật trên sẽ là các đặc trưng có
trong ảnh. Mỗi kỹ thuật sẽ cho ra các đặc trưng nhất định của ảnh. Các đặc trưng
này sẽ là dữ liệu đầu vào của các kỹ thuật phân lớp.
2.1.2. Các kỹ thuật phân lớp
• SVM (Support Vector Machine)
SVM là một kỹ thuật học máy phổ biến được phát triển bởi Vapnik và
các cộng sự vào những năm 1990. SVM là một phương pháp phân loại tuyến
tính dựa trên việc tìm ra siêu mặt phẳng phân chia hai lớp dữ liệu sao cho
khoảng cách từ siêu mặt phẳng đến các điểm dữ liệu gần nhất (các vector hỗ
13
trợ) là lớn nhất. SVM có thể xử lý các bài toán phân loại phi tuyến bằng cách
sử dụng các hàm nhân (kernel) để ánh xạ dữ liệu vào không gian nhiều chiều
hơn. SVM có nhiều ưu điểm như khả năng hoạt động tốt với dữ liệu nhiễu, ít
bị ảnh hưởng bởi số chiều của dữ liệu, có thể tùy biến được các hàm nhân
theo nhu cầu. Tuy nhiên, SVM cũng có một số nhược điểm như khó chọn
được tham số tối ưu cho hàm nhân, khó mở rộng cho các bài toán phân loại
nhiều lớp, yêu cầu nhiều tài ngun tính tốn và bộ nhớ.
Hình ảnh 2.4 Minh họa SVM
• KNN
KNN (K-Nearest Neighbors) một thuật tốn học máy phân loại dựa trên
khoảng cách. Thuật toán này được phát triển bởi Thomas Cover và Peter Hart
vào năm 1968. Đặc điểm của KNN là khơng cần huấn luyện mơ hình trước,
mà chỉ cần lưu trữ tập dữ liệu huấn luyện và so sánh dữ liệu mới với các
điểm dữ liệu gần nhất để đưa ra nhãn. Các ưu điểm của KNN là đơn giản, dễ
hiểu, linh hoạt, có thể áp dụng cho nhiều loại dữ liệu và khả năng mở rộng số
lớp. Nhược điểm của KNN là tốn nhiều bộ nhớ, thời gian và tài ngun để
tính tốn khoảng cách, khó xác định giá trị K phù hợp và nhạy cảm với
nhiễu, dữ liệu không cân bằng.
14
Hình ảnh 2.5 Minh họa KNN
2.1.3. Nhận xét
Dưới đây là kết quả của các phương pháp học máy cho phân loại tuổi. Kết
quả được thực hiện trên bộ dữ liệu FG-Net và UTD Database được trích dẫn
trong bài báo [2] được nêu tại tài liệu tham khảo.
Bảng 2-1 SVM cho phân loại tuổi cho bộ dữ liệu FG-Net và UTD Database
Phương pháp
Kernel
HOG+SVM
LBP+SVM
(HOG, LBP)
+ SVM
Độ chính xác Độ chính xác Độ chính xác
(2-fold) (%)
(10-fold) (%)
(LOO) (%)
Linear
82.49
97.83
98.60
Polynomial
84.59
96.39
98.16
RBF
84.57
96.33
98.35
Linear
78.82
96.20
98.29
Polynomial
78.00
96.90
98.23
RBF
76.86
95.08
97.95
Linear
99.81
99.85
99.87
Polynomial
99.62
99.62
98.54
RBF
99.17
99.70
99.61
(Nguồn: Hình được trích dẫn tại tài liệu tham khảo [2])
15
Bảng 2-2 Đánh giá Confusion Matrix cho (HOG, LBP) + SVM
Lớp thực tế
0-15
16-20
21-25
26-30
31-35
36-40
41-45
46-50
51-55
56-60
Up 60
Tổng
575
0
0
0
0
0
0
0
0
0
0
575
0
208
0
0
0
0
0
0
0
0
0
208
0
0
213
0
0
0
0
0
0
0
0
213
0
0
0
103
0
0
0
0
0
0
0
103
0
0
0
0
62
0
0
0
0
0
0
62
0
0
0
0
0
50
0
0
0
0
0
50
0
0
0
0
0
0
45
0
0
0
0
45
0
0
0
0
0
0
0
29
0
0
0
29
0
0
0
0
0
0
0
0
28
0
0
28
0
0
0
0
0
0
0
0
0
8
1
9
0
0
0
0
0
0
0
0
0
1
259
260
(Nguồn: Hình được trích dẫn tại tài liệu tham khảo [2])
Có thể nhận thấy, các kết quả từ các phương pháp học máy truyền thống
phụ thuộc vào việc chọn các kỹ thuật trích chọn và phân lớp phù hợp với bài
tốn. Hơn thế, mỗi kỹ thuật trích chọn đặc trưng chỉ chọn ra một số đặc trưng
nhất định có trong dữ liệu. Cụ thể hơn, LBP có khả năng trích chọn ra các đặc
trưng liên quan đến kết cấu của vật trong ảnh, HOG có thể trích chọn ra các đặc
trưng liên quan đến hình dạng của vật thể. Điều này làm cho các kỹ thuật thiếu
tính linh động khi bài toán trở nên lớn hơn.
2.2. Phương pháp học sâu (CNN)
Học sâu là một phương pháp cải tiến so với học máy bằng cách thêm các
lớp có trong mơ hình. Phương pháp này được ra đời để giải quyết những hạn chế
của việc trích chọn đặc trưng một cách thủ công trong phương pháp học máy.
Cụ thể hơn, các đặc trưng sẽ được trích chọn một cách tự động tại các lớp trong
mơ hình học sâu, khơng giống như phương pháp học máy.