Tải bản đầy đủ (.docx) (11 trang)

báo cáo: hệ thống phát hiện giới tính và tuổi từ khuôn mặt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (426.26 KB, 11 trang )

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH
KHOA ĐIỆN ĐIỆN TỬ
NGÀNH KỸ THUẬT MÁY TÍNH

BÁO CÁO ĐỀ TÀI
HỆ THỐNG PHÁT HIỆN GIỚI TÍNH VÀ TUỔI
TỪ KHN MẶT

Giảng viên: PhD. Trần Vũ Hoàng

Sinh viên: Trần Tuấn Anh- 17119057
Sinh viên: Nguyễn Minh Huy-17119078


MỤC LỤC

1. Đặt vấn đề xây dựng đề tài
2. Mục tiêu đề tài đạt được
3. Các thử thách đề tài
4. Các phương pháp sử dụng


1. Đặt vấn đề xây dựng đề tài

Phát hiện khuôn mặt là một ứng dụng cơ bản thiết yếu của lĩnh vực
phát hiện đối tượng(objects detection) nói chung và là khâu đầu tiên của
bất kỳ hệ thống phát hiện và nhận dạng khn mặt tự động nào. Ngồi
ra, phát hiện khn mặt cịn được ứng dụng rộng rãi trong những lĩnh
vực an ninh, sinh trắc học, thiết lập giao diệnmới giữa người và máy
tính, và nhiều ứng dụng quan trọng khác. Mục tiêu của v
iệc phát


hiện khuôn mặt là xác định và chỉ ra vị trí và kích thước của những
khn mặt người trong hình ảnh tĩnh hoặc hình ảnh động.
Giới tính và tuổi tác từ lâu đã được biết có ảnh hưởng đến điện tâm
đồ của con người. Một số biến số sinh học và các yếu tố giải phẫu có thể
góp phần vào sự khác biệt liên quan đến giới tính và tuổi tác trên điện
tâm đồ.
Các nhà khoa học này còn đưa ra giả thuyết rằng sự khác biệt giữa
tuổi dự đốn của theo cơng nghệ trí tuệ nhân tạo và tuổi thực theo thời
gian có thể đóng vai trị là thước đo sinh lý của sức khỏe, nghiên cứu
xem việc áp dụng thuật toán AI vào bộ dữ liệu lớn (Big Data) về điện
tâm đồ của BN có thể giúp dự đốn tuổi và giới tính độc lập với các dữ
liệu lâm sàng bổ sung hay khơng và tìm cách xác định sự khác biệt giữa
tuổi đo được thông qua điện tâm đồ và tuổi thực theo thời gian có thể là
dấu hiệu của sức khỏe sinh lý hay không.
Bằng việc phân loại hồ sơ khách hàng, các bạn có thể chủ động hiển
thị các nội dung quảng cáo tại điểm bán theo từng đối tượng khách hàng,


nang cao hiệu quả của các chương trình quảng cáo. Và khi dữ liệu về độ
tuổi - giới tính được kết nối với hệ thống đếm người People Counting
(Shopper Count), team Marketing có thể xây triển khai các chiến lược
sáng tạo để thu hút nhiều khách hàng và gắn kết họ với thương hiệu hơn,
xây dựng những trải nghiệm đánh nhớ với khách hàng.
Đó chính là lí do chúng mình thực hiện đề tài này. Với đề tài này
chúng ta có thể ứng dụng trong camera an ninh, trong dự đốn tuổi tác
và giới tính trong các ứng dụng trong game hay mạng xã hội.
2.Mục tiêu đạt được

Đề tài chúng mình nghiên cứu có phạm vi sử dụng để học tập và nó
ở mức mơi trường nhỏ, độ chính xác có thể khơng tuyệt đối có thể sẽ sai,

nhưng nó có thể nhận diện liên tục khi có khn mặt và cập nhập dữ liệu
về giới tính và tuổi tác liên tục trong vịng 1s.
Mình đã test thử và ứng dụng có thể chạy và hoạt động được với độ
chính xác cũng tầm khá 80%.
Để xây dựng một máy dò giới tính và tuổi tác có thể đốn khoảng
giới tính và tuổi của người (khuôn mặt) trong một bức tranh bằng cách
sử dụng Deep Learning trên bộ dữ liệu Adience.

3.Các thử thách của đề tài
Về khách quan vì nó mới và khá khó với những sinh viên mới học
nên tìm tài liệu và để chạy được ứng dụng này thì khá khó.
Về thực tế, thì khi nhận diện thì với việc khi một bức ảnh hay nhận
diện từ camera, thì khi 1 người con gái để tóc ngắn, hay con trai để tóc


dài thì khá là khó để nhận diện được. Cịn tùy thuộc vào độ sáng từ hình
ảnh và camera nữa thì khá là khó khăn để chính xác và cái đó là khuyết
điểm mà bọn mình chưa xử lí được. Hoặc là 1 người mang khẩu trang,
đội nón thì cũng khó nhận diện được.
Có lẽ nếu như muốn thuận lợi để dùng thì nên đặt chú ý là bỏ hết vật
dụng trên khuôn mặt.

4. Các phương pháp sử dụng trong đề tài
Mình sẽ nêu khái qt các khái niệm lí thuyết mà để tài này sử
dụng để thực hiện được.
Để xây dựng cơng cụ phát hiện giới tính và tuổi có thể đốn gần
đúng giới tính và tuổi của người (khuôn mặt) trong ảnh bằng cách sử
dụng AI trên tập dữ liệu đối tượng.

Thị giác máy tính là gì?

Thị giác máy tính là lĩnh vực nghiên cứu cho phép máy tính nhìn và
nhận dạng các hình ảnh và video kỹ thuật số như con người. Những
thách thức mà nó phải đối mặt phần lớn xuất phát từ sự hiểu biết hạn chế
về tầm nhìn sinh học. Computer Vision bao gồm việc thu thập, xử lý,
phân tích và hiểu các hình ảnh kỹ thuật số để trích xuất dữ liệu chiều cao
từ thế giới thực nhằm tạo ra thông tin tượng trưng hoặc số sau đó có thể
được sử dụng để đưa ra quyết định. Quá trình này thường bao gồm các
phương pháp như nhận dạng đối tượng, theo dõi video, ước tính chuyển
động và khơi phục hình ảnh.
Convolutional Neural Network là gì?


Convolutional Neural Network (CNNs – Mạng nơ-ron tích chập) là
một trong những mơ hình tiên tiến. Nó giúp cho chúng ta xây dựng được
những hệ thống thông minh với độ chính xác cao như hiện nay.
CNN được sử dụng nhiều trong các bài toán nhận dạng các object
trong ảnh. Để tìm hiểu tại sao thuật tốn này được sử dụng rộng rãi cho
việc nhận dạng (detection)
Mạng CNNs là một tập hợp các lớp Convolution chồng lên nhau và
sử dụng các hàm nonlinear activation như ReLU và tanh để kích hoạt
các trọng số trong các node. Mỗi một lớp sau khi thơng qua các hàm
kích hoạt sẽ tạo ra các thơng tin trừu tượng hơn cho các lớp tiếp theo.
Mỗi một lớp sau khi thơng qua các hàm kích hoạt sẽ tạo ra các thông
tintrừu tượng hơn cho các lớp tiếp theo. Trong mơ hình mạng truyền
ngược(feedforward neural network) thì mỗi neural đầu vào (input node)
chomỗi neural đầu ra trong các lớp tiếp theo.
Mơ hình này gọi là mạng kết nối đầy đủ (fully connected layer) hay
mạng toàn vẹn (affine layer). Cịn trong mơ hình CNNs thì ngược lại.
Các layer liên kết được với nhau thông qua cơ chế convolution.
Layer tiếp theo là kết quả convolution từ layer trước đó, nhờ vậy mà

ta cóđược các kết nối cục bộ. Như vậy mỗi neuron ở lớp kế tiếp sinh ra
từ kếtquả của filter áp đặt lên một vùng ảnh cục bộ của neuron trước đó.
Mỗi một lớp được sử dụng các filter khác nhau thơng thường có
hàngtrăm hàng nghìn filter như vậy và kết hợp kết quả của chúng lại.
Ngồi racó một số layer khác như pooling/subsampling layer dùng để
chắt lọc lạicác thơng tin hữu ích hơn (loại bỏ các thơng tin nhiễu).
Trong quá trình huấn luyện mạng (traning) CNNs tự động học các
giá trịqua các lớp filter dựa vào cách thức mà bạn thực hiện. Ví dụ trong
tác vụ phân lớp ảnh, CNNs sẽ cố gắng tìm ra thơng số tối ưu cho các


filter tương ứng theo thứ tự raw pixel > edges > shapes > facial > highlevelfeatures. Layer cuối cùng được dùng để phân lớp ảnh.

CNNs được chia thành 3 chiều: rộng, cao và sâu. Tiếp theo, các tế
bàothần kinh trong mạng khơng hồn tồn kết nối với tồn bộ tế bào
thầnkinh tiếp theo, mà chỉ đến một vùng nhỏ. Cuối cùng, một lớp đầu ra
đượcthu nhỏ lại thành vectơ giá trị của tính năng.


Phát hiện khuôn mặt sự dụng khuôn mặt dựa trên mạng nơron
Đầu vào là một bức ảnh hay từ camera

Với đề tài này thì kiến trúc CNN Mạng nơ-ron phức hợp cho dự án
python này có 3 lớp tích hợp:
-Lớp chuyển đổi; 96 nút, kích thước hạt nhân 7
-Lớp chuyển đổi; 256 nút, kích thước hạt nhân 5
-Lớp chuyển đổi; 384 nút, kích thước hạt nhân 3


Nó có 2 lớp được kết nối đầy đủ, mỗi lớp có 512 nút và một lớp đầu

ra cuối cùng thuộc loại softmax.
Để đi về dự án python, chúng tôi sẽ:
-Phát hiện khuôn mặt
-Phân loại thành Nam / Nữ
-Phân loại vào một trong 8 độ tuổi
-Đưa kết quả lên hình ảnh và hiển thị

Xác định chính xác giới tính và tuổi của một người từ một hình ảnh
duy nhất của khn mặt Giới tính được dự đốn có thể là một trong


'Nam' và 'Nữ’.

Độ tuổi dự đốn có thể là một trong các phạm vi sau- (0 - 2), (4 6), (8 - 12), (15 - 20) , (25 - 32), (38 - 43), (48 - 53), (60 - 100) (8 nút
trong lớp softmax cuối cùng). Rất khó để đốn chính xác tuổi chính xác
từ một hình ảnh duy nhất vì các yếu tố như trang điểm, ánh sáng, vật cản
và nét mặt. Và do đó, chúng tơi coi đây là một vấn đề phân loại thay vì
biến nó thành một trong những hồi quy.




×