Tải bản đầy đủ (.pdf) (78 trang)

Nghiên cứu phương pháp nhận diện cơ thể người trong ảnh số

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.98 MB, 78 trang )

NGUYỄN THẾ MẠNH

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

NGUYỄN THẾ MẠNH

KỸ THUẬT ĐIỆN TỬ

NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DIỆN
CƠ THỂ NGƯỜI TRONG ẢNH SỐ

LUẬN VĂN THẠC SĨ KỸ THUẬT
CHUYÊN NGÀNH KỸ THUẬT ĐIỆN TỬ

2014B
Hà Nội – Năm 2017


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

NGUYỄN THẾ MẠNH

NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DIỆN
CƠ THỂ NGƯỜI TRONG ẢNH SỐ

LUẬN VĂN THẠC SĨ KĨ THUẬT
CHUYÊN NGÀNH KỸ THUẬT ĐIỆN TỬ



NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. VÕ LÊ CƯỜNG

Hà Nội – 2017


LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất tới thầy giáo TS. Võ Lê Cường,
người đã trực tiếp hướng dẫn tơi tận tình trong thời gian nghiên cứu và hồn thiện
luận văn này.
Tơi cũng xin được gửi lời cảm ơn tới tập thể các thầy, cô giáo của Viện Điện tử Viễn thông, trường Đại học Bách Khoa Hà Nội đã tận tình giúp đỡ tôi trong suốt thời
gian học tập và nghiên cứu tại trường.
Một lần nữa tôi xin trân trọng cảm ơn tất cả các thầy cơ giáo, gia đình, bạn bè,
đồng nghiệp đã giúp đỡ và ủng hộ tôi trong thời gian qua. Xin kính chúc các thầy cơ
giáo, các anh chị và các bạn mạnh khỏe, hạnh phúc và thành công.
Hà Nội, ngày 20 tháng 03 năm 2017
Tác giả luận văn

Nguyễn Thế Mạnh


LỜI CAM ĐOAN
Tôi xin cam đoan: Bản luận văn tốt nghiệp này là cơng trình nghiên cứu thực sự
của cá nhân, được thực hiện trên cơ sở nghiên cứu lý thuyết, thực tế dưới sự hướng
dẫn của Tiến sỹ Võ Lê Cường, Viện Điện tử - Viễn Thông, Trường Đại học Bách
Khoa Hà Nội.
Các số liệu, kết luận của luận án là trung thực, dựa trên sự nghiên cứu, của bản
thân, chưa từng được cơng bố dưới bất ký hình thức nào trước khi trình, bảo vệ trước
“Hội đồng đánh giá luận văn thạc sỹ khoa học”. Các số liệu, kết quả, kết luận được

tơi tham khảo đã được trích dẫn nguồn đầy đủ.
Một lần nữa tôi xin khẳng định về sự trung thực của lời cam kết trên.
Hà Nội, ngày 20 tháng 03 năm 2017
Tác giả luận văn

Nguyễn Thế Mạnh


MỤC LỤC
MỤC LỤC ...................................................................................................................1
DANH SÁCH TỪ VIẾT TẮT ....................................................................................3
DANH SÁCH CÁC BẢNG ........................................................................................4
DANH SÁCH HÌNH VẼ ............................................................................................5
MỞ ĐẦU .....................................................................................................................7
CHƯƠNG 1.

TỔNG QUAN HỆ THỐNG NHẬN DIỆN NGƯỜI ĐI ĐƯỜNG 10

1.1 Giới thiệu chung .............................................................................................10
1.2 Khái quát hệ thống nhận diện người đi đường...............................................13
1.2.1 Tổng quan hệ thống ...............................................................................13
1.2.2 Khó khăn và thách thức .........................................................................16
1.3 Các kết quả nghiên cứu trên thế giới .............................................................17
1.4 Kết luận chương .............................................................................................18
CHƯƠNG 2.

CƠ SỞ LÝ THUYẾT .....................................................................19

2.1 Gradient của ảnh và đặc trưng biên độ gradient ............................................19
2.1.1 Khái niệm gradient trong xử lý ảnh số ..................................................19

2.1.2 Ứng dụng của đặc trưng gradient trong xử lý ảnh số ............................22
2.2 Đặc trưng HOG ..............................................................................................23
2.2.1 Chuẩn hóa gamma và màu .....................................................................24
2.2.2 Tính gradient ..........................................................................................25
2.2.3 Chia hướng và gom đặc trưng tại mỗi cell ............................................25
2.2.4 Tính đặc trưng cho khối và chuẩn hóa...................................................27
2.2.5 Tính vector đặc trưng cho cửa sổ...........................................................30
2.2.6 Ứng dụng của đặc trưng HOG ...............................................................30
2.3 Không gian màu CIELUV .............................................................................31
2.4 Thuật toán AdaBoost .....................................................................................32
2.5 Kết luận chương .............................................................................................33
CHƯƠNG 3.
ACF

THUẬT TOÁN NHẬN DIỆN NGƯỜI ĐI ĐƯỜNG SỬ DỤNG
34

3.1 Ước lượng gradient ảnh theo tỷ lệ kích thước ...............................................34
3.1.1 Histogram của gradient trong ảnh lấy mẫu lên ......................................35
3.1.2 Histogram của gradient trong ảnh lấy mẫu xuống .................................37

1


3.2 Ước lượng đặc trưng ảnh theo tỷ lệ lấy mẫu..................................................38
3.2.1 Cơng thức lũy thừa tính đặc trưng ảnh theo tỷ lệ lấy mẫu ....................39
3.2.2 Ước lượng hệ số λ ..................................................................................40
3.3 Phương pháp xây dựng tháp đặc trưng nhanh................................................41
3.3.1 Tính toán kênh đặc trưng theo tỷ lệ lấy mẫu .........................................41
3.3.2 Xây dựng tháp đặc trưng nhanh .............................................................43

3.3.3 Phân tích độ phức tạp thuật toán............................................................44
3.4 Nhận diện người đi đường sử dụng ACF .......................................................45
3.5 Cài đặt thử nghiệm và đánh giá .....................................................................46
3.5.1 Sử dụng bộ công cụ ACF trên MATLAB .............................................46
3.5.2 Phương pháp đánh giá ...........................................................................47
3.5.3 Kết quả thực nghiệm ..............................................................................55
3.6 Kết luận chương .............................................................................................58
CHƯƠNG 4.

ỨNG DỤNG BỘ LỌC KALMAN TRONG NHẬN DIỆN ..........59

4.1 Giới thiệu chung bộ lọc Kalman ....................................................................59
4.2 Mơ hình tốn học bộ lọc Kalman ...................................................................61
4.3 Ứng dụng bộ lọc Kalman trong hệ thống nhận diện người đi đường ............64
4.3.1 Ý tưởng thuật toán .................................................................................64
4.3.2 Sơ đồ thuật toán .....................................................................................66
4.4 Cài đặt thử nghiệm và đánh giá .....................................................................67
4.5 Kết luận chương .............................................................................................69
KẾT LUẬN ...............................................................................................................70
TÀI LIỆU THAM KHẢO .........................................................................................71

2


DANH SÁCH TỪ VIẾT TẮT
ACF

Aggregated Channel Features

Các đặc trưng tổng hợp đa

kênh

AUC

Area Under Curve

Vùng nằm dưới đường cong

BB

Bounding box

Hình hộp bao quanh

CIE

Commission internationale de l'éclairage

Ủy ban quốc tế về chiếu sáng

CPDB

Caltech Pedestrian Detection Benchmark Bộ đánh giá bộ nhận diện
người đi đường Caltech

FPDW Fastest Pedestrian Detector in the West

Bộ nhận diện người đi đường
nhanh nhất ở miền Tây


FN

False Negative

Âm tính giả

FP

False Positive

Dương tính giả

FPPI

False Positive per Image

Dương tính giả trên mỗi ảnh

HOG

Histogram of Oriented Gradient

Histogram của gradient có
hướng

SVM

Support Vector Machine

Máy vector hỗ trợ


TN

True Negative

Âm tính thực

TP

True Positive

Dương tính thực

3


DANH SÁCH CÁC BẢNG
Bảng 3. 1 : Sử dụng hàm acfDetect để nhận diện .....................................................46
Bảng 3. 2 : Một số thông số của các tập dữ liệu được sử dụng ................................49
Bảng 3. 3 : Tóm tắt các khái niệm true/false positive, true/false negative ...............49
Bảng 3. 4: Miss rate của một số phương pháp nhận diện người phổ biến trên 2 tập dữ
liệu .............................................................................................................................58

4


DANH SÁCH HÌNH VẼ
Hình 1. 1: Một số ví dụ kết quả nhận diện người từ tập dữ liệu Caltech [10] ..........11
Hình 1. 2 : Một số ứng dụng của nhận diện người....................................................12
Hình 1. 3 : Kiến trúc tổng quan của hệ thống nhận diện người ................................14

Hình 1. 4 : Một số phương pháp lựa chọn vùng candidate .......................................15
Hình 2. 1 : Hai dạng của gradient. Mũi tên chỉ hướng gradient. Vùng màu tối thể hiện
giá trị cao hơn ............................................................................................................19
Hình 2. 2 : Ảnh mức xám và ảnh gradient tương ứng theo chiều x và chiều y ........20
Hình 2. 3 : Ảnh độ lớn gradient sử dụng các toán tử khác nhau ...............................21
Hình 2. 4 : Một ví dụ về gradient cho ảnh đối tượng người .....................................23
Hình 2. 5 : Sơ đồ các bước trích chọn đặc trưng HOG [5] .......................................24
Hình 2. 6 : Tổng quan các bước trích xuất đặc trưng HOG tĩnh [4] .........................26
Hình 2. 7 : Biểu đồ histogram cho một cell với 9 bin từ 0 đến 180 độ .....................27
Hình 2. 8 : Một số dạng block được đề xuất [4]. ......................................................28
Hình 2. 9 : Chất lượng đặc trưng phụ thuộc vào kích thước cell và block [5] .........29
Hình 2. 10 : Đặc trưng HOG trên cửa sổ chứa đối tượng người...............................31
Hình 2. 11 : Biểu đồ màu (u′, v′), còn được gọi là biểu đồ CIE 1976 UCS ..............31
Hình 2. 12 : Lược đồ cơ bản của AdaBooost [17] ....................................................32
Hình 2. 13 : Thuật tốn học AdaBoost [17] ..............................................................33

Hình 3. 1 : Phân bố tỉ lệ gradient histogram khi lấy mẫu lên với k = 2 [7] ..............36
Hình 3. 2 : Phân bố tỉ lệ gradient histogram khi lấy mẫu xuống với k = 2 [7] .........37
Hình 3. 3 : Tính xấp xỉ gradient histogram trên ảnh lấy mẫu lại với k = 2 [7] .........38
Hình 3. 4 : Hệ số λ cho các loại channel khác nhau [7] ............................................41
Hình 3. 5: Phương pháp tính channel theo phương pháp truyền thống và phương pháp
được đề xuất [7] ........................................................................................................42
Hình 3. 6 : Phương pháp xây dựng tháp đặc trưng nhanh [7] ...................................43
Hình 3. 7 : Tổng quan các bước phương pháp nhận diện ACF [7] ...........................45
5


Hình 3. 8 : Một số ảnh trong tập dữ liệu Caltech ......................................................48
Hình 3. 9 : Một số ảnh trong tập dữ liệu ETH ..........................................................48
Hình 3. 10 : Precision và Recall ................................................................................51

Hình 3. 11 : Đường cong PR .....................................................................................52
Hình 3. 12 : Caltech Pedestrian Detection Benchmark Framework .........................53
Hình 3. 13 : Chuẩn hóa tỉ lệ khung bounding box [10] ............................................54
Hình 3. 14 : Đường cong miss rate - FPPI trên tập dữ liệu Caltech .........................56
Hình 3. 15 : Đường cong PR trên tập dữ liệu Caltech ..............................................56
Hình 3. 16 : Đường cong miss rate - FPPI trên tập dữ liệu ETH ..............................57
Hình 3. 17 : Đường cong PR của ACF trên tập dữ liệu ETH ...................................57
Hình 4. 1 : Mơ hình đo lường ước lượng của bộ lọc Kalman ...................................59
Hình 4. 2 : Chu trình 2 bước của bộ lọc Kalman ......................................................60
Hình 4. 3: Mơ hình khơng gian trạng thái bộ lọc Kalman ........................................62
Hình 4. 4 : Hoạt động của bộ lọc Kalman theo các phương trình.............................64
Hình 4. 5 : Các frame liên tiếp trong video với đối tượng người đi chuyển .............65
Hình 4. 6 : Sơ đồ thuật tốn đề xuất ..........................................................................66
Hình 4. 7 : Sự biến đổi của thời gian nhận diện và miss rate theo số frame bỏ qua
nhận diện giảm dần ...................................................................................................68

6


MỞ ĐẦU
Trong những năm gần đây, bài toán nhận dạng cơ thể người trong ảnh số và video
đã và đang trở thành một chủ đề nghiên cứu nhận được nhiều sự chú ý trong lĩnh vực
thị giác máy tính. Một trong các lý do khiến cho bài toán này nhận được nhiều sự đầu
tư nghiên cứu đó là tiềm năng ứng dụng của việc nhận dạng người trong các hệ thống
như xử lý và quản lý nội dung ảnh, video, giám sát an ninh, hỗ trợ lái xe tự động, …
Việc nhận dạng người đi đường là một trong những vấn đề quan trọng trong hệ
thống hỗ trợ lái xe hoặc lái xe tự động. Với tính ứng dụng thực tế, cộng với sự phát
triển nhanh chóng của hệ thống xử lý máy tính, camera tốc độ và chất lượng cao, hệ
thống nhận dạng người đi đường đã được ứng dụng rất nhiều trên ơ tơ. Vì vậy, luận
văn đã lựa chọn đề tài nghiên cứu về hệ thống nhận diện cơ thể người, cụ thể là nhận

diện người đi đường để tìm hiểu những phương pháp phổ biến hiện nay, đồng thời
đưa ra những đề xuất cải tiến.

Mục đích nghiên cứu, đối tượng và phạm vi nghiên cứu
Luận văn được thực hiện với mục đích:
 Nghiên cứu hệ thống nhận diện người đi đường và các phương pháp nhận
diện được sử dụng phổ biến hiện nay trên thế giới. Đánh giá chất lượng của
phương pháp được nghiên cứu.
 Nghiên cứu bộ lọc Kalman và ứng dụng của bộ lọc trong bài toán bám sát
và theo dõi đối tượng. Từ đó đưa ra đề xuất về một hệ thống kết hợp bộ lọc
Kalman với phương pháp nhận diện người đi đường để cải tiến cho bài
toán bám sát người đi đường từ dữ liệu video.
Dựa trên mục đích nghiên cứu, đối tượng nghiên cứu của luận văn được xác định
là các phương pháp nhận diện người đi đường với dữ liệu video thu được từ mơi
trường có người di chuyển; bên cạnh đó là bộ lọc Kalman và ứng dụng trong bài tốn
bám sát. Trong luận văn có sử dụng một số cơ sở dữ liệu về ảnh và video thường
được sử dụng trong các nghiên cứu trong lĩnh vực này như tập dữ liệu Caltech, ETH.

7


Trong phạm vi nghiên cứu, luận văn tìm hiểu về một phương pháp nhận diện
người đi đường phổ biến và được đánh giá cao hiện nay là phương pháp ACF, trong
đó dựa trên các đặc trưng kênh tổng hợp với nhau và thuật toán phân loại AdaBoost
để nhận diện đối tượng. Trong luận văn này, em cũng đánh giá chất lượng của phương
pháp ACF, cũng như đề xuất sử dụng bộ lọc Kalman kết hợp ACF cho bài toán nhận
diện và bám sát người đi đường.

Phương pháp nghiên cứu
Để thực hiện triển khai và đánh giá phương pháp nhận diện người đi đường, hướng

tiếp cận của đề tài được đề xuất các bước như sau:
 Nghiên cứu các cơ sở lý thuyết về xử lý ảnh, tham khảo và ứng dụng các
phương pháp của các cơng trình nghiên cứu đã công bố để xây dựng, triển
khai hệ thống.
 Nghiên cứu và sử dụng các phần mềm, công cụ xử lý ảnh phù hợp cho việc
xây dựng hệ thống.
 Triển khai hệ thống bằng các phần mềm, cơng cụ đã tìm hiểu, đánh giá kết
quả trên các tập dữ liệu chuẩn được sử dụng rộng rãi.
 Dựa trên kết quả đánh giá đó, đưa ra hướng đề xuất để cải tiến hệ thống
sẵn có.
Luận văn bao gồm những phần chính như sau:
CHƯƠNG 1: TỔNG QUAN HỆ THỐNG NHẬN DIỆN NGƯỜI ĐI ĐƯỜNG
Giới thiệu về hệ thống nhận diện người đi đường, vai trò ứng dụng trong thực tế,
các kết quả nghiên cứu trên thế giới và phương pháp nghiên cứu của đề tài.
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
Trình bày cơ sở lý thuyết của các khái niệm trong xử lý ảnh có liên quan.
CHƯƠNG 3: THUẬT TỐN NHẬN DIỆN NGƯỜI ĐI ĐƯỜNG
Trình bày chi tiết thuật tốn nhận diện người đi đường sử dụng các đặc trưng kênh
tổng hợp ACF.
CHƯƠNG 4: ỨNG DỤNG BỘ LỌC KALMAN TRONG NHẬN DIỆN

8


Trình bày cơ sở lý thuyết và đề xuất một phương pháp ứng dụng bộ lọc Kalman
vào hệ thống nhận diện và theo dõi người đi đường.
KẾT LUẬN
Tóm tắt các kết quả đạt được của đề tài, đề xuất hướng phát triển tiếp theo.

9



CHƯƠNG 1. TỔNG QUAN HỆ THỐNG NHẬN DIỆN
NGƯỜI ĐI ĐƯỜNG
1.1 Giới thiệu chung
Trong lĩnh vực thị giác máy tính, vấn đề nhận diện đối tượng đã nhận được sự chú
ý lớn trong cộng đồng nghiên cứu trong những năm gần đây. Trong đó, nhận diện cơ
thể người, hay nhận diện người đi đường là một trong những chủ đề quan trọng. Việc
nhận diện được con người qua đó giúp máy tính có thể tương tác tốt hơn với con
người đưa đến những ứng dụng trực tiếp và thiết thực trong các ứng dụng về an tồn
cho ơ tơ, giám sát an ninh, robot tự động.
Bài tốn nhận diện người có thể được phát biểu một cách đơn giản như sau: cho
một bức ảnh hoặc video đầu vào, xác định vị trí tất cả các đối tượng là người trong
ảnh hoặc video. Bài toán tương đương với việc xác định vùng, thơng thường là khung
bao quanh (bounding box), có diện tích nhỏ nhất trên ảnh/video mà bao chứa đối
tượng là người. Hình 1.1 là một số ví dụ về việc nhận diện người đi đường trong tập
dữ liệu Caltech.
Trong thời gian gần đây, Lĩnh vực nhận diện cơ thể người đã thu hút được nhiều
sự chú ý nghiên cứu xuất phát từ những ứng dụng trực tiếp của nó. Một ví dụ ở trong
lĩnh vực quản lý nội dung hình ảnh, video mà ở đó có một lượng lớn cơ sở dữ liệu về
hình ảnh cần được xử lý. Một tác vụ thường gặp là đánh dấu các đối tượng, đặc biệt
là người, trong ảnh và video. Một tác vụ khác là đánh dấu, gán nhãn các hình ảnh,
video dựa vào nội dung bên trong. Kết quả của quá trình đánh dấu, gán nhãn đó giúp
ta có thể thực hiện các hành động tìm kiếm, truy vấn cơ sở dữ liệu sau đó. Cơng việc
đánh dấu nếu được thực hiện thủ công sẽ gây tốn kém rất nhiều công sức và thời gian.
Việc đánh dấu tự động sẽ giúp ích lớn trong xây dựng và quản lý cơ sở dữ liệu. Hệ
thống nhận diện người có thể được sử dụng làm một cơng đoạn trong việc đánh dấu
tự động đó. Hình 1.2(a) minh họa một ví dụ về hệ thống như vậy.
Trong lĩnh vực giám sát bằng video an ninh, một nhiệm vụ quan trọng là phát hiện,
nhận dạng, và theo dõi người trong các khu vực đông đúc như sân bay, bến tàu, siêu

10


Hình 1. 1: Một số ví dụ kết quả nhận diện người từ tập dữ liệu Caltech [10]

thị, … Ở đó phát hiện người là một bước quan trọng. Dữ liệu video được thu bởi
camera an ninh được xử lý để phát hiện và bám sát theo toàn bộ cơ thể hoặc từng
phần của cơ thể người. Dựa trên vị trí và dịch chuyển của các bộ phận, ta có thể nhận
ra dáng điệu và hành động của từng người. Hình 1.2(b) minh họa một ví dụ của hệ
thống theo dõi an ninh.
Nhận dạng người cũng là một phần quan trọng trong các hệ thống điều khiển xe
tự động hoặc hệ thống hỗ trợ lái xe an toàn. Các hệ thống này giúp phát hiện người
đi đường và cảnh báo, hỗ trợ lái xe hoặc tự động điều khiển xe trong các tình huống
nguy hiểm. Một số sản phẩm ví dụ có thể kể đến như dịng sản phẩm TMPV760 1 của
hãng Toshiba sử dụng camera và vi xử lý tốc độ cao cho ra đời các hệ thống hỗ trợ
lái xe nâng cao. Trong đó gồm các hệ thống cảnh báo va chạm với xe khác, cảnh báo
va chạm người đi đường ban ngày và ban đêm, cảnh báo va chạm chướng ngại vật.

1

/>
11


(a)

(b)

(c)
Hình 1. 2 : Một số ứng dụng của nhận diện người

(a): Thu nhận dữ liệu ảnh, video. (b): Hệ thống giám sát (phát hiện và theo dõi). (c): hệ
thống hỗ trợ lái xe (từ [10])

12


Hoặc sản phẩm hệ thống cảnh báo va chạm cho ô tô của hãng Mobileye 2 dựa trên
hình ảnh với chức năng phanh tự động, được ứng dụng trong dòng xe Volvo S60.
Hình 1.2(c) minh họa hệ thống phát hiện người đi đường trên ô tô. Rõ ràng, hiệu quả
của toàn bộ hệ thống sẽ được cải tiến đáng kể nếu được sử dụng một phương pháp
phát hiện người đi đường có độ chính xác cao.
Mặc dù đã có nhiều nỗ lực nghiên cứu, tuy nhiên các hệ thống nhận diện người đi
đường hiện nay vẫn còn nhiều hạn chế. Phần tiếp theo sẽ trình bày tổng quan về kiến
trúc của hệ thống nhận diện người và những khó khăn gặp phải khi giải quyết bài toán
này.

1.2 Khái quát hệ thống nhận diện người đi đường
1.2.1 Tổng quan hệ thống
Thông thường, một hệ thống nhận diện người trong ảnh và video thường được
thực hiện theo các bước tuần tự sau: Tiền xử lý ảnh đầu vào, lựa chọn các vùng
candidate có khả năng là người, trích xuất các đặc trưng tại các vùng candidate, phân
loại và hậu xử lý kết quả.
Hình 1.3 mơ tả kiến trúc tổng quan của hệ thống nhận diện người theo các bước
trên.
Tiền xử lý ảnh đầu vào: dữ liệu ảnh đầu vào được xử lý qua một số phép xử lý
như khử nhiễu, chuẩn hóa màu, chuẩn hóa gamma. Bước này nhằm mục đích chuẩn
hóa ảnh đầu vào và khử bớt nhiễu trong ảnh.
Lựa chọn các vùng candidate: có nhiều phương pháp để lựa chọn các vùng
candidate từ ảnh đầu vào. Một cách tiếp cận phổ biến là giả thiết rằng mỗi đối tượng
người sẽ được bao quanh bởi một cửa sổ nhận diện (detection window). Các cửa sổ

có thể được trích xuất tại nhiều vị trí và kích thước. Với phương pháp này, ta có thể
cần thêm bước gộp các cửa sổ gần nhau cùng được phân loại là người. Trong trường
hợp dữ liệu đầu vào là chuỗi các ảnh từ một video, một kỹ thuật phổ biến được sử
dụng để lựa chọn các vùng candidate là kỹ thuật loại trừ vùng nền (background
2

/>
13


Tiền xử lý

Lựa chọn các
vùng candidate

Ảnh đầu vào

Trích chọn
đặc trưng

Human Candidate

Bộ phân
loại

Hậu xử lý

Kết quả nhận diện

Hình 1. 3 : Kiến trúc tổng quan của hệ thống nhận diện người


subtraction) [31]. Cụ thể, các đối tượng di chuyển sẽ được tách khỏi nền bằng cách
tính tốn sự khác biệt của ảnh hiện tại với một ảnh tham chiếu. Tuy nhiên kỹ thuật
này đòi hỏi một camera đứng yên và một ảnh đã chứa sẵn đối tượng để làm ảnh tham
chiếu. Trong trường hợp ảnh đầu vào được thu từ nhiều camera, thơng tin từ chiều
sâu có thể được dùng để tách biệt các vùng là human candidate [14]. Hình 1.4 minh
họa một số phương pháp lựa chọn candidate. Tuy vậy, trong thực tế, nếu ảnh đầu vào
chỉ là một ảnh tĩnh hoặc video thu từ camera di chuyển, phương pháp sử dụng cửa sổ
để nhận dạng là phương pháp duy nhất có thể áp dụng.
Trích chọn đặc trưng: Trong hệ thống nhận dạng, bước trích trọn đặc trưng là
một bước tối quan trọng và quyết định tới hiệu năng hoạt động của tồn hệ thống.
Đối tượng có thể có nhiều đặc trưng khác như hình dáng, đường viền, màu sắc,
chuyển động, … Từ các đặc trưng này ta có thể xây dựng lên đặc tả (description) của
đối tượng. Phương pháp tiếp cận phổ biến nhất để xây dựng đặc tả cho đối tượng là
ghép nối các đặc trưng được trích xuất từ các khu vực cục bộ để tạo nên một vector
đặc tả nhiều chiều. Độ chính xác, hiệu năng hoạt động của toàn hệ thống phụ thuộc
nhiều vào việc lựa chọn đặc trưng phù hợp và phương pháp xây dựng vector đặc tả
của đối tượng.

14


(a)

(b)

(c)
Hình 1. 4 : Một số phương pháp lựa chọn vùng candidate
(a): Phương pháp dựa trên cửa sổ. (b) Phương pháp loại trừ nền. (c): Phương pháp sử
dụng ảnh từ nhiều camera.


Bộ phân loại: Sau khi đã xây dựng được vector đặc tả của đối tượng người trong
các vùng candidate, bước tiếp theo là thực hiện phân loại để quyết định liệu vùng
candidate đó có phải là người hay khơng. Việc phân loại có thể thực hiện theo mơ
hình mơ tả (generative model) hoặc mơ hình dự đốn (discriminative model). Bộ phân
loại sẽ quyết định vùng nào chứa và vùng nào không chứa đối tượng người trong ảnh
đầu vào.
Hậu xử lý: đây là bước xử lý sau khi có kết quả đầu ra của bộ phân loại. Như đã
trình bày trong bước lựa chọn vùng candidate, với phương pháp dựa trên cửa sổ, kết
quả có thể có nhiều vùng nằm chồng lấp hoặc sát nhau mà đều được bộ phân loại ghi
nhận là chứa đối tượng người. Các vùng đó có thể cùng chứa một đối tượng người,
15


hoặc chứa các người đứng sát hoặc che lấp nhau. Do đó ta có thể cần thêm một bước
xử lý để gộp các vùng có khả năng đều chứa cùng một đối tượng để cho kết quả cuối
cùng là một vùng duy nhất bao quanh đối tượng được phát hiện. Một kỹ thuật phổ
biến để gộp các vùng đó là non-maximal suppression [4].
1.2.2 Khó khăn và thách thức
Nhận diện người là một nhiệm vụ nhiều thách thức. Yếu tố khó khăn nhất đến từ
lượng thông tin biến đổi lớn trong các bức ảnh và video. Các yếu tố khó khăn trong
quá trình nhận diện mà ta phải đối mặt gồm có:
 Kích cỡ ảnh: Người đi đường có thể xuất hiện rất nhỏ trong ảnh có độ
phân giải thấp, đặc biệt là các hệ thống camera an ninh hoặc được gắn trên
ô tô. Chất lượng ảnh đầu vào thấp và phải phát hiện người ở kích cỡ rất
nhỏ là một khó khăn lớn cho các phương pháp nhận diện.
 Độ trễ trong xử lý ảnh: trong các hệ thống ảnh được chụp từ camera liên
tục, như xe ô tô, việc xử lý ảnh phải có tốc độ nhanh để thời gian đáp ứng
ngắn. Do đó, bên cạnh độ chính xác, các phương pháp nhận diện còn cần
hiệu quả về thời gian tính tốn để có thể ứng dụng trong thực tế.

 Tính chất ngoại cảnh: con người có thể xuất hiện trong các môi trường
đa dạng như đô thị, bến xe, ngoài trời, … Điều này khiến việc xử lý khó
khăn hơn khi phải tính tới các điều kiện mơi trường khác nhau.
 Biến đổi của điều kiện sáng: Người trong ảnh có thể xuất hiện trong các
điều kiện ánh sáng rất khác nhau. Việc mơ hình hóa người sao cho hạn chế
tối đa sự ảnh hưởng của điều kiện sáng thay đổi là một điểm quan trọng.
 Tư thế, dáng điệu của đối tượng người: người đi đường có thể xuất hiện
với nhiều dáng điệu, tư thế khác nhau hoặc người này có thể che khuất một
phần người khác và gây khó khăn cho việc phát hiện đối tượng.
 Ảnh hưởng che khuất của ngoại cảnh: Môi trường cũng có thể che khuất
một phần nhỏ, một phần lớn hoặc toàn bộ người trong ảnh. Điều này khiến
việc phát hiện người khó khăn hơn.

16


Ngồi ra, sự khác biệt về đặc tính giữa các bộ dữ liệu chuẩn được sử dụng trong
các nghiên cứu cũng khiến cho vấn đề khó khăn hơn. Mỗi bộ dữ liệu thường sử dụng
các ảnh mẫu ở một cấu hình về độ lớn, dáng điệu, tư thế, số lượng người, độ bị che
lấp của người, … khác nhau. Điều này dẫn đến khó khăn trong việc lựa chọn, nghiên
cứu và đánh giá một phương pháp cho kết quả tốt nhất và đồng đều giữa các tập dữ
liệu khác nhau.

1.3 Các kết quả nghiên cứu trên thế giới
Trên thế giới đã có nhiều nghiên cứu về hệ thống nhận dạng người. Một trong các
nghiên cứu có tính chất quan trọng đầu tiên là cơng trình của các tác giả Viola và
Jones [33]. Viola và Jones đã xây dựng bộ nhận dạng dựa trên ảnh tích phân (Integral
image) cho việc tính toán đặc trưng tốc độ cao, và bộ phân loại cascade để phát hiện
đối tượng, và sử dụng AdaBoost cho việc lựa chọn đặc trưng.
Một kết quả điển hình trong việc nghiên cứu nhận dạng người là cơng trình của

các tác giả Navneet Dalal và Bill Triggs với đề tài về “Histograms of Oriented
Gradients for Human Detection”, năm 2005 [5]. Navneet Dalal và Bill Triggs đã
nghiên cứu phương pháp sử dụng các đặc trưng Histograms of Oriented Gradients
(HOG) để nhận dạng người và sử dụng máy vector hỗ trợ (SVM) để phân loại. Từ đó
trên thế giới có rất nhiều nghiên cứu dựa trên đặc trưng HOG để nhận dạng người đi
đường, nhận dạng xe và các loại đồ vật được ra đời. Năm 2009, các tác giả VA
Prisacariu, I D Reid cải thiện tốc độ xác định các đặc trưng HOG của máy tính trong
nghiên cứu “fastHOG - a real-time GPU implementation of HOG” [24]. Phương pháp
sử dụng các đặc trưng HOG được tối ưu hơn. Các tác giả Zhu et al. tăng tốc HOG
bằng cách sử dụng ảnh tích phân [22, 35].
Nổi bật là cơng trình của các tác giả Dollar P. et al. đã đề xuất một phương pháp
mở rộng của Viola và Jones, trong đó các đặc trưng Haar-like được tính tốn trên
nhiều kênh của dữ liệu (ví dụ như các kênh màu LUV, biên độ gradient, đặc trưng
HOG) [9]. Cách tiếp cận này được mở rộng trong nghiên cứu “The Fastest Pedestrian
Detector in the West (FPDW)” [8] và “Fast feature pyramids for object detection” [7],
trong đó đề xuất phương pháp nhận dạng multi-scale sau khi chứng minh được rằng
17


các đặc trưng được tính ở một tỉ lệ scale có thể được dùng để tính xấp xỉ các đặc trưng
ở các tỉ lệ lân cận. Phương pháp này cho kết quả độ chính xác cao và tốc độ xử lý
nhanh. Phương pháp này sẽ được tìm hiểu và trình bày chi tiết trong chương 3 của
luận văn.

1.4 Kết luận chương
Trong chương 1, luận văn đã trình bày lý thuyết tổng quan về hệ thống nhận diện
người, trong đó tập trung vào trường hợp nhận diện người đi đường. Chương này
cũng đã trình bày những khó khăn, thách thức trong bài toán nhận diện, cũng như
những kết quả nghiên cứu mới trên thế giới trong việc giải quyết bài toán này.
Trong chương 2, luận văn sẽ trình bày cơ sở lý thuyết của một số vấn đề liên quan

trực tiếp tới phương pháp nhận diện người được sử dụng trong luận văn.

18


CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
Chương này trình bày cơ sở lý thuyết về các khái niệm trong xử lý ảnh có liên
quan tới phương pháp nhận diện người đi đường, sẽ được trình bày trong chương 3.

2.1 Gradient của ảnh và đặc trưng biên độ gradient
2.1.1 Khái niệm gradient trong xử lý ảnh số
Trong lĩnh vực ảnh số, gradient là một khái niệm cơ bản trong lĩnh vực xử lý ảnh
số. Theo cách hiểu đơn giản, gradient của một ảnh là sự thay đổi có hướng của cường
độ sáng hoặc màu sắc trong ảnh. Gradient ảnh thường được dùng để trích xuất thơng
tin từ ảnh. Gradient ảnh là phép biến đổi nền tảng trong rất nhiều phương pháp xử lý
ảnh số. Một số ví dụ về ứng dụng của gradient trong xử lý ảnh như: phương pháp
phát hiện đường viền Canny [3], đặc trưng HOG [5] (mục 2.2), …
Định nghĩa: Gradient là một vector 𝑓(𝑥, 𝑦) có các thành phần biểu thị tốc độ thay
đổi mức xám của điểm ảnh (pixel) theo 2 hướng x, y trong bối cảnh xử lý ảnh hai
chiều.
Hình 2.1 minh họa ví dụ về 2 dạng của gradient trong hai bức ảnh mức xám khác
nhau. Trong bức ảnh đầu tiên, các giá trị cao dần về tâm, gradient có hướng về tâm.
Trong ảnh thứ hai, các giá trị cao dần từ phải qua trái và gradient cũng có hướng từ
phải qua trái.

Hình 2. 1 : Hai dạng của gradient. Mũi tên chỉ hướng gradient. Vùng màu tối thể hiện giá trị
cao hơn

19



Các thành phần theo hai hướng của gradient được tính dựa trên công thức đạo
hàm bậc nhất như sau:
𝜕𝑓(𝑥, 𝑦)
𝑓 (𝑥 + 𝑑𝑥, 𝑦) − 𝑓(𝑥, 𝑦)
= 𝑓 ′ 𝑥 = ∆𝑥 ≈
𝜕𝑥
𝑑𝑥
(
) − 𝑓(𝑥, 𝑦)
𝜕𝑓(𝑥, 𝑦)
𝑓
𝑥,
𝑦
+
𝑑𝑦
= 𝑓 ′ 𝑦 = ∆𝑦 ≈
𝜕𝑦
𝑑𝑦

(2.1)
(2.2)

Trong đó dx, dy là khoảng cách giữa 2 điểm kế cận nhau theo hướng x, y tương
ứng. Đây là phương pháp dựa theo đạo hàm bậc nhất theo hướng x, y.
Thực tế trong xử lý ảnh ta thường chọn dx = dy = 1 (tính lân cận tức là điểm ngay
cạnh nó, nên có thể coi khoảng cách của chúng là 1) tại điểm có tọa độ là (i, j), thay
vào công thức trên ta được:
∆𝑥 = 𝑓 (𝑖 + 1, 𝑗) − 𝑓(𝑖, 𝑗)


(2.3)

∆𝑦 = 𝑓(𝑖, 𝑗 + 1) − 𝑓(𝑖, 𝑗)

(2.4)

Theo định nghĩa về gradient, nếu áp dụng các công thức từ (2.1) đến (2.4) vào xử
lý ảnh, q trình tính tốn sẽ phức tạp. Để đơn giản hóa việc tính tốn mà khơng làm
mất đi tính chất của gradient, người ta sử dụng kỹ thuật gradient dùng cặp mặt nạ Hx,
Hy trực giao (theo 2 hướng vng góc).
Hình 2.2 minh họa một ảnh mức xám gốc và ảnh gradient tương ứng theo chiều
ngang và chiều dọc.

Hình 2. 2 : Ảnh mức xám và ảnh gradient tương ứng theo chiều x và chiều y

Nếu định nghĩa 𝑔1 , 𝑔2 là gradient theo hai hướng x, y tương ứng tại điểm có tọa
độ (m, n), thì biên độ (độ lớn) gradient tại điểm (m, n) và hướng góc của gradient
được tính theo cơng thức (2.5) và (2.6):

20


𝐴0 = 𝑔(𝑚, 𝑛) = √𝑔1 2 (𝑚, 𝑛) + 𝑔2 2 (𝑚, 𝑛)
𝑔2
𝜃 = arctan( )
𝑔1
Để giảm độ phức tạp tính tốn, 𝐴0 được tính gần đúng như sau:

(2.5)
(2.6)


(2.7)

𝐴0 ≈ |𝑔1 (𝑚, 𝑛)| + |𝑔2 (𝑚, 𝑛)|

Công việc tiếp theo là lựa chọn cặp mặt nạ Hx và Hy sẽ sử dụng và phải tính 𝑔1 ,
𝑔2 thơng qua cặp mặt nạ đó. Các cặp mặt nạ này cịn được gọi là toán tử gradient.
Sau đây chúng ta xét một số toán tử gradient tiêu biểu thường được sử dụng.
Toán tử Robert: toán tử Robert [25] sử dụng cặp mặt nạ sau để tính tốn gradient
tại một điểm:
+1 0
0 +1
]
]
𝐻𝑥 = [
𝐻𝑦 = [
0 −1
−1 0
Toán tử Robert là một tốn tử đơn giản và có tốc độ tính tốn nhanh. Hình 2.3 (a)
ví dụ một bức ảnh mức xám đầu vào và trong hình 2.2(b) là ảnh độ lớn gradient tương
ứng sử dụng tốn tử Robert.

(a)

(b)

(c)
(d)
Hình 2. 3 : Ảnh độ lớn gradient sử dụng các toán tử khác nhau


21


×