Tải bản đầy đủ (.pdf) (64 trang)

Nghiên cứu và phát hiện hệ thống phát hiện người trong không gian 3d theo thời gian thực sử dụng dữ liệu rgb d

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.57 MB, 64 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-------------------------------

LÊ THỊ MAI

NGHIÊN CỨU VÀ PHÁT TRIỂN HỆ THỐNG PHÁT HIỆN
NGƯỜI TRONG KHÔNG GIAN 3D THEO THỜI GIAN THỰC
SỬ DỤNG DỮ LIỆU RGB-D

LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

Hà Nội – 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-------------------------------

LÊ THỊ MAI

NGHIÊN CỨU VÀ PHÁT TRIỂN HỆ THỐNG PHÁT HIỆN
NGƯỜI TRONG KHÔNG GIAN 3D THEO THỜI GIAN THỰC
SỬ DỤNG DỮ LIỆU RGB-D

LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TRẦN QUANG ĐỨC




MỤC LỤC
LỜI CAM ĐOAN ...........................................................................................3
CHƢƠNG 1: GIỚI THIỆU ..............................................................................9
1.1

Mục đích nghiên cứu của đề tài .......................................................9

1.2

Phạm vi nghiên cứu của đề tài .......................................................10

1.3

Bố cục của luận văn .......................................................................10

CHƢƠNG : CƠ SỞ L THUY T ..............................................................12
2.1

Tiền xử lý .......................................................................................16

2.1.1 Giảm mẫu ...................................................................................16
2.1.2 Phân vùng...................................................................................17
2.2

Trích ch n đặc trƣng ......................................................................23

2.2.1 Kh i niệm HOG .........................................................................23
2.2.2 C c ƣớc tính vector HOG cho ảnh ...........................................25

2.3

Phân lớp, phát hiện đối tƣợng bằng phƣơng ph p h c máy SVM .26

2.3.1 Khái niệm m y véc tơ hỗ trợ......................................................27
2.3.2 Mơ hình phân lớp SVM .............................................................27
2.3.3 Chuyển đổi không gian dữ liệu SVM ........................................29
CHƢƠNG 3 X Y D NG CHƢƠNG TR NH PHÁT HIỆN NGƢỜI ........31
3.1

ặc tả chƣơng tr nh ........................................................................31

3.2

Các thƣ viện mã nguồn mở ............................................................32

3.3

Sơ đồ giải thuật chƣơng tr nh .........................................................34

3.4

Quá trình xử lý dữ liệu cho phát hiện ngƣời ..................................36

3.4.1 Các kiểu dữ liệu trong Point Cloud ...........................................37
3.4.2 Cách khai báo dữ liệu cho Point Cloud .....................................38
3.4.3 Chuyển đổi các kiểu dữ liệu cho Point Cloud ...........................38
3.4.4 Mở và lƣu file ............................................................................39
3.4.5 Nối giữa hai Point Cloud ...........................................................40
3.4.6 Tiền xử lý ...................................................................................40

3.4.7 Trích ch n đặc trƣng với HOG ..................................................50
3.4.8 Phân lớp phát hiện ngƣời ...........................................................52
1


3.5

Xây dựng chƣơng tr nh ..................................................................53

3.5.1 Xây dựng giao diện ....................................................................53
3.5.2 Chức năng tự động phát hiện mặt phẳng ...................................55
3.5.3 Phát hiện ngƣời ..........................................................................56
3.6

Khảo nghiệm và đ nh gi hệ thống................................................57

K T LUẬN VÀ HƢỚNG PHÁT TRIỂN .....................................................61
TÀI LIỆU THAM KHẢO ..............................................................................62

2


LỜI CAM ĐOAN
Tên t i là: Lê Th Mai
Sinh ngày: 16 th ng 1 năm 1986
H c viên lớp Cao h c C ng nghệ th ng tin

16

- Trƣờng


ại h c Bách

Khoa Hà Nội.
T i xin cam đoan toàn ộ nội dung của luận văn mà t i thực hiện trong thời
gian vừa qua là trung thực và không sao chép của ai.

Hà Nội, ngày 28 tháng 8 năm 2018
Tác giả luận văn

Lê Th Mai

3


LỜI CẢM ƠN
Trƣớc tiên em xin đƣợc gửi lời cảm ơn tới Ban Giám Hiệu Trƣờng

ại

h c Bách Khoa Hà Nội đã tạo điều kiện cho em đƣợc làm luận văn tốt nghiệp này.
Sau thời gian nghiên cứu và làm việc miệt mài, luận văn tốt nghiệp của em đến nay
cơ ản đã hồn thành Có đƣợc thành quả đó, ngồi sự cố gắng nỗ lực của bản thân
cịn phải kể đến sự giúp đỡ rất lớn từ thầy giáo TS. Trầ

Đ

, ngƣời đã

trực tiếp hƣớng dẫn, chỉ bảo tận tình và cung cấp tài liệu, kiến thức cũng nhƣ kinh

nghiệm quý báu cho em trong suốt thời gian làm luận văn Qua đây em xin đƣợc
bày tỏ lòng biết ơn sâu sắc tới thầy, kính chúc thầy ln mạnh khoẻ và công tác tốt.
Em xin chân thành cảm ơn c c thầy cô của Viện Công nghệ thông tin và
Truyền thơng đã hết sức nhiệt tình truyền thụ cho chúng em không chỉ những kiến
thức chuyên môn mà cả những kinh nghiệm quý

u Em cũng xin cảm ơn Ban

Giám Hiệu, c c đồng nghiệp trƣờng Cao đẳng Cơ điện và C ng nghệ thực ph m Hà
Nội đã tạo điều kiện và tận t nh giúp đỡ em trong việc tìm hiểu, tiếp cận các kiến
thức.
Cuối cùng em xin gửi lời cảm ơn chân thành tới gia đ nh và ạn bè. Chính
gia đ nh và ạn è đã là nguồn động viên hỗ trợ vô cùng to lớn giúp em có thêm
động lực và sự khích lệ để hồn thành luận văn này
Trong q trình thực hiện đề tài, mặc dù đã cố gắng, tuy nhiên vì thời gian có
hạn và tr nh độ cịn hạn chế nên luận văn kh ng tr nh khỏi những thiếu sót. Em
kính mong nhận đƣợc các góp ý của Hội đồng Khoa h c và các bạn để đề tài đƣợc
hoàn thiện hơn
Em xin trân tr ng cảm ơn!

4


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Kí hiệ

Tiế

A h


Tiế

RGB

Red Green Blue

Ảnh màu

RGB-D

Red Green Blue – Depth

Ảnh màu – độ sâu

2D

2 Dimensional

chiều

3D

3 Dimensional

3 chiều

Việt

Thuật to n loại ỏ nền


RANSAC Random Sample Consensus
SVM

Support Véc tơ Machine

M y véc tơ hỗ trợ

PCL

Point Cloud Library

Thƣ viện mở xử lý đ m mây điểm

VTK

Visualization Toolkit

Thƣ viện cung cấp các hàm hiển th

HOG

Histogram of Oriented

Thuật to n trích xuất đặc trƣng

Gradients
TN

Số lƣợng điểm của lớp Negative


True Negative

đƣợc phân loại đúng vào lớp
Negative
TP

Số lƣợng điểm của lớp Positive

True Positive

đƣợc phân loại đúng vào lớp
Positive
FN

Số lƣợng điểm của lớp Negative

False Negative

phân loại sai vào lớp Negative
FP

Số lƣợng điểm của lớp Positive

False Positive

phân loại sai vào lớp Positive

5



DANH MỤC CÁC HÌNH VẼ
H nh 1 Sơ đồ giai đoạn huấn luyện và phân lớp .........................................12
H nh
Sơ đồ giai đoạn thử nghiệm ............................................................13
H nh 3 Sơ đồ giai đoạn phát hiện đối tƣợng ...............................................13
Hình 2.4 Quá trình phát hiện đối tƣợng .........................................................15
Hình 2.5 Voxel grid trong khơng gian ba chiều .............................................16
Hình 2.6 Thay thế c c điểm trong mỗi voxel bằng điểm trung bình .............17
Hình 2.7(a)Tập dữ liệu đầu vào thuật toán RANSAC, (b)Kết quả thử khớp
đƣờng thẳng với thuật tốn RANSAC ......................................................................19
Hình 2.8 Kết quả của phép biến đổi RANSAC ..............................................21
Hình 2.9 Các cụm điểm thành nhóm riêng biệt .............................................22
Hình 2.10 Hình ảnh HOG ..............................................................................23
Hình 2.11 ầu ra của HOG ............................................................................24
Hình 2.12 Ảnh input và hai đạo hàm của nó ..................................................25
Hình 2.13 Siêu phẳng (w, b) tối ƣu phân chia class ....................................28
Hình 2.14 Chuyển đổi khơng gian dữ liệu SVM ...........................................29
Hình 3.1 Xtion Pro Live .................................................................................31
Hình 3.2 Ảnh RGB và ảnh độ sâu (Depth) ....................................................32
Hình 3.3 Logo của Point Cloud Library.........................................................33
H nh 3 4 Sơ đồ luồng xử lý của chƣơng tr nh ................................................35
H nh 3 5 Sơ đồ giải thuật chƣơng tr nh ..........................................................36
Hình 3.6 Dữ liệu ảnh 3D trƣớc và sau khi áp dụng bộ l c Voxel grid ..........41
Hình 3.7 Biểu đồ biểu diễn sự thay đổi điểm ảnh khi thay đổi kích thƣớc ơ
lƣới ............................................................................................................................42
Hình 3.8 Biểu đồ biểu diễn sự thay đổi thời gian khi thay đổi kích thƣớc ơ
lƣới ............................................................................................................................42
H nh 3 9 Sơ đồ đ nh nghĩa mặt phẳng nền .....................................................43
Hình 3.10 Dữ liệu sau khi loại bỏ mặt phẳng nền ..........................................44
Hình 3.11 Dữ liệu sau khi đƣợc nhóm sử dụng Euclidean ............................45

H nh 3 1 Phân đoạn đối tƣợng ngƣời thành các phần theo đặc điểm nhân
trắc h c ......................................................................................................................47
Hình 3.13 Biểu diễn nhóm khi ngƣời đi s t nhau trong phân vùng sử dụng
hình h c 3D ...............................................................................................................47
Hình 3.14 Phát hiện đầu và chia cắt thành nhóm khi có ngƣời đứng cạnh
nhau ...........................................................................................................................49
Hình 3.15 Phát hiện đầu và chia cắt khi ngƣời đứng cạnh vật .......................49
Hình 3.16 Ảnh dữ liệu ngƣời b che khuất .....................................................50
Hình 3.17 Mở rộng c c đối tƣợng b che khuất đến mặt phẳng nền nhà .......50
Hình 3.18 Tồn bộ c c nhóm đƣợc tính HOG ...............................................51
6


Hình 3.19 Sau khi áp dụng hợp nhất các nhóm .............................................52
Hình 3.20 Áp dụng ngƣỡng kích thƣớc cho tất cả các nhóm cịn lại .............53
Hình 3.21 Giao diện chính .............................................................................53
Hình 3.22 Các chức năng thực hiện ...............................................................54
Hình 3.23 Quản lý đối tƣợng..........................................................................54
Hình 3.24 Thiết lập mặt phẳng sàn nhà..........................................................54
Hình 3.25 Hiển th các kết quả xử lý..............................................................55
Hình 3.26 Lựa ch n các thơng số khi tìm các mặt phẳng ..............................55
Hình 3.27 Các mặt phẳng đƣợc tự động phát hiện và khoanh vùng ..............56
Hình 3.28 Các tham số lựa ch n cho phát hiện ngƣời ...................................56
Hình 3.29 Phát hiện ngƣời khi đứng quay mặt về phía camera .....................57
Hình 3.30 Phát hiện ngƣời khi đứng nghiêng so với camera .........................57
DANH MỤC CÁC BẢNG BIỂU
Bảng 3-1 Bảng thống kê thời gian thực hiện và số điểm ảnh khi thay đổi kích
thƣớc lƣới ...............................................................................................................41
Bảng 3-2 Bảng th ng kê c c đối tƣợng sau khi sử dụng phƣơng ph p phân
vùng Euclidean ..........................................................................................................46

Bảng 3-3 Bảng kết quả x c đ nh độ chính xác phát hiện ...............................59

7


LỜI MỞ ĐẦU
Ph t hiện đối tƣợng là một bài tốn quan tr ng trong lĩnh vực th giác máy
tính và nhận đƣợc sự quan tâm lớn của cộng đồng các nhà nghiên cứu trong thời
gian gần đây Và đây cũng là hƣớng nghiên cứu có nhiều ứng dụng trong thực tế:
quân sự, giao thông, y tế, d ch vụ… Một nhánh trong phát hiện đối tƣợng là phát
hiện ngƣời trong ảnh, video

ối với con ngƣời thì việc nhận biết c c đối tƣợng là

ngƣời trong các ảnh hoặc video là tƣơng đối dễ dàng dù sự khác nhau là rất đa dạng.
Nhƣng đối với th giác máy tính thì cơng việc này vẫn cịn là thách thức lớn.
Hiện nay, hƣớng nghiên cứu th giác máy tính khơng chỉ tập trung vào việc
xử lý ảnh màu 2D mà còn phát triển cả các công cụ xử lý ảnh 3D. Các loại camera
3D trên th trƣờng thƣờng sử dụng kết hợp camera màu RGB truyền thống và
camera độ sâu (Depth), cho đầu ra là ảnh kết hợp RGB-D. Bài toán nhận diện và
phân loại các bề mặt vật thể nói chung và ài to n ph t hiện ngƣời nói riêng sử
dụng camera RGB-D là một ƣớc khởi đầu cho việc nghiên cứu th giác máy tính
theo xu hƣớng mới hiện nay.
Trong khuôn khổ của đề tài, t i hƣớng đến giải quyết ài to n ph t hiện
ngƣời theo thời gian thực thông qua camera RGB_D.

8


1


CHƢƠNG 1: GIỚI THIỆU

Hiện nay các hệ thống phát hiện ngƣời chủ yếu th ng qua xử lý ảnh màu D,
tuy nhiên các hệ thống có một số điểm hạn chế: khó ph t hiện đƣợc ngƣời khi h nh
ảnh

che khuất một phần; Dễ

nhƣ ảnh hoặc h nh ảnh trên

nhầm lẫn với đối tƣợng kh ng phải là ngƣời thật

a…Cùng với sự phát triển mạnh mẽ và việc giảm giá

thành của các thiết b thu nhận ảnh 3D, c c phƣơng ph p phát hiện đối tƣợng 3D
đang đƣợc nghiên cứu rộng rãi trên thế giới. Với dữ liệu ảnh RGB-D cho phép hệ
thống dễ dàng phân đoạn đối tƣợng, phân t ch c c đối tƣợng khi có sự che khuất
một phần…qua đó nâng cao tốc độ xử lý và độ chính x c của hệ thống thống ph t
hiện ngƣời Một số ứng dụng tiêu biểu trong bài toán phát hiện ngƣời nhƣ:
- Tăng cƣờng an ninh cho khu vực cần đƣợc ảo vệ, tr nh sự xuất hiện của
con ngƣời: Khu vực độc hại, khu vực quân sự
- Sử dụng trong hệ thống hỗ trợ lái xe.
- Sử dụng trong c c Ro ot tự hành, là trợ lý ảo trong c c lĩnh vực nhƣ: Quản
lý hành chính, tiếp dân; Chăm sóc y tế; Nhà hàng, qu n cà phê …
- Trong ng i nhà th ng minh: Tự động ật đèn, khởi động hệ thống giải trí
đ p ứng nhu cầu của con ngƣời
1.1 Mụ đí h

hiê


u củ đề tài

- Tìm hiểu, nghiên cứu đƣợc c c k thuật xử lý đ m mây điểm: Tiền xử lý,
phân vùng c c đối tƣợng, trích ch n đặc trƣng và phân lớp cho quá trình phát hiện.
- Xây dựng hệ thống phát hiện đối tƣợng ngƣời trong khung cảnh đứng hoặc
đi ộ trên sàn nhà. Dữ liệu RGB_D đƣợc lấy từ camera 3D: Microsoft Kinect, Asus
Xtion Pro … dƣới dạng đ m mây điểm

ối tƣợng ngƣời đƣợc phát hiện trong giới

hạn là trạng th i đứng và có khoảng cách từ 2~5m tới camera.
Một hệ thống phát hiện ngƣời đƣợc xây dựng qua nhiều c ng đoạn khác
nhau, nhƣng có thể khái quát chung hệ thống phát hiện ngƣời gồm 4 ƣớc cơ ản:
Tiền xử lý, phân vùng, trích ch n đặc trƣng, phát hiện ngƣời.
9


- Tiền xử lý: Hệ thống nhận dữ liệu đầu vào là ảnh màu RGB-D th ng qua
thiết

đầu vào camera RGB_D nhƣ: Microsoft Kinect,

sus Xtion Pro… Tiền xử

lý gồm có giảm mẫu, loại bỏ c c điểm dƣ thừa. Mục đích của q trình này là l c đi
những dữ liệu thừa, giảm dung lƣợng dữ liệu cần xử lý nhằm giảm thời gian tính
to n cho c c ƣớc sau.
- Phân vùng: Là qu tr nh ghép c c điểm trong một đ m mây điểm vào một
mơ hình hình h c đơn giản nhƣ mặt phẳng, mặt trụ, mặt cầu. Q trình này có tác

dụng đơn giản hóa dữ liệu đ m mây điểm, giúp nâng cao hiệu quả xử lý của hệ
thống.
- Trích ch n đặc trƣng: Sử dụng đặc trƣng để trích xuất ra thơng tin đặc trƣng
riêng biệt của từng đối tƣợng.
- Nhận dạng ngƣời: Sử dụng phƣơng ph p SVM để phát hiện ngƣời.
1.2 Phạm vi nghiên c u củ đề tài
- C c k thuật xử lý đ m mây điểm: Giảm mẫu, phân vùng c c đối tƣợng,
trích ch n đặc trƣng và phân lớp cho quá trình phát hiện.
- Thƣ viện mã nguồn mở: Thƣ viên OpenIN, thƣ viện PCL, thƣ viện VTK.
Trong luận văn này, t i xây dựng phần mềm với ý tƣởng chính phát triển từ
nghiên cứu của M. Munaro và E. Menegatti để giải quyết bài toán phát hiện ngƣời
trong không gian 3D theo thời gian thực sử dụng dữ liệu RGB_D [1], [2].
1.3 Bố cục của luậ vă
Luận văn gồm phần mở đầu, 3 chƣơng chính và cuối cùng là phần kết luận
và hƣớng phát triển, cụ thể:
Mở đầu
Chƣơng 1: Giới thiệu
Nội dung chƣơng 1: Giới thiệu tổng quan về hệ thống phát hiện ngƣời, mục
đích, đối tƣợng, phạm vi nghiên cứu và bố cục của luận văn
10


Chƣơng : Cơ sở lý thuyết
Nội dung chƣơng : Trình bày các k thuật xử lý với đ m mây điểm áp dụng
trong quá trình phát hiện ngƣời.
Chƣơng 3: Xây dựng chƣơng tr nh phát hiện ngƣời
Nội dung chƣơng 3:

ặc tả về phần mềm phát hiện ngƣời, quá trình xử lý để


phát hiện ngƣời. Xây dựng phần mềm phát hiện ngƣời, khảo nghiệm và đ nh gi hệ
thống.
Kết luận và hƣớng phát triển

11


2

CHƢƠNG : CƠ Ở

TH

ẾT

Một hệ thống phát hiện ngƣời gồm nhiều giai đoạn nhƣng tổng hợp lại chia
thành 4 giai đoạn chủ yếu:
- Giai đoạn huấn luyện (training): Chúng ta cần có một dữ liệu lớn các hình
ảnh 3D của c c đối tƣợng bao gồm c c đối tƣợng cần cho x c đ nh nhận dạng và
c c đối tƣợng khác có tần suất xuất hiện cao trong khung cảnh thu nhận Sau đó p
dụng c c phƣơng ph p trích ch n đặc trƣng HOG để tính to n c c đặc trƣng toàn
cục và lƣu trữ theo c c nhãn đối tƣợng tƣơng ứng, trong đó ao gồm 2 lớp đối
tƣợng là ngƣời và c c đối tƣợng khác.
- Giai đoạn phân lớp (classification):

ể phân lớp c c đối tƣợng khác nhau

chúng ta sử dụng c c phƣơng ph p phân lớp SVM (Support Vector Machine), NN
(Nearest Neigh or), Naïve Bayer … Trong trƣờng hợp nhận dạng tập nhiều đối
tƣợng thì giải pháp sử dụng phƣơng ph p BOW (Bag of Words) để tổng hợp biểu

đồ đặc trƣng cho tổng thể c c đối tƣợng, sau đó p dụng phân nhóm để so khớp biểu
đồ đặc trƣng riêng c c lớp so với biểu đồ đặc trƣng tổng thể để phân lớp giữa các
tập đối tƣợng.

12
Hình 2.1 Sơ đồ giai đoạn huấn luyện và phân lớp


- Giai đoạn thử nghiệm (testing): Sử dụng các tập đối tƣợng Positive (ngƣời)
và Negative (đối tƣợng khác) của tất cả các lớp cần nhận dạng để x c đ nh tham số
nhận dạng tốt nhất.

Hình 2.2 Sơ đồ giai đoạn thử nghiệm
- Giai đoạn phát hiện (detection): Áp dụng các thuật toán tiền xử lý để áp
dụng giảm mẫu, phân vùng đối tƣợng và tính biểu đồ đặc trƣng cục bộ hoặc toàn
cục. Biểu đồ toàn cục giúp phát hiện nhanh đối tƣợng trong hoạt cảnh hoặc với lớp
đối tƣợng có hình dạng tƣơng tự nhau, cịn biểu đồ cục bộ để x c đ nh chính x c đối
tƣợng cần x c đ nh.
Ảnh đầu
vào

Tiền xử


Tách ảnh RGB

Hiển th
kết quả

Chu n hóa kích

thƣớc 128 x 64

Phân lớp
với SVM

Hình 2.3 Sơ đồ giai đoạn phát hiện đối tượng
13

HOG

File huấn
luyện


Nhận dạng 3D khác với 2D là thông tin chứa trong tập dữ liệu của nó, chúng
ta thƣờng chia ra làm 2 dạng: Dạng 1 là chỉ chứa thông tin hình h c khơng gian
XYZ, dạng 2 chứa thêm thơng tin màu sắc XYZRGB, nhƣ vậy thơng tin chúng ta
có trong ảnh 3D là nhiều hơn và do vậy độ chính x c cũng cao hơn Một lợi thế của
xử lý ảnh 3D là phân đoạn đối tƣợng dễ thực hiện và chính x c hơn so với ảnh 2D,
cho dù thuật toán thực hiện phức tạp dựa trên xử lý hình h c, vì vậy thời gian thực
thi lâu hơn
Trong các giai đoạn trên, chúng ta có thể tổng hợp thành các quá trình xử lý
dữ liệu nhƣ sau: Tiền xử lý, trích ch n đặc trƣng, phân lớp phát hiện ngƣời.
- Tiền xử lý: Có nhiệm vụ giảm số lƣợng điểm cần tính to n đi nhiều lần mà
vẫn giữ đƣợc c c đặc tính hình h c cần thiết, tách bỏ đối tƣợng ra khỏi nền và tách
giữa c c đối tƣợng “gắn liền” với nhau thành các tập dữ liệu riêng biệt.
- Trích ch n đặc trƣng: Tính, rút trích ra đặc trƣng mỗi đối tƣợng. Mỗi đối
tƣợng sẽ đƣợc biểu diễn dƣới dạng 1 vector đặc trƣng có độ dài 128x64.
- Phân lớp phát hiện ngƣời: Những đặc trƣng đƣợc rút trích ra từ c c đối
tƣợng sẽ đƣợc cho vào bộ huấn luyện phân lớp, với tập dữ liệu đã đƣợc huấn luyện,

chúng ta có thể x c đ nh đâu là đối tƣợng ngƣời và đâu là c c đối tƣợng “kh c” căn
cứ vào ngƣỡng giá tr trong qu tr nh đ nh gi với tập dữ liệu mẫu.

14


Ả h đầu vào
Tiền xử lý
Giảm mẫu

Phân vùng
T ch đối tƣợng

Loại bỏ nền

Trích chọ đặ trƣ
với từ đối tƣợng

Phân lớp phát hiệ
File huấn
luyện

ƣời

Phân lớp
dữ liệu

Hiển thị kết quả
Hình 2.4 Quá trình phát hiện đối tượng
Trong luận văn t i hƣớng tới xây dựng hệ thống phát hiện ngƣời với các k

thuật đƣợc áp dụng cho c c ƣớc nhƣ sau:
- Tiền xử lý: Giảm mẫu: Sử dụng bộ l c Voxel; Phân vùng: Sử dụng phƣơng
ph p R NS C để loại bỏ nền và sử dụng khoảng cách vật lý và giải thuật tìm kiếm
điểm lân cận để t ch c c đối tƣợng.
- Trích ch n đặc trƣng: Sử dụng đặc trƣng HOG (Histogram of Oriented
Gradients)
- Phân lớp, phát hiện ngƣời: Sử dụng mơ hình phân lớp SVM (Support
Vector Machine)
15


2.1 Tiền xử lý
Việc lƣu trữ và xử lý một đ m mây điểm lớn với hàng trăm ngàn điểm dƣới
dạng c c điểm trong không gian ba chiều là một tác vụ rất tiêu tốn tài nguyên phần
cứng và cũng là ngun nhân chính dẫn đến tình trạng thắt cổ chai trong các hệ
thống Trong khi đó, trong tập dữ liệu đ m mây điểm, chúng ta chỉ cần các dữ liệu
liên quan đến các vật thể cần x c đ nh bề mặt. Trong phần này sẽ trình bày các k
thuật tiền xử lý đ m mây điểm, qua đó chúng ta có thể giảm số lƣợng điểm cần tính
to n đi nhiều lần mà vẫn giữ đƣợc c c đặc tính hình h c cần thiết.
2.1.1 Giảm mẫu
Giảm mẫu có mục đích giảm số lƣợng c c điểm trong một đ m mây điểm mà
không làm mất c c đặc trƣng trong đ m mây điểm. Một đ m mây điểm sau khi
giảm mẫu sẽ có số điểm ít hơn so với an đầu, giúp giảm khối lƣợng tính tốn cho
c c ƣớc tiếp theo Phƣơng ph p giảm mẫu đƣợc dùng ở đây sử dụng bộ l c lƣới
voxel (voxel grid filter) [3].
Mỗi voxel là một h nh hộp, iểu diễn một gi tr điểm trong kh ng gian
Kh i niệm voxel trong kh ng gian a chiều cũng giống nhƣ kh i niệm điểm ảnh
(pixel) trong mặt phẳng hai chiều Th ng thƣờng khi iểu diễn đồ h a ằng voxel
th mỗi voxel sẽ đại diện cho một điểm, tƣơng đƣơng với t a độ và màu của điểm
đó


Hình 2.5 Voxel grid trong khơng gian ba chiều
Bộ l c lƣới voxel là phƣơng ph p giảm mẫu bằng c ch đƣa đ m mây điểm
vào trong một không gian gồm c c lƣới voxel, với kích thƣớc của lƣới lớn hơn so
16


với khoảng cách giữa một điểm và điểm gần nó nhất Nói c ch kh c, độ phân giải
của đ m mây điểm phải lớn hơn độ phân giải của lƣới voxel Sau đó với mỗi voxel,
giải thuật sẽ tính tốn tâm trung bình của c c điểm bên trong và thay thế c c điểm
này bằng duy nhất một điểm tại tâm trung bình.

Hình 2.6 Thay thế các điểm trong mỗi voxel bằng điểm trung bình
Phƣơng ph p này có thời gian thực hiện lâu hơn so với phƣơng ph p đơn
giản là thay thế bằng điểm nằm ở trung tâm mỗi voxel. Tuy nhiên nó có thể giảm
mẫu một đ m mây điểm mà vẫn giữ lại nhiều hơn c c đặc tính hình h c. Một ƣu
điểm khác của phƣơng ph p này là trong một số trƣờng hợp, nó cịn giúp giảm
nhiễu ngẫu nhiên trên tập dữ liệu đầu vào nhờ vào nguyên tắc lấy trung bình các
mẫu.
2.1.2 Phân vùng
m mây điểm ba chiều là tập hợp c c điểm trong hệ thống t a độ ba chiều,
chúng đƣợc thu thập từ c c m y quét 3D nhƣ Kinect,

sus Xtion Pro, laser

rangefinger… mỗi điểm chứa các giá tr t a độ ba chiều x, y, z biểu diễn hình dạng
hình h c của một đối tƣợng, mỗi điểm này cũng có thể chứa thêm các thông tin nhƣ
giá tr màu RGB hoặc giá tr mật độ.
Phân vùng ảnh là một ƣớc quan tr ng trong các ứng dụng xử lý ảnh Phân
vùng ảnh là qu tr nh ghép nhóm c c điểm trong một đ m mây điểm vào một mơ

hình hình h c đơn giản nhƣ mặt phẳng, mặt trụ, mặt cầu, … sao cho c c điểm trong
đ m mây điểm có khoảng c ch đến mơ hình nằm trong khoảng cho phép C c điểm
thuộc m h nh sau đó sẽ đƣợc đ nh dấu để từ đó có thể thay thế c c điểm bằng một
m h nh đơn giản. Quá trình này có tác dụng đơn giản hóa dữ liệu đ m mây điểm,
giúp nâng cao hiệu quả xử lý của hệ thống.
17


2.1.2.1 Loại bỏ nền
Sau khi đ m mây điểm 3D đƣợc giảm mẫu và loại bỏ c c điểm nhiễu để phục
vụ cho việc phát hiện đối tƣợng trong hoạt cảnh ta phải t ch đƣợc c c đối tƣợng đó
ra C c đối tƣợng thƣờng đƣợc đặt trên nền nào đó, giả sử lấy mẫu

t trên đƣờng

th đƣờng là nền, hoặc lấy mẫu ngƣời trong phòng th tƣờng và nền nhà trong phòng
là nền hay hậu cảnh… Vậy nên muốn t ch c c đối tƣợng riêng rẽ thì phải có các
thuật to n để loại bỏ các nền đó, đó là c c ƣớc loại bỏ nền hay loại bỏ hậu cảnh.
Trong phần này sẽ trình bày về phƣơng ph p loại bỏ hậu cảnh RANSAC (Random
Sample Consensus) [6], [12].
Phƣơng ph p R NS C là một phƣơng ph p lặp đƣợc sử dụng để đ nh gi
các tham số của một mơ hình từ một tập dữ liệu, một quá trình lặp gồm ch n ngẫu
nhiên các nhóm phụ trong tập dữ liệu và kiểm tra nhóm đó để đ nh gi lỗi so với
các tham số m h nh đã xây dựng trƣớc đó, qu tr nh lặp kết thúc khi chúng ta tìm
đƣợc một mơ hình mà lỗi của nó thấp hơn lỗi của c c m h nh đã đƣợc lƣu trƣớc đó
Vì thế mà chỉ bằng c ch đ nh nghĩa c c tham số cho đ m mây điểm nền mà ta đang
cần tìm, ta có thể dễ dàng t m ra nó trong đ m mây điểm Ƣu điểm của phƣơng
pháp này là khả năng ƣớc lƣợng các tham số mô hình, nó có thể ƣớc lƣợng các tham
số của mơ hình với độ chính xác cao dù trong tập dữ liệu có nhiều điểm khơng
thuộc m h nh, nhƣng nhƣợc điểm của phƣơng ph p là kh ng x c đ nh đƣợc mức

thời gian để tính tốn tham số của mơ hình và nếu trong tập dữ liệu có hai mơ hình
giống nhau cùng tồn tại th phƣơng pháp chỉ t m ra đƣợc một mơ hình mà khơng tìm
đƣợc mơ hình cịn lại.
ể loại bỏ hậu cảnh ta cũng có thể đ nh nghĩa trƣớc hình dạng của hậu cảnh
đó, ví dụ nhƣ có dạng mặt phẳng, đƣờng cong…Sau đó dùng thuật tốn RANSAC
để tách hậu cảnh đó từ đ m mây điểm.
Thuật to n R NS C đƣợc xuất bản lần đầu tiên bởi Frischler và Bolles năm
1981, một ví dụ minh h a ứng dụng của thuật to n này nhƣ h nh:

18


Hình 2.7(a)Tập dữ liệu đầu vào thuật tốn RANSAC, (b)Kết quả thử khớp đường
thẳng với thuật tốn RANSAC
Trong ví dụ trên, một tập dữ liệu chứa c c điểm có thể khớp tới một đƣờng
thẳng, và c c điểm không thể khớp tới đƣờng thẳng, sử dụng phƣơng ph p

nh

phƣơng cực tiểu để thử khớp đƣờng thẳng sẽ đƣợc một kết quả tồi do thuật toán này
đƣợc tối ƣu để thử khớp với tất cả c c điểm kể cả c c điểm trong tập dữ liệu, vì thế
mà sử dụng thuật tốn RANSAC có thể tạo mơ hình mà chỉ tính tốn với c c điểm
thuộc đƣờng thẳng nên tạo kết quả rất tốt.
ầu vào của thuật toán RANSAC là tập dữ liệu đƣợc thu thập trƣớc, thuật
toán RANSAC sẽ tiến hành lặp đi lặp lại hai ƣớc cơ ản sau:
ƣa ra giả thiết: ầu tiên thuật toán sẽ ch n ngẫu nhiên một tập hợp tối thiểu
các mẫu dữ liệu từ tập dữ liệu đầu vào và các tham số của m h nh đƣợc tính tốn
chỉ sử dụng các thành phần trong tập dữ liệu đó, số các yếu tố của tập hợp đó là khả
năng nhỏ nhất để x c đ nh các tham số mô hình (Trong khi với phƣơng ph p


nh

phƣơng cực tiểu sử dụng tất cả các dữ liệu có giá tr để ƣớc lƣợng tham số mơ
hình).
Kiểm chứng giả thiết: Các mẫu dữ liệu khác của tập dữ liệu đầu vào đƣợc
kiểm tra ngƣợc lại mơ hình ở ƣớc một với một giá tr dung sai đã đƣợc đ nh nghĩa
19


trƣớc , nếu một điểm đƣợc khớp tốt tới m h nh ƣớc lƣợng trên th đƣợc đ nh dấu
là thuộc mơ hình, nếu tỉ số giữa số điểm thuộc mơ hình trên tổng số điểm của tập dữ
liệu mà quá một ngƣỡng

đã đƣợc đ nh nghĩa trƣớc thì các tham số của mơ hình sẽ

đƣợc ƣớc lƣợng lại sử dụng tất cả c c điểm đã đƣợc đ nh dấu là thuộc mơ hình,
ngƣợc lại sẽ lặp lại từ ƣớc một.
Thƣờng trình này đƣợc lặp đi lặp lại ở một số lần N cố đ nh, mỗi lần tạo một
mơ hình khác nhau, mơ hình b loại bỏ nếu có qu ít điểm mẫu dữ liệu đƣợc đ nh
dấu thuộc mơ hình. Cuối cùng, thuật tốn chỉ giữ lại mơ hình nếu lỗi của nó thấp
hơn lỗi của c c m h nh đã lƣu trƣớc đó
Số lần lặp lại N đƣợc ch n đủ cao để chắc chắn rằng xác suất p (thƣờng đặt ở
0.99) ở ít nhất một trong các tập của mẫu dữ liệu ngẫu nhiên khơng chứa c c điểm
nằm ngồi m h nh, đặt u là xác suất mà bất kỳ điểm dữ liệu đƣợc ch n thuộc mơ
hình, và v = 1 – u là xác suất khả năng thấy một điểm không thuộc mơ hình, số
điểm nhỏ nhất ch n ngẫu nhiên là m thì ta có biểu thức:
p = (1- um)N
Biến đổi biểu thức ta đƣợc :
N=
Áp dụng thuật to n R NS C cho đ m mây điểm, giả sử ta đ nh nghĩa mặt phẳng

nền là mặt phẳng nhẵn, lớn nằm ở cuối khu vực thu thập, nhƣ tƣờng trong một
phịng … th c c tham số để mơ hình hóa mặt phẳng nền gồm vector trực giao của
mặt phẳng, và khoảng cách từ camera. Hình 2.6 là kết quả áp dụng thuật toán
RANS C để t ch tƣờng nền từ đ m mây điểm :

20


Hình 2.8 Kết quả của phép biến đổi RANSAC
(a)Đám mây điểm đầu vào, (b) Phần nền được tách ra, (c)Phần đám mây điểm
còn lại sau khi tách phần nền
2.1.2.2 Tá h á đối tƣợng
Các phƣơng ph p ghép nhóm đơn giản sử dụng c ch t m c c đƣờng iên hay
so s nh về khoảng c ch đến c c điểm lân cận để nhóm c c điểm gần nhau lại với
nhau.
Giả sử trong tập dữ liệu P = {p1, p2, …, pn , hai nhóm Oi = {pi
{pj

P và Oj =

P} là hai nhóm riêng biệt nếu:
min||pi – pj||

ε

Với ε là ngƣỡng khoảng cách giới hạn. Nói cách khác, nếu khoảng cách nhỏ
nhất giữa hai tập c c điểm Oi = {pi

P} và Oj = {pj


P} lớn hơn một ngƣỡng giới

hạn cho trƣớc, th khi đó Oi và Oj là hai nhóm khác nhau.

21


Hình 2.9 Các cụm điểm thành nhóm riêng biệt
Trong ài to n nhƣ trên, phƣơng ph p ghép nhóm đơn giản nhất là phƣơng
pháp sử dụng khoảng cách vật lý và giải thuật tìm kiếm điểm lân cận C c ƣớc để
thực hiện giải thuật này nhƣ sau:

- Với dữ liệu đầu vào là đ m mây điểm P, tạo cây kd-tree biểu diễn dữ liệu
để thuận lợi cho việc tìm kiếm lân cận.

- Tạo ra một danh sách nhóm C và c c điểm cần đƣợc khảo sát Q Ban đầu,
c c điểm cần đƣợc khảo sát là toàn bộ dữ liệu đầu vào.

- Với mỗi điểm pi

P, thực hiện c c ƣớc sau:

+ Thêm pi vào danh s ch c c điểm cần khảo sát Q.
+ Với mỗi pi

P, tìm kiếm c c điểm lân cận của trong bán kính r = ε

Sau đó kiểm tra c c điểm lân cận này đã đƣợc xử lý hay chƣa, nếu chƣa đƣợc
xử lý th thêm điểm đó vào Q.


22


+ Khi tất cả c c điểm trong Q đã đƣợc xử lý, điều đó có nghĩa là
kh ng cịn điểm nào trong P có khoảng c ch đến Q nhỏ hơn ε Q đƣợc coi là
một nhóm.
Qu tr nh trên đƣợc lặp lại cho đến khi tất cả c c điểm đều thuộc một nhóm
nào đó
2.2 Trí h họ đặ trƣng
C c đặc trƣng h nh h c trong đ m mây điểm có thể đƣợc chia làm hai dạng:
đặc trƣng mang tính cục bộ (local feature) hoặc đặc trƣng mang tính tồn thể
(glo al feature) Trong phần này sẽ trình bày về phƣơng ph p x c đ nh đặc trƣng
điểm HOG [8].
2.2.1 Khái iệ

HOG

Histogram of Oriented Gradients (HOG) là một thuật to n để trích xuất thuộc
tính hình ảnh Cụ thể HOG chia h nh ảnh đầu vào thành một lƣới các ơ vng. Mỗi
ơ vng trích xuất thành một vector hƣớng của gradient trong cell đó

Hình 2.10 Hình ảnh HOG
Trích dẫn một ví dụ về đầu ra của HOG từ trang scikit-image.org

23


×