Tải bản đầy đủ (.pdf) (144 trang)

Nhận dạng hành vi người trong video dựa trên đặc trưng hình dáng và chuyển động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.4 MB, 144 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

VÕ HOÀI VIỆT

NHẬN DẠNG HÀNH VI NGƯỜI TRONG VIDEO DỰA
TRÊN ĐẶC TRƯNG HÌNH DÁNG VÀ CHUYỂN ĐỘNG

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Tp. Hồ Chí Minh – Năm 2019


ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

VÕ HOÀI VIỆT

NHẬN DẠNG HÀNH VI NGƯỜI TRONG VIDEO DỰA
TRÊN ĐẶC TRƯNG HÌNH DÁNG VÀ CHUYỂN ĐỘNG

Ngành: Khoa Học Máy Tính
Mã số ngành: 62480101

Phản biện 1: PGS. TS. Huỳnh Trung Hiếu
Phản biện 2: TS. Lê Thành Sách
Phản biện 3: TS. Hà Việt Uyên Synh
Phản biện độc lập 1: PGS.TS. Nguyễn Thanh Bình
Phản biện độc lập 2: TS. Ngô Quốc Việt
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. PGS. TS. LÝ QUỐC NGỌC


2. TS. TRẦN THÁI SƠN

TP. Hồ Chí Minh - 2019


LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả nghiên cứu được trình bày trong luận án là
thành quả của một quá trình học tập, nghiên cứu và làm việc trong nhiều năm của
tôi. Kết quả nào do chính tôi nghiên cứu và kết quả nào kế thừa từ cộng đồng đều
được trình bày một cách hệ thống với các minh chứng rõ ràng và cụ thể.


2

MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................. 1
MỤC LỤC ........................................................................................................................ 2
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ...................................................... 4
MỤC LỤC BẢNG ............................................................................................................ 7
MỤC LỤC HÌNH.............................................................................................................. 8
MỞ ĐẦU ........................................................................................................................ 10
CHƯƠNG 1 GIỚI THIỆU .......................................................................................... 13
1.1 Động lực nghiên cứu ......................................................................................... 13
1.2 Mục tiêu của luận án ......................................................................................... 15
1.3 Phát biểu bài toán .............................................................................................. 16
1.4 Đóng góp .......................................................................................................... 17
1.5 Tổ chức luận án ................................................................................................. 18
CHƯƠNG 2 CÁC NGHIÊN CỨU LIÊN QUAN VÀ HƯỚNG TIẾP CẬN CỦA LUẬN
ÁN
20

2.1 Bài toán nhận dạng hành vi người ..................................................................... 20
2.2 Lịch sử nghiên cứu bài toán nhận dạng hành vi ................................................. 22
2.3 Các hướng nghiên cứu chính trong nhận dạng hành vi ....................................... 24
2.3.1
Các nghiên cứu sử dụng đặc trưng thiết kế ................................................. 27
2.3.2
Các nghiên cứu sử dụng đặc trưng học ....................................................... 31
2.3.3
Phương pháp phân lớp hành vi ................................................................... 36
2.4 Hướng tiếp cận của luận án ............................................................................... 37
2.5 Kết luận ............................................................................................................ 43
CHƯƠNG 3 MÔ HÌNH NHẬN DẠNG HÀNH ĐỘNG .............................................. 44
3.1 Giới thiệu .......................................................................................................... 44
3.2 Kiến trúc hệ thống ............................................................................................. 46
3.2.1
Rút trích đặc trưng ..................................................................................... 49
3.2.2
Biểu diễn hành động ................................................................................... 53
3.2.2.1
Giải thuật gom nhóm Kmeans++ ......................................................... 54
3.2.2.2

Mô hình GMM .................................................................................... 55

3.2.2.3

Kỹ thuật phân đoạn video .................................................................... 57

3.2.3
Phân lớp hành động .................................................................................... 59

3.3 Kết quả thực nghiệm ......................................................................................... 61
3.3.1
Cấu hình thực nghiệm ................................................................................ 61
3.3.2
UTKinect-Action ....................................................................................... 62
3.3.3
Tập dữ liệu 3D Action Pairs ....................................................................... 64
3.3.4
Phân tích kết quả thực nghiệm .................................................................... 66
3.4 Kết luận ............................................................................................................ 67
CHƯƠNG 4 MÔ HÌNH NHẬN DẠNG HOẠT ĐỘNG TRONG SINH HOẠT HÀNG
NGÀY
69
4.1 Giới thiệu .......................................................................................................... 69
4.2 Hệ thống đề xuất ............................................................................................... 72
4.2.1
Rút trích đặc trưng khung xương ................................................................ 74
4.2.2
Rút trích đặc trưng màu – độ sâu ................................................................ 78


3

4.2.3
Phát sinh chuỗi biểu diễn hoạt động ........................................................... 79
4.2.4
Mô hình markov ẩn phân lớp hoạt động ..................................................... 81
4.2.5
Mô hình HCRF phân lớp hoạt động ............................................................ 83
4.3 Kết quả thực nghiệm ......................................................................................... 86

4.3.1
Tập dữ liệu CAD120 .................................................................................. 87
4.3.2
Tập dữ liệu MSR DailyActivity 3D ............................................................ 88
4.4 Phân tích kết quả thực nghiệm ........................................................................... 90
4.5 Kết luận ............................................................................................................ 91
CHƯƠNG 5 MÔ HÌNH NHẬN DẠNG HOẠT ĐỘNG TRONG MÔI TRƯỜNG
KHÔNG RÀNG BUỘC .................................................................................................. 93
5.1 Giới thiệu .......................................................................................................... 93
5.2 Học chuyển tiếp ................................................................................................ 97
5.3 Mô hình đề xuất .............................................................................................. 100
5.3.1
VGG ........................................................................................................ 104
5.3.2
Đặc trưng hình ảnh ................................................................................... 105
5.3.3
Đặc trưng chuyển động ............................................................................ 105
5.3.4
Mô hình phân lớp NBNN ......................................................................... 108
5.4 Thực nghiệm ................................................................................................... 110
5.4.1
Tập dữ liệu UCF101 ................................................................................. 110
5.4.2
Tập dữ liệu HMDB 51.............................................................................. 112
5.5 Phân tích kết quả thực nghiệm ......................................................................... 114
5.6 Kết luận .......................................................................................................... 115
CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................. 117
6.1 Kết luận .......................................................................................................... 117
6.2 Hướng phát triển ............................................................................................. 118
DANH MỤC CÔNG TRÌNH TÁC GIẢ ........................................................................ 120

TÀI LIỆU THAM KHẢO ............................................................................................. 122
PHỤ LỤC A: SƠ LƯỢC VỀ THIẾT BỊ GHI NHẬN DỮ LIỆU 3 CHIỀU .................... 134
PHỤ LỤC B: MỘT SỐ THUẬT TOÁN SỬ DỤNG TRONG LUẬN ÁN ..................... 138


4

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT SỬ DỤNG TRONG
LUẬN ÁN
Ký hiệu

Cụm Tiếng Anh

Ý nghĩa

Histogram of Oriented

Histogram of Oriented Normal

Normal Vector

Vector

BOW

Bag of Word

Mô hình túi từ


CNN

Convolution Neural Network

Mạng tích chập

CRF

Conditional Random Field

Trường ngẫu nhiên có điều kiện

3DS-HONV

DBT

Discriminability-based
Transfer

Discriminability-based Transfer

DMM

Depth Motion Map

Bản đồ chuyển động độ sâu

EM

Expectation - Maximization


Thuật toán ước lượng cực đại

GMM

Gaussian Mixture Model

Mô hình Gauss hỗn hợp

GPU

Graphics Processing Unit

Bộ xử lý đồ họa

HCRF

Hidden Conditional Random
Field

Trường ngẫu nhiên có điều kiện ẩn

HMAX

Hierarchical Model and X

Hierarchical Model and X

HMM


Hidden Markov Model

Mô hình Markov ẩn

HOF

Histogram of Optical Flow

Biểu đồ luồng chuyển động

HOF2.5D

Histogram of Optical Flow
2.5D

Histogram of Optical Flow 2.5D

HOG

Histogram of Gradient

Biểu đồ đạo hàm theo hướng

HOG3D

Histogram of Gradient 3D

Histogram of Gradient 3D

KHMT


Computer Science

Khoa học máy tính

LDP

Local Depth Pattern

Local Depth Pattern

LSH

Local Sensitive Hash

Thuật toán băm đặc trưng cục bộ


5

LSTM

Long Short Term Memory

Long Short Term Memory

MEI

Motion Energy Image


Ảnh năng lượng chuyển động

MHB

Motion History Boundary

Motion History Boundary

MHI

Motion History Image

Ảnh lịch sử chuyển động

MKL

Multiple Kernels Learning

Mô hình học đa nhân

Naïve Bayes Nearest

Thuật toán láng giềng cần nhất ngây

Neighbor

thơ

Visual Geometry Group


Mạng học sâu của nhóm nghiên cứu

NBNN

VGG

thị giác tại đại học Oxford

RNN

Recurrent Neural Network

Recurrent Neural Network

ROP

Random Occupancy Patterns

Random Occupancy Patterns

Space-Time Interest Points

Bộ phát hiện điểm trọng yếu trọng

STIP

không gian – thời gian

SVM


Support Vector Machine

Máy hỗ trợ phân lớp

TGMT

Computer Vision

Thị Giác Máy Tính

TSN

Temporal Segment Networks

Temporal Segment Networks

DANH MỤC CÁC TỪ CHUYÊN MÔN ĐƯỢC DỊCH SANG TIẾNG VIỆT
Từ chuyên môn tiếng Việt

Từ chuyên môn tiếng Anh

Biểu đồ đạo hàm theo hướng

Histogram of Orientated Gradients

Cảm xúc

Expression

Cấu trúc ẩn


Hidden Structure

Cử chỉ

Gestures

Đặc trưng thiết kế

Handcrafted Feature

Độ sâu

Depth

Giả thuyết hai dòng vỏ não thị giác

Two Streams Hypothesis

Gối đầu

Overlapping

Hành động

Action


6


Hành vi người

Human Behavior

Hoạt động

Activity

Hoạt động con

Sub-Activity

Học chuyển tiếp

Transfer Learning

Kết hợp sớm

Early Fusion

Kết hợp trễ

Late Fusion

Không gối đầu

Non-Overlapping

Không gian – thời gian


Spatio-Temporal

Mạng nơ ron nhân tạo

Artificial Neural Network

Mạng tích chập

Convolution Neural Network

Máy hỗ trợ phân lớp

Support Vector Machine

Mô hình Markov ẩn

Hidden Markov Model

Mô hình túi từ

Bag Of Words

Mô hình học đa nhân

Multiple Kernel Learning

Mô hình phân biệt

Discriminative Model


Mô hình tạo sinh

Generative Model

Luồng chuyển động

Optical Flow

Phân đoạn theo thời gian

Temporal Segmentation

Sự tập trung thị giác

Visual Attention

Trường ngẫu nhiên có điều kiện

Conditional Random Fields

Trường ngẫu nhiên trạng thái ẩn có
điều kiện

Hidden-State Conditional Random Fields

Thuật toán băm đặc trưng cục bộ

Locality-Sensitive Hashing

Tích phân video


Integral video

Tìm kiếm lưới

Grid Search

Trọng số cứng

Hard-weighting

Trọng số mềm

Soft-weigthing

Tổng hợp cực đại

Max pooling


7

MỤC LỤC BẢNG
Bảng 2-1. Bảng tóm tắt lịch sử nghiên cứu nhận dạng hành vi được bổ sung dựa trên
nghiên cứu [56] ............................................................................................................... 24
Bảng 2-2. Bảng so sánh phương pháp phân lớp tạo sinh và phân biệt ............................... 37
Bảng 3-1. So sánh kết quả nhận dạng các phương pháp đề xuất trên tập dữ liệu UTKinectAction ............................................................................................................................. 64
Bảng 3-2. So sánh kết quả nhận dạng các phương pháp đề xuất trên tập dữ liệu 3D Action
Pairs ................................................................................................................................ 65
Bảng 4-1. Bảng tổng hợp thông tin đặc trưng từ dữ liệu khung xương ............................. 77

Bảng 4-2. So sánh với các phương pháp khác trên tập dữ liệu CAD120 ........................... 88
Bảng 4-3. So sánh kết quả nhận dạng với các phương pháp khác trên tập dữ liệu MSR
DailyActivity 3D ............................................................................................................. 90
Bảng 5-1. So sánh kết quả huấn luyện mạng VGG16 trên tập dữ liệu UCF101 .............. 111
Bảng 5-2. Kết quả phân lớp NBNN trên tập dữ liệu UCF101 ......................................... 111
Bảng 5-3. So sánh với các phương pháp khác trên tập dữ liệu UCF101 ......................... 112
Bảng 5-4. So sánh kết quả huấn luyện mạng VGG16 trên tập dữ liệu HMDB 51 ........... 113
Bảng 5-5. Kết quả phân lớp NBNN trên tập dữ liệu HMDB 51...................................... 113
Bảng 5-6. So sánh với các phương pháp khác trên tập dữ liệu HMDB 51 ...................... 114


8

MỤC LỤC HÌNH
Hình 2-1. Phân rã bài toán hành vi người ......................................................................... 21
Hình 2-2. Các cấp độ của các bài toán trong nhận dạng hành vi người ............................. 22
Hình 2-3. Mô hình tổng quát cho bài toán nhận dạng hành vi .......................................... 22
Hình 2-4. Mô hình kết hợp sớm dựa vào đặc trưng đa nguồn ........................................... 25
Hình 2-5. Mô hình kết hợp trễ dựa trên đặc trưng đa nguồn ............................................. 25
Hình 2-6. Các cột mốc chính của quá trình tiến hóa các phương pháp rút trích đặc trưng
thiết kế và dữ liệu trong bài toán nhận dạng hành vi người .............................................. 27
Hình 2-7. Tổng quát về mức độ phân cấp trong bài toán nhận dạng hành vi người dựa vào
thông tin thị giác từ video ................................................................................................ 38
Hình 2-8. Minh họa cấu trúc vỏ não thị giác và cơ chể hiểu thông tin trong giả thuyết 2
dòng vỏ não thị giác ........................................................................................................ 39
Hình 2-9. Cấu trúc nhận thức hành động ở người dựa vào hệ thống thông tin thị giác trong
video ............................................................................................................................... 41
Hình 2-10. Cấu trúc nhận thức hoạt động ở người dựa vào hệ thống thông tin thị giác trong
video ............................................................................................................................... 42
Hình 3-1. Minh họa lược đồ chung của mô hình nhận dạng hành động người .................. 46

Hình 3-2. Lược đồ mô hình chi tiết hiện thực hóa mô hình nhận dạng hành động người .. 47
Hình 3-3. Minh họa quá trình học và biểu diễn hành động bằng mô hình BOW ............... 54
Hình 3-4. Kết quả thực nghiệm với chiều dài các phân đoạn khác nhau trên tập dữ liệu
UTKinect-Action............................................................................................................. 63
Hình 3-5. So sánh chi tiết kết quả nhận dạng trên tập dữ liệu UTKinect-Action ............... 63
Hình 3-6. So ánh kết quả biểu diễn đặc trưng từ vựng thị giác trên tập dữ liệu UTKinectAction ............................................................................................................................. 63
Hình 3-7. Kết quả thực nghiệm với chiều dài các phân đoạn khác nhau trên tập dữ liệu 3D
Action Pairs..................................................................................................................... 64
Hình 3-8. So sánh chi tiết kết quả nhận dạng trên tập dữ liệu 3D Action Pairs ................. 65
Hình 3-9. So ánh kết quả biểu diễn đặc trưng từ vựng thị giác trên tập dữ liệu 3D Action
Pairs ................................................................................................................................ 65
Hình 4-1. Minh họa lược đồ chung của mô hình nhận dạng hoạt động người trong sinh hoạt
hàng ngày ........................................................................................................................ 71
Hình 4-2. Kiến trúc tổng quát của mô hình đề xuất .......................................................... 73
Hình 4-3. Cấu trúc của 15 khớp nối của khung xương thu nhận từ Kinect ........................ 75
Hình 4-4. Minh họa rút trích đặc trưng của cơ thể và bộ phận trên dữ liệu màu ................ 78
Hình 4-5. Quá trình chuyển các khung hình của hoạt động thành tập các véc tơ đặc trưng
đại diện của các hoạt động con ........................................................................................ 80
Hình 4-6. Minh họa quá trình chuyển đổi một hoạt động từ một chuỗi khung hình thành
chuỗi số tự nhiên với số nhóm là 5 .................................................................................. 81
Hình 4-7. Kết quả nhận dạng HMM với 5 trạng thái ẩn với số lượng hàm Gauss khác nhau
........................................................................................................................................ 87
Hình 4-8. So sánh kết quả nhận dạng của mô hình HMM và HCRF với số lượng trạng thái
ẩn khác nhau trên tập dữ liệu CAD120 ............................................................................ 88
Hình 4-9. Kết quả nhận dạng HMM có 5 trạng thái ẩn với số lượng hàm Gauss khác nhau
trên tập dữ liệu MSR DailyActivity 3D............................................................................ 89


9


Hình 4-10. So sánh kết quả nhận dạng của mô hình HMM và HCRF với số lượng trạng
thái ẩn khác nhau trên tập dữ liệu MSR DailyActivity 3D................................................ 89
Hình 5-1. Minh họa lược đồ chung của mô hình nhận dạng hoạt động người trong môi
trường không ràng buộc................................................................................................... 95
Hình 5-2. Kiến trúc hiện thực hóa mô hình nhận dạng hoạt động người trong điều kiện
không ràng buộc ............................................................................................................ 102
Hình 5-3. Minh họa quá trình rút trích đặc trưng tại mỗi hoạt động con ......................... 102
Hình 5-4. Một số khung hình minh họa kết quả rút trích MHI ........................................ 106
Hình 5-5. Một số khung hình minh họa kết quả rút trích đặc trưng luồng chuyển động:
dòng trên là luồng chuyển động theo hướng x và dòng dưới là luồng chuyển động theo
hướng y ......................................................................................................................... 107
Hình 5-6. Minh họa quá trình xác định một mẫu đặc trưng cục bộ trong quá trình phân lớp
sử dụng NBNN.............................................................................................................. 108


10

MỞ ĐẦU
Hệ thống thông minh dựa vào video là kết quả quan trọng trong các nghiên cứu
của ngành khoa học máy tính (KHMT) nói chung và thị giác máy tính (TGMT) nói
riêng với một lịch sử phát triển lâu đời. Cùng với đó là nhiều công trình nghiên cứu
được công bố để xây dựng các hệ thống thông minh có thể tương tác với con người
một cách hiệu quả và thân thiện. Với nhiều nổ lực nghiên cứu và hiện thực hóa các
mô hình khác nhau, đã có những hệ thống đánh bại con người trong một số tác vụ
trong các trò chơi đối kháng như chiến thắng ván cờ của Deep Blue với Kasparov
vào 1996 và AlphaGo của Google chiến thắng nhà vô địch cờ vây Lee Se-dol vào
2016. Điều này cho thấy tiềm năng to lớn của máy trong việc hiểu cuộc sống của
con người là rất lớn và cần được nghiên cứu để khai thác một cách hiệu quả. Thúc
đẩy bởi động lực từ những kết quả trên, việc nghiên cứu các phương pháp giúp máy
tính mô hình hóa và hiểu được cuộc sống của con người từ đó nó có những phản hồi

thích hợp là một vấn đề cần được quan tâm và đầu tư nghiên cứu nhiều hơn. Nhận
dạng hành vi người là một lĩnh vực thú vị và nhiều thách thức trong các nghiên cứu
về TGMT. Đồng thời, nó là một trong những bài toán quan trọng giúp hệ thống hiểu
được hành vi của con người thông qua thông tin thị giác. Nhận dạng được chính xác
hành vi người sẽ có tác dụng to lớn trong việc phát triển các ứng dụng trong thực
tiễn như các hệ thống giám sát, hệ thông phân tích – tìm kiếm video, hệ thống tương
tác người - máy, hệ thống nhà thông minh, thành phố thông minh, các ứng dụng
khoa học robot... Có thể nói, việc tìm ra một giải pháp tổng quát giúp máy hiểu
hành vi của con người vẫn đang là một vấn đề đầy thú vị và thách thức đối với cộng
đồng nghiên cứu TGMT, bất chấp những nổ lực nghiên cứu rất lớn đã được thực
hiện nhiều thập kỷ qua.
Trong bối cảnh sự tiến bộ không ngừng trong lĩnh vực TGMT và các bài toán
tương tác người – máy ngày càng phát triển và tiến đến áp dụng vào thực tế. Đặc
biệt là trong bối cảnh sự phát triển của các ứng dụng thông minh nhấn mạnh đến các
hệ thống thông minh dựa vào video và robot trợ giúp. Trong nghiên cứu này, luận


11

án trình bày mô hình nhận dạng hành vi người trong video tiến đến hỗ trợ mô hình
của hệ thống thông minh dựa vào thông tin thị giác (hình 1). Với việc tập trung
nghiên cứu xây dựng phân hệ hiểu hành vi người theo hướng có thể dễ dàng trong
việc chuyển đổi và mở rộng hướng tới có thể ứng dụng vào các hệ thống tương tác
người – máy, hệ thống camera giám sát và truy vấn dữ liệu video. Luận án hướng
đến tập trung nghiên cứu mô hình hiểu hành vi người với trọng tâm nghiên cứu tập
trung vào trình bày ba vấn đề chính:
 Mô hình rút trích đặc trưng trong video để mô tả một hành vi người.
 Xây dựng mô hình để biểu diễn đặc trưng của hành vi.
 Mô hình nhận dạng dựa trên mô hình biểu diễn hành vi.


Hình 1. Cấu trúc của các hệ thống thông minh dựa video
Các vấn đề nghiên cứu trên có mối liên hệ hữu cơ với nhau tác động trực tiếp
đến quá trình lựa chọn các phương pháp trong toàn bộ mô hình của hệ thống cũng
như kết quả nhận dạng. Trong đó, dữ liệu nghiên cứu về hành vi người được cung
cấp bởi cộng đồng là rất đa dạng tùy theo mục đích nghiên cứu, cũng như khả năng
ứng dụng của các nghiên cứu trong môi trường thực tế là phức tạp và có nhiều biến
thể so với môi trường nghiên cứu khoa học. Điều này dẫn đến rất khó để có thể đề
xuất một phương pháp tổng quát để có thể giải quyết bài toán nhận dạng mọi hành
vi. Để đạt được mục tiêu nghiên cứu của luận án trong ba vấn đề chính nêu trên.
Luận án tiến hành khảo sát các nghiên cứu liên quan trong lĩnh vực TGMT cũng


12

như các nguyên lý trong việc làm thế nào để giải các bài toán trên máy tính. Luận
án dựa trên 2 nguyên lý chính đã chứng minh được hiệu quả trong lĩnh vực TGMT:
chia để trị và giả thuyết 2 dòng vỏ não thị giác [40]. Trong đó, giả thuyết 2 dòng vỏ
não thị giác chỉ ra rằng để biểu diễn hành vi trong video một cách hiệu quả thì phải
biểu diễn được 2 luồng thông tin thị giác là hình dáng và chuyển động. Dựa vào các
nguyên lý này, luận án tiến hành nghiên cứu, thực nghiệm và phát triển các kỹ thuật
đặc thù để giải quyết từng bài toán cụ thể trong việc hướng tới hiểu nội dung trong
video dựa vào thông tin thị giác. Tuy nhiên, giả thuyết này không làm rõ được làm
thể nào có thể chuyển các thông tin thị giác này thành ngữ nghĩa. Điều này được
luận án xem như là một cấu trúc ẩn trong vỏ não mà được hiện thực hóa bằng các
mô hình máy học. Cụ thể, luận án tiến hành khảo sát bài toán hành vi với 2 mức độ
từ thấp đến cao bằng cách khảo sát 2 bài toán con là hành động và hoạt động của
người. Trong đó, hành động là quá trình chuyển động của toàn bộ cơ thể người
trong một khoảng thời gian nhất định. Và hoạt động là bài toán mở rộng của hành
động khi xét thêm các yếu tố tương tác giữa người – vật thể hoặc người – người
cũng như là ngữ cảnh môi trường trong quá trình thực hiện hoạt động [2].

Tóm lại, nhận dạng được hành vi người trong video là một bài toán quan trọng
và thách thức đóng vai trò then chốt quyết định sự thành công của các hệ thống
thông minh dựa vào video. Tuy nhiên, làm thế nào để đưa ra một giải pháp tổng
quát giúp máy có thể hiểu được mọi hành vi của con người vẫn là một vấn đề khoa
học chưa được làm rõ một cách tường minh. Vì vậy, đây là một bài toán cần được
nghiên cứu và làm sáng tỏ từng ngày. Thật khó để có thể mô tả một cách đầy đủ về
bài toán nhận dạng hành vi người. Tuy nhiên, luận án cũng mong muốn dựa vào
việc khảo sát các nghiên cứu liên quan, thực nghiệm, thực hiện một số cải tiến sẽ có
thể làm sáng tỏ một số vấn đề còn tồn tại về bài toán nhận dạng hành vi người cũng
như có giá trị nhất định cả trong giả thuyết và ứng dụng thực tiễn.


13

CHƯƠNG 1 GIỚI THIỆU
Trong chương này, luận án trình bày động lực nghiên cứu, phát biểu bài toán,
các đóng góp của luận án và sau cùng là các nội dung sẽ được trình bày.

1.1 Động lực nghiên cứu
Với sự phát triển không ngừng và những kết quả nghiên cứu khả quan của thị
giác máy tính (TGMT), trí tuệ nhân tạo và máy học, con người đang tiến đến một
kỷ nguyên mới nơi mà máy có thể suy nghĩ, nhận dạng và thực hiện các nhiệm vụ
phức tạp. Với nhiều công trình nghiên cứu được công bố để xây dựng các hệ thống
thông minh có thể tương tác với con người. Đã có những hệ thống đã đánh bại con
người trong một số tác vụ đối kháng trong đánh cờ [4, 24]. Điều này cho thấy khả
năng tiềm tàng của máy trong việc hiểu nội dung mà con người vẫn đang nhận thức.
Trong một hệ thống thông minh dựa vào video, phát triển khả năng nhận thức
của hệ thống là nhiệm vụ quan trọng và thách thức nhất. Con người có thể hiểu
được nội dung của video rất dễ dàng với sự thay đổi của không gian - thời gian và
tri thức mà họ được trao dồi trong quá trình học tập, nghiên cứu và làm việc. Nhưng

để máy tính có thể hiểu được nội dung trong đoạn video là một vấn đề thách thức
trong lĩnh vực TGMT. Mặc dù đã có nhiều nghiên cứu về phương pháp và thuật
toán hướng tới phát triển và hoàn thiện dần khả năng nhận thức của máy. Nhưng
vẫn chưa có thuật toán nào hiệu quả và bền vững để làm cho máy có khả năng suy
nghĩ và hoạt động một cách hợp lý, linh hoạt để thích nghi với môi trường xung
quanh chúng như là con người đã làm. Trong đó, nhận dạng hành vi người trong
video được xem là một trong các nhiệm vụ khó khăn và phức tạp nhất. Điều này bởi
vì biểu diễn hành vi người là cực kỳ đa dạng và dáng điệu của người cũng có một số
lượng lớn các bậc tự do. Ví dụ, cùng một hoạt động nhưng hai người khác nhau có
thời gian hoàn thành là khác nhau hoặc trong hoạt động uống nước một người có
thể sử dụng hai tay để bưng cốc nước nhưng người khác có thể không. Điều này


14

giải thích tại sao nhiều phương pháp có kết quả tốt trên tập dữ liệu huấn luyện
nhưng lại thất bại khi ứng dụng vào tập dữ liệu khác hoặc các ứng dụng thực tế. Vì
vậy, phát triển và tăng độ chính xác của bài toán nhận dạng hành vi còn cần rất
nhiều nổ lực của các nhà nghiên cứu trên toàn thế giới. Mỗi đóng góp dù rất nhỏ
cũng có ý nghĩa quan trọng trong việc mang robot đến gần hơn với cuộc sống của
con người và tăng cường khả năng hiểu của các hệ thống thông minh cũng như làm
rõ hơn về hệ thống nhận thức của con người.
Vào những năm bắt đầu của thế kỷ 21, ý tưởng mang robot vào cuộc sống của
con người để thực hiện một số hoạt động thường nhật ngày càng trở thành hiện
thực. Như trong nhà thông minh, ngày nay robot có thể thực hiện những hoạt động
đơn giản như mở của, quét nhà hay gấp quần áo. Đặc biệt, robot có tác dụng to lớn
trong việc hỗ trợ con người thực hiện các công việc nguy hiểm như phát hiện bom,
tháo gỡ bom, thám hiểm các khu vực nguy hiểm... Các kết quả nghiên cứu về hành
vi người sẽ giúp hoàn thiện trong việc cho robot bắt chước các hành vi của con
người một cách chính xác và thực hiện các thao tác này ngày càng hoàn thiện và

hiệu quả. Tuy nhiên, sự gia tăng nhu cầu cuộc sống chất lượng cao, robot được yêu
cầu phải có khả năng tương tác ngày càng tự nhiên, thông minh và hiệu hơn. Chúng
không chỉ được yêu cầu thực hiện các nhiệm vụ theo lịch đặt trước hoặc con người
ra lệnh cho chúng thực hiện theo chỉ thị mà còn được yêu cầu đáp trả các hành vi
của con người mà luôn biến động và không theo một kịch bản cố định trước. Ví dụ,
khi một robot hỗ trợ nhìn thấy một người đang làm ngũ cốc, nó biết và hiểu người
đó đang làm gì, sau đó nó thực hiện một số nhiệm vụ để giúp đỡ như chuẩn bị cốc
hoặc nước. Hoặc khi robot phát hiện một người đang lo lắng trong bệnh viện hoặc
siêu thị thì có thể tiến đến để thực hiện các chỉ dẫn cần thiết.
Không chỉ trong robot, nhận dạng hành vi người còn có vai trò quan trọng trong
các hệ thống giám sát các sự kiện dựa vào phân tích các video thu thập được.
Những hệ thống này có thể hỗ trợ cuộc sống con người trong nhiều lĩnh vực và đặc
biệt là nơi có sự xuất hiện liên tục của con người là không thể. Ví dụ trong một siêu
thị, một hệ thống giám sát phân tích hành vi của khách hàng và xác định chúng là


15

các hình vi tốt hoặc xấu. Sau đó, hệ thống thông báo cho đội bảo vệ các thông tin
liên quan, như vậy các siêu thị không tốn quá nhiều chi phí để thuê bảo vệ trực ở
khắp mọi nơi trong siêu thị. Ngoài ra, hành vi người con có thể ứng dụng trong
nhiều ứng dụng khác như tìm kiếm video dựa vào nội dung, trong các trò chơi
tương tác …
Nâng cao hiệu quả nhận dạng của bài toán hành vi người ngày càng trở nên cấp
thiết trong cả khía cạnh lý thuyết và thực tế. Từ khía cạnh thực tế, một hệ thống có
thể phân tích hành vi có thể giúp xây dựng một chuyên gia trong một miền ứng
dụng hoặc giúp phát hiện những mẫu hành vi bất thường trong các hệ thống giám
sát. Từ khía cạnh lý thuyết, bài toán này có thể trả lời các câu hỏi: “Các khái niệm
được trình bày như thế nào trong các hệ thống thông minh dựa vào video?”.
Ngoài ra, nó cũng giúp bộc lộ những hiểu nhầm của con người về hệ thống nhận

thức của não người hoặc cũng có thể xác minh các giả thuyết về hoạt động của não
người.
Tóm lại, động lực giúp luận án thực hiện nghiên cứu này là tính thực tiễn và tính
khoa học của đề tài. Luận án với kỳ vọng sẽ đề xuất một số cải tiến và hướng tiếp
cận mới cho bài toán nhận dạng hành vi người trong video với kỳ vọng sánh vai
cùng thế giới trong lĩnh vực nghiên cứu đầy thách thức và có nhiều ứng dụng tiềm
năng trong thực tiễn này.
1.2 Mục tiêu của luận án
Mục tiêu của luận án là nghiên cứu, hệ thống hóa và cải tiến một số phương
pháp cho bài toán nhận dạng hành vi người trong video. Để đạt được mục tiêu
chung của luận án, các mục tiêu chính của luận án có thể được mô tả như sau:
 Khảo sát các nghiên cứu liên quan đến bài toán hành vi người trong video để
cho thấy hiện trạng về sự tiến triển các nghiên cứu trên thế giới và ứng dụng
của hành vi người trong video.
 Nghiên cứu và đề xuất mô hình nâng cao hiệu quả cho bài toán nhận dạng
hành vi trong video.


16

1.3 Phát biểu bài toán
Cho trước tập dữ liệu video chứa hành vi người trong mỗi video với yêu cầu xác
định hành vi được thực hiện trong mỗi video.
Đầu vào: tập các video với mỗi video chứa một hành vi.
Đầu ra: loại hành vi chứa trong mỗi video.
Giới hạn bài toán
Bài toán nhận dạng hành vi người là một bài toán thuộc lĩnh vực xác định nội
dung của video ở mức khái niệm. Hành vi người được xem là mẫu chuyển động của
người trong khoảng thời gian nhất định [2]. Trong nghiên cứu này luận án chỉ tập
trung hướng vào hành vi trong video và trong mỗi video chỉ chứa một hành vi được

thực hiện.
Phát biểu hình thức
Cho trước tập dữ liệu video như sau:
= {( ,

}

), = 1 …

trong đó:
là tập dữ liệu video
là đoạn video thứ i của tập dữ liệu.

có thể được biểu diễn dưới

dạng hàm dữ liệu như ( , , ) đối với dãy ảnh màu, ( , , ) đối với dãy ảnh độ
sâu và ( , , ),

( , , )với dãy ảnh màu kết hợp độ sâu. Trong đó, giá trị tại

mỗi điểm ảnh trên ảnh độ sâu được chuẩn hóa về [0, 255] tương ứng khoảng cách từ
của đối tượng đến máy quay theo dữ liệu thu thập từ Kinect.
là nhãn của đoạn video thứ i của tập dữ liệu
là tập nhãn hành vi cần huấn luyện
Nhận dạng hành vi trải qua 2 giai đoạn huấn luyện và kiểm tra
 Giai đoạn học từ dữ liệu huấn luyện
Xây dựng hàm ℎ :




={ },

={

sao cho kết quả nhận dạng tối ưu nhất.

 Thực hiện phân lớp mẫu mới
ℎ(

∈ }

) = argmax ( |


, )


17

Các bài toán cần giải quyết
Bài toán 1: trích chọn đặc trưng. Đây là quá trình chuyển dữ liệu đầu vào thành
thông tin có ích đại diện cho hình dáng và chuyển động phục vụ nhận dạng hành vi.
Bài toán 2: biểu diễn đặc trưng. Chuyển các thông tin đã rút trích trong bài toán
1 thành một hoặc nhiều véc tơ đặc trưng biểu diễn được bản chất không gian – thời
gian của hành vi.
Bài toán 3: phân lớp hành vi. Sử dụng thông tin có được từ bài toán 2 làm dữ
liệu huấn luyện các mô hình máy học để xác định nhãn ngữ nghĩa hành vi của video
mới cần phân lớp.
1.4 Đóng góp
Dựa trên các kết quả nghiên cứu và các công trình đã được công bố. Luận án đã

hệ thống hóa và cải tiến một số phương pháp cho bài toán hành vi người theo hướng
độ phức tạp tăng dần với sự tiến hóa của các bài toán con là hành động và hoạt
động. Các đóng góp chính của luận án có thể được tổng kết như sau:
Thứ nhất, đối với bài toán nhận dạng hành động, luận án tiến hành khảo sát và
đề xuất mô hình nhận dạng hành động sử dụng giả thuyết 2 dòng vỏ não thị giác
trong rút trích đặc trưng và biểu diễn hành động. Luận án sử dụng bộ rút trích đặc
trưng cục bộ STIP và các bộ miêu tả không gian – thời gian trên cả kênh màu và độ
sâu để biểu diễn hình dáng và chuyển dộng. Đồng thời, kỹ thuật phân đoạn video và
mô hình BOW đánh trọng số mềm dựa vào GMM được khởi tạo từ Kmeans++ để
tạo thành các véc tơ đặc trưng đại diện cho hành động. Cuối cùng, một cấu trúc ẩn
trong vỏ não để tổng hợp 2 dòng thông tin thị giác dựa trên việc đánh trọng số của
mô hình học đa nhân theo thuật toán SimpleMLK. Kết quả thực nghiệm và đánh giá
một cách có hệ thống các khía cạnh khác nhau của kiến trúc đề xuất trên các tập dữ
liệu 3D Action Pairs và UT-Kinect Action. Các đóng góp chi tiết trong mô hình
nhận dạng hành động người được công bố trong các nghiên cứu [CT02], [CT03],
[CT04], [CT06], [CT08], [CT09] và [CT10].


18

Thứ hai, đề xuất mô hình nhận dạng hoạt động trong môi trường sinh hoạt hàng
ngày dựa trên biểu diễn chuỗi hoạt động con. Mô hình này tận dụng sức mạnh của
dữ liệu khung sương, màu và độ sâu trong việc rút trích đặc trưng không gian – thời
gian biểu diễn hình dáng, ngữ cảnh và tương tác trong và ngoài của người khi thực
hiện hoạt động theo giả thuyết 2 dòng vỏ não thị giác. Sử dụng mô hình HMM để
mô hình hóa sự tiến hóa của hành động theo chuỗi thời gian và HCRF để tăng hiệu
quả phân lớp hoạt động. Kết quả thực nghiệm và đánh giá một cách có hệ thống các
khía cạnh khác nhau của kiến trúc đề xuất trên các tập dữ liệu CAD120 và
MSRDailyActivity3D. Các đóng góp này được thể hiện trong các nghiên cứu đã
được công bố [CT01], [CT02], [CT04] và [CT06].

Thứ ba, đề xuất mô hình nhận dạng hoạt động trong môi trường không ràng
buộc dựa trên bản đồ đặc trưng không gian – thời gian và học chuyển tiếp mô hình
mạng học sâu. Mô hình này tận dụng sức mạnh của cả 2 phương pháp đặc trưng
thiết kế và đặc trưng được học. Mỗi hoạt động được biểu diễn bởi một tập các đặc
trưng tĩnh và động từ mạng VGG được học chuyển đổi từ bộ trọng của mạng VGG
được học từ ImageNet theo giả thuyết 2 dòng vỏ não thị giác. Cuối cùng, phương
pháp Naïve Bayes Nearest Neighbor (NBNN) được sử dụng để tăng hiệu quả nhận
dạng cũng như tính dễ dàng mở rộng khi lượng dữ liệu và số lớp gia tăng. Kết quả
thực nghiệm và đánh giá một cách có hệ thống các khía cạnh khác nhau của kiến
trúc đề xuất trên các tập dữ liệu UCF101 và HMDB51. Các đóng góp này được thể
hiện trong các nghiên cứu đã được công bố [CT03], [CT05], và [CT07].
1.5 Tổ chức luận án
Luận án được tổ chức thành các chương chính sau:
Chương hai trình bày các nghiên cứu trong bài toán nhận dạng hành vi người và
hướng tiếp cận của luận án. Nội dung chương này liên quan đến các nghiên cứu
được công bố tại “Danh mục công trình nghiên cứu”


19

Chương ba trình bày mô hình nhận dạng hành động dựa trên kết hợp dữ liệu
màu – độ sâu. Nội dung chương này liên quan đến các nghiên cứu được công bố tại
công trình [CT02], [CT03], [CT04], [CT06], [CT08], [CT09] và [CT10].
Chương bốn trình bày mô hình nhận dạng hoạt động trong sinh hoạt hàng ngày.
Nội dung chương này liên quan đến các nghiên cứu được công bố tại các công trình
[CT01], [CT02], [CT04] và [CT06].
Chương năm trình bày mô hình nhận dạng hoạt động trong môi trường không
ràng buộc. Nội dung chương này liên quan đến các nghiên cứu được công bố tại các
công trình [CT03], [CT05], [CT07], và [CT09].
Chương sáu trình bày kết luận và hướng phát triển của luận án trong tương lai.



20

CHƯƠNG 2 CÁC NGHIÊN CỨU LIÊN QUAN VÀ
HƯỚNG TIẾP CẬN CỦA LUẬN ÁN
Trong chương này, luận án trình bày lịch sử hình thành và phát triển của bài
toán nhận dạng hành vi. Sau đó, tiến hành khảo sát và phân tích các nghiên cứu
liên quan trong và ngoài nước để thấy rõ quá trình tiến tiển về các hướng tiếp cận
khác nhau. Từ đó, luận án đề xuất hướng tiếp cận riêng cho bài toán này trên cở sở
của việc chia thành các bài toán con theo thứ tự gia tăng mức độ phúc tạp. Nội
dung của chương này liên quan đến tất cả các công trình công bố trong phần
“Danh mục công trình tác giả”.

2.1 Bài toán nhận dạng hành vi người
Bài toán nhận dạng đối tượng là một trong những bài toán cơ sở trong lĩnh vực
TGMT. Yêu cầu cơ bản nhất của bài toán này là tìm và xác định đối tượng trong
ảnh hoặc video. Mặc dù các nhiệm vụ này dường như khá dễ dàng đối với con
người khi con người có thể nhận dạng vô số đối tượng trong ảnh và video với một ít
nổ lực dựa trên các tri thức đã được học trong quá trình phát triển của tri thức, thậm
chí trong trường hợp đối tượng bị chồng lên nhau, bị che khuất một phần hoặc các
khung nhìn khác nhau. Những thách thức này đạt được đối với hệ thống máy tính là
quá tham vọng. Hiện tại bài toán nhận dạng đối tượng vẫn còn cần nỗ lực hơn nữa
để có thể đạt được hiệu quả như con người.
Đối với bài toán nhận dạng hành vi, vấn đề còn trở nên khó hơn khi cơ thể con
người không chỉ là một cấu trúc hình học đơn giản như hình chữ nhật, hình vuông,
hình tròn mà là một cấu trúc phức tạp được kết hợp từ nhiều cấu trúc hình học. Sự
xuất hiện hình dáng cơ thể có thể bị biến dạng khi được quan sát ở các góc độ khác
nhau. Ngoài ra, khi cơ thể di chuyển thực hiện hành vi, cấu trúc thay đổi liên tục
trong suốt khoảng thời gian này. Điều này làm cho việc nhận dạng cơ thể người



21

càng trở nên phức tạp hơn, không thể theo vết và phân loại chính xác. Ngoài ra, sự
biến đối của môi trường xung quanh trong quá trình thực hiện hành vi cũng như
việc tương tác với các đối tượng khác trong quá trình thực hiện càng làm tăng thêm
độ phức tạp và cũng như gia tăng các thách thức cần vượt qua khi thực hiện bài toán
nhận dạng hành vi trong TGMT. Việc xem xét hành vi của người dựa trên quá trình
thực hiện của các bộ phận trên cở thể người cũng như quá trình tương tác khi thực
hiện hành vi. Bài toán hành vi người có thể được xem xét và tổng hợp gồm 4 đối
tượng (như hình 2-1): cử chỉ, cảm xúc, hành động và hoạt động. Mỗi bài toán thể
hiện một khía cạnh trên cơ thể người trong quá trình thực hiện các hành vi. Mức độ
phức tạp của bài toán hành vi được phân cấp theo hình 2-2. Ngoài ra, bài toán nhận
dạng hành vi được xem là bài toán nhận dạng mẫu trong lĩnh vực khoa học máy tính
với đầu vào là video. Vì vậy, nó thừa hưởng những tính chất chung của mô hình
nhận dạng mẫu và bổ sung các giai đoạn để thích hợp với bài toán hành vi người
trong video. Mô hình chung cho các bài toán nhận dạng hành vi người trong video
có thể được biểu diễn thành các giai đoạn như hình 2-3. Trong nghiên cứu này, luận
án tiến hành khảo sát 2 bài toán con là hành động và hoạt động để làm trường hợp
minh chứng cho các thuộc tính mang tính bản chất của bài toán hiểu hành vi người.
Luận án cũng tiến hành thực nghiệm các mô hình khác nhau cho bài toán nhận dạng
hành vi người trong video nhằm đạt được mục tiêu nghiên cứu đồng thời thể hiện
khả năng ứng dụng của các mô hình trong môi trường thực tế.

Hình 2-1. Phân rã bài toán hành vi người


22


Hình 2-2. Các cấp độ của các bài toán trong nhận dạng hành vi người

Hình 2-3. Mô hình tổng quát cho bài toán nhận dạng hành vi
2.2 Lịch sử nghiên cứu bài toán nhận dạng hành vi
Bài toán nhận dạng hành vi đã có một quá trình lịch sử phát triển lâu đời với
nhiều công trình nghiên cứu đã được công bố cũng như những ứng dụng đã triển
khai trong thực tế đã được làm rõ trong các nghiên cứu khảo sát [1, 2, 3, 26, 56, 82,
110]. Bài toán nhận dạng hành vi người được hình thành vào những năm 1970 [56],
khi nó thu hút sự quan tâm nghiên cứu của cộng đồng khoa học bởi vì nó có một


23

mảng rộng các ứng dụng tiềm năng như y khoa, tương tác người – máy, robot trợ
giúp, thành phố thông minh, nhà thông minh, trò chơi tương tác… Lược sử tóm tắt
các sự kiện chính tác động đến bài toán nhận dạng vi người được tóm lược trong
bảng 2-1 dựa trên nghiên cứu [56].
Năm
1973

Tóm tắt các nghiên cứu

Đối tượng chính

Thực nghiệm của Johansson gắn đèn Bộ phận cơ thể người
chiếu vào các khớp của con người.
Biểu diễn mỗi bộ phận của cơ thể bởi
hai điểm và xác định cấu trúc theo phép
chiếu trực giao.


1982

Tập dữ liệu Hoffman người đàn ông di Di chuyển
chuyển với 6 điểm. Nó được xem như
là sự khởi đầu của việc ước lượng cấu
trúc và nhận dạng hành vi của đối
tượng liên kết.

1982 đến 2010 Tập trung nghiên cứu phát triển khả Tập trung vào cử chỉ,
năng nhận dạng hành vi người trong cảm xúc và hành động
những điều kiện khác nhau. Trong giai
đoạn này, các bài toán chủ yếu tập
trung vào việc khai thác trên dữ liệu
ảnh RGB và đặc trưng được thiết kế.
2011 đến 2013 Đặc trưng được thiết kế bắt đầu phát Hành động và hoạt động
triển bùng nổ. Bên cạnh đó sự xuất hiện
của Kinect với khả năng ghi nhận độ
sâu và khung xương mở ra cơ hội
nghiên cứu trong việc khai thác nguồn
dữ liệu mới và kết hợp nhiều nguồn.
Bên cạnh đó, với sự thành công bước
đầu của mạng học sâu trong bài toán


×