Tải bản đầy đủ (.docx) (63 trang)

Nghiên cứu sử dụng mạng Nơ ron tích chập cho việc nhận dang hoạt động của người dựa trên cơ sở dữ liệu đã công bố

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.68 MB, 63 trang )

ỦY BAN NHÂN DÂN TỈNH TUYÊN QUANG
TRƯỜNG ĐẠI HỌC TÂN TRÀO

BÁO CÁO TỔNG KẾT
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN
Thuộc nhóm nghành khoa học: Khoa học kỹ thuật và công nghệ

TÊN ĐỀ TÀI:
Nghiên cứu sử dụng mạng Nơ ron tích chập cho việc nhận dang
hoạt động của người dựa trên cơ sở dữ liệu đã công bố

Chủ nhiệm đề tài : Bàn Văn Bằng

Tuyên Quang, tháng 5 năm 2022


ỦY BAN NHÂN DÂN TỈNH TUYÊN QUANG
TRƯỜNG ĐẠI HỌC TÂN TRÀO
BÁO CÁO TỔNG KẾT
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN
TÊN ĐỀ TÀI:
Nghiên cứu sử dụng mạng Nơ ron tích chập cho việc nhận dang
hoạt động của người dựa trên cơ sở dữ liệu đã cơng bố
Thuộc nhóm ngành khoa học: Khoa học kỹ thuật và công nghệ
Sinh viên thực hiện:
Dân tộc:

Bàn Văn Bằng

Nam, Nữ: Nam


Dao

Lớp, Khoa: Đại học công nghệ thông tin
Năm thứ: 2/Số năm đào tạo: 4
Ngành học: Công nghệ thông tin
Người hướng dẫn: Ts. Lê Văn Hùng
Xác nhận của Chủ tịch HĐ nghiệm thu
(ký, ghi rõ họ tên)

Tuyên Quang, tháng 5 năm 2022

Chủ nhiệm đề tài
(ký, ghi rõ họ tên)


MỤC LỤC
A. MỞ DẦU.........................................................................................................1
1. Lý do chọn đề tài..........................................................................................1
2. Mục tiêu nghiên cứu.....................................................................................1
3. Đối tượng và phạm vi nghiên cứu................................................................2
4. Phương pháp nghiên cứu..............................................................................2
B. NỘI DUNG.....................................................................................................3
Chương 1: Tổng quan về nhận dạng hành động............................................3
1.1. Tổng quan về mạng CNN.......................................................................3
1.1.1. Định nghĩa mạng Nơ ron tích chập (Convolutional Neural Network). .3
1.1.2. Cấu trúc của CNN..................................................................................4
1.2. Nhận dạng hành động............................................................................7
Chương 2: Tổng quan về các mạng CNN cho việc nhận dạng hoạt động
của người............................................................................................................9
2.1. Nhận dạng hoạt động người...................................................................9

2.2. Nhận dạng hoạt động người 2D...........................................................11
2.3. Nhận dạng hoạt động người 3D...........................................................15
Chương 3: Áp dụng một mạng CNN có hiệu năng cao cho việc nhận dạng
hoạt động của người dựa trên một cơ sở dữ liệu đã công bố......................22
3.1. Tổng quan về đồ thị và mạng đồ thị.....................................................22
3.1.1. Đồ thị....................................................................................................22
3.1.2. Mạng đồ thị (Graph Neural Networks – GNN)....................................23
3.2. Mạng đồ thị thời gian không gian (ST-GCN).......................................25


3.2.1. Xây dựng đồ thị khung xương..............................................................28
3.2.2. Mạng Nơ ron chuyển đổi đồ thị không gian.........................................29
3.2.3. Chiến lược phân vùng..........................................................................32
3.2.4. Trọng số cạnh quan trọng có thể học được..........................................34
3.2.5. Cơ sở dữ liệu công bố...........................................................................34
Chương 4: Kết quả nghiên cứu và xây dựng video về nhận dạng hành
động..................................................................................................................39
4.1. Một số độ đo đánh giá nhận dạng hoạt động người...............................39
4.2. Thực nghiệm...........................................................................................43
4.2.1. Một số yêu cầu.....................................................................................43
4.2.2. Chuẩn bị dữ liệu...................................................................................43
4.2.3. Huấn luyện...........................................................................................44
4.2.4. Kiểm tra................................................................................................44
4.3. Kết quả nghiên cứu.................................................................................46
4.4. Demo.......................................................................................................46
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN........................................................49
Danh mục tài liệu tham khảo:...........................................................................51

DANH MỤC HÌNH V



Hình 1.1: Mơ hình hoạt động của mạng CNN.......................................................3
Hình 1.2: Biến đổi pixel qua Convolutio filter.......................................................5
Hình 1.3: Mơ hình Pooling Layer..........................................................................7
Hình 2.1: Mơ hình tổng qt của hệ thống nhận dạng hoạt động người............11
Hình 2.2: Minh họa khớp xương 2D ước lượng được trên ảnh màu...................12
Hình 2.3: Minh họa mơ hình nhận dạng hoạt động dựa trên khung xương 2D
của người ước lượng từ openpose........................................................................13
Hình 2.4: Minh họa hướng tiếp cận DL cho việc nhận dạng hoạt động của người
..............................................................................................................................16
Hình 2.5: Minh họa mơ hình nén và chọn khung hình tốt cho việc huấn luyện và
nhận dạng hoạt động............................................................................................18
Hình 2.6: Mơ hình kết hợp CNN để phân loại hành động của bộ xương............19
Hình 2.7: Kiến trúc tổng thể của mơ hình SPD...................................................20
Hình 2.8: Minh họa Mạng TTN có thể huấn luyện được dễ dàng được thêm vào
đầu bộ phân loại chuỗi thời gian.........................................................................21
Hình 3.1: Minh họa đồ thị có hướng....................................................................22
Hình 3.2: Minh họa mối quan hệ trên đồ thị của mạng xã hội............................23
Hình 3.3: Minh họa việc biểu diễn thơng tin của ảnh bằng đồ thị......................24
Hình 3.4: Minh họa biểu diễn đồ thị trong CNN.................................................25
Hình 3.5: Biểu đồ thời gian - khơng gian của khung xương khi sử dụng ST-GCN
..............................................................................................................................26
Hình 3.6: Minh họa mơ hình mạng ST-GCN.......................................................27
Hình 3.7: Hình ảnh minh họa các lớp hoạt động của cơ sở dữ liệu NTU RGB +
D...........................................................................................................................37


Hình 3.8: Minh họa cơ sở dữ liệu NTU RGB + D được tải và lưu trữ trên máy
chủ........................................................................................................................38
Hình 4.1: Kết quả ước lượng khung xương người trên ảnh màu dựa trên

Openpose..............................................................................................................48
Hình 4.2: Minh họa kết quả nhận dạng hoạt động dựa trên khung xương của
mạng ST-GCN......................................................................................................48
DANH MỤC BẢNG BIỂU
Bảng 3.1: Kích thước cơ sở dữ liệu NTU RGB + D và NTU RGB + D 120.......35
Bảng 3.2: Các hành động hàng ngày trong NTU RGB + D và NTU RGB + D
120........................................................................................................................36
Bảng 3.3: Các hành động hỗ trợ trong NTU RGB + D và NTU RGB + D 120..36
Bảng 3.4: Các hành động y tế trong NTU RGB + D và NTU RGB + D 120......37
Bảng 4.1: Các tham số của độ đo đánh giá.........................................................39
Bảng 4.2: Độ chính xác của các nghiên cứu cơ sở và ST-GCN..........................46


DANH MỤC TỪ VIẾT TẮT
STT

Ký hiệu chữ
viết tắt

1

CNN

2

CNNs

3

ReLU


4
5
6
7

DL
MM
KDES
ML

8

LSTM

9
10

KNNs
DNN

11

HAR

12

RNN

13


MJS

14

STSI

15

LDS

16

SPI

17

SPD

18

TTN

19

GNN

20

ST-GCN


Chữ viết đầy đủ
Convolutional Neural
Network
Convolutional Neural
Networks

Dịch nghĩa
Mạng nơ-ron tích chập
Các mạng nơ-ron tích chập

Đơn vị tuyến tính chỉnh
lưu
Deep Learning
Học sâu
Motion Map
Bản đồ chuyển động
Kernel Descriptor
Mô tả hạt nhân
Machine Learning
Học máy
Long Short-Term
Mạng nơ-ron bộ nhớ ngắnMemory Neural Network dài
K-Nearest Neighbours
K-Tập lân cận gần nhất
Deep Neural Network
Mạng nơ-ron sâu
Human Activity
Nhận dạng hoạt động
Recognition

người
Recurrent Neural
Mạng nơ-ron lặp lại
Network
Motion-based Joints
Lựa chọn khớp dựa trên
Selection
chuyển động
Skeleton Trajectory
Hình ảnh hình dạng quỹ
Shape Image
đạo khung xương
Hệ thống động lực học
Linear Dynamics System
tuyến tính
Hình ảnh tư thế khung
Skeleton Pose Image
xương
Symmetric Positive
Xác định đối tượng thực
Definite
sự
Temporal Transformer
Mạng chuyển đổi thời gian
Network
Graph Neural Networks
Mạng nơ-ron đồ thị
Spatial Temporal Graph Mạng đồ thị không gian –
Convolutional Networks thời gian
Rectified Linear Unit



STT

Ký hiệu chữ
viết tắt

21

ROC

22
23
24
25

TP
TN
FP
FN

Chữ viết đầy đủ
Receiver Operating
Characteristic
True Positive
True Negative
False Positivie
False Negative

Dịch nghĩa

Đặc trưng hoạt động của
bộ thu nhận
Dương tính đúng
Dương tính giả
Âm tính đúng
Âm tính giả

A. MỞ DẦU
1. Lý do chọn đề tài
Ngày nay việc nhận dạng hoạt động của người được ứng dụng trong nhiều
lĩnh vực như phân tích thể thao, tương tác người máy, xây dựng các thao tác
trong game v.v. Trước đây các vấn đề này thường được giải quyết bằng các mơ
hình học máy truyền thống, các kết quả còn khiêm tốn. Ngày nay với sự xuất
hiện của các mơ hình học máy dựa trên Mạng Nơ ron tích chập (Convolutional
Neural Networks - CNNs) với các đặc trưng tích chập đã có rất nhiều các kết
quả ấn tượng trong việc phát hiện, nhận dạng, ước lượng đối tượng. Với những
kết quả này, các mơ hình mạng CNN đã nhận được quan tâm rất nhiều của cộng
đồng nghiên cứu về nhận dạng hoạt động. Đây là các kiến thức mới về trí tuệ
nhận tạo, khoa học máy tính. Đó là lĩnh vực thơi thúc sự tị mị của cộng đồng
cơng nghệ thơng tin và những sinh viên trẻ. Đồng thời, đã có một số nghiên cứu
thực hiện việc nhận dạng hoạt động của người nhưng kết quả vẫn còn khiêm tốn
trong trường hợp các khớp xương của người bị che khuất. Điều đó cần được
nghiên cứu trong đề tài này.
2. Mục tiêu nghiên cứu


Đề tài có ba mục tiêu chính:
- Hệ thống hóa lại các nghiên cứu về nhận dạng hoạt động của người dựa trên
hướng tiếp cận sử dụng một mạng Nơ ron tích chập.
- Dựa vào các cơ sở dữ liệu đã công bố sử dụng một mạng CNN cho việc nhận

dạng hoạt động của người.
- Xây dựng video về nhận dạng hoạt động.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
Đối tượng nghiên cứu của đề tài là:
- Mạng Nơ ron tích chập cho việc nhận dạng hoạt động.
- Khung xương của người.
Phạm vi nghiên cứu:
Đề tài thực hiện nghiên cứu trên một mạng Nơ ron tích chập cho việc
huấn luyện và nhận dạng hoạt động của người dựa trên các cơ sở dữ liệu
đã công bố.
4. Phương pháp nghiên cứu
Đề tài sử dụng phương pháp nghiên cứu:
- Nghiên cứu tài liệu về mạng CNN và nhận dạng hoạt động.
- Nghiên cứu thực nghiệm về sử dụng mạng CNN cho nhận dạng hoạt động.
- Nghiên cứu kiểm thử về sử dụng mạng CNN cho nhận dạng hoạt động.


B. NỘI DUNG
Chương 1: Tổng quan về nhận dạng hành động
1.1. Tổng quan về mạng CNN
1.1.1. Định nghĩa mạng Nơ ron tích chập (Convolutional Neural Network)
Convolutional Neural Network (CNN hay ConvNet): Mạng Nơ-ron
tích chập. Đây được coi là một trong những mơ hình Deep Learning tập
hợp các thuật tốn để có một mơ hình dữ liệu trừu tượng cao sử dụng
nhiều lớp xử lý cấu trúc phức tạp. Nói một cách đơn giản, CNN là một lớp
mạng lưới thần kinh sâu, thường được áp dụng để phân tích các hình ảnh
trực quan.

Hình 1.1: Mơ hình hoạt động của mạng CNN

Hiện tại, Khơng có định nghĩa chính xác nhất về thuật tốn CNN.
Mạng CNN được thiết kế với mục đích xử lý dữ liệu qua nhiều lớp mảng.
Ngồi ra, CNN có thể giúp tạo ra một hệ thống thông minh phản hồi với
độ chính xác cao.


So với nhiều mạng nơ-ron thông thường, CNN lấy mảng hai chiều làm
đầu vào và hoạt động trực tiếp trên hình ảnh thay vì tập trung vào việc
trích xuất đặc điểm thường thấy trong các mạng nơ-ron khác.
1.1.2. Cấu trúc của CNN
CNN là một tập hợp các lớp tích chập chồng lên nhau sử dụng các
hàm nonlinear activation (kích hoạt phi tuyến) như ReLU và tanh để kích
hoạt các trọng số trong các nút. Mỗi lớp sau khi truyền các hàm kích hoạt
sẽ tạo ra nhiều thơng tin trừu tượng hơn cho các lớp tiếp theo. Trong mơ
hình mạng feedforward neural network (mạng truyền ngược), mỗi neural
đầu vào (input) cho mỗi neural đầu ra trong các lớp tiếp theo.
Mơ hình này gọi là mạng kết nối đầy đủ (fully connected) hay mạng
tồn vẹn (affine layer). Trong mơ hình CNNs, điều đó là ngược lại. Các
lớp được liên kết với nhau theo cơ chế tích chập.
Lớp (Layer) tiếp theo là kết quả tích chập của lớp trước, vì vậy có các
kết nối cục bộ. Do đó, mỗi nơ-ron của lớp tiếp theo được tạo ra từ kết quả
của filter áp dụng cho vùng ảnh cục bộ của nơ-ron trước đó.
Mỗi lớp sử dụng các bộ lọc filter khác nhau, thông thường lấy hàng
trăm nghìn filter đó và kết hợp các kết quả của chúng. Ngồi ra, có các lớp
khác như lớp pooling / subsampling được sử dụng để lọc ra nhiều thơng
tin hữu ích hơn (loại bỏ thơng tin nhiễu).
Trong q trình training mạng, CNNs tự động học các giá trị thông
qua các lớp filter tùy thuộc vào cách thực hiện. Ví dụ, trong nhiệm vụ
phân loại hình ảnh, CNNs sẽ cố gắng tìm các thơng số tối ưu cho các bộ
lọc tương ứng theo thứ tự pixel > edges > shapes > facial > high-level

features. Layer cuối cùng được sử dụng để phân loại hình ảnh.


Trong mơ hình CNNs, hai khía cạnh phải được tính đến: tính bất biến
(Location Invariance) và tính kết hợp (Compositionality). Với cùng một
đối tượng, nếu đối tượng này được chiếu ở các mức độ khác nhau thì độ
chính xác của thuật toán sẽ bị ảnh hưởng đáng kể.
Pooling layer sẽ cung cấp tính bất biến đối với phép dịch chuyển, quay
và co giãn. Tính liên kết cục bộ cung cấp mức độ biểu diễn thông tin từ
thấp đến cao hơn và trừu tượng hơn bằng convolution từ các bộ lọc
Đây là lý do tại sao CNNs sản xuất các mô hình có độ chính xác rất
cao. Cũng giống như cách con người nhìn nhận các vật thể trong tự nhiên.

Hình 1.2: Biến đổi pixel qua Convolutio filter
Mạng CNN sử dụng 3 ý tưởng cơ bản:
 Các trường tiếp nhận cục bộ (Local Receptive Field)


 Trọng số chia sẻ (Shareed Weights)
 Tổng hợp (Pooling Layer)
Các trường tiếp nhận cục bộ (Local Receptive Field)
Local Receptive Field (trường tiếp nhận cục bộ). Đây được coi là lớp
giúp bạn phân tách và lọc dữ liệu, thông tin hình ảnh và chọn ra những
vùng hình ảnh giá trị nhất để sử dụng.
Trọng số chia sẻ (Shared Weights)
Shared Weights (trọng số chia sẻ). Chức năng chính của lớp này là
giúp giảm thiểu số lượng các tham số trong mạng CNN. Vì trong mỗi
phép chập sẽ bao gồm một bản đồ đặc trưng (Feature Map) khác nhau,
mỗi Feature Map giúp phát hiện một số đặc trưng trong ảnh.
Tổng hợp (Pooling Layer)

Pooling Layer (Lớp tổng hợp). Đây gần như được coi là lớp cuối cùng
trước khi kết quả được hiển thị trên CNN. Vì vậy, để có được kết quả dễ
hiểu và dễ sử dụng nhất, Pooling layer có cơng việc đơn giản hóa thơng tin
đầu ra. Tức là sau khi hồn thành q trình tính tốn và qt các lớp sẽ
đến Pooling để loại bỏ những thông tin không cần thiết và cho ra kết quả
cần thiết.


Hình 1.3: Mơ hình Pooling Layer
1.2. Nhận dạng hành động
Nhận dạng hành động người tức là ghi nhận và hiểu các hành động mà
con người thực hiện. Đây là một lĩnh vực được nghiên cứu rộng rãi trong
thị giác máy tính. Kể từ những năm 1980, lĩnh vực nghiên cứu này đã thu
hút được sự chú ý của đông đảo cộng đồng khoa học máy tính, và đã có
nhiều nghiên cứu được thực hiện và đạt được những kết quả ấn tượng.
Chúng đã được ứng dụng vào nhiều lĩnh vực khác như giám sát, phân tích
video, xây dựng tương tác người-máy, các thao tác trong game,…


Một hành động là một chuỗi các chuyển động của các bộ phận của cơ
thể con người. Từ những chuyển động đó sẽ tập trung đánh dấu các điểm
đặc trưng và so sánh chúng với nhãn của loại hành động được mơ tả trong
mơ hình huấn luyện. Ví dụ, với hành động “ngồi xuống” sẽ tập trung và
chuyển động của hông và chân, hành động “vẫy tay” sẽ tập trung vào
chuyển động của bàn tay, trích xuất các điểm đặc trưng của các hoạt động
và so sánh với các mô tả trong mơ hình huấn luyện nếu giống với mơ tả
“ngồi xuống” hay “bắt tay” thì sẽ cho ra kết quả của hai hoạt động.


Chương 2: Tổng quan về các mạng CNN cho việc nhận dạng hoạt động của

người
2.1. Nhận dạng hoạt động người
Các bài tốn trong lĩnh vực trí tuệ nhân tạo, đặc biệt phát triển trong
lĩnh vực thị giác máy tính đã được quan tâm của nhiều nhà khoa học trong
nước, tại các cở sở giáo dục đào tạo, các viện nghiên cứu trong nước. Một
số bài toán liên quan đến nội dung nghiên cứu của đề tài bao gồm:
Viện NCQT MICA và Viện CNTT Trường ĐHBK đã triển khai một
số nghiên cứu về nhận dạng hoạt động dựa trên dữ liệu thu được từ các
cảm biến gắn trong môi trường. Trong khuôn khổ đề tài nghị định thư mã
số10/2011-HĐ/NĐT do PGS.TS. Trần Đỗ Đạt chủ nhiệm và đề tài cấp bộ
mã số B2013.01.41 do PGS.TS. Trần Thị Thanh Hải làm chủ nhiệm,
nhóm đã thực hiện các nghiên cứu để phát hiện các sự kiện bất thường của
người trong môi trường trong nhà như sự kiện ngã, sự kiện nằm bất động
quá lâu dựa việc trích chọn các đặc trưng tự thiết kế (ảnh lịch sử chuyển
động MM (Motion Map), bộ mô tả hàm nhân KDES – Kernel Descriptor,
điểm đặc trưng không gian thời gian (Spatial Temporal Interest Point) trên
thông tin đa thể thức (hình ảnh, âm thanh, độ sâu, khung xương)
[ CITATION Ngu15 \l 1033 ] ,[ CITATION Tha17 \l 1033 ] ,[ CITATION DoD14 \l
1033 ],[ CITATION Mor14 \l 1033 ]. Các kết quả nghiên cứu này nhằm hỗ trợ

cảnh báo bất thường xảy đến với người bệnh hoặc người cao tuổi trong
phịng bệnh/nhà dưỡng lão.
Sau đó, một số nghiên cứu sử dụng các kiến trúc mạng Nơ ron học sâu
cũng đã được triển khai. Cụ thể mơ hình nghiên cứu dựa trên mạng tích
chập ba chiều (3D Convolutional Neural Network –C3D), mạng tích chập


đa luồng nhằm phân loại hoạt động, phát hiện các hoạt động bất thường
(two streams C3D) [ CITATION Van18 \l 1033 ],[ CITATION Tha18 \l 1033 ].
Các thông tin đa thể thức như RGB, độ sâu, khung xương và gia tốc được

kết hợp muộn để nâng cao hiệu quả nhận dạng. Trong [ CITATION Sat17 \l
1033 ], nhóm tác giả thuộc Đại học Quốc gia TPHCM đề xuất phương

pháp kết hợp các đặc trưng tự thiết kế với đặc trưng trích từ mạng Nơ ron
học sâu trên nguồn dữ liệu đa phương thức (âm thanh, hình ảnh) để thực
hiện bài toán phát hiện các cảnh / hành vi bất thường (bạo lực) trong
video. Một nghiên cứu khác là kết hợp các luồng quang học tính tốn trên
ảnh RGB và ảnh độ sâu dựa trên kỹ thuật học đa nhân cũng đã được đề
xuất cho bài toán nhận dạng hoạt động [ CITATION Hoa15 \l 1033 ]. Nhóm
các tác giả của Học Viện bưu chính viễn thơng đề xuất phương pháp phát
hiện hoạt động ngã dựa trên cảm biến đeo (gia tốc) [ CITATION Die16 \l
1033 ] với các đặc trưng tự thiết kế (trung bình, sai phương, vv).

Nhận dạng hoạt động của người được ứng dụng trong nhiều lĩnh vực
như tương tác người máy, y tế, giáo dục, giải trí, vv. Năm 2020, Preksha
Pareek và cộng sự [CITATION Van \l 1033 ] đã thực hiện một cuộc khảo sát đầy
đủ về nhận dạng hoạt động người trong video, trong đó trình bày đầy đủ
các hướng tiếp cận, cơ sở dữ liệu, các thách thức và ứng dụng của nhận
dạng hoạt động người. Hệ thống nhận dạng hoạt động người được tổng
qt hóa và minh họa trong Hình 2.1. Trong đó, hệ thống nhận dạng hoạt
động người được thực hiện theo một số bước như sau: Biểu diễn hoạt
động theo định dạng video; Biểu diễn hoạt động (biểu diễn dựa trên các
đặc trưng); Giảm số chiều của không gian đặc trưng; Chọn mẫu (chia
thành các tập huấn luyện, kiểm tra, xác thực); Huấn luyện mơ hình nhận


dạng; Cuối cùng đầu ra là nhãn của hoạt động; Đồng thời trong mơ hình
cũng thể hiện hai cách tiếp cận cho việc xây dựng mơ hình nhận dạng hoạt
động: hướng tiếp cận truyền thống là sử dụng các kỹ thuật của Machine
Learning (ML); hướng tiếp cận tiên tiến là sử dụng các kỹ thuật/mạng

Deep Learning (DL).

Hình 2.1: Mơ hình tổng quát của hệ thống nhận dạng hoạt động người
Hay trong khảo sát của Jobanputra và các cộng sự [ CITATION CJo \l 1033 ]
đã liệt kê danh sách một số hướng tiếp cận theo hai nhóm là hướng tiếp
ML và DL. Đặc biệt bài toán nhận dạng hoạt động của người cũng được
chia làm hai bài toán là nhận dạng hoạt động người dựa trên khung xương
2D/ trên ảnh và nhận dạng hoạt động dựa trên khung xương 3D.
2.2. Nhận dạng hoạt động người 2D
Việc nhận dạng hoạt động của người trong không gian 2D/ không gian
ảnh thường dựa trên tư thế/ khung xương của người ước lượng được trong


không gian 2D. Angelini và các cộng sự [ CITATION FAn20 \l 1033 ] đã thực hiện
một nghiên cứu nhận dạng hoạt động của người trong thời gian thực, đặc
biệt là nhận dạng hoạt động trong một số trường hợp khớp xương bị che
khuất. Khớp xương 2D được ước lượng như minh họa trong Hình 2.2.

Hình 2.2: Minh họa khớp xương 2D ước lượng được trên ảnh màu
Nghiên cứu sử dụng mạng LSTM(Long Short-Term Memory Neural
Network) để huấn luyện các đặc trưng dựa trên tư thế người 2D. Độ chính
xác trung bình trong nhận dạng hoạt động trên cơ sở dữ liệu MPOSE là
92.4%. Thời gian thực hiện trên một số cơ sở dữ liệu như sau: Weizmann:
25fps; i3Dpost: 25fps; IXMAS:19fps; KTH:25fps; ISLD:25fps.
Sumaira và các cộng sự [ CITATION SGh19 \l 1033 ] chỉ sử dụng các mơ hình
của học máy truyền thống (K-nearest neighbours (KNNs), support vector
machine, Naive Bayes, linear discriminant) để huấn luyện mơ hình nhận


dạng hoạt động người (ngồi, đứng, ngã, đi bộ) dựa trên khung xương

người. Độ chính xác của một số mơ hình học máy truyền thống được thể
hiện như sau: KNN:88%; SVM:76%; LDA:86%; NB:90%; BPNN: 89%.
Aubry và các cộng sự

[ CITATION SAu19 \l 1033 ]

đã sử dụng mạng DNN-

based để huấn luyện mơ hình nhận dạng hoạt động dựa trên khung xương
của người được ước lượng từ mạng OpenPose, như minh họa trong Hình
2.3. Đồng thời nghiên cứu này cũng so sánh các kết quả nhận dạng hoạt
động người dựa trên một số mạng CNN: SqueezeNet, AlexNet, DenseNet,
ResNet, Inception, VGG. Trong đó kết quả nhận dạng tốt nhất là mạng
ResNet trên cơ sở dữ liệu NTU RGB+D: 83.317% cross-subject và
88.780% cross-view.

Hình 2.3: Minh họa mơ hình nhận dạng hoạt động dựa trên khung xương 2D
của người ước lượng từ openpose
Trong nghiên cứu[ CITATION Van \l 1033 ], các tác giả cũng giới thiệu một
số cơ sở dữ liệu cho việc đánh giá các mơ hình nhận dạng hoạt động của
người dựa trên thông tin về tư thế người 2D.



×