Tải bản đầy đủ (.pdf) (3 trang)

Tối ưu bài toàn phân loại hành động dựa vào đặc trưng mới

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (247.09 KB, 3 trang )

Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0

TỐI ƯU BÀI TOÀN PHÂN LOẠI HÀNH ĐỘNG
DỰA VÀO ĐẶC TRƯNG MỚI
Phạm Trí Cơng
Trường Đại học Thủy lợi, email:

1. GIỚI THIỆU

Phân loại hành động người là một trong
những bài toán đã được nghiên cứu từ lâu.
Với đầu vào là một video, dựa vào các đặc
trưng của các frame liên tiếp nhau, giải pháp
phải phân loại thành các hành động. Một
trong những vấn đề gặp phải đối với bài tốn
này là có một số hành động hay bị phân loại
nhầm sang hành động khác do sự tương tự về
tư thế. Ví dụ hành động đứng yên hay bị
nhầm với hành động đi bộ. Trong nghiên cứu
này, tác giả đề xuất giải pháp phân loại hành
động dựa vào sự kết hợp giữa OpenPose và
LSTM. Tác giả đề xuất giải pháp tối ưu bằng
cách thêm các đặc trưng mới để nâng cao
hiệu quả của mơ hình. Nghiên cứu sử dụng
bộ dữ liệu gồm 2022 video để huấn luyện và
đánh giá mô hình đề xuất. Kết quả là, giải
pháp tối ưu đề xuất giúp tăng 7.2% độ chính
xác mean recall.

Bước 2: Các frame riêng lẻ được trích chọn
18 điểm quan trọng của cơ thể dựa vào thư


viện OpenPose. Đến bước 3, 18 điểm của cơ
thể được sử dụng để tạo ra các đặc trưng mới
tùy theo kịch bản. Cuối cùng, các đặc trưng
mới và đặc trưng của 18 điểm được sử dụng
để huấn luyện module LSTM trong quá trình
training. Ở giai đoạn phân loại, mơ hình
LSTM đã được huấn luyện, sẽ sử dụng đầu
vào là các đặc trưng, để phân loại hành động
thành một trong năm hành động.

Hình 1. Kiến trúc hệ thống phân loại
hành động người bằng video

2. PHƯƠNG PHÁP NGHIÊN CỨU

Phân loại hành động bằng video đã được
nhiều nhà nghiên cứu thực hiện với nhiều kỹ
thuật khác nhau. Có nhiều giải pháp sử dụng
kỹ thuật học sâu để phân loại [1], [2]. Có kỹ
thuật kết hợp giữa học sau và LSTM để phân
loại [3], [4]. Có kỹ thuật sử dụng kết hợp
giữa OpenPose để trích xuất các điểm quan
trọng của cơ thể, sau đó dùng LSTM để phân
loại hành động [5], [6].
Trong nghiên cứu này, tác giả đề xuất giải
pháp kết hợp giữa OpenPose và LSTM để phân
loại năm loại hành động thơng dụng. Mơ hình
hệ thống được mơ tả ở Hình 1 gồm 4 bước.
Bước 1: Video đầu vào được chuyển thành
các frame riêng lẻ để xử lý. Sau đó, ở


Trong nghiên cứu này, ở bước ba,
Transform, tác giả dựa vào phân tích đặc trưng
giữa các tư thế để tạo ra các đặc trưng mới
như: khoảng cách giữa các bàn tay, bàn chân,
đầu gối, đầu gối với cổ, vai, bàn chân với cổ và
vai. Để đánh giá hiệu quả quả giải pháp,
nghiên cứu thực hiện so sánh hiệu quả của giải
pháp đề xuất với base-line model trên bộ dữ
liệu thu thập từ các nguồn khác nhau.
3. CHI TIẾT THỰC NGHIỆM

3.1. Bộ dữ liệu
Bộ dữ liệu được sử dụng trong nghiên cứu
này được thu thập từ Youtube, Facebook, và

119


Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0

Tự quay. Việc thu thập và xử lý dữ liệu là
công đoạn mất rất nhiều thời gian và công
sức. Các video được chỉnh sửa bằng phần
mềm để loại bỏ những phần không liên quan
trong video. Sau khi xử lý xong thì được bộ
dữ liệu bao gồm 2022 video ngắn gồm 5
hành động khác nhau (Eat, Sit, Sleep, Stand,
Walk). Trong đó, 80% dữ liệu được sử dụng
cho huấn luyện mơ hình (dữ liệu train), 10%

dành cho tập validation và 10% cho tập kiểm
thử. Số lượng và phân bổ video cho các tập
được thể hiện ở Bảng 1 bên dưới.
Bảng 1. Dữ liệu của năm loại hành động
của mỗi tập Train, Val, Test
Eat
Train 326
Val
41
Test 41

Sit
326
43
42

Sleep Stand Walk
345 316 297
45
40
37
45
40
38

Total
1610
206
206


Bộ dữ liệu bao gồm 2022 video, trong đó
1610 video được sử dụng để huấn luyện, 206
video được sử dụng cho tập validation, cịn lại
206 video được sử dụng để đánh giá mơ hình.
3.2. Thiết lập thơng số thực nghiệm
Với phương pháp này, tác giả chuẩn bị dữ
liệu đầu vào cho model LSTM. Các video train
sẽ được xử lý qua model của Openpose để trích
xuất ra 18 điểm của cơ thể. Cứ 24 khung hình
liên tiếp sẽ được sử dụng để xác định hành
động của người trong video. Dữ liệu của 24
khung hình này sẽ được sử dụng là đầu vào
cho LSTM để học và phân loại hành động.
Thông số chi tiết được mô tả ở Bảng 2.
Bảng 2. Thông số thực nghiệm
STT
Thông số
1
Số lần huấn luyện
2
Số frames/hành động

Giá trị
50
24

Trong nghiên cứu này, mơ hình LSTM
được huấn luyện 50 epoch. Sau khi hồn
thành train ở mỗi epoch, một model sẽ được
lưu lại. Sau tồn bộ q trình training, 50

model được lưu lại với các chỉ số loss và
accuracy, chỉ số Accuracy tăng ở mức cao
nhất là 84%. Model có Accuracy tốt nhất trên
bộ dữ liệu validation sẽ được lựa chọn để

đánh giá độ chính xác cuối cùng của phương
pháp trên tập dữ liệu kiểm thử.
4. KẾT QUẢ THỰC NGHIỆM

Trong nghiên cứu này, tác giả thực hiện
hai kịch bản để đánh giá hiệu quả của giải
pháp đề xuất: 1) Base-line model được thực
hiện với đầu vào cho LSTM là 18 đặc trưng
là đầu ra của OpenPose; 2) Tối ưu model
bằng cách thêm các đặc trưng mới. Với hai
kịch bản này, tác giả đã huấn luyện LSTM
với cùng 50 epoch, lựa chọn model có độ
chính xác tốt nhất trên tập dữ liệu validation,
sau đó đánh giá trên bộ dữ liệu test gồm 206
video. Kết quả của hai kịch bản lần lượt được
thể hiện ở Hình 2 và Hình 3.
3.3. Base-line model
Trong phần này, tác giả đánh giá hiệu quả
của base - line model. Mơ hình này được
thực hiện với đầu vào cho LSTM là 18 đặc
trưng, là đầu ra của OpenPose. Mười tám đặc
trưng này được sử dụng trực tiếp làm đầu vào
của LSTM. Kết quả của giải pháp này được
thể hiện như Hình 2.


Hình 2. Độ chính xác của bài tốn phân loại
hành động sử dụng OpenPose kết hợp
với LSTM
Độ chính xác khi tính trung bình đường
chéo của ma trận (mean recall) ở Hình 2 là
86.4%. Kết quả này tương đối cao, nhưng
nhìn vào hình 2 thì thấy hành động Eat có
recall lớn nhất là 100%, trong khi đó Stand
có recall thấp nhất chỉ đạt 70%. Đặc biệt
hành động Stand bị đoán nhầm nhiều nhất
vào hai lớp là Walk và Sleep. Số kết quả
Stand bị đoán nhầm thành Walk là khá nhiều
với 20%. Sau đó là Stand bị đốn nhầm thành
Sleep là 10%. Tương tự như vậy, hành động
Sleep tuy có độ chính xác là 90%, đứng thứ 3

120


Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0

trong 5 hành động. Tuy nhiên, Sleep chỉ bị
đoán sai thành Stand.
3.4. Tối ưu giải pháp bằng đặc trưng mới
Nguyên nhân của sự nhầm lẫn giữa ba
hành động Stand, Walk, và Sleep là do một
số video Openpose chưa nhận được hết các
điểm khớp trên cơ thể. Về mặt logic là do tư
thế giống nhau giữa ba hành động này. Nghĩa
là tư thế Sleep, Stand, Walk có sự tương

đồng là chúng có cùng một dạng là tư thế
người, tay, và chân. Trong đó hai hành động
Stand và Walk thì vị trí của 18 điểm cơ thể
gần như có thể như nhau. Hai hành động này
khi quay 90% thì rất giống với tư thế của
đang ngủ. Nhưng ta có thể thêm một số thuộc
tính khác để phân biệt giữa các hành động
này. Tác giả đưa ra giải pháp để giải quyết
vấn đề trên bằng việc kết hợp 18 điểm cơ thể
với các đặc trưng khác như nêu ở giải pháp
hai. Phân tích hành động thấy khi đi thì
khoảng cách 2 chân thay đổi, cịn hành động
đứng thì khơng. Vì vậy ta cho thêm các thuộc
tính khoảng cách 2 bàn chân, khoảng cách 2
đầu gối. Các hành động ngồi, ngủ hay bị
nhầm với đứng, ta cho thêm một số thuộc
tính như khoảng cách giữa bàn tay và đầu
gối, khoảng cách bàn tay và vai. Một số
thuộc tính khác cũng được thêm vào như
khoảng cách khủy tay và đầu gối, khoảng
cách 2 khủy tay, khoảng 2 bàn tay. Kết quả
sau khi huấn luyện lại mơ hình với các thuộc
tính thêm ở trên được biểu diễn ở Hình 3.

Hình 3. Độ chính xác của bài toán phân loại
hành động sử dụng OpenPose kết hợp với
LSTM sử dụng thêm các đặc trưng mới
Độ chính xác trên hành động Stand vẫn
thấp nhất nhưng đã tăng 10% từ 70% lên
80%. Hơn nữa, giải pháp này còn tăng mean


recall 7.2% (từ 86.4% lên 93.6%). Với kết
quả này, giải pháp đã có thể triển khai trong
các dự án thực tế.
5. KẾT LUẬN
Trong nghiên cứu này, chúng tôi đã đề xuất
giải pháp sử dụng OpenPose và LSTM cho bài
toán phân loại hành động người sử dụng video.
Nghiên cứu đã đánh giá giải pháp với các đặc
trưng cơ bản và đề xuất giải pháp để nâng cao
hiệu quả của hệ thống bằng cách sử dụng các
đặc trưng thêm mới. Giải pháp đề xuất khơng
những nâng cao độ chính xác mean recall
7.2% mà cịn tăng độ chính xác của lớp stand,
lớp có hiệu quả thấp nhất với base line model.
Kết quả này có ý nghĩa rất lớn là chúng ta có
thể thêm các đặc trưng mới gần gũi với logic
của con người để tăng hiệu quả của mơ hình
học máy một cách nhanh chóng.
Do thời gian có hạn nên nghiên cứu mới chỉ
đánh giá được với bộ dữ liệu thu thập được là
2022 video với 5 hành động. Trong tương lai,
tác giả sẽ thực hiện đánh giá trên nhiều dữ liệu
hơn và nhiều hành động hơn. Khơng những
vậy, ý tưởng này cịn có thể sử dụng cho các
bài tốn khác tương tự như bài toán này.
6. TÀI LIỆU THAM KHẢO
[1] Y. Lecun, Y. Bengio, and G. Hinton, “Deep
learning,” Nature, vol. 521, no. 7553, pp.
436–444, 2015, doi: 10.1038/nature14539.

[2] C.-F. Chen et al., “Deep Analysis of CNNbased Spatio-temporal Representations for
Action Recognition,” Oct. 2020, [Online].
Available: />[3] N. Kojovic, S. Natraj, S. P. Mohanty, T.
Maillart, and M. Schaer, “Using 2D Videobased Pose Estimation forAutomated
Prediction of Autism Spectrum Disordersin
Preschoolers,” medRxiv, 2021, doi:
10.1101/2021.04.01.21254463.
[4] C. I. Orozco, M. E. Buemi, and J. J. Berlles,
“CNN-LSTM Architecture for Action
Recognition in Videos,” 2019.
[5] C. Sawant, “Human activity recognition
with openpose and Long Short-Term
Memory on real time images,” 2020.
[6] F. M. Noori, B. Wallace, M. Z. Uddin, and J.
Torresen, “A Robust Human Activity
Recognition Approach Using OpenPose,
Motion Features, and Deep Recurrent Neural
Network,” 2019, pp. 299–310.

121



×