Tải bản đầy đủ (.pdf) (27 trang)

Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu tt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.28 MB, 27 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN TƯỜNG THÀNH

VỀ MÔ HÌNH NHẬN DẠNG TƯ THẾ VÕ
DỰA TRÊN ẢNH CHIỀU SÂU

Ngành: Kỹ thuật điện tử
Mã số: 9520203

TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ

Hà Nội −2020


Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội

Người hướng dẫn khoa học:
1. TS. Lê Dũng
2. TS. Phạm Thành Công

Phản biện 1: PGS.TS Bạch Nhật Hồng
Phản biện 2: PGS.TS Lê Bá Dũng
Phản biện 3: PGS.TS Phan Hữu Huân

Luận án sẽ được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ
cấp Trường họp tại Trường Đại học Bách khoa Hà Nội:

Vào hồi..........giờ, ngày.......tháng.......năm 2020.



Có thể tìm hiểu luận án tại thư viện:
1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội
2. Thư viện Quốc gia Việt Nam


MỞ ĐẦU
1. Tính cấp thiết của nghiên cứu
Võ cổ truyền là một môn thể thao thể hiện bản sắc dân tộc. Ở Việt Nam từ năm 2016,
các bài võ cổ truyền được đưa vào giảng dạy trong các trường phổ thông để rèn luyện sức
khỏe và tự vệ cho các em học sinh. Nên việc xây dựng một mô hình chấm điểm các bài võ
được truyền dạy trên lớp là điều cần thiết. Các mô hình này giúp học sinh phổ thông tự đánh
giá các tư thế võ trong bài võ mà không cần phải nhờ đến các võ sư tại các võ đường.
Tuy nhiên, các thế võ là các hành động nhanh, khó, quay bốn hướng mà các thiết bị ghi
hình thường chỉ nằm ở một vị trí nên có nhiều tư thế bị che khuất. Nên để bảo tồn, truyền,
dạy các thế võ một cách trực quan thì việc phát hiện, ước lượng các thế võ ở các cảnh bị che
khuất là việc làm cần thiết. Đồng thời xây dựng môi trường 3-D để trực quan hóa việc đào
tạo và dạy võ cổ truyền là một vấn đề cần thiết để giảm thời gian, chi phí, công sức của các
võ sư. Đặc biệt là tăng tính tự giác và đánh giá luyện tập của các học sinh phổ thông.
Để thu thập được các video phục vụ cho việc bảo tồn và duy trì các thế võ người ta
thường sử dụng các cảm biến hình ảnh như các loại camera gắn trên các điện thoại thông
minh, hay các loại camera chuyên dụng. Đặc biệt, để xây dựng được khung cảnh (môi trường)
3-D về các tư thế võ người ta thường sử dụng các cảm biến có ảnh độ sâu như Kinect phiên
bản 1 (Version 1 - V1), Kinect phiên bản 2 (Version 2 - V2), Real scene D435, vv. Trong đó,
cảm biến Kinect V1 là một loại cảm biến rẻ tiền (giá ngoài thị trường chỉ khoảng 1 triệu
Việt Nam đồng - 40 USD) và chất lượng ảnh màu, ảnh độ sâu của cảm biến này là chấp
nhận được. Với giá thành rẻ như vậy phù hợp với túi tiền của người Việt Nam và khả năng
phổ dụng của loại cảm biến này là cao hơn so với các cảm biến khác. Cảm biến MS Kinect
cũng có thể thu thập được dữ liệu khung xương các tư thế của con người. Tuy nhiên, dữ liệu
khung xương thu được từ cảm biến MS Kinect v1 thường bị suy hao rất nhiều. Do đó trước

khi thực hiện xây dựng các mô hình đánh giá và chấm điểm các động tác võ được truyền dạy
trên lớp thì cần thực hiện các nghiên cứu về ước lượng, khôi phục khung xương của người
trong các video võ cổ truyền.
Dữ liệu thu được từ cảm biến Kinect v1 bao gồm ảnh màu và ảnh độ sâu, nếu thực hiện
ước lượng các điểm đại diện và các khớp xương trên ảnh màu thì có rất nhiều trường hợp
các khớp xương bị che khuất không thể ước lượng được. Khi thực hiện ước lượng trên ảnh
độ sâu thì có một số trường dữ liệu ảnh độ sâu bị thiếu hoặc mất dữ liệu nên cũng có nhiều
điểm đại diện và khớp nối không ước lượng được. Tuy nhiên trên ảnh độ sâu chứa thông tin
trong không gian thực (giá trị độ sâu) của người nên có thể ước lượng được các khớp xương
trong trường hợp bị che khuất. Nên luận án thực hiện kết hợp kết quả ước lượng trên ảnh
màu và chiếu kết quả ước lượng vào không gian 3-D để có được kết quả ước lượng các điểm
đại diện và các khớp xương cao hơn.
Các phương thức ước lượng khung xương, tư thế người trên ảnh màu và không gian 3-D
gần đây thường sử dụng các mạng Nơ ron tích chập mới hiện nay cho việc huấn luyện mô
1


hình ước lượng. Các kết quả được đánh giá trên cơ sở dữ liệu về các tư thế võ cổ truyền của
Nhật bản (Karate) và Trung Quốc (Tai Chi). Đặc biệt, luận án cũng công bố bộ cơ sở dữ
liệu về các thế võ cổ truyền Việt Nam do các em học sinh phổ thông biểu diễn và đánh giá
các kết quả ước lượng các điểm đại diện và khớp xương trên cơ sở dữ liệu này trong không
gian 2-D và 3-D để xây dựng hệ thống bảo tồn, giảng dạy, đánh giá các bài võ cổ truyền Việt
Nam trực quan.
Ý tưởng xuyên suốt trong luận án này trong mô hình xây dựng ứng dụng của luận án
bao gồm một số bước: (1) Từ dữ liệu đầu vào thu được từ cảm biến MS Kinect (ảnh màu,
ảnh độ sâu); (2) Sử dụng các mạng nơ ron tích chập đã được thiết kế để huấn luyện mô hình
ước lượng trên ảnh màu và ảnh độ sâu; (3) Kết hợp kết quả ước lượng trong không gian 2-D
và 3-D, biểu diễn kết quả trong không gian 3-D, trong đó các khớp xương của người trong
video được ước lượng và khôi phục đầy đủ. (4) từ đó xây dựng mô hình chấm điểm các động
tác võ cổ truyền áp dụng cho các em học sinh phổ thông có thể tự đánh giá bài võ của mình.

Trong đó bước (2) là bước quan trọng nhất trong mô hình này.

2. Mục tiêu, đối tượng và phạm vi nghiên cứu
Mục tiêu luận án là:
- Đề xuất hướng tiếp cận để ước lượng và phục hồi khung xương trong không gian 3-D
và để xây dựng một hệ thống tái tạo môi trường 3-D của các video biểu diễn võ thuật
và ước lượng khung xương, tư thế của người trong video. Phương thức này được kết
hợp giữa ước lượng các điểm đại diện và các khớp nối trên ảnh màu (không gian 2-D)
và ước lượng trong không gian 3-D để có được kết quả ước lượng các khớp xương tốt,
đặc biệt là khôi phục được các khớp xương trong trường hợp các bộ phận của người bị
che khuất.
- Từ khung xương của người được ước lượng và khôi phục đầy đủ các khớp, xây dựng
một mô hình chấm điểm các động tác võ trên các video thu được từ lớp võ hoặc các
bài biểu diễn võ thuật của các em học sinh phổ thông, giúp các em tự đánh giá được
các bài võ thuật đã được truyền dạy. Hơn nữa là nhận dạng được động tác tấn công để
phục vụ cho việc phân tích điểm mạnh điểm yếu của các tư thế võ thuật cổ truyền.

3. Ngữ cảnh, các ràng buộc, và các thách thức
Nghiên cứu này yêu cầu một số ràng buộc như sau:
❼ Cảm biến MS Kinect phiên bản 1: Một cảm biến MS Kinect phiên bản 1 được gắn trên

giá cố định và được đặt ở một phía của lớp dạy võ thuật. Một cảm biến MS Kinect
phiên bản 1 thu thập được ảnh màu, ảnh độ sâu với tốc độ thông thường từ (từ 10 đến
30 khung hình/giây) với độ phân giải 640×480 điểm ảnh cho cả hai loại ảnh. Người
(võ sư, học viên) biểu diễn võ thuật nằm trong vùng đã được giới hạn có kích thước là
3×3m. Do giới hạn thu được dữ liệu của cảm biến MS Kinect phiên bản 1 là 0.8 - 4m
và góc nghiêng tối đa là 30o quanh tâm trục của cảm biến MS Kinect.
❼ Người biểu diễn võ thuật là các võ sư hoặc học viên của lớp học võ. Có độ tuổi thường

từ 12 tuổi trở lên, giới tính có thể là nam hoặc nữ. Người mặc trang phục không bóng,

tức không bao quanh bởi nylon. Mỗi video thường chỉ có một người.

2


❼ Ảnh màu và ảnh độ sâu thu được từ cảm biến MS Kinect phiên bản 1 được kết hợp với

nhau và chiếu sang không gian 3-D (thế giới thực) sử dụng bộ tham số trong của cảm
biến này.

4. Các đóng góp và ý nghĩa khoa học của luận án
Trong suốt luận án, các mục tiêu chính được giải quyết bằng một giải pháp thống nhất.
Luận án đạt được những đóng góp sau:
❼ Đóng góp 1: Đề xuất được một mô hình kết hợp giữa ước lượng khung xương, tư thế

trong 2-D tốt để có được một ước lượng tốt hơn trong không gian 3-D. Đặc biệt là
trong trường hợp dữ liệu bị che khuất thì bộ ước lượng 3-D vẫn ước lượng đầy đủ các
khớp xương. Trong đó, bộ ước lượng 2-D được huấn luyện trên bộ cơ sở dữ liệu tốt hơn
với mô hình mạng nơ ron tích chập dự đoán hiệu quả hơn.
❼ Đóng góp 2: Xây dựng được mô hình cơ bản cho việc đánh giá và chấm điểm các động

tác võ cổ truyền dựa trên một số khớp xương cơ bản trên cơ thể người trong các video
biểu diễn võ cổ truyền của học sinh phổ thông tại các lớp võ. Đồng thời nhận dạng
động tác tấn công trên dữ liệu khung xương của người. Từ đó làm tiền đề cho việc xây
dựng hệ thống hoàn chỉnh cho việc tái tạo lại môi trường 3-D và khung xương, tư thế
người trong các video võ cổ truyền phục vụ cho việc lưu trữ, tự đánh giá và dạy võ
thuật trong trường phổ thông.

5. Mô hình nghiên cứu và cấu trúc nội dung của luận án
Từ đầu đến cuối, luận án không giải quyết vấn đề theo cách đơn lẻ mà giải quyết các

vấn đề thực tế đặt ra theo một mô hình thống nhất, được thể hiện trong Hình 1. Từ mô hình
này cũng có thể áp dụng để xây dựng một hệ thống thật trong thời gian tới trong việc hỗ
trợ bảo tồn lưu trữ, đánh giá, dạy võ cổ truyền trong trường phổ thông.

Dữ liệu vào
(Ảnh màu,
ảnh độ sâu)

Ước lượng các điểm
đại diện và khớp nối

Biểu diễn dữ liệu trong
không gian 3-D

Kết quả ước lượng điểm
đại diện và khớp nối

Kết quả biểu diễn trong
không gian 3-D

Ứng dụng lưu
trữ, dạy, đánh
giá các tư thế


MS Kinect sensor version 1

Ảnh màu Ảnh độ sâu

Kết quả khung xương


Hình 1 Mô hình giải quyết vấn đề ước lượng khung xương, tư thế người trong không gian
3-D và tái tạo lại môi trường thực tế.

3


Cấu trúc của luận án gồm các phần như sau:
❼ Mở đầu: Phần này thể hiện vấn đề thúc đẩy thực hiện nghiên cứu này, các mục tiêu

chính của luận án.
❼ Chương 1: Các nghiên cứu liên quan: Chương này chủ yếu khảo sát các hệ thống về

ứng dụng của ước lượng khung xương, tư thế của người trong môi trường 2-D và 3-D,
các bộ cơ sở dữ liệu phục vụ luận án dựa trên cảm biến kinect và ảnh chiều sâu.
❼ Chương 2: Chương này miêu tả và đánh giá việc ước lượng khung xương, tư thế người

trong không gian 2-D (không gian ảnh).Các kết quả ước lượng khung xương, tư thế
trong không gian 2-D được đánh giá trên 2-D và chiếu sang sang không gian 3-D để
đánh giá. Đánh giá ước lượng trong không gian 3-D với bộ dữ liệu công bố của luận án
về các video võ cổ truyền Việt Nam.
❼ Chương 3: Chương này giới thiệu về ứng dụng đánh giá, chấm điểm các động tác võ cổ

truyền và thực hiện nhận dạng động tác tấn công trong dữ liệu khung xương người.
❼ Kết luận: đưa ra các kết luận và về các hạn chế của luận án. Đồng thời cũng định hướng

các nghiên cứu tiếp theo trong tương lai.

CHƯƠNG 1


TỔNG QUAN
Trong chương này, luận án trước tiên trình bày lại một số lý thuyết về học máy, học sâu,
các mạng nơ ron tích chập được sử dụng nhiều trong luận án. Tiếp theo luận án hệ thống
hóa (survey) lại các phương thức về ước lượng khung xương (skeleton) trên cơ thể người. Các
nghiên cứu thường xuất phát từ một ảnh màu, một ảnh độ sâu, một chuỗi hình ảnh hay các
ảnh từ nhiều hướng nhìn khác nhau để ước lượng khung xương trên cơ thể người. Đặc biệt
các phân tích về các nghiên cứu liên quan cho việc ước lượng khung xương trên cơ thể người
trong không gian 2-D được trình bày trong Phần 1.2, các nghiên cứu liên quan về ước lượng
khung xương trong không gian 3-D được trình bày trong Phần 1.3. Cuối cùng, các cơ sở dữ
liệu kinh điển cho việc đánh giá ước lượng khung xương trong không gian 3-D được trình bày
và phân tích trong Phần 1.4.

1.1

Hệ thống khôi phục hoạt động của người trong không gian 3-D và
chấm điểm võ thuật
1.1.1 Hệ thống khôi phục hoạt động của người trong không gian 3-D
Mingsong và các cộng sự [3] đã để xuất một mô hình theo vết và xây dựng lại khung
cảnh và người trong không gian 3-D thời gian thực. Hệ thống xây dựng lại môi trường và
người trong không gian 3-D dữ trên dữ liệu thu thập từ 8 cảm biến hình ảnh. Các dữ liệu thu
thập được từ các cảm biến hình ảnh được hiệu chỉnh và phân đoạn để tách riêng dữ liệu của
người và các dữ liệu khác. Để dự đoán và theo vết được các hành động của người, nghiên cứu
sử dụng mô hình biến dạng (deformation model) dựa trên các đặc trưng biến dạng trên ảnh
độ sâu. Khi có nhiều các đặc trưng có sự biến đổi mạnh hơn vượt qua ngưỡng của mô hình

4


biến dạng thì nghiên cứu đề xuất hàm năng lượng bổ sung cho các ràng buộc của mô hình
biến dạng. Đặc biệt các kỹ thuật về sử dụng hình bóng và khôi phục dữ liệu được sử dụng để

khôi phục lại hình trạng của người dựa trên tập dữ liệu thu được từ các cảm biến hình ảnh.
Hệ thống này phải sử dụng CPU để thu thập dữ liệu và khôi phục dữ liệu 3-D. Hay Meier
và các cộng sự đã xây dựng một ứng dụng khôi phục, theo vết hành động của người trong
không gian 3-D. Mô hình của người được thể hiện bằng dạng lưới.

1.1.2

Hệ thống chấm điểm võ thuật

Hiện nay dựa trên các tìm hiểu của nghiên cứu sinh thì trên thế giới chưa có một hệ
thống chấm điểm nào được công bố để chấm điểm các môn võ thuật như: Karate, Judo,
Taekwondo,vv. Năm 2018, liên đoàn Karate thế giới mới chỉ đưa ra được một bộ quy tắc về
chấm điểm các động tác trong môn Karate. Bộ quy tắc này dựa trên vị trí ra đòn vào đối
phương như: Đầu, mặt, cổ, ngực, bụng, đằng trước đằng sau.

1.2

Ước lượng khung xương trên cơ thể người trong không gian 2-D
Ước lượng khung xương (skeleton) và các tư thế (pose) của người là bài toán được áp

dụng trong nhiều lĩnh vực như: An toàn xã hội, bảo tồn các giá trị bản sắc văn hóa (bảo
tồn và duy trì các bài võ, các bài múa cổ truyền dân tộc); Sản xuất các loại đồ chơi, các trò
chơi; Tương tác với robot thông minh; Phân tích thể thao (phân tích chiến thuật trong các
môn thể thao như bóng đá, tenis, cầu lông, vv); Bảo vệ sức khỏe (phát hiện các sự kiện ngã
trong bệnh viện hoặc cho người già);...vv. Để giải quyết những bài toán này có thể dựa trên
một tập hợp các phương thức như: phân tích người trong ảnh, xác định vị trí người trong
ảnh, xác định vị trí các điểm đại diện trên cơ thể người(key points), xác định các khớp nối
(joints) trên các điểm đại diện trên cơ thể người (skeleton). Từ đó, vấn đề ước lượng khung
xương và các tư thế của người đã trở thành một vấn đề được quan tâm nghiên cứu nhiều
trong thị giác máy tính.


1.2.1
1.2.2
1.2.3
1.2.4

Ước lượng khung xương trên ảnh màu
Ước lượng khung xương trên ảnh độ sâu
Ước lượng tư thế dựa trên đối tượng và ngữ cảnh hoạt động
Nhận xét

Như vậy, chúng ta có thể thấy hầu hết các hướng tiếp cận cho việc ước lượng tư thế của
người trong không gian 2-D từ ảnh đều được thực hiện dựa trên việc học các đặc trưng trên
ảnh màu hoặc ảnh độ sâu. Các đặc trưng có thể là đặc trưng trên toàn bộ cơ thể, từ các bộ
phận của cơ thể, hay sự biến dạng của các bộ phận trên cơ thể. Tuy nhiên, việc huấn luyện
và ước lượng tư thế người trên ảnh thường không giải quyết được bài toán khi một số bộ
phận của người bị che khuất.

1.3

Ước lượng khung xương và tư thế người trong môi trường 3-D
Ước lượng tư thế người và chuyển động là công việc sử dụng phần lớn các kỹ thuật về thị

giác máy tính. Bài toán này có thể thực hiện dựa trên 1 hình ảnh hoặc một chuỗi hình ảnh
thu được từ môi trường. Bài toán ước lượng tư thế người và hành động được áp dụng trong
nhiều lĩnh vực như: Trong tương tác người máy (như nhận dạng ngôn ngữ cử chỉ hay nhận
dạng cử chỉ), tương tác người với robot, giám sát video (sử dụng để truyền đạt hành động
của con người). Việc ước lượng tư thế người cũng được thực hiện theo hai hướng tiếp cận cơ
bản: Ước lượng tư thế người từ một ảnh; Ước lượng tư thế người từ chuỗi ảnh. Thường thì


5


việc ước lượng tư thế người trong không gian 3-D được xuất phát từ ước lượng tư thế người
trong không gian 2-D.nĐặc biệt ước lượng 3-D khung xương và tư thế của người là một kỹ
thuật rất cần thiết trong việc xây dựng lại môi trường thực tế và ước lượng các khớp xương
trong trường hợp các bộ phận các chi của người bị che khuất.

1.3.1
1.3.2
1.3.3

Phục hồi tư thế 3-D của người từ một ảnh
Phục hồi tư thế 3-D của người từ một chuỗi ảnh
Nhận xét

Như đã trình bày ở trên, việc phục hồi tư thế 3-D của người với một ảnh đầu vào hoặc
một chuỗi ảnh đầu vào thì thường thực hiện ước lượng tư thế trên ảnh. Với phương thức
ước lượng có đầu vào là một ảnh thì thực hiện ước lượng tư thế trên ảnh sau đó thực hiện
ánh xạ sang không gian 3-D nhờ một bộ cơ sở dữ liệu về tư thế của người trong 3-D. Quá
trình huấn luyện ước lượng tư thế trong không gian 3-D là quá trình tìm kiếm (matching)
bộ tư thế tốt nhất trong bộ cơ sở dữ liệu tư thế mà có độ sâu tương ứng. Trong khi hướng
tiếp cận với đầu vào là một chuỗi ảnh từ một camera hoặc từ nhiều hướng nhìn khác nhau
(trên nhiều camera) thì cũng thực hiện ước lượng tư thế trên ảnh, sau đó sử dụng bộ tham
số trong của các camera và bộ tham số hiệu chỉnh các ảnh để ánh xạ các điểm đại diện, khớp
nối ước lượng được trong không gian 3-D. Đặc biệt hướng tiếp cận dựa trên một chuỗi hình
ảnh thì có kết quả tốt hơn cho việc phát hiện và theo vết người (tracking), hướng tiếp cận
này có tính đến tham số về không gian và thời gian trong quá trình ước lượng. Còn hướng
tiếp cận có một ảnh đầu vào có lỗi tích lũy về thời gian trên các khung hình liên tiếp nhau.


1.4

Các bộ cơ sở dữ liệu cho việc đánh giá ước lượng khung xương trong
không gian 3-D
1.4.1 Giới thiệu Kinect
Trong quá trình thu thập dữ liệu của người biểu diễn võ thuật (võ sư, học viên của các
võ đường), chúng tôi sử dụng cảm biến Microsfoft (MS) Kinect phiên bản 1 (version 1 - v1).

1.4.2

Hiệu chỉnh dữ liệu thu từ cảm biến Kinect

Dữ liệu ảnh màu và ảnh độ sâu thu được từ cảm biến Kinect v1 bao gồm một cặp ảnh
tương ứng với nhau. Mặc dù hai loại ảnh này là cùng kích thước, tuy nhiên tâm của chúng
là bị lệch nhau vì hai loại dữ liệu này được thu bởi hai cảm biến hình ảnh khác nhau (cảm
biến ảnh màu và cảm biến IR (InfraRed camera)).
Để chuyển dữ liệu ảnh sang dữ liệu đám mây điểm trong không gian 3-D, tọa độ thực
của mỗi điểm ảnh là (Xp , Yp , Zp ) và giá trị màu của mỗi điểm ảnh khi chiếu từ 2-D sang
không gian 3-D được tính toán theo công thức sau:
Xp

=

Yp

=

(xa −cx )∗depthvalue(xa ,ya )
fx
(ya −cy )∗depthvalue(xa ,ya )

fy

Zp

= depthvalue(xa , ya )

C(r, g, b)

= colorvalue(xa , ya )

(1.1)

ở đây depthvalue(xa , ya ) là giá trị độ sâu của điểm ảnh (xa , ya ) trên ảnh độ sâu,
colorvalue(r, g, b) là giá trị màu của điểm ảnh (xa , ya ) trên ảnh màu.

6


1.5

Tổng kết chương
CHƯƠNG 2

ƯỚC LƯỢNG KHUNG XƯƠNG CỦA NGƯỜI TỪ DỮ
LIỆU VÕ CỔ TRUYỀN TRONG KHÔNG GIAN 3-D
Việc ước lượng tư thế người đã được nghiên cứu nhiều và vẫn còn rất nhiều thách thức
trong không gian 2-D. Vì các hành động trong võ thuật thường là nhanh và phức tạp. Đặc
biệt có nhiều trường hợp các tư thế của các chi còn bị che khuất, do các tư thế ở các hướng
khác nhau mà cảm biến thu thập dữ liệu chỉ nhìn từ một hướng và dữ liệu khung xương bị
mất rất nhiều khi sử dụng cảm biến MS Kinect v1 để thu thập dữ liệu.

Ước lượng và dự đoán hành động của cơ thể người là một vấn đề được nghiên cứu nhiều
trong cộng đồng thị giác máy tính và công nghệ robot. Ước lượng tư thế, khung xương của
người trong không gian 2-D là việc ước lượng vị trí các khớp nối trên cơ thể người trên ảnh
hoặc video. Mỗi khớp nối được tạo thành từ các điểm đại diện. Trong đó tọa độ của các điểm
đại diện có giá trị (x, y) trên ảnh.
Để ước lượng được tư thế, khung xương của người trên ảnh hoặc video có thể thực hiện
theo hai hướng tiếp cận: hướng tiếp cận cổ điển và hướng tiếp cận dựa trên học sâu (deep
learning).
Do đó, trong nội dung của phần công việc này, luận án sử dụng học sâu để ước lượng
và dự đoán các hành động của người trên dữ liệu video biểu diễn võ của các võ sư và học
viên. Hướng tiếp cận này dựa trên việc học và dự đoán các điểm đại diện trên mô hình khung
xương của người trên bộ dữ liệu COCO và Human 3.6M.

2.1 Uớc lượng khung xương trong không gian 2-D
2.1.1 Giới thiệu
2.1.2 Các nghiên cứu liên quan
2.1.3 Sử dụng học sâu cho việc ước lượng các hành động trong bài võ cổ
truyền trong không gian 2-D
2.1.3.1 Phương thức
Như Hình. 2.1, CNN này bao gồm hai nhánh thực hiện hai công việc khác nhau. Từ dữ
liệu đầu vào, một tập hợp các bản đồ đặc trưng F được tạo từ phân tích hình ảnh, sau đó các
bản đồ độ tin cậy và phép biến đổi hình học này được phát hiện ở giai đoạn đầu tiên. Các
điểm đại diện trên dữ liệu huấn luyện được hiển thị trên bản đồ độ tin cậy như được hiển
thị. Những điểm này được huấn luyện để ước lượng các điểm đại diện trên hình ảnh màu.
Nhánh đầu tiên (nhánh trên cùng) được sử dụng để ước lượng các điểm đại diện, nhánh thứ
hai (nhánh dưới cùng) được sử dụng để dự đoán các khớp tương ứng với nhiều người.
Để trực quan hóa các kết quả ước lượng khung xương ở từng bước trong quá trình ước
tính tư thế con người 3-D, luận án đề xuất một nghiên cứu so sánh về ước lượng tư thế,
khung xương người trong không gian 2-D (Nghiên cứu so sánh 2-D), nó được hiển thị
trong Hình. 2.2.

7


Input image

Confidence maps

Affinity fields

Hình 2.1 Kiến trúc mạng nơ ron tích chập cho việc ước lượng các điểm đại diện St , và các
bộ phận phù hợp trên cơ thể người khác nhau [1].
Trong Hình 2.2, luận án đánh giá theo hai phương thức: Phương thức đầu tiên (Phương
thức 1 - Method 1) sử dụng mạng CNN CPM được huấn luyện trên trên cơ sở dữ liệu
COCO [2]; Phương thức thứ hai (Phương thức 2 - Method 2) sử dụng mạng CNN CPM
được huấn luyện trên trên cơ sở dữ liệu Human 3.6M. Kết quả ước lượng khung xương, tư
thế người trong không gian 2-D với tọa độ của từng điểm đại diện ước lượng được (xi , yi )
trên hình ảnh màu, sau đó chúng được kết hợp với điểm ảnh có tọa độ (xi , yi ) trên hình độ
sâu theo phương trình (1.1) để tạo ra điểm đại diện (Xp , Yp , Zp ) trong không gian 3-D.

2.1.3.2

Cơ sở dữ liệu các bài võ cổ truyền

Môi trường mà võ sư và các học biên biểu diễn võ thuật có kích thước là 3×3m. Thiết
bị thu dữ liệu chỉ có một cảm biến MS Kinect được gắn trên giá và được đặt cố định. Bộ dữ
liệu thu được bao gồm 24 cảnh và được gọi tên là "VNMA - VietNam Martial Arts" với 24
video tương ứng.
Cơ sở dữ liệu thứ hai mà luận án đánh giá việc ước lượng khung xương, tư thế người
là MADS- the Martial Arts, Dancing and Sports. [5]. Cơ sở dữ liệu này bao gồm các video
thu thập ở nhiều hướng nhìn (multi-view RGB videos) và một hướng nhìn (depth videos).

Nó bao gồm 5 kiểu hành động thách thức: Tai-chi, Karate, nhảy Hip-hop (Hip-hop dance),
Khiêu vũ và thể thao (Jazz dance and sports).

2.1.3.3

Phương thức đánh giá

+ Đánh giá trong không gian 2-D:
Cũng giống như trong [1], luận án đánh giá độ tương tự của các điểm đại diện (object key
point similarity (OKS)) và sử dụng độ chính xác trung bình (average precision (AP)) với
ngưỡng OKS = 0.5. Luận án đánh giá độ đo (AD) vì trong thực tế có nhiều trường hợp
khớp xương ước lượng có độ dài tương đồng với khớp xương gốc, nhưng nó bị lệch lên hoặc
lệch xuống.
+ Đánh giá trong không gian 3-D:
8


Khung xương 2-D

Ảnh đầu vào

Huấn luyện CPM
trên cơ sở dữ liệu
COCO
(Method 1)

Chiếu kết quả 2-D
sang không gian
3-D


Mô hình CNN
cho ước lượng
các điểm đại
diện 2-D

Ảnh đầu vào
(RGB)

Ảnh độ sâu

Kết quả ước
lượng khung
xương

Huấn luyện CPM
trên cơ sở dữ liệu
Human 3.6M
(Method 2)

Kết quả trong
không gian 3-D

Nghiên cứu so sánh 2-D
Hình 2.2 Nghiên cứu so sánh cho đánh giá ước lượng khung xương, tư thế trong không gian
2-D.
Việc đánh giá kết quả ước lượng trong không gian 3-D là rất quan trọng, vì trong môi trường
này gần với môi trường thực. Để đánh giá kết quả ước lượng khung xương trong không gian
3-D, luận án sử dụng một độ do như sau:
❼ Cũng giống như trong nghiên cứu của Tome và các cộng sự [4], luận án sử dụng độ đo


MPJPE (Mean Per Joint Position Error), độ đo này có nghĩa là trung bình lỗi về vị trí
của các khớp, được tính như công thức (2.1).

M P JP Ek =

NP
i=1

(xgi − xei )2 + (ygi − yei )2 + (zgi − zei )2
NP

(2.1)

Với độ đo này có thể sử dụng để đánh giá kết quả ước lượng khung xương trong không gian
3-D với hai cơ sở dữ liệu: VNMA, MADS.

2.1.4

Kết quả ước lượng và thảo luận

+ Kết quả đánh giá ước lượng khung xương 2-D trên tập dữ liệu SVNMA Tất cả các kết
quả ước lượng trung bình trên tập dữ liệu SVNMA được đánh giá và thể hiện trong Bảng
2.1.
+ Kết quả đánh giá ước lượng khung xương 3-D trên tập dữ liệu VNMA
Kết quả trên tập dữ liệu VNMA theo độ đo MPJPE(Mean Per Joint Position Error)(mm
-milimet) được thể hiện trong Bảng 2.2.
Trong đó, Bảng 2.2 đánh giá kết quả ước lượng khung xương trên số khung hình được
thể hiện trong Bảng 2.3.
Các giá trị lỗi MPJPE của từng cặp điểm đại diện được thể hiện trong Hình 2.5.


9


Bảng 2.1 Kết quả trung bình của ước lượng các khớp nối (AP), góc lệch giữa các khớp của
dữ liệu gốc và các khớp nối ước lượng được (AD) và khoảng cách giữa các trung bình giữa
các điểm đại diện ước lượng được và các điểm đại diện của dữ liệu gốc, tương ứng với nhau.

The number of key points

Video
AP
(%)
AD(%)
Dp
(pixels)

1
95.4

2
93.7

3
4
96.2 89.6

5
96.1

6

92.8

7
8
97.4 98.8

9
96.9

10
94.5

11
96.9

12
96.2

13
95.7

14
98.2

93.7

94.6

92.8 90.9


95.3

94.6

95.8 97.6

97.8

95.1

97.0

95.8

96.3

96.9

21.2

18.6

9.7

13.8

15.7

9.4


12.4

10.1

14.0

12.8

11.3

16.9

25.9

15.4

800
Video 2
Video 9
Video 12

600
400
200
0
0

0.2

0.4


0.6

0.8

1

IOU

Hình 2.3 Đồ thị thể hiện xác suất ước lượng các điểm đại diện trên 3 video võ thuật cổ
truyền có thứ tự là: 2th , 9th , 12th .
+ Kết quả đánh giá ước lượng khung xương 3-D trên tập dữ liệu MADS
Các kết quả được thể hiện trong Bảng 2.4 và số khung hình sử dụng để đánh giá được thể
hiện trong Bảng 2.5.
Bảng 2.4 và Hình 2.6, CPM huấn luyện trên bộ cơ sở dữ liệu COCO (giá trị lỗi trung
bình là 130.5935083 mm) là tốt hơn CPM khi huấn luyện trên bộ cơ sở dữ liệu Human 3.6m
(giá trị lỗi trung bình là 153.7619 mm).

2.1.5

Kết luận

Việc bảo tồn, lưu trữ và giảng dạy võ cổ truyền là rất quan trọng trong việc giữ gìn
bản sắc văn hóa quốc gia cũng như rèn luyện trạng sức khỏe của mỗi cá nhân và tự vệ. Tuy
nhiên, hành động của cơ thể (cơ thể, cánh tay, chân) của một võ sư dạy võ thuật không phải
lúc nào cũng rõ ràng vì có nhiều khớp bị che khuất. Trong chương này, trước tiên luận án đã
xem xét một số phương pháp ước lượng tư thế người trong không gian 2-D trên các hình ảnh
RGB. Sau đó, đã đề xuất một bộ dữ liệu về võ thuật cổ truyền Việt Nam do các em học sinh
phổ thông biểu diễn. Đồng thời đề xuất một nghiên cứu so sánh về ước lượng khung xương
trên ảnh (không gian 2-D) trong đó nghiên cứu so sánh sử dụng mô hình các mạng CNN để

ước lượng các điểm đại điện. Cuối cùng, luận án đã trình bày các phương pháp để đánh giá
các điểm đại diện và khớp xương ước lượng được. Đặc biệt, luận án đã trình bày và đánh
kết quả ước lượng khung xương, tư thế người trên ảnh trong không gian 3-D bằng việc chiếu
các kết quả ước lượng trong không gian 2-D sang không gian 3-D trên bộ cơ sở dữ liệu võ cổ
truyền Việt Nam đã đề xuất và cơ sở dữ liệu võ cổ truyền Nhật Bản, Trung Quốc (MADS).
Kết quả ước lượng cho thấy phương thức với mô hình được huấn luyện trên mạng CPM trên
10


2-D pose

2-D pose

3-D pose

2-D pose

3-D pose

2-D pose

3-D pose

2-D pose

3-D pose

3-D pose

Hình 2.4 Minh họa kết quả ước lượng các khớp nối trong không gian 2-D và 3-D. Tư thế

của người trong không gian 3-D được thể hiện bằng Matplotlib của Python.

The number of key points

1400

CMP training by COCO
CMP training by Human 3.6m

1200
1000
800
600
400
200
0
0

100

200

300

400

500

600


700

800

900

1000

MPJPE (mm)

Hình 2.5 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc và dữ liệu ước
lượng được.
bộ cơ sở dữ liệu COCO là tốt nhất (sai số trung bình về khoảng cách là 79.79mm trên cơ sở
dữ liệu VNMA và 130.59 trên cơ sở dữ liệu MADS).

11


Bảng 2.2 Kết quả ước lượng khung xương trên ảnh và chiếu sang không gian 3-D với 14 điểm
xương trên dữ liệu VNMA. Kết quả được đánh giá trên độ đo MPJPE theo đơn vị milimet
(mm).
#Video
1
2
3
4
5
6
7
8

9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Average

MPJPE (mm)
Method 1 Method 2
83.4494
88.9625
102.095
107.6108
101.4525
112.7826
55.9622
65.564
60.4121
59.7409

63.1662
68.2497
63.2878
69.8307
64.4781
70.9096
66.6734
72.5311
67.7575
72.3694
69.1387
74.717
58.6456
63.5139
74.3258
71.0044
78.956
72.2256
78.956
72.2256
80.0844
74.8709
84.5111
77.9019
85.1324
80.2478
92.4574
84.4412
86.1522
82.6295

99.0398
88.3687
101.9936
96.3149
101.8342
102.5956
95.013
99.4776
79.7906
80.37858

4

The number of key points

6

x 10

CMP training by COCO
CMP training by Human 3.6m

5
4
3
2
1
0
0


200

400

600

800

1000

1200

MPJPE (mm) on MADS dataset

Hình 2.6 Phân bố lỗi khoảng cách lỗi MPJPE của các cặp điểm đại diện giữa dữ liệu gốc
và dữ liệu ước lượng được trên cơ sở dữ liệu MADS.

12


Bảng 2.3 Số khung hình đánh giá trong dữ liệu VNMA.

#Video
1
2
3
4
5
6
7

8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Tổng

Số khung hình
đánh giá
Method 1 Method 2
36
36
59
66
58
56
40
36

70
65
98
93
50
45
38
39
66
56
67
65
80
82
51
48
75
80
67
69
5
6
65
51
99
98
111
99
88
92

65
59
77
76
84
72
67
55
98
84
1614
1528

Số khung hình
trên dữ liệu gốc
50
89
71
77
98
109
87
79
89
76
79
95
131
71
95

101
108
117
109
112
80
10
96
105
2134

Bảng 2.4 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang không gian 3-D trên
cơ sở dữ liệu MADS với 14 điểm xương.
#Video
Kata_F2
Kata_F3
Kata_F4
Kata_N2
Kata_N3
Kata_P3
Tai_chi_S1
Tai_chi_S2
Tai_chi_S3
Tai_chi_S4
Tai_chi_S5
Tai_chi_S6
Average

MPJPE (mm)
Method 1

Method 2
167.0256
170.9718
92.8588
122.0557
169.6934
169.5459
90.6843
118.5762
131.483
166.6152
136.4613
151.514
121.4755
145.6657
107.303
141.7948
140.8937
177.942
137.6644
163.3607
147.1612
160.3719
124.4179
156.7291
130.5935083
153.7619

13



Bảng 2.5 Số khung hình cho việc đánh giá ước lượng khung xương trên ảnh sai đó chiếu
sang không gian 3-D trên cơ sở dữ liệu MADS.

#Video
Kata_F2
Kata_F3
Kata_F4
Kata_N2
Kata_N3
Kata_P3
Taichi_S1
Taichi_S2
Taichi_S3
Taichi_S4
Taichi_S5
Taichi_S6
Tổng

Số khung hình
sử dụng để đánh giá
Method 1 Method 2
1186
1207
874
812
1106
1106
875
872

1299
1148
961
822
494
493
462
461
369
321
484
485
424
425
488
478
9022
8630

Số khung hình
trên dữ liệu gốc
1300
1400
1400
1400
1400
1400
500
500
400

500
500
500
11200

14


2.2

Phục hồi khung xương, tư thế người trong không gian 3-D và bị che
khuất
Luận án thực hiện các nghiên cứu về ước lượng khôi phục khung xương trong không

gian 3-D ở chương này để khôi phục, ước lượng khung xương 3-D đầy đủ của người trong các
video võ cổ truyền phục vụ để xây dựng mô hình đánh giá, chấm điểm các động tác võ thuật
cổ truyền cho các em học sinh phổ thông.

2.2.1

Giới thiệu

Luận án thể hiện kết quả ước lượng khung xương khi bị che khuất trong không gian
3-D, trường hợp này không ước lượng được đầy đủ các khớp xương trong không gian 2-D,
như minh họa trong Hình 2.7.

Hình 2.7 Minh họa việc ước lượng khung xương, tư thế người trong không gian 3-D với dữ
liệu bị che khuất. Bên trái thể hiện kết quả ước lượng khung xương, tư thế của người trên
2-D với bộ ước lượng [1]. Bên phải là kết quả ước lượng tư thế, khung xương của người trong
không gian 3-D sử dụng bộ ước lượng của [4].


2.2.2 Phục hồi khung xương, tư thế người trong không gian 3-D
2.2.2.1 Nghiên cứu so sánh về khôi phục khung xương người trong không gian 3-D
Mô hình được thể hiện trong Hình 2.8.

2.2.2.2

Thí nghiệm và kết quả ước lượng khung xương 3-D

+ Kết quả ước lượng khung xương trong không gian 3-D trên cơ sở dữ liệu VNMA
Kết quả ước lượng khung xương, tư thế người trong không gian 3-D trên cơ sở dữ liệu VNMA
được thể hiện như trong Bảng 2.6.
Hình 2.9 thể hiện phân bố khoảng cách lỗi khi ước lượng khung xương, tư thế người
trong không gian 3-D trên cơ sở dữ liệu VNMA với 15 điểm đại diện cho việc đánh giá ở mỗi
khung hình.
+ Kết quả ước lượng khung xương trong không gian 3-D trên cơ sở dữ liệu MADS
Kết quả ước lượng khung xương, tư thế người trong không gian 3-D trên cơ sở dữ liệu
MADS được thể hiện như trong Bảng 2.7.
Hình 2.10 thể hiện phân bố khoảng cách lỗi khi ước lượng khung xương, tư thế người
trong không gian 3-D trên cơ sở dữ liệu MADS với 15 điểm đại diện cho việc đánh giá ở mỗi
khung hình.

15


Ánh xạ sang 3-D nhờ
kỹ thuật so sánh

Ước lượng khung
xương trên ảnh


Ảnh đầu vào

Kết quả ước lượng
trong 3-D

Human3.6m

3-D_COCO_Method
Ước lượng khung xương
trong 2-D ( trained CPMon COCO dataset)

Ước lượng tư thế 3-D
bằng phương thức của
Tome et al. CVPR 2017

3-D_HUMAN3.6_Method
Khung
xương, tư thế
ước lượng
được

Ước lượng khung xương
trong 2-D ( trained CPMon Human 3.6H dataset)

Ảnh RGB đầu
vào

3-D_VNECT_Method
Ước lượng khung xương

trong 2-D sử dụng mô
hình Mehta et al.
SIGGRAPH 2017 –
trained on MPII, LSP
dataset

Ước lượng tư thế 3-D
bằng phương thức của
Mehta et al. SIGGRAPH
2017

MPI-INF-3DHP

Nghiên cứu so sánh 3-D

Hình 2.8 Minh họa mô hình nghiên cứu so sánh ước lượng khung xương, tư thế trong không
gian 3-D.

18000

CMP training by COCO
CMP training by Human 3.6m
VNECT CNN training by MPII, LSP

The number of key points

16000
14000
12000
10000

8000
6000
4000
2000
0
0

200

400

600

800

1000

1200

1400

1600

1800

MPJPE (mm) in VNMA dataset with 15 points

Hình 2.9 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc và dữ liệu ước lượng
được trong không gian 3-D trên cơ sở dữ liệu VNMA. Trong đó: "CMP training by COCO" là
"3-D_COCO_Method" , "CMP training by Human 3.6m" là "3-D_HUMAN3.6_Method",

"VNECT CNN training by MPII, LSP" là "3-D_VNECT_Method".

16


Bảng 2.6 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang không gian 3-D trên
cơ sở dữ liệu VNMA với 15 điểm xương.
#Video

3-D_COCO_
Method
114.0716
107.5917
88.5689
78.6414
99.0704
111.0964
114.7642
285.0776
90.6766
280.8594
91.2715
219.4037
89.3462
264.4068
85.9806
318.4422
99.5296
308.1409
110.9321

239.3639
81.9572
103.5087
267.6513
170.866

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
23
24
Average


MPJPE (mm)
3-D_HUMAN3.6_
Method
114.0716
111.025
91.536
79.9366
101.6908
112.0768
118.3664
292.9947
92.9212
284.8666
91.2715
219.4037
89.3462
262.0707
87.3728
318.4422
101.7892
310.7236
110.9321
241.5342
81.9572
105.8891
292.217
173.7285

3-D_VNECT_

Method
228.8319
332.8037
245.1891
239.818
282.843
292.2822
309.3528
318.6
253.3029
294.9349
249.4076
242.6467
267.3336
271.0392
254.4252
343.7987
271.0186
331.4765
320.2984
271.7371
206.8996
280.5987
282.1385
279.4472

4

The number of key points


8

x 10

CMP training by COCO
CMP training by Human 3.6m
VNECT CNN training by MPII, LSP

7
6
5
4
3
2
1
0
0

200

400

600

800

1000

1200


MPJPE (mm) on MADS dataset

Hình 2.10 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc và
dữ liệu ước lượng được trong không gian 3-D trên cơ sở dữ liệu MADS. Trong
đó: "CMP training by COCO" là "3-D_COCO_Method" , "CMP training by Human
3.6m" là "3-D_HUMAN3.6_Method", "VNECT CNN training by MPII, LSP" là "3D_VNECT_Method".

17


Bảng 2.7 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang không gian 3-D trên
cơ sở dữ liệu MADS với 15 điểm xương.
#Video
Kata_F2
Kata_F3
Kata_F4
Kata_N2
Kata_N3
Kata_P3
Tai_chi_S1
Tai_chi_S2
Tai_chi_S3
Tai_chi_S4
Tai_chi_S5
Tai_chi_S6
Average

2.3

3-D_COCO_

Method
102.0685
78.0681
105.8182
79.0682
34.7923
101.3404
80.0703
79.3635
99.99
95.3349
99.2752
100.1354
87.94375

MPJPE (mm)
3-D_HUMAN3.6_
Method
147.1236
102.4019
133.6986
113.4793
135.7989
113.9912
106.2125
118.2341
127.516
124.6166
120.4779
123.6235

122.2645

3-D_VNECT_
Method
168.0953
122.2993
152.3534
165.0814
168.1528
129.7044
107.9224
114.8655
161.056
136.334
122.3163
124.6892
139.4058

Tổng kết chương
Ước lượng khung xương người trong không gian 3-D là hướng có nhiều nghiên cứu trong

những năm gần đây. Bài toán này cũng được áp dụng trong nhiều ứng dụng như: tương tác
giữa người với người, tương tác người máy; phân tích thể thao; đánh giá các bài biểu diễn thể
thao, thể dụng cụ, vv. Trong chương này luận án đã khảo sát và thống kê được các nghiên cứu
về ước lượng khung xương trong không gian 3-D theo hai hướng tiếp cận là: Dữ liệu đầu vào
là một ảnh; Dữ liệu đầu vào là một chuỗi ảnh. Đồng thời, luận án cũng đề xuất một nghiên
cứu so sánh theo ba phương thức: Phương thức thứ nhất "3-D_COCO_Method" là sự kết
hợp kết quả ước lượng khung xương trong không gian 2-D sử dụng CPM được huấn luyện
trên cơ sở dữ liệu COCO và ước lượng khung xương 3-D sử dụng hướng tiếp cận của Tome
CS. [4]; Phương thức thứ hai "3-D_HUMAN3.6_Method" là sự kết hợp kết quả ước lượng sử

dụng CPM được huấn luyện trên cơ sở dữ liệu Human 3.6M toàn bộ phương thức này được
thực hiện trong nghiên cứu của Tome CS. [4]; Phương thức thứ hai "3-D_VNECT_Method
" là thực hiện theo nghiên cứu của Mehta CS. Nghiên cứu so sánh này được đánh giá trên cơ
sở dữ liệu võ thuật cổ truyền Việt Nam "VNMA" và cơ sở dữ liệu đã được công bố MADS.
Các kết quả cho thấy phương thức thứ nhất với kết quả ước lượng khung xương người trong
không gian 2-D (trên ảnh) tốt hơn thì kết quả ước lượng khung xương trong không gian 3-D
cũng tốt.
Trong chương này luận án cũng thể hiện được hiệu năng của các mạng Nơ ron tích chập
khi ước lượng khung xương trong không gian 3-D cho việc ước lượng khung xương khi các
khớp, các bộ phận của người bị che khuất. Từ đó có thể áp dụng nghiên cứu này vào xây

18


dựng các ứng dụng về khôi phục, lưu trữ, đánh giá, phân tích và dạy võ cổ truyền.

CHƯƠNG 3

NHẬN DẠNG VÀ CHẤM ĐIỂM ĐỘNG TÁC VÕ CỔ
TRUYỀN VIỆT NAM
Chương này trình bày hai vấn đề: Thứ nhất là nhận dạng động tác tấn công trong các
video biểu diễn võ thuật cổ truyền Việt Nam; Thứ hai là một ứng dụng xây dựng mô hình
chấm điểm các động tác võ cơ bản trong võ cổ truyền Việt Nam.

3.1

Giới thiệu
Trong phần này, luận án trình bày về khả năng nhận dạng tư thế tấn công trong bài

võ 36 tư thế với dữ liệu thu được từ camera Kinect, cùng với bộ dữ liệu công bố có sẵn trên

mạng.

3.2
3.3

Các nghiên cứu liên quan
Cơ sở lý thuyết để nhận diện động tác tấn công và chấm điểm động
tác võ
3.3.1 Nhận diện động tác tấn công
3.3.1.1 Xử lý dữ liệu
Chuẩn bị tập mẫu như đã giới thiệu trong chương 1, Dữ liệu thu được sau khi lấy tọa
độ của 20 điểm trên cơ thể sẽ được xử lý ở chương 2 sau mỗi đó động tác được ghi vào file
text, sau đó gán nhãn cho từng động tác: động tác công gán nhãn là 1, thủ được gán nhãn
là 0. Tập dữ liệu được chia thành tập training bao gồm 289 động tác và tập test bao gồm 66
động tác. Mỗi tư thế được thu ở khoảng cách 2.5 m ± 0.2 m và 3.3 m ± 0.2 m,

3.3.1.2

Trích xuất đặc trưng cơ thể người với camera Kinect

Thuật toán học tại mỗi nút được mô tả như trong 1.

3.3.2 Mô hình chấm điểm động tác võ cổ truyền
3.3.2.1 Mô tả động tác người
3.3.2.2 Công thức chấm điểm
Xem xét thực tế, nghiên cứu quan sát được từ các thí nghiệm, nghiên cứu sinh gán trọng
số khác nhau cho từng thành viên trong mảng khoảng cách và sử dụng tổng trọng số để bù
đắp cho sự sai lệch thị giác. Nghiên cứu đề xuất một công thức chấm điểm như công thức
(3.5). Trước tiên là tham số khoảng cách D:
D = [f1 (α1 + α2 ) + f2 (α3 + α4 ) + f3 (α5 + α6 ) + f4 (α7 + α8 )]


(3.1)

Trong đó, để tính góc cho việc chấm điểm của các chi ước lượng được sử dụng công thức
(3.2).
cosα =

xst xre + yst yre + zst zre
x2st

2 + z2
+ yst
st

2 + z2
x2re + yre
re

(3.2)

Để tính toán các giá trị trọng số, hệ thống sẽ tự động thu thập 10 cặp cử chỉ gần đây

19


Giải thuật 1: Thuật toán học tại mỗi nút của cây quyết định.
Input: Tập M , độ cao d của cây hiện tại
Output: Đặc trưng F hoặc giá trị trả về v nếu là nút lá
Các bước:
1. if |M | ≤ 1 OR d ≥ M AX_DEP T H :

2.
v = mean_labels(M )
3.
return
4. F = N one
5. best_err = M AX_V ALU E
6. f or each f in F EAT U RE_SET :
7.
err = split_error(M, f )
8.
if err < best_err :
9.
best_err = err
10.
F =f
11.
M0 , M1 = split_data(M, F )
12.
learn_node(M 0, d + 1)
13.
learn_node(M 1, d + 1)

nhất được xếp loại từ cơ sở dữ liệu mà có số điểm trong khoảng ± 15% và tham khảo trung
bình cộng của mỗi αi . Giá trị trọng số được tính như công thức (3.3)
fi =

1
Avgi

i=1 1

4
Avgi

(3.3)

Sau khi nhận giá trị D, mục tiêu của nghiên cứu là đưa D vào chia phần trăm điểm.
Cho phép nhập vào một giá trị chuẩn Dst và số điểm tham chiếu của nó Sst . Hàm giới hạn
độ lệch cho phép nhập vào một giá trị ngưỡng M (độ) để hạn chế những cử chỉ độ lệch không
thể chấp nhận như trong công thức (3.4).

f (αmax ) = 1 −

0.4 2
α
M 2 max

(3.4)

Khi đó ta có công thức chấm điểm sẽ là:
Score = f (αmax ).[(Dst − D) ×

100 − Sst
+ Sst
Dst

(3.5)

Trong đó f (αmax ) biểu thị hàm giới hạn độ lệch. Dst có thể tự thiết lập bởi người sử
dụng theo nhu cầu của họ, Dst nhỏ hơn chỉ ra tiêu chuẩn cao hơn về phân loại Sst cung cấp
cho người dùng một tùy chọn để kiểm soát các điểm trong phạm vi mong muốn.


3.4 Thực nghiệm
3.4.1 Nhận diện động tác tấn công
3.4.1.1 Nhận diện động tác tấn công bằng cây phân loại
1. Thử nghiệm với bộ dữ liệu K3HI được công bố trên mạng:
Bộ K3HI đã được xây dựng với một số hành vi cụ thể. Từ tập các khung xương, nghiên
cứu tiến hành gán nhãn trạng thái cho từng khung xương để làm dữ liệu thử nghiệm. Cụ thể,
20


với hành vi kicking của bộ K3HI, sau khi gán nhãn ta thu được bộ dữ liệu 3752 mẫu khung
xương.
Thử nghiệm được tiến hành theo cách kiểm chứng chéo 10-fold, tức là chia bộ dữ liệu
làm 10 phần, tiến hành 10 lần thử, lần lượt mỗi lần lấy 9 phần để học và thử nghiệm 1 phần
còn lại, tổng kết lại kết quả chính xác 3423/3752 ∼ 91.231343% Với một số lựa chọn khác
nhau về chiều cao của cây quyết định được xây dựng, biểu đồ cho thấy khi chiều cao của cây
tăng, tức là nhiều đặc trưng được kết hợp hơn, độ chính xác cũng tăng theo như bên trái
Hình 3.1. Từ đó cũng chứng minh tính hiệu quả của những đặc trưng không gian được sử
dụng và cách kết hợp.

Hình 3.1 Thể hiện chiều cao của cây, số đặc trưng và độ chính xác của 2 bộ dữ liệu.
2. Thử nghiệm với bộ dữ liệu 36 thế võ thu bằng Kinect trong đó :
Bộ cơ sở dữ liệu sau khi ước lượng ở chương 2 với khung xương 20 điểm, 15083 mẫu
khung xương được gán với các nhãn tấn công và phòng thủ ta tiến hành thử nghiệm tương
tự với bộ dữ liệu K3HI
Cách thức kiểm chứng chéo (cross validation) 5 lượt (folds). Lựa chọn khác nhau về
chiều cao của cây. Biểu đồ cho thấy khi chiều cao của cây tăng, tức là nhiều đặc trưng được
kết hợp hơn, độ chính xác cũng tăng theo, từ đó cũng chứng minh tính hiệu quả của những
đặc trưng không gian được sử dụng và cách kết hợp như bên phải trong Hình 3.1.


3.4.1.2

Nhận diện động tác tấn công bằng mạng nơ ron

Cũng sử dụng bộ cơ sở dữ liệu của camera Kinect ở chương trước, sau khi được ước
lượng trong không gian 3D để có các tọa độ chuẩn hơn thì lựa chọn ra 14 điểm key có khả
năng mô tả đặc trưng của thế võ nhằm làm giảm kích thước đầu vào của mạng nơ ron. Tại
frame đầu tiên của mỗi video, chọn đường thẳng đi qua đầu và bụng làm trục tham chiếu
cho sự thay đổi vị trí của các điểm trên cơ thể, từ đó ta tính đươc vị trí của mỗi điểm cơ thể
tại các frame khác nhau. Như vậy mỗi frame được quy đổi thành một vector 14 chiều ;tương
ứng với 14 vị trí của các điểm trên cơ thể. Mỗi video sẽ được chuẩn hóa thành một ma trận
có kích thước 50x14 (Mỗi video có 50 frame).
Ta tiến hành xây dựng mô hình LSTM sử dụng thư viện: Tensorflow với số lượng
hidenlayer : 32, window size (số lượng frame đưa vào mỗi lần để dự đoán đầu ra): 50.learning
rate : 0,005.Thuật toán tối ưu: Adam.batch size: 100. Kết quả: khi test trên tập test thế võ
21


Hình 3.2 Kết quả nhận dạng trên tập Test thế võ công.
công như hình 3.2
Kết quả cho thấy hiệu quả nhận dạng động tác tấn công khi chạy trên mạng nơ ron
LSTM có hiệu quả cao, nhất là khi số liệu tọa độ của các điểm đã được ước lượng thì có hiệu
quả cao hơn về độ chính xác phát hiện động tác.

3.4.2

Chấm điểm động tác võ cổ truyền Việt Nam

Nghiên cứu đã thu thập 36 động tác được đưa ra bởi một võ sư đó là được cho là có cùng
mức hiệu suất . Nghiên cứu thiết lập đầu vào của người dùng Dst = 50, Sst = 80, M = 35 và

36 bằng cử chỉ lớp (3.5).
Sau khi máy tính thu được dữ liệu của người biểu diễn dữ liệu từ camera, nó sẽ so sánh
và ghi điểm ngay lập tức, cứ sau mỗi điểm dừng nó sẽ đọc tới hình ảnh tư thế tiếp theo trong
bộ dữ liệu sau đó đưa ra hình ảnh tiếp theo trên màn hình đến cuối video được phát. Cuối
cùng của chương trình, máy tính sẽ cho tổng số điểm của người biểu diễn (Hình 3.3).
Đóng góp chính của công việc này được đưa ra dưới đây:
❼ Thực hiện nhận dạng chấm điểm các động tác võ của một bài võ theo cơ sở dữ liệu

mẫu 3-D cho trước.
❼ Xây dựng được cơ sở dữ liệu mẫu 3-D để chấm điểm các bài võ cổ truyền dành cho

chương trình thể dục giữa giờ được đưa vào chương trình học của các trường phổ thông
từ năm 2016.
❼ Xây dựng chương trình phần mềm để người dùng có thể chọn độ khó của việc chấm

thông qua các thông số nhập vào.

22


Hình 3.3 Giao diện chương trình chấm điểm.

3.5

Kết luận
Dựa vào kết quả đạt được, một mô hình nhận dạng tư thế người có thể thực hiện nhận

dạng hành động tấn công bằng cả hai phương pháp cây phân loại và mạng nơ ron LRTM có
độ chính xác nhận dạng cao.
Việc áp dụng công thức chấm điểm động tác vào dữ liệu khung xương thu được từ

camera Kinect để xây dựng phần mềm đánh giá động tác võ cổ truyền Việt Nam đã mở đầu
cho việc áp dụng đánh giá tự chấm điểm người học; từ đó người học có thể tự rèn luyện các
động tác võ ban đầu và tự đánh giá mình thông qua camera Kinect góp phần vào việc bảo
tồn và phát triển võ cổ truyền Việt Nam. Từ đó có nhiều hướng mở ra cho việc đẩy mạnh
tự rèn luyện và có thể đánh giá tự động qua mạng chỉ cần có camera Kinect. Người dùng có
thể tương tác với hệ thống bằng cách tự thiết lập các thông số theo nhu cầu cụ thể và làm
sao giải quyết được tốc độ thu nhận các động tác nhanh hơn để đáp ứng nhu cầu của bài võ
thực tế là một đòi hỏi còn nhiều hướng để phát triển.

3.6

Tổng kết chương
Hiện nay việc đưa võ cổ truyền vào dạy trong các trường phổ thông để rèn luyện sức

khỏe và tự vệ cho các em học sinh đã được triển khai trên cả nước. Công việc này là rất tốn
kém về tài chính và công sức; đặc biệt việc truyền dạy phải do các võ sư, các thầy thể dục,
những người am hiểu và có chuyên môn cao về võ thuật thuộc các môn phái truyền dạy mới
phát huy được hết các những ưu việt của võ thuật cổ truyền. Do đó việc xây dựng một hệ
thống trợ giúp truyền dạy võ thuật và đánh giá các bài biểu diễn võ của các em học sinh phổ
thông là cần thiết. Trên cơ sở đó luận án đã đề xuất được một mô hình để hướng đến xây
dựng hệ thống đánh giá các bài biểu diễn võ thuật của học sinh phổ thông, giúp các em có
thể tự đánh giá các bài võ được truyền dạy tại nhà mà không cần sự đánh giá định tính của
các võ sư. Sâu hơn thì bằng các phương pháp khác nhau có thể tìm hiểu, nhận dạng các tư
thế tấn công trong võ cổ truyền thông qua học và các đặc trưng.

23


×