Tải bản đầy đủ (.pdf) (29 trang)

Nhận dạng cử chỉ động của bàn tay người sử dụng kết hợp thông tin hình ảnh và độ sâu ứng dụng trong tương tác người thiết bị (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.32 MB, 29 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

ĐOÀN THỊ HƯƠNG GIANG

NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA BÀN TAY
NGƯỜI SỬ DỤNG KẾT HỢP THÔNG TIN HÌNH
ẢNH VÀ ĐỘ SÂU ỨNG DỤNG TRONG TƯƠNG
TÁC NGƯỜI-THIẾT BỊ

Chuyên ngành: Kỹ thuật Điều khiển và Tự động hóa
Mã số: 62520216

TÓM TẮT LUẬN ÁN TIẾN SĨ
ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA

Hà Nội 12−2017


Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội

Người hướng dẫn khoa học:
1. TS. Vũ Hải
2. TS. Trần Thị Thanh Hải

Phản biện 1: PGS.TS Ngô Quốc Tạo
Phản biện 2: PGS.TS Nguyễn Quang Hoan
Phản biện 3: PGS.TS Trần Đức Tân

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án tiến sĩ


cấp Trường họp tại Trường Đại học Bách khoa Hà Nội:

Vào hồi..........giờ, ngày.......tháng.......năm.......

Có thể tìm hiểu luận án tại thư viện:
1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội
2. Thư viện Quốc gia Việt Nam


MỞ ĐẦU
Tính cấp thiết của luận án
Ngày nay, công nghệ hiện đại ngày càng phát triển đã trợ giúp cho con người trong
nhiều lĩnh vực khác nhau. Trong đó, tự động hóa tòa nhà hay không gian sống thông
minh là một trong những xu hướng nghiên cứu xuất phát từ nhu cầu thực tế của cuộc
sống. Các hệ thống tự động hóa có mặt ở nhiều lĩnh vực khác nhau trong cuộc sống
hàng ngày, từ những ứng dụng trợ giúp đơn giản như chuông cửa, điều khiển cửa ra
vào nhà, đến việc tự động hóa các thiết bị điện tử gia dụng phức tạp hơn như hệ thống
đèn chiếu sáng, điều hòa, hệ thống loa đài, ti vi,... Mặc dù các ứng dụng tự động hóa
tòa nhà đã được đề xuất nhiều. Các sản phẩm hiện có mới chỉ chủ yếu tập trung vào
các công nghệ tiết kiệm năng lượng, hoặc điều khiển các thiết bị điện tử trong gia đình
sử dụng các thiết bị phụ trợ hoặc yêu cầu một giao diện để tương tác giữa người dùng
và thiết bị. Nhu cầu tự động hóa tòa nhà với sự tương tác giữa người và thiết bị điện
tử gia dụng một cách tự nhiên là cần thiết song bài toán này còn gặp phải nhiều thách
thức như: Không đòi hỏi thiết bị phụ trợ hay tiếp xúc trực tiếp trong quá trình điều
khiển; hoặc không đòi hỏi giao diện tương tác người-thiết bị. Mục tiêu hướng đến của
đề tài là nghiên cứu và phát triển hệ thống điều khiển thiết bị một cách tự nhiên và
hiệu quả. Tuy nhiên, trong tương tác người dùng - thiết bị; hiệu quả thể hiện thông
qua tính bền vững của hệ thống đối với sự thay đổi của các yếu tố bên ngoài và khả
năng đáp ứng thời gian thực.
Để giải quyết các vấn đề này, hai xu hướng nghiên cứu đã được đề xuất là: Phát

triển công nghệ phụ trợ và phát triển thuật toán. Với xu hướng phát triển công nghệ
phụ trợ bao gồm các giải pháp sử dụng găng tay chuyên dụng, miếng dán đánh dấu
vùng bàn tay, hoặc gắn trực tiếp cảm biến trên tay hoặc cánh tay khiến cho người
dùng phụ thuộc thiết bị, chi phí mua thiết bị đắt đỏ, và điều khiển không tự nhiên.
Cách tiếp cận thứ hai là phát triển thuật toán, nhận dạng cử chỉ tay đã được triển
khai trong nhiều lĩnh vực khác nhau như: thị giác máy tính và rô bốt, điều khiển và
tự động hóa,... Tuy vậy, yêu cầu về tính bền vững và xử lý thời gian thực vẫn còn là
một thách thức khi nghiên cứu hệ thống nhận dạng cử chỉ tay. Luận án này là một sự
dung hòa của hai hướng tiếp cận trên. Trong đó, một tập cử chỉ tay có tính ngữ nghĩa,
gợi nhớ đã được đề xuất nhằm thay thế các thiết bị phụ trợ, cung cấp các đặc trưng
hữu ích cho hệ thống, nên người dùng có thể điều khiển một cách tự nhiên. Bên cạnh
đó, các giải thuật biểu diễn nhận dạng hoạt động cử chỉ đã được nghiên cứu cà thiết
kế với mục tiêu hiệu quả. Các kết quả đánh giá thử nghiệm chỉ ra rằng, phương pháp
tương tác này tự nhiên hơn và không yêu cầu bất cứ liên kết trực tiếp với thiết bị cũng

1


như không yêu cầu phải có giao diện người dùng. Hệ thống đề xuất tối đa khả năng sử
dụng thông qua công cụ nhận dạng cử chỉ tay và cung cấp hệ thống điều khiển nhiều
thiết bị điện gia dụng với đáp ứng thời gian thực.

Mục tiêu của luận án
❼ Thiết kế tập cơ sở dữ liệu (CSDL) cử chỉ bàn tay tương ứng với một số các lệnh

điều khiển căn bản cho các thiết bị điện tử gia dụng. Ngoài ra, CSDL này có các
đặc trưng hỗ trợ hệ thống nhận dạng đạt được hiệu quả nhận dạng cao.
❼ Nghiên cứu và triển khai giải thuật phân đoạn cử chỉ bàn tay đáp ứng thời gian

thực, bền vững với sự thay đổi của các yếu tố bên ngoài (ánh sáng,...): Nghiên

cứu và đề xuất phương pháp phát hiện và trích chọn vùng bàn tay từ ảnh màu
và ảnh độ sâu, phân đoạn các cử chỉ tay từ chuỗi liên tiếp.
❼ Nghiên cứu và đề xuất phương pháp biểu diễn chuỗi cử chỉ động của bàn tay và

đồng bộ pha giữa các cử chỉ động. Giải pháp hướng tới biểu diễn các cử chỉ tay
theo cả không gian và thời gian, đáp ứng với nhiều người, tại nhiều vị trí, nhiều
hướng khác nhau của người đến cảm biến Kinect.
❼ Triển khai hệ thống điều khiển thiết bị điện tử gia dụng sử dụng cử chỉ bàn tay.

Các đóng góp của luận án
❼ Đóng góp thứ 1: Thiết kế tập CSDL cử chỉ tay tương ứng với các lệnh điều

khiển cơ bản của các thiết bị điện tử gia dụng. Thu thập CSDL, đánh giá tính
khả thi của tập lệnh, thử nghiệm giải thuật đề xuất và chia sẻ cho cộng đồng
nghiên cứu.
❼ Đóng góp thứ 2: Đề xuất giải pháp phân đoạn chuỗi cử chỉ tay đáp ứng thời

gian thực gồm: Giải pháp hiệu quả để phát hiện và trích chọn vùng bàn tay từ
ảnh màu và ảnh độ sâu; Giải pháp phân đoạn cử chỉ từ chuỗi bàn tay liên tiếp.
❼ Đóng góp thứ 3: Đề xuất một phương pháp biểu diễn mới cử chỉ dựa trên đặc

trưng không gian dựa trên biểu diễn đa tạp (ISOMAP), kết hợp với các đặc trưng
thời gian (KLT), có tính đến đồng bộ pha giữa các cử chỉ trên không gian biểu
diễn mới được đề xuất.
❼ Đóng góp thứ 4: Triển khai giải pháp toàn diện để điều khiển một số thiết bị

điện tử gia dụng dùng cử chỉ động của bàn tay. Hệ thống hoàn chỉnh được cài
đặt trong ngữ cảnh trong nhà tại phòng thông minh của Viện MICA.

Cấu trúc của luận án

❼ Mở đầu: Giới thiệu chung tính cấp thiết, mục tiêu của luận án; ngữ cảnh, các

ràng buộc và thách thức khi giải quyết các bài toán; Các đóng góp của luận án.
2


❼ Chương 1: Tổng quan về điều khiển sử dụng cử chỉ bàn tay và các nghiên cứu

liên quan đến các vấn đề đặt ra trong luận án.
❼ Chương 2: Thiết kế và xây dựng cử chỉ bàn tay có tính chất chu kỳ.
❼ Chương 3: Đề xuất phương pháp phát hiện, phân đoạn cử chỉ bàn tay đáp ứng

yêu cầu thời gian thực và độ chính xác. Phân đoạn chuỗi cử chỉ tay động từ chuỗi
liên tiếp các hình trạng bàn tay.
❼ Chương 4: Đề xuất giải pháp biểu diễn các cử chỉ động của bàn tay kết hợp các

đặc trưng không gian và thời gian, giải pháp đồng bộ pha trong không gian mới.
❼ Chương 5: Triển khai, đánh giá hệ thống điều khiển sử dụng cử chỉ tay. Thực

hiện các đánh giá thử nghiệm trên hệ thống hoàn thiện.
❼ Kết luận và định hướng nghiên cứu tiếp theo của luận án.

CHƯƠNG 1

CÁC NGHIÊN CỨU LIÊN QUAN
Chương này trình bày về các nghiên cứu liên quan đến hệ thống điều khiển thiết
bị điện tử gia dụng dùng cử chỉ động của bàn tay và các phương pháp nhận dạng cử
chỉ động của bàn tay với các pha chính gồm: Phát hiện và trích chọn vùng bàn tay
trong ảnh, phân đoạn và nhận dạng các cử chỉ động của bàn tay từ chuỗi ảnh liên tiếp.


1.1

Hệ thống điều khiển thiết bị sử dụng cử chỉ động bàn tay

Đã có nhiều hệ thống điều khiển thiết bị điện gia dụng sử dụng cử chỉ tay đã được
đề xuất như ti vi thông minh của hãng Sansung, Omron,... Các hệ thống này được chia
thành hai nhóm chính: Độc lập và phụ thuộc giao diện người dùng. Với hệ thống yêu
cầu một giao diện người dùng để thực hiện các lệnh điều khiển sẽ không phù hợp với
hầu hết các thiết bị điện tử gia dụng không có màn hình như đèn, quạt,....

1.2

Phương pháp phát hiện và trích chọn bàn tay trong ảnh

Phát hiện vùng bàn tay là xác định sự có mặt và vị trí của vùng bàn tay trong
ảnh. Đây là một pha cần thiết được áp dụng nhằm loại bỏ các yếu tố phông nền không
tham gia vào việc mô hình hóa cử chỉ bàn tay. Đã có nhiều nghiên cứu phát hiện và
trích chọn vùng bàn tay dựa trên các đặc trưng như màu sắc, hình dáng, chuyển động
và độ sâu. Trong khi, bàn tay người có nhiều bậc tự do, hình trạng bàn tay luôn thay
đổi và phụ thuộc vào nhiều yếu tố như góc nhìn của máy ảnh, sự khác nhau về độ to
nhỏ, độ phân giải, cường độ chiếu sáng,.... Bởi vậy, độ chính xác và thời gian đáp ứng

3


của bước phát hiện và trích chọn vùng bàn tay vẫn là những yêu cầu cần phải giải
quyết đối với các hệ thống thực tế.

1.3


Phương pháp phân đoạn cử chỉ động của bàn tay

Đối với các hệ thống nhận dạng cử chỉ động của bàn tay, việc xác định điểm bắt
đầu và kết thúc chuỗi cử chỉ tương ứng với một ứng viên của một cử chỉ nào đó, là
việc làm cần thiết trước khi đưa vào biểu diễn và nhận dạng cử chỉ. Các phương pháp
phân đoạn hiện tại thường chia thành hai loại: Sử dụng các mô hình và sử dụng các
tín hiệu đặc trưng. Hướng tiếp cận sử dụng các mô hình thường gặp phải một số giới
hạn chế sau: Các hệ thống yêu cầu một ngưỡng các tham số mô hình trong quá trình
huấn luyện và khó thay đổi hệ thống khi thêm hoặc bớt cử chỉ. Hơn nữa, cần thiết
phải định nghĩa các cử chỉ có nghĩa và tập cử chỉ thông thường, trong khi có rất nhiều
các cử chỉ thông thường. Ngoài ra, khi sử dụng mô hình thường có thời gian trễ lớn và
điều đó thực sự thách thức khi triển khai các hệ thống thực.
Hướng tiếp cận dựa trên các dạng tín hiệu đặc trưng của các cử chỉ tay thường là:
Sự chuyển động, vận tốc, gia tốc của bàn tay,... Hướng tiếp cận này thường đạt được
tốc độ đáp ứng nhanh với giải thuật đơn giản. Tuy nhiên, các cử chỉ tay phải thiết kế
sao cho đảm bảo được đặc trưng khác biệt và/hoặc sử dụng thêm các thiết bị phụ trợ
để đo chính xác sự thay đổi của cử chỉ tay.

1.4

Phương pháp nhận dạng cử chỉ động của bàn tay

Các phương pháp nhận dạng cử chỉ động hiện nay đang gặp một số giới hạn như:
Các mô hình cần phải cài đặt, thiết lập lại tham số khi cần thêm hoặc bớt cử chỉ. Giải
pháp đạt được độ chính xác thì yêu cầu độ phức tạp tính toán và thời gian đáp ứng
cao. Các mô hình nhận dạng như HMM hay CRF, CNN thường yêu cầu số lượng dữ
liệu huấn luyện lớn. Đặc biệt, phương pháp sử dụng mạng nơ ron yêu cầu cấu hình
máy tính cao hoặc máy tính phải có GPU.

1.5


Thảo luận và kết luận

Dựa trên việc phân tích các ưu nhược điểm của các kỹ thuật hiện có, luận án
hướng tới giải quyết các nội dung sau:
Định nghĩa cử chỉ động của bàn tay: Để điều khiển thiết bị cần có một bộ CSDL
có tính đồng bộ, phù hợp với phần lớn các thiết bị điện tử gia dụng, không phụ thuộc
giao diện người dùng. Tập lệnh có tính đặc thù và phù hợp với các thiết bị, cung cấp
các đặc trưng hiệu quả cho hệ thống, đáp ứng tính tự nhiên và thuận tiện khi người
dùng tương tác.
Phát hiện tay, phân khúc chuỗi cử chỉ động của bàn tay: Nghiên cứu, phát triển
một phương pháp phát hiện và trích chọn bàn tay dựa trên ảnh màu và ảnh độ sâu đạt
4


được hiệu quả hệ thống cao và đáp ứng thời gian thực. Sau đó, chuỗi cử chỉ tay được
phân khúc sử dụng kết hợp các đặc trưng tín hiệu một chiều của chuỗi cử chỉ động.
Nhận dạng cử chỉ động của bàn tay: Phát triển một phương pháp biểu diễn cử chỉ
động của bàn tay kết hợp các đặc trưng không gian và thời gian. Giải quyết bài toán
đồng bộ pha trong không gian mới và phân lớp cử chỉ động.

CHƯƠNG 2

THIẾT VẾ VÀ XÂY DỰNG CƠ SỞ DỮ LIỆU CÓ
TÍNH CHU KỲ
Một số CSDL cử chỉ động của bàn tay hiện có tồn tại những hạn chế nhất định
như trình bày trong mục 2.1. Chương này trình bày nguyên lý thiết kế và xây dựng
CSDL cử chỉ tay mới có tính chất chu kỳ. Các cử chỉ tay cho phép người dùng tương
tác tự nhiên, thuận tiện với các thiết bị và đảm bảo hiệu quả hoạt động của hệ thống
điều khiển. Phần 2.2.1 sẽ trình bày thiết kế chi tiết về bộ CSDL cử chỉ động của bàn

tay mới có tính chu kỳ.

2.1

Các CSDL cử chỉ động của bàn tay đã có

Các bộ CSDL cử chỉ động của bàn tay đã được đề xuất tồn tại một số giới hạn
nhất định như: Phục vụ cho một ứng dụng chuyên biệt, pha trộn lẫn giữa các cử chỉ
tĩnh và động, số lượng các cử chỉ hạn chế chỉ ở lệnh bật/tắt thiết bị, hoặc các CSDL
không được công bố cho cộng đồng nghiên cứu.

2.2
2.2.1

Thiết kế CSDL cử chỉ động có tính chu kỳ
Các lệnh điều khiển các thiết bị điện tử gia dụng cơ bản
Bảng 2.1 Các lệnh chính của các thiết bị điện tử gia dụng
Lệnh

Thiết bị
Tivi
Máy quay
Đèn
Điều hòa
Quạt

Lệnh 1/Bật-Tắt

Lệnh 2/Tăng


Lệnh 3/Giảm

Lệnh 4/Tiếp theo

Lệnh 5/Quay lại

Bật/Tắt
Bật/Tắt
Bật/Tắt
Bật/Tắt
Bật/Tắt

(+) Kênh
Quay lên
(+) Tinh
(+) Nhiệt độ
(+) Tốc độ

(-) Kênh
Quay xuống
(-) Tinh
(-) Nhiệt độ
(-) Tốc độ

(+) Tiếng
Quay trái
(+) Thô
Quạt bật/tắt
Quay


(-) Tiếng
Quay phải
(-) Thô
Chế độ
Đèn ngủ

Mỗi hộ gia đình thường có nhiều thiết bị điện tử gia dụng khác nhau như: Đèn,
quạt, tivi, điều hòa, cửa, loa đài, tivi,... Để có một hệ thống điều khiển sử dụng cử chỉ
tay một cách đồng bộ, rất cần thiết phải có một bộ CSDL cử chỉ tay có khả năng dùng
chung cho các thiết bị này. Để định nghĩa một bộ CSDL cử chỉ tay phục vụ cho điều
khiển, phải xác định các lệnh gốc của thiết bị cần điều khiển, ý nghĩa lệnh và cách
5


thực hiện gợi nhớ đưa ra từ nhà sản xuất. Sau đó, Các cử chỉ tay thường được định
nghĩa sao cho có sự tương ứng với ý nghĩa của lệnh, đồng thời có tính gợi nhớ để dễ
sử dụng thường xuyên, lâu dài. Cuối cùng, gán các cử chỉ tay với các lệnh gốc. Trong
nghiên cứu này, năm lệnh được định nghĩa và mô tả như trong Bảng. 2.1.
2.2.2

Định nghĩa CSDL

Năm lệnh cơ bản thường được sử dụng gồm: bật/tắt, tăng(kênh), giảm(kênh),
tăng(tiếng), giảm(tiếng). Mỗi lệnh thực hiện có ba pha chính là pha chuẩn bị, pha
thực thi và pha kết thúc. Trong pha thực thi, bàn tay không những thay đổi hình
trạng mà còn dịch chuyển theo ba trạng thái gồm: khởi động, trung gian/chuyển động
và kết thúc. Sự thay đổi hình trạng của bàn tay có tính chu kỳ từ lúc đóng tay sau đó
mở tay và đóng tay lại như mô tả trong Hình. 2.1.
Middle


Start

Stop

Move
Stop

Start
Turn on_off

Middle

Start

Start

Stop

Increase

Move
Stop

Start

Start

Middle

Middle


Stop

Middle
Decrease

Stop
Next

Back

Hình 2.1 Sự thay đổi hình trạng tay và quỹ đạo của các cử chỉ tay định nghĩa

2.2.3

Đặc điểm của CSDL
x

x (t ) = x (t + T )

x(t)

x(t+T)
time
t

Stop
Move

t+T


T
b. Ideal periodic signal in time domain
Middle

Start

s=

2Πt
T

c. Ideal periodic signal in phase domain

a. Closed-form gestures

Hình 2.2 Phân tích đặc điểm của tín hiệu có tính chu kỳ.
Mỗi cử chỉ đã định nghĩa khác biệt ở sự thay đổi hình trạng bàn tay cũng như
hướng dịch chuyển của tay. Trong đó, hình trạng tay bao gồm các chuỗi liên tiếp các
cử chỉ tay có tính chu kỳ và sự chuyển động của bàn tay biểu diễn ý nghĩa của các
lệnh. Bộ CSDL có một số đặc điểm chính như sau:
- Mỗi cử chỉ có trạng thái bắt đầu và kết thúc giống nhau. Tính chất này được sử
dụng để phân đoạn chuỗi cử chỉ động của bàn tay.
- Mỗi cử chỉ tay được xem như một tín hiệu có tính chu kỳ đóng và được biểu diễn
như trong Hình. 2.2.

6


- Thời gian thực thi mỗi cử chỉ trong mỗi lớp cũng như giữa các lớp cử chỉ khác

nhau là không giống nhau do tốc độ thực hiện của mỗi người, và/hoặc hướng
chuyển động của bàn tay trong mỗi lệnh không giống nhau.
- Các cử chỉ trong cùng một lớp có thể không đồng bộ về pha với nhau. Trong mỗi
lớp, các trạng thái của một loại cử chỉ có thể không đồng bộ.

2.3

Thu thập CSDL

Từ năm cử chỉ đã định nghĩa, bốn bộ CSDL đã được thu thập tại các môi trường,
ngữ cảnh khác nhau phông nền gồm MICA1, MICA2, MICA3, MICA4. Đặc điểm của
các bộ CSDL thể hiện chi tiết trong Bảng 2.2 sau đây:
Bảng 2.2 Đặc điểm của các CSDL
CSDL
Đặc điểm
Số lượng người
Môi trường
Điều kiện nền
Nhiễu
Số vị trí
Khoảng cách (m)

2.4

MICA1

MICA2

MICA3


MICA4

16
Phòng thí nghiệm (PTN)
Đơn giản

35
Hội chợ
Phức tạp

33
Hội chợ
Phức tạp

8
PTN
Đơn giản

Ít
1
2

Nhiều
2
2.5

Nhiều
2
1.5; 2.5


Ít
13
1.5->3

Thảo luận và kết luận

Sau khi khảo sát các tập CSDL đã được công bố cũng như xuất phát từ yêu cầu
của bài toán điều khiển thiết bị điện gia dụng, một CSDL mới đã được định nghĩa.
CSDL bao gồm năm lệnh, tương ứng với các lệnh cơ bản nhất để điều khiển hầu hết
các thiết bị điện gia dụng. Tập CSDL đề xuất bao gồm các chuỗi cử chỉ tay có tính
chất chu kỳ đóng, dễ nhớ, và dễ thực hiện. Bốn bộ CSDL đã được thu thập tại các môi
trường khác nhau, với các điều kiện phông nền khác nhau, đa dạng độ tuổi và giới tính
của người tham gia thu thập. Các bộ CSDL được chia sẻ cho cộng đồng nghiên cứu.

CHƯƠNG 3

TRÍCH CHỌN BÀN TAY VÀ PHÂN ĐOẠN CỬ CHỈ
ĐỘNG VỚI GIẢN ĐỒ HỌC NGƯỜI DÙNG
3.1

Mở đầu

Tương tác người máy thông qua cử chỉ bàn tay được xem như một trong những
cách thức tương tác tự nhiên và thân thiện. Tuy nhiên, cách thức điều khiển này phải

7


đối mặt với khá nhiều thách thức như sự phức tạp và luôn biến đổi của cấu trúc bàn
tay, điều kiện chiếu sáng khác nhau, điều kiện phông nền phức tạp. Vì vậy, các thuật

toán đã đề xuất yêu cầu xử lý phức tạp và/hoặc tính toán thời gian cao. Trong khi đó
việc phát hiện và trích chọn vùng bàn tay là một trong những bước tiền xử lý trong
bài toán nhận dạng cử chỉ động của bàn tay. Vì vậy, nội dung chương này đề xuất giải
pháp học các tham số mô hình để đạt được độ chính xác cao, đáp ứng thời gian thực
trong phát hiện và trích chọn vùng bàn tay. Sau đó, dựa vào việc kết hợp các dạng tín
hiệu biến đổi theo quy luật của các cử chỉ động đã định nghĩa, đề xuất một giải pháp
để phân đoạn chuỗi cử chỉ động của bàn tay đáp ứng thời gian thực.

3.2

Giản đồ học của người dùng

3.2.1

Một số giả thiết và ràng buộc

3.2.2

Sơ đồ đề xuất
(a) The proposed vision-based hand detection and segmentation

RGB
image

Hand region
Preprocessing
data

Kinect


Detecting body
area

Hand detected and
Segmented

Detecting hand
candidates

Depth
image

Pruning hand

Learning parameters
(d±∆) of a distance to
hand

Learning parameters
(µ,δ) ,η of background
model

Learning
parameters (µ,δ)
of skin model

(b) The proposed user-guide scheme

Hình 3.1 Minh họa hệ thống đề xuất phát hiện và trích chọn bàn tay.
- Tiền xử lý: Do ảnh I và D thu thập từ cảm biến Kinect không có cùng tọa độ.

Do đó, bước tiền xử lý nhằm hiệu chỉnh để đưa các điểm ảnh màu và ảnh độ sâu
về cùng tọa độ. Phương pháp được đề xuất trong [1] được sử dụng.
- Phát hiện người Bd :
Bd = D|Dif f (D,BG)>T hreshbody

(3.1)

Hd = Bd |Bd
(3.2)

- Phát hiện tay Hd :

- Làm mịn vùng bàn tay: Kết hợp màu da trên vùng các ứng viên ảnh độ sâu Hd :
H ∗ = I|Hd ,Ωc
3.2.3

(3.3)

Học các tham số

Để phát hiện vùng bàn tay, hệ thống đề xuất cần phải sử dụng một số tham số.
Các tham số này có thể được học từ trước và sử dụng sau đó.
8


3.2.3.1

Học tham số của mô hình nền


Sử dụng mô hình GMM [6] để quan sát sự ổn định của mỗi điểm ảnh p trên
một chuỗi n ảnh độ sâu: sp = [D1,p , D2,p , ..., Dn,p ]. Tham số quan sát là độ lệch chuẩn
σp = std(sp ) của điểm ảnh. Trong đó, điểm ảnh p của mô hình nền được biểu diễn bởi
BGp = (µp , ηp , σp ), được tính toán như sau:
❼ Mô hình nhiễu ηp :

0
255

ηp =

if σp < τ
otherwise

(3.4)

❼ Giá trị trung bình µp :
n
t=1

µp =

(a) RGB image

Dt,p

if σp < τ

Dt,p |Dt,p k


otherwise

n

k
t=1

(b) Depth image

(c) Body extraction

(3.5)

(d) Candidates of hand

Hình 3.2 Các kết quả của giai đoạn phát hiện bàn tay
Hình 3.2(a-c) minh họa các kết quả trừ nền. Hình 3.2(c) biểu diễn kết quả vùng phát
hiện người, sau đó là phát hiện các vùng là ứng viên của vùng bàn tay.
3.2.3.2

Học tham số khoảng cách từ tay tới cảm biến Kinect

Các phần dịch chuyển được tính toán dựa trên sự khác biệt giữa các khung hình
liên tiếp trên ảnh độ sâu Dt−2 , Dt−1 , Dt như sau:


 Dt−2,t−1 = Dt−1 − Dt−2
Dt−1,t = Dt − Dt−1



Dhand = Dt,t−1 ∩ Dt−2,t−1
3.2.3.3

(3.6)

Học tham số màu da vùng bàn tay

Sự ổn định của phân bố màu da xác định dựa trên tương quan chéo của hai biểu
đồ màu da bàn tay của các khung hình liên tiếp nhau t , với ∆t = | t − t−1 |. Hình
3.4(d) cho thấy tích lũy sai số N1 N
t=1 ∆t từ khung hình 1 đến N. Giá trị này tăng dần
tương ứng với sự sai khác khi vùng màu da còn biến động do tay chưa đặt đúng vị trí.
Cho đến một khi sai số dao động quanh một giá trị nhất định tương ứng của màu da
của người thì việc học có thể dừng lại.
9


(a)

(b)
-

(c)
-

=

(d)


(e)

(f)

(g)

Hình 3.3 Kết quả của tham số khoảng cách.
1

Accumulation of ∆

0.8
0.6
0.4
0.2
frame
0
0
(a) frame # 0

(c) frame # n

(b) frame # i

10

20

30


40

(d) Accumulation of ∆ along frames

Hình 3.4 Huấn luyện mô hình màu da
3.2.4

Phát hiện và tinh chỉnh kết quả vùng bàn tay dựa trên giản đồ học
Hi
ROIi
H*

(a) A candidate of
hand

(b) Mahalanobis
distance

(c) Hand detection

Hình 3.5 Kết quả của trích chọn vùng bàn tay. (a) Ứng viên vùng bàn tay; (b) Khoảng
cách Mahalanobis; (c) Kết quả tinh chỉnh.
Từ vùng ứng viên của bàn tay Hi được mở rộng với H ∗ = Hi × δ (Hình chữ nhật
màu xanh ở Hình 3.5(a)). Sau đó, khoảng cách Mahalanobis giữa H ∗ và mô hình màu
da được tính toán để trích chọn vùng bàn tay như hình 3.5(b). Vùng bàn tay được làm
đầy với phần màu da bị thiếu và với vùng ứng viên của bàn tay không trùng với màu
da sẽ được loại bỏ. Sau khi làm mượt thì kết quả thu được là H ∗∗ ) như minh họa trong
hình 3.5(c).

3.3


Phân đoạn cử chỉ động của bàn tay

Phân đoạn cử chỉ là thực hiện xác định điểm đầu và điểm kết thúc của một cử chỉ
trong chuỗi khung hình liên tiếp. Dựa trên đặc trưng của cử chỉ định nghĩa là có tính
chu kỳ đóng, hình trạng ban đầu và kết thúc của mỗi cử chỉ là giống nhau. Giải thuật
phân đoạn cử chỉ được đề xuất dựa trên sự biến đổi của hàm tín hiệu diện tích vùng
bàn tay, và vận tốc chuyển động của nó, cụ thể như sau: Hàm fS (t) được định nghĩa

10


1.0
ሺ0,0ሻ

ሺ0,0ሻ

‫ݔ‬

fV
fS

‫ݔ‬

ሺ‫ݔ‬௜ , ‫ݕ‬௜ ሻ

0.8

ሺ‫ݔ‬௜ାଵ , ‫ݕ‬௜ାଵ ሻ


fC

0.6
0.4
ܵ௜
‫ݕ‬

ܵ௜ାଵ

‫ݕ‬
ܶ݅݉݁ሺܶ௜ାଵ ሻ‫ݐ݁݉ܽݎ݂݂݋‬௜ାଵ
ܶ݅݉݁ሺܶ௜ ሻ‫ݐ݁݉ܽݎ݂݂݋‬௜
(a) Hand movements in time

0.2
0

0

10

20

30

40

50

60


(b) The combination of area and velocity signal

Hình 3.6 Kết hợp tín hiệu diện tích và vận tốc của bàn tay.
1.0

Orignal signal
Smoothed signal
Applied opening operator
Gesture starting
Gesture ending

fC(t)

0.8

0.6

0.4

0.2

t

0
0

50

100


150

200

250

300

350

400

1.0
0.8
0.6
0.4
0.2
Ground Truth

0
0

20

Ground Truth

40

Ground Truth


60

80

100

Hình 3.7 Hàng trên: Tín hiệu fC (t). Hàng giữa: phóng to một phần tín hiệu fC (t).
Hàng dưới cùng: minh họa sự thay đổi của hình dáng bàn tay khi thực hiện lệnh.
để biểu diễn diện tích của vùng bàn tay so với toàn bộ kích thước ảnh xt tại thời điểm
t trong bộ đệm:

fS (t) =
∀i∈St


1
δi with δi =
0

if i belongs to hand region St

(3.7)

otherwise

Hàm fV (t) biểu diễn vận tốc chuyển động của vùng bàn tay Vt tại thời điểm t:
fV (t) =

((xi+1 − xi )2 + (yi+1 − yi )2

Ti+1 − Ti

(3.8)

Hàm fC (t) kết hợp hai tín hiệu fC (t) = (fS (t), fV (t)) như sau:
fC (t) = M ax(||fS (t)||, ||fV (t)||)

11

(3.9)


Sau đó, hàm fC (t) được sử dụng để phát hiện điểm bắt đầu và kết thúc của cử
chỉ động của bàn tay như minh họa trong hình 3.7.

3.4

Các kết quả thử nghiệm

Mười người được mời tham gia đánh giá thử nghiệm hệ thống phát hiện và trích
chọn vùng bàn tay. Mỗi người đều được thực hiện với kịch bản có sẵn như nhau gồm:
học các tham số, thực hiện thử nghiệm. Các kết quả về thời gian học, thời gian đáp
ứng, độ chính xác của hệ thống được ghi lại để phân tích và đánh giá.
3.4.1

Yêu cầu thời gian học đối với người dùng

3.4.2

Thời gian đáp ứng để trích chọn và nhận dạng vùng bàn tay


Giải pháp đề xuất yêu cầu một thời gian để người dùng huấn luyện các mô hình
tham số của hệ thống. Tuy nhiên, thời gian đáp ứng của hệ thống lại khá nhanh, trung
bình là 8 fps. Giải pháp đề xuất xem như đạt được thời gian thực và nhanh hơn rất
nhiều so với một số giải pháp đã đề xuất ([4],[5] lên tới 2 fps).
3.4.3

Hiệu quả của mô hình học đối với phát hiện và trích chọn bàn tay
Bảng 3.1 Kết quả JI với việc sử dụng/không sử dụng giản đồ học

Subject

1

F rames 102

2

3

4

5

6

7

8


9

10

121

157

144

147

149

141

142

125

135

58.2

63.1

64.8

61.3


87.8

92.4

88.1

83.6

Không sử dụng giản đồ học
JI(%)

55.4

53.4

71.7

Avg. ± std

56.8

68.2

73.5

62.6 ± 6.5 %
Sử dụng giản đồ học

JI(%)
Avg. ± std

3.4.4

86.7

87.6

89.5

88.9 90.4 84.8
87.98 ± 2.58 %

Hiệu quả của giải pháp phân đoạn cử chỉ động bàn tay
False alarm rate

Area

False alarm rate

Combination

1

1

0.8

0.8

0.6


0.6

0.4

0.4

0.2

0.2

0
0.75

Area

Combination

0
0.8

0.85

0.9

0.95

1

0.8


0.85

0.9

0.95

1

True positive rate

True positive rate

(a) Spotting results of MICA1 dataset

(b) Spotting results of MICA2 dataset

Hình 3.8 Kết quả phân đoạn chuỗi cử chỉ động trên CSDL MICA1 và MICA2

12


3.5

Thảo luận và kết luận

Chương này đã trình bày các phương pháp cho phép phát hiện vùng bàn tay và
phân đoạn cử chỉ động từ ảnh RGB-D. Phương pháp phân vùng dữ trên việc học trước
một số tham số của môi trường. Làm cho hệ thống khi hoạt động sẽ đáp ứng nhanh
hơn và bền vững để phát hiện, trích chọn vùng bàn tay. Phương pháp phân đoạn dựa
trên việc phân tích sự thay đổi của hàm tín hiệu vận tốc và diện tích của hình trạng

tay. Các đánh giá thực nghiệm cho thấy các phương pháp đề xuất là khả thi khi triển
khai trong các ứng dụng thực tế cả về thời gian đáp ứng và độ chính xác.

CHƯƠNG 4

BIỂU DIỄN CỬ CHỈ ĐỘNG BÀN TAY KẾT HỢP
ĐẶC TRƯNG KHÔNG GIAN VÀ THỜI GIAN
4.1

Mở đầu

Chương này trình bày một phương pháp mới để biểu diễn cử chỉ động của bàn tay
trong không gian đặc trưng mới. Trong đó, không gian mới là sự kết hợp từ các đặc
trưng không gian (ISOMAP[2]) và các đặc trưng thời gian (KLT[3]). Ngoài ra, từ các
chuỗi cử chỉ không đồng đều nhau về kích thước do các nguyên nhân như tốc độ thực
hiện, kết quả của các khâu tiền xử lý, nhiều loại cử chỉ, người thực hiện khác nhau,...
Do đó, các cử chỉ động sai khác nhau về độ dài nên giải pháp đồng bộ pha của chuỗi
cử chỉ động đã được đề xuất.

4.2

Phương pháp biểu diễn cử chỉ động của bàn tay
Spotted dynamic
hand gesture

KLT

KLT
DTW


ISOMAP

PCA
Representation

RMSE

SpatialTemporal
Space

Phase
Synchrolization

Dynamic Hand Gesture Representation

3D-CNN
Representation

RBF SVM

Linear SVM

Recognition schemes

Recognition

K_NN
Recognition

Gesture label


Hình 4.1 So sánh giải pháp đề xuất với các phương pháp nhận dạng cử chỉ động khác

13


4.2.1
4.2.1.1

Biểu diễn bàn tay từ các đặc trưng không gian và thời gian
Trích chọn đặc trưng thời gian

Các điểm đặc trưng được trích chọn trên từng bàn tay từ khung hình đầu tiên cho
đến khung hình cuối cùng trong chuỗi cử chỉ động. Sau đó, sự kết nối của các điểm đặc
trưng này với nhau biểu diễn quỹ đạo chuyển động của bàn tay. Mỗi quỹ đạo của bàn
tay X i gồm K điểm đặc trưng {p1 , p2 , ..., pK } (vòng tròn màu đỏ trong hình .4.2(a)).
Quỹ đạo của X i được biểu diễn bởi công thức 4.2 sau đây:
i
Xfi p = {(xi1 , y1i ), (xi2 , y2i ), ..., (xiN , yN
)}

(4.1)

Sử dụng giá trị trung bình của tất cả N=20 điểm đặc trưng để tính quỹ đạo của cử chỉ
Xfi p như 4.2 (vòng tròn màu xanh trong Hình .4.2(b)):
K
i=1

pj = (xj , yj ) = (


K

xji

K
i=1

,

K

yij

)

(4.2)

Quỹ đạo trung bình biểu diễn hướng dịch chuyển của cử chỉ tay. Đây chính là
G
G
đặc trưng thời gian T rN
trích chọn từ chuỗi các khung hình liên tiếp G (T rN
=
[p1 , p2 , ..., pK ]) như (4.3):
G
T rN
= {(x1 , y1 ), (x2 , y2 ), ..., (xN , yN )}

(4.3)


G
G∗
Tọa độ của các ảnh là khác nhau nên T rN
cần được chuẩn hóa về T rN
(Hình .4.2(b))
bởi tọa độ trung bình (x, y) của tất cả các ảnh trong từng chuỗi cử chỉ động trong
(4.4), (4.5), (4.6):

x=

N
i=1

N

xi

;y =

N
i=1

yi

N

(4.4)

G∗
= [p1i,j , p2i,j , ..., pN

T rN
i,j ]

(4.5)

G∗
T rN
= [p1j − (x, y), p2j − (x, y), ..., pN
j − (x, y)]

(4.6)

4.2.1.2

Trích chọn đặc trưng không gian sử dụng kỹ thuật suy giảm tuyến tính

4.2.1.3

Trích chọn đặc trưng không gian sử dụng kỹ thuật đa tạp

Kỹ thuật ISOMAP được áp dụng để suy giảm số chiều phi tuyển. Mục đích nhằm
khai thác các cấu trúc phi tuyến tiềm ẩn của cấu trúc lớp dữ liệu. Hình. 4.3. Thực
nghiệm cho thấy, với dữ liệu cử chỉ động bàn tay như định nghĩa, chỉ cần ba chiều là
14


(0,0)

x




t=0

y

t=1

t=2
b. Trajectory

a. Optical flow

Hình 4.2 Minh họa chuyển động của các điểm đặc trưng và quỹ đạo chuyển động
có thể đủ để biểu diễn các đặc trưng không gian của tín hiệu hình trạng bàn tay. Vì
vậy, với kỹ thuật ISOMAP, chuỗi cử chỉ tay được biểu diễn như (4.7):
YG
N = {(Y1,1 , Y1,2 , Y1,3 ), (Y2,1 , Y2,2 , Y2,3 ), ..., (YN,1 , YN,2 , YN,3 )}

(4.7)

Three-dimensional Isomapembedding(withneighborhoodgraph).

4

x 10
1.5

0.16


1

0.14

On_off

0.12

Up
Down

0.1

Left
Right

0.5

Residual variance

0

-0.5

0.08
0.06

-1

0.04

-1.5
-3

0.02
-2
-1
0
1
2
4

x 10

-1.5

-1

-0.5

0

0.5

1

a. 3D manifold of hand postures

2

1.5


4

x 10

0
1

2

3

4

5
6
7
Isomap dimensionality

8

9

10

b. Residual presentations

Hình 4.3 a) Biểu diễn 05 cử chỉ tay trong không gian đa tạp 3 chiều.
4.2.2
4.2.2.1


Kỹ thuật đồng bộ pha DTW với sự phân lớp K-NN
Đồng bộ pha sử dụng với kỹ thuật DTW

Trong phần này, kỹ thuật DTW được sử dụng để đồng bộ pha giữa các cử chỉ
động, kết hợp với phương pháp biểu diễn các đặc trưng không gian sử dụng kỹ thuật
PCA, và đặc trưng thời gian sử dụng kỹ thuật KLT. Bộ phân lớp K-NN được dùng để
phân loại cử chỉ động với thang đo RMSE giữa các cử chỉ động.
4.2.2.2
4.2.3
4.2.3.1

Nhận dạng cử chỉ động của bàn tay với phương pháp K-NN
Giải pháp đồng bộ pha và nhận dạng cử chỉ động của bàn tay
Biểu diễn cử chỉ động của bàn tay

Một cử động của bàn tay GT S bao gồm N hình trạng như trong (4.8). Trong đó,
các đặc trưng theo thời gian được trích chọn với hai tham số bởi kỹ thuật KLT (xi , yi ).
Các đặc trưng theo không gian được biểu diễn bởi ba tham số trong không gian đa tạp
15


50

50

20

Y1


Y1

0
-20

Y1

0

-50

150

0
-50

150

-150
100

100

-100
50

50

-50
150


0

x

x

100
50

-50
0
-100

y

-50
-100
-150

0

50

y
c. 46 Decrease gestures

100

150


0

Y1

0

-20
-150

-50
150

x

100
-50

100

50

50
0

x

0

y


50

100

y
d. 52 Back gestures
-100

-150

100
150

-150

0
-50

-50
-100

-100
-150

150

e. 37 Next gestures

150

100
50

0

-50
50

-50
-100

50

-150
-100

0

x

0
-50

0

-50
150
-100

150


100

-100

-150

20 13 1413
11 910
1
11
12
11
1211215
12
12
13
10
19
16
11
12
13
11
11
10
111
20
18
10911

10
12
9
1
220
11
19
813
14
19
150 19
911
11
211
13
14
19
13
12 111
112
10
911
10
8
10
18
10
934 13
12
13

12
13
19
11
1514
910
9
14913
14
910
215
10
120
918
10
11
12
8
10
12
12
13
15
2
11
10
10
13
17
14

19
10
10
3119820
10
11
10
12
15
16
11
13
1
9
2019
220 811
64912
8
9
2
8
3
10
13
10
11
14
2
18
10

9
11
58
12
14
41532
9
712
10
12
16
19
20
17
11
20
9
28
10
13
11
011
10
12
10
12
88
812
17
913

911
712
12
711
18
13
20
218
1
11
16
20
18
12
318
12
911
1
7
2
13
710
11
20
1820
814
1816
20
14
8

11
12
19
1419
918
17
19
20
19
210
20
12
813
11
10
20
8
17
2
15
10
11
19
19
10
13
16
120
818
97

8
7
18
11
27
1
11
13
18
517
15
4
2
11
10
15
15
19
12
20
12
44
18
13
17
412
11
6
2
018

9
7
7
919
11
11
8
13
12
20
9
86
2
115
239414
16
913
13
19
18
15
9
2
19
418
14
9
19
12
13

13
978
118
910
11
3
12
10
13
12
12
20
5
2
6
9
10
11
13
6
12
812
19
13
1
1
37
47
91
20

14
9
12
11
3
18
217
383
10
8
13
418
17
10
15
9
10
7
11
217
19
10
39
120
7
3
18
4
3
14

2
13
10
11
19
17
311
19
27
712
113
8
1
19
20
20
14
20
13
12
6
10
1
8
16
1
20
10
1
15

12
10
17
14
1
2
9
18
6
8
5
18
18
10
18
19
16
12
18
18
420
12
11
12
819
919
15
63
713
16

13
13
9
10
10
14
5
114
813
6
16
814
619
20
9
15
15
13
514
8915
714
3916
2320
514
18
119
63
49
18
715

16
13
17
919
813
8
2
8
41
17
72
18
11
9595
11
14
12
16
4
17
14
11
19
613
8
13
15
15
14
8

2
4
15
812
7
620
7
20
18
19
17
88
7
6
14
19
16
15
14
8910
16
16
19
15
9
20
14
5
18
2

3
16
5
13
1
44
16
11
713
3
3
217
2
015
19
19
17
916
6
12
9
5
2
18
11
7
14
18
87
86

28
16
18
14
17
6
12
2
14
17
19
217
3
13
20
5
7
16
14
67
12
17
215
0331521 1
13
17
17
6
8
3

18
67
2
1
8
18
1
11
10
9
7
420
6
14
1
8
14
16
8
1
2
11
19
5
167
1
3
13
6
411

20
16
13
20
15
7
12
8
7
9
13
5
5
4
216
11
3
20
3
7
5
34
9
3
9
17
16
10
115
19

16
13
14
8
15
18
12
3
2
18
12
4
8
7
17
5
4
10
5
15
5
4
15
14
6
2
4
317
19
19

16
7
16
13
10
3
417
15
20
18
118
5
7
12
14
6
15
17
10
8
14
17
2
17
15
6
17
15
17
6

19
7
12
17
7
15
5
7
2
4
2
3
14
7
5
16
19
1
2
4
18
1
3
16
11
6
4
6
15
13

1
16
4
6
7
6
5
7
19
17
16
6
2
16
4
5
4
16
17
14
1
6
14
6
4
17
12
16
3
5

8
3
8
15
4
7
16
16
8
4
7
5
18
2
3
20
6
5432
73
7
19
5
1
7
6
7
14
3
15
13

18
1
1
14
10
16
17
20
2
13
13
5
4
2
1
15
15
16
1
2
3
16
20
19
15
18
19
18
17
5

17
18
14
18
1
1
17
15
3
6
20
5
6
2
9
17
16
7
6
4
14
9
5
8
5
16
3
20
2
8

17
5
6
3
16
16
9
15
15
719
18
19
417
17
13
19
7
20
617
16
6
6
3
416
12
3
16
13
816
12

17
1
816
17
5
316
719
417
515
15
419
1
619
14
18
2
4
5
14
17
16
14
4
417
10
14
1
41
55
16

16
15
9
97
14
14
20
6
6
1
12
15
3
5
7
15
5
16
6
4
17
3
18
17
15
20
4
16
16
19

20
15
7
42
16
15
6
15
15
20
2
13
3
17
615
11
12
6
6
362 3
3
11
17
717
15
20
13
15
36
2

16
6
619
17
2
3
2
417
18
1
5
4
18
11
219
15
16
13
7
6
18
14
14
5
7
11
5
5
17
16

1
15
4
73
6
17
4
5
18
12
4
5
15
19
18
15
1
8
5
1
9
6
7
14
10
5
19
515
20
13

315
17
16
4
16
41
20
17
64
16
7
16
2
3
315
5
18
13
66
16
18
5
5
7
4
13
4
8
4
16

14
1
1
19
33
4
4
16
10
3
6
16
13
15
18
10
2
2
1
5
4
5
20
4
1
19
5
14
18
212

12
16
1
18
420
17
13
7
20
8
3
1
6
13
1
14
4
4
5
15
17
16
17
18
20
14
6
11
17
16

9
16
3
17
6
16
11
18
3
16
17
4
18
657
8
3
19
1
13
5
17
2
13
11
16
5
3
4
2
4

04
4
16
19
15
18
217
3
415
7
17
12
18
16
1
618
2
10
8
19
617
915
14
6
15
0
316
2
3
13

15
16
16
7
5
19
12
20
4
11
0
17
83
14
5
19
55
18
6
313
1
3
14
17
4
57
1
17
2
2

2
18
17
118
219
17
4
18
19
16
6
4
20
218
119
1
18
19
15
7
6
7
7
5
7
6
20
18
15
19

17
20
20
3
13
12
5
11
17
18
4
2
3
1
19
20
1
614
14
4
6
5
2
9
1
17
8
8
4
3

3
12
2
16
3
8
20
2
18
8
1
5
20
16
3
1
818
123519
19
17
16
1
13
1
16
15
7
18
7
5

18
19
17
8
5
1
14
10
14
18
4
16
15
18
13
11
15
4
3
5
13
20
3
19
5
7
20
9619
618
19

16
16
2
14
5
15
89
53
14
17
4
13
12
63
3
1
16
18
219
19
19
20
15
15
14
2
89
17
17
2

111
18
14
20
118
4
14
118
14
53
510
65
412
2
6
118
20
1
19
18
3
139
17
518
13
17
19
20
84
3

14
75
6
9
12
8
13
82
13
214
16
3
19
4
18
20
19
18
1
218
17
14
16
17
18
1
019
20
913
813

14
11
12
4
9
20
418
1
20
43
19
17
2
3
19
12
7
15
16
7
2
18
4
3
18
1
14
15
8
9

19
6
17
13
13
13
526
8
14
714
4
19
5
6
17
720
17
7
1
19
7
6
05
9
118
19
19
18
13
18

17
7
14
14
2
18
19
7
8
19
14
3
8
15
12
12
8
13
415
514
14
6
710
13
34
15
6
12
7
17

5
6
3
14
17
12
20
213
20
19
20
16
5
2
55
10
10
1
6
1
11
13
10
2
20
20
13
20
13
8

17
19
13
3
12
19
4
14
15
16
13
12
9
11
3
18
4
3
11
20
9
1
4
7
5
11
1
11
9
2

712
17
13
11
7
6
13
1
2
1
14
10
18
6
110
38
14
6
8
12
10
7
1
2
42
17
92
12
1
20

12
3
21
13
6
9
8
13
9
18
11
19
20
20
20
10
10
17
15
9
3
19
13
16
3
13
7
12
18
911

10
57
9
13
12
18
810
8
1
20
12
4
8
16
6
613
1
118
2
19
219
19
2219
20
6
12
12
15
715
719

16
20
13
13
9
11
13
8
9
3
19
10
3
6
8
912
8
7
10
11
7
120
12
16
9
13
10
11
11
14

12
2
3
1
1 11
12
85
2
7
12
12
14
13
9
1
14
7
0210
10
9
10
20
988
6
12
10
8
11
14
910

20
16
120
10
52
20
42
7
12
10
912
10
11
10
911
18
98
11
11
1
211
11
11
96
32
19
31
10
19
10

20
111
92
10
10
18
2
9718
8
13
9
8
83
3319
11
12
11
18
10
1
12
9
10
65 5
11
810
12
911
14
13

12
9
11
876
15
11
10
11
15
211
15
913
10
11
712
11
2
11
14
20
7
113
410
7
10
13
11
21 11
11
11

12
810
13
11
12
9
12
10
14
10
910
6
12
8811
13
11
10
9
10
110
9810
117 14
12
20
8 10
8 19 12
912
11
10
12

11
10
13
1913
088 9910
1
9
11

50

Y1

-50

-150

150

20

Y1

50

0

-100

50


y
b. 37 Increase gestures

-150

150
100

-50

-50
0

100

a. 40 Turn On_off gestures

0

x

-150
-100

50

y

-150


f. Convergence of new features representation

Hình 4.4 Phân bố của 05 cử chỉ động của bàn tay trong không gian số có chiều thấp.
ISOMAP Yi,j ; i = 1..N ; j = 1..3. Các đặc trưng sau khi trích chọn được chuẩn hóa và
biểu diễn trong cùng một không gian như sau:


GT S

x 1 x2

 y1
y2

||T r1 || ||T r2 || ... ||T rN ||

= [Pi , i = (1, ..., N )] =
= Y1,1 Y2,1
||Y1 || ||Y2 || ... ||YN ||

Y1,2 Y2,2
Y1,3 Y2,3

4.2.3.2


... xN

... yN 


... YN,1 


... YN,2 
... YN,3
(4.8)

Phân tích pha của các cử chỉ có tính chu kỳ

Cử chỉ động có N cử chỉ tương ứng với N hình trạng trong không gian đa tạp nằm
trên một đường cong đóng, mỗi hình trạng được coi như pha của tín hiệu cử chỉ động
như trong Hình. 4.5.

(P10,s10)

Y1

si >

(P9,s9)
(P11,s11)

10

60

(P12,s12)

40


11
12

9

(P7,s7)

1

(P1,s1)

The ideal
closed-form gesture

6
(P6,s6)

5

0

4

3

100

(P2,s2)


-20

(P3,s3)

(P4,s4)

si =

The most
different frames

-40
-150

2π T
N

b) Quasi closed-form gesture c) Quasi closed-form gesture

7
(P5,s5)

2

si <

2π T
N

(P8,s8)


8

13

(P13,s13)

20

The most
similar frames

The most
different frames

The most
similar frames

0

y

2π T
N

-100
-100

-50


0

x

50

100

150

d) Ideal closed-form gesture

a. Closed-form gesture in new space

Hình 4.5 Biểu diễn đa tạp của cử chỉ tay động “Tiếp theo" trong không gian đề xuất
4.2.3.3

Đồng bộ pha với phương pháp nội suy

Một giải pháp nội suy được triển khai để đồng bộ các chuỗi cử chỉ động của bàn
tay nhằm đưa các chuỗi về cùng một kích thước trong không gian mới. Giải pháp đề
16


The most
similar frames

si =

(a) Quasi close-form gesture


The most
different frames

Rejected the most
similar frames

2πT
si <
N

2πT
si >
N

2πT
N

(b) The ideal close-form gesture

Interpolated between
Different frames
si =

2πT
N

(c) Quasi close-form gesture (d) The ideal close-form gesture

Hình 4.6 Quá trình đồng bộ pha của chuỗi cử chỉ động.

xuất được thực hiện với hai trường hợp: (1) Nội suy giữa cặp hai cử chỉ liên tiếp khác
nhau nhất, (2) loại bỏ bớt một cử chỉ giữa hai cử chỉ tương tự nhau nhất như minh
họa trong Hình. 4.6(a). Gọi M là kích thước của chuỗi của chỉ tay mong muốn, từ cử
chỉ tay GT S = {P1 , P2 , ..., PN } tại (t1 , t2 , ... , tN ), véc tơ khoảng cách GT S được tính
toán bởi Dinter = {di ; (i = 1, ..., N − 1)}. Các khoảng cách này được tính bằng khoảng
cách Ơ cờ lít di = ||Pi − Pi+1 ||2 giữa hai cử chỉ tay liên tiếp Pi và Pi+1 .
Khi cử chỉ động có N cử chỉ, kích thước mong muốn là M và N < M . Khoảng
cách lớn nhất được xác định từ véc tơ Dinter (dmax = max(Dinter )), minh họa trong
Hình. 4.6(c). Điểm xa nhau nhất được nội suy với điểm P ∗ (4.9) được chèn vào giữa.
Quá trình nội suy được lặp lại cho đến khi kích thước của chuỗi cử chỉ mới bằng M :
P∗ = [

xi+1 − xi yi+1 − yi Yi+1,1 − Yi,1 Yi+1,2 − Yi,2 Yi+1,3 − Yi,3 T
,
,
,
,
]
2
2
2
2
2

(4.9)

Khi N > M , véc tơ khoảng cách nhỏ nhất được tính toán giữa hai cử chỉ tay gần
nhau nhất Dinter (dmin = min(Dinter )). Phép loại trừ một điểm từ hai điểm gần nhau
nhất được thực hiện như (4.10). Quá trình này được lặp lại cho đến khi chuỗi cử chỉ
tay mới có kích thước bằng M :


Premoved =


P
P

4.2.3.4

i

[(di−1 < di+1 )&(i = N − 1)]or[(i = 1)]

i+1

[(di−1 > di+1 )&(i = 1)]or[(i = N − 1)]

(4.10)

Nhận dạng cử chỉ động của bàn tay

Sau bước nội suy, tất cả các cử chỉ động được biểu diễn bởi các véc tơ có cùng
kích thước. Bước nhận dạng các cử chỉ động được thực hiện với các bộ phân lớp khác
nhau như SVM, NB, DT, RF, NN, KNN. Việc sử dụng các bộ phân lớp nhằm mục
đích lựa chọn bộ phân lớp phù hợp nhất với véc tơ biểu diễn đề xuất.

4.3

Các đánh giá thử nghiệm


Trong phần này, các đánh giá được thực hiện bao gồm: Độ chính xác của hệ thống
đề xuất khi điều chỉnh hệ số nội suy của chuỗi cử chỉ M , điều chỉnh tham số của bộ
17


phân lớp SVM, và độ chính xác nhận dạng sử dụng giá trị tối ưu của hệ số M , so sánh
đánh giá độ chính xác nhận dạng với các đặc trưng riêng lẻ và kết hợp, so sánh hiệu
năng của giải pháp đề xuất trên các bộ CSDL khác nhau.
Hiệu quả của hệ thống khi điều chỉnh hệ số nội suy

100

Recall
(%)

MICA1

96
94
92
90
88
86
84
82
80

98
96
94

92
90
88

Recall
(%)

MICA2

Recall
95 (%)

100 Recall
(%)
80

MSRGesture3D

NVIDIA

90
60

85

40

80

20


75

0

70

8 10 18 30 40 60 80 100
Temporal resolution value

8

10 18 30 40 60 80 100
Temporal resolution value

8
9
10
15
18
25
30
35
40
50
60
70
80
90
100

150

4.3.1

8 10 18 30 40 60 80 100
Temporal resolution value

Temporal resolution value

Hình 4.7 Kết quả nhận dạng tương ứng với điều chỉnh hệ số M .
4.3.2

Đánh giá hiệu quả của giải pháp đề xuất
KLT-ISOMAP

Recall(%)
100

ISOMAP

Recall(%)
100

KLT

DTW -based

C3D-SVM

The proposed method


80
80
60

60

40

40

20

20
0

0
MICA 1

MICA 2
Dataset

MICA 3

MICA 1

MICA 4

MICA 2


MICA 3

MICA 4

Dataset

(a) The comparison combination characteristics

(b) Performance comparisons with different techniques

Hình 4.8 So sánh sự kết hợp các đặc trưng (KLT và ISOMAP) các cử chỉ động
4.3.3

So sánh hiệu quả của giải pháp đề xuất tại nhiều vị trí khác nhau

Kết quả đánh giá này cho thấy giải pháp đề xuất đáp ứng tốt với hướng quay
khác nhau, vị trí khác nhau của bàn tay đến cảm biến Kinect. Giải pháp đề xuất đạt
được các kết quả tốt nhất trong ba kỹ thuật thử nghiệm (đạt độ chính xác 96.66%).
Recall (%)
100

DTW-based

C3D-SVM

The proposed method

80
60
40

20
0
1

2

3

4
5
6
7
8
9
10
11
12
Positions (differences in distance and direction to Kinect)

13

Hình 4.9 So sánh hiệu quả của một số giải pháp nhận dạng khác nhau
4.3.4

Đánh giá hiệu quả trên các bộ CSDL khác nhau
18


Bảng 4.1 Hiệu quả của giải pháp đề xuất trên ba CSDL khác nhau
CSDL

MSRGesture3D
NDIVIA Dataset
Our dataset

4.4

Độ chính xác (%) Triệu hồi (%)
94.5 ± 3.1
93.56 ± 5.1
88.85 ± 4.7
87.5 ± 4.2
96.1 ± 3.2
96.45 ± 2.1

Thảo luận và kết luận

Chương này đã trình bày một biểu diễn mới cho các cử chỉ động của bàn tay kết
hợp các đặc trưng không gian dựa trên biểu diễn đa tạp ISOMAP và thời gian dựa
trên KLT. Giải pháp nội suy trong không gian mới cho các mẫu tín hiệu có tính chu
kỳ đóng được thực hiện trước khi đưa vào bộ phân lớp RBF-SVM, đây là bộ phân lớp
phù hợp nhất với đặc trưng biểu diễn đề xuất. Kết quả cho thấy hệ thống đạt được độ
chính xác nhận dạng cao tại nhiều vị trí và góc nhìn khác nhau, và cao hơn so với giải
pháp sử dụng kỹ thuật học sâu tiên tiến C3D và giải pháp đồng bộ pha DTW.

CHƯƠNG 5

TRIỂN KHAI ỨNG DỤNG ĐIỀU KHIỂN THIẾT BỊ
GIA ĐỤNG SỬ DỤNG CỬ CHỈ TAY ĐỘNG
5.1


Mở đầu

Chương này trình bày quá trình triển khai một hệ thống điều khiển các thiết bị
điện gia dụng sử dụng cử chỉ tay đã định nghĩa. Hệ thống điều khiển các hoạt động
thông thường của thiết bị điện gia dụng như bật/tắt, tăng/giảm cường độ sáng của
đèn cũng như các hoạt động của đèn. Hệ thống cho phép người dùng tương tác một
cách tự nhiên và thuận tiện mà không yêu cầu giao diện người dùng.

5.2
5.2.1

Triển khai hệ thống điều khiển sử dụng cử chỉ tay
Ánh xạ các cử chỉ tay với tập lệnh

Để ánh xạ giữa tập lệnh đã định nghĩa với các chế độ của thiết bị, sáu trạng thái
hoạt động của đèn tương ứng với sáu mức sáng (0 % - Đèn tắt, 20%, 40%, 60%, 80%,
100% cường độ sáng) được thực hiện. Tương tự như vậy, với sáu chế độ hoạt động của
quạt như Bật/Tắt, thay đổi ba tốc độ quay của quạt, đèn ngủ của quạt, và chuyển
hướng. Các lệnh được thực hiện thông qua năm cử chỉ tay đã định nghĩa (G={Bật/Tắt,
Tăng, Giảm, Tiếp theo, Quay lại}).

19


5.2.2

Các chế độ hoạt động của hệ thống điều khiển sử dụng cử chỉ tay

Giản đồ biểu diễn các chuyển trạng thái được mô tả như trong Hình. 5.1.
Decrease

Increase

Decrease
Increase

Decrease
Increase
Level 0
/Speed 0
(0%)

Next
Back

Decrease
Increase
Level 1
/Speed 1
(20%)

Next
Back

Level 2
/Speed 2
(40%)

Next

Level 3

/Speed 3
(60%)

Back

Next
Back

Level 4
/Speed 4
(80%)

Next
Back

Level 5
/Speed 5
(100%)

Turn on_off
Turn on_off

Hình 5.1 Giản đồ trạng thái của hệ thống điều khiển đèn/quạt.
5.2.3

Triển khai hệ thống điều khiển
Zig-bee

HUE
Philip HUE Lamp

Zig-bee
Router
Scene

Kinect sensor

PC

The dynamic hand gesture recognition system

Arduino

Transceivers

Vinawin Fan

Home appliances

Hình 5.2 Kết nối phần cứng hệ thống điều khiển đèn và quạt.

5.3

Các đánh giá thử nghiệm hệ thống điều khiển

Môi trường thử nghiệm được thiết kế mô phỏng theo một phòng thực tế của gia
đình tại phòng thông minh của Viện nghiên cứu Quốc tế và Truyền thông Đa phương
tiện MICA - Đại học Bách khoa Hà Nội. Các đồ dùng trong phòng được bố trí tương
tự như một phòng sinh hoạt của gia đình gồm tivi, đèn, quạt, bàn ghế, cửa ra vào,
camera, điều hòa,... Hai hệ thống được cài đặt để điều khiển là thiết bị chiếu sáng
(đèn) và thiết bị làm mát (quạt). Sau khi đặt cố định cảm biến Kinect, mười ba vị trí

khác nhau trong tầm nhìn thấy ở phía trước của cảm biến Kinect được đánh dấu.
5.3.1

Thiết lập ngữ cảnh

5.3.2

Cài đặt môi trường

5.3.3

Xây dựng kịch bản

5.3.4

Các đánh giá thử nghiệm

5.3.4.1

Đánh giá chi phí thời gian của toàn bộ hệ thống trong môi trường thực

Tổng thời gian kể từ bước xử lý dữ liệu đầu vào cho đến khi ra lệnh quyết định
chỉ khoảng thời gian là 969.292ms. Thời gian kể từ khi người dùng kết thúc lệnh, sau
20


Starting a gesture

Ending a gesture


855.873ms

113.662ms

Decision

Time
Pre_processing1

Hand
…… Pre_processingN
detection1

(4.501േ 0.39)ms
*13.5frames

Hand
Spotting
detectionN

(58.897േ14.4)ms
*13.5frames

Gesture
extraction

0.954േ0.27
ms

112.036േ50.4

ms

Recognition

0.672േ0.013
ms

Hình 5.3 Chi phí thời gian của toàn bộ hệ thống tương tác bằng cử chỉ tay.
khoảng thời gian 113.662 ms thì hệ thống sẽ phát lệnh điều khiển. Thời gian này là
khá ngắn và phù hợp để triển khai các ứng dụng thực tế.
5.3.4.2

Đánh giá hiệu quả của hệ thống phát hiện và nhận dạng

Độ triệu hồi, độ chính xác và độ đo F1 của toàn hệ thống được tính toán. Kết quả
được mô tả như trong Bảng. 5.1 sau đây:
Bảng 5.1 Độ chính xác (%) của hệ thống thực hiện với 05 lệnh điều khiển
Độ đo
Cử chỉ
Bật/Tắt
Tăng
Giảm
Tiếp theo
Quay lại
Trung bình(%)

5.3.5

Độ chính xác(%)


Triệu hồi(%)

F1 Hệ số(%)

85.64
98.77
93.33
97.07
96.49
94.26 ± 4.66

89.63
87.5
90.81
85.12
84.18
87.45 ± 2.54

87.59
92.79
92.05
90.71
89.91
90.61 ± 1,81

Đánh giá phản hồi người dùng đối với hệ thống
8.33

8.33 16.66
2


16.66

3
4

Yes

5
91.67
(a) % Users agreements (Yes/no)
on using hand to control appliances
8.33

16.66

8.33

9

(c) Overall users’
satisfactions

10

5
6

41.66
25


7
8

More quickly

8.33

33.33

16.66
More convenient

6

8
33.33

33.33

58.33
(b) % Users do again a gesture
when the system “do nothing”

7
33.33

Repeat times

No


16.66
(e) Assessments on
responding time

(d) Users’ feeling on
the interaction way using hand

Hình 5.4 Đánh giá của người dùng đối với hệ thống.

21

5
6
7
8
9

More satisfied

8.33 16.66


5.4

Thảo luận và kết luận

Chương này đã trình bày cách thức triển khai và đánh giá một hệ thống điều
khiển 02 thiết bị điện gia dụng (đèn, quạt) sử dụng cử chỉ động của bàn tay. Kết quả
cho thấy giải pháp đề xuất từ bộ CSDL định nghĩa đến giải pháp phát hiện, nhận dạng

chuỗi cử chỉ động là khả thi để triển khai các ứng dụng thực. Bộ CSDL dễ nhớ, dễ
thực hiện, và tự nhiên với người dùng. Bên cạnh đó, kết quả nhận dạng của hệ thống
cuối đạt được với độ chính xác xấp xỉ 90.61% trong môi trường phòng thí nghiệm, chi
phí thời gian thấp xấp xỉ 1 giây.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Kết luận
LATS đã đề xuất một phương pháp mới cho bài toán nhận dạng cử chỉ bàn tay
ứng dụng trong tương tác người thiết bị tại môi trường trong nhà. Các đóng góp chính
của LATS được tóm lược như sau:
❼ Đề xuất một tập cử chỉ tay động để điều khiển hầu hết các thiết bị trong nhà

thông minh. Tập cử chỉ không những có tính tự nhiên và thân thiện đối với người
dùng cuối mà còn cho phép hệ thống nhận dạng hoạt động bền vững với các yếu
tố của môi trường, vị trí và hướng điều khiển của người.
❼ Nâng cao hiệu quả của các thuật toán: phát hiện bàn tay, phân đoạn cử chỉ động,

nhận dạng cử chỉ động. Cụ thể như sau:
– Đề xuất một phương pháp học các tham số của môi trường như mô hình
nền, mô hình màu da, khoảng cách từ người đến Kinect. Đề xuất này làm
tăng độ chính xác của phát hiện, đồng thời giảm thời gian tính toán ở pha
tiền xử lý của hệ thống.
– Nghiên cứu và đề xuất một phương pháp hiệu quả, đơn giản, thời gian thực
để phân đoạn cử chỉ động của bàn tay từ chuỗi hình ảnh liên tiếp thu nhận
được từ Kinect. Đây là một pha tiền xử lý quan trọng trước khi thực hiện
nhận dạng cử chỉ. Với đặc điểm của tập cử chỉ có tính chu kỳ, hiệu quả của
giải thuật phân đoạn cử chỉ động đã được cải thiện đáng kể.
– Đã đề xuất một biểu diễn mới các cử chỉ động của bàn tay dựa trên việc kết
hợp đồng thời đặc trưng không gian và thời gian. Trong khi các đặc trưng
thời gian được trích chọn từ lộ trình chuyển động của bàn tay, đặc trưng

không gian được biểu diễn trong một không gian có số chiều thấp sử dụng
kỹ thuật đa tạp. Hơn nữa, LATS cũng đã đề xuất một phương pháp nội suy
để giải quyết các vấn đề liên quan đến sự biến động về pha của các cử chỉ
22


do sự sai khác về vận tốc thực hiện cử chỉ, độ dài của cử chỉ và tốc độ lấy
mẫu của cảm biến. Cuối cùng giải thuật học máy SVM được sử dụng để
thực hiện phân lớp các cử chỉ.
❼ Triển khai, cài đặt, đánh giá hệ thống điều khiển đèn và quạt trong môi trường

nhà thông minh tại Viện MICA và hội chợ triển lãm KHCN của trường ĐHBK
Hà Nội với nhiều người dùng khác nhau.
Bên cạnh những đóng góp trên, LATS vẫn còn một số hạn chế sau:
❼ Hiện tại, tập cử chỉ gồm năm cử chỉ có tính chu kỳ để điều khiển một số chức

năng chính của hầu hết các thiết bị trong nhà. Tuy nhiên, tập cử chỉ còn hạn chế
về mặt số lượng.
❼ Thông tin độ sâu đã được sử dụng để tách biệt vùng bàn tay khỏi người và nền.

Do độ phân giải trong cảm biến độ sâu của Kinect còn hạn chế, không tin cậy
ở những khoảng cách xa (>3m), đặc biệt độ sâu không đo được ở khoảng cách
gần (0.8m) hoặc quá xa (4m). Vì vậy, phương pháp đề xuất không hiệu quả khi
người dùng đứng quá gần hoặc quá xa cảm biến Kinect.
❼ Việc biểu diễn cử chỉ động của bàn tay dựa trên thông tin màu mà chưa khai

thác thông tin độ sâu thu được từ cảm biến Kinect.
❼ Mặc dù phương pháp biểu diễn cử chỉ được chứng minh bằng thực nghiệm là bền

vững so với một số phương pháp đã có, hiệu quả của phương pháp đề xuất vẫn

cần phải được đánh giá sâu hơn. Đặc biệt là ảnh hưởng của các yếu tố như vị trí
và hướng của người điều khiển so với Kinect đến hiệu quả của phương pháp cần
được phân tích kỹ hơn.
❼ Ứng dụng điều khiển thiết bị trong phòng thông minh và đánh giá với giả thiết

chỉ có một người trong phòng điều khiển.

Định hướng nghiên cứu tiếp theo
❼ Đối với tập cử chỉ điều khiển: Mở rộng để đa dạng hóa tập cử chỉ điều khiển thiết

bị khác nhau gồm cả các cử chỉ tĩnh và các cử chỉ động.
❼ Đối với hệ thống nhận dạng cử chỉ:

– Trong pha phát hiện và phân vùng bàn tay, đề xuất ước lượng thích nghi
khoảng cách từ người dùng đến cảm biến, áp dụng các giải thuật bám vết,
làm mịn hành trình (sử dụng bộ lọc Kalman, bộ lọc hạt) để nâng cao hiệu
quả của phát hiện bàn tay.
– Trong pha phân đoạn cử chỉ động: Kết hợp các đặc trưng khác của tính chu
kỳ như hướng chuyển động, các ràng buộc của đa tạp đóng từ điểm bắt đầu
23


×