Tải bản đầy đủ (.pdf) (70 trang)

Nhận dạng cử chỉ người với đồng hồ đeo tay thông minh (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.7 MB, 70 trang )

i

LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ công trình nào khác.
Tác giả luận văn

Nguyễn Việt Tiệp


ii

LỜI CẢM ƠN
Qua quá trình học tập và nghiên cứu, để có được những kết quả như ngày
hôm nay, đặc biệt là hoàn thành nội dung luận văn tốt nghiệp Thạc sĩ khoa học này.
Tôi xin bày tỏ lòng biết ơn sâu sắc tới tất cả các Thầy, Cô giáo trong Học viện Công
nghệ Bưu chính Viễn thông, những người đã tận tình giảng dạy, truyền đạt cho tôi
những kiến thức quý báu, tạo cho tôi một nền tảng kiến thức vững chắc để học tập
và nghiên cứu.
Tôi xin được bày tỏ lòng kính trọng và lời cảm ơn sâu sắc tới thầy giáo
PGS.TS. Phạm Văn Cường, Thầy đã tận tình hướng dẫn, chỉ bảo, định hướng
nghiên cứu, hơn thế nữa là những lời khuyên, lời nhận xét và truyền đạt nhiều ý
tưởng, kiến thức quý báu cho tôi trong suốt quá trình thực hiện luận văn này.
Cuối cùng, tôi xin gửi lời cảm ơn chân thành tới gia đình, bạn bè và đồng
nghiệp, những người đã quan tâm, giúp đỡ, động viên và tạo điều kiện tốt nhất cho
tôi nghiên cứu và học tập.
Tôi xin chân thành cảm ơn !

Tác giả luận văn


Nguyễn Việt Tiệp


iii

MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................ ii
MỤC LỤC ................................................................................................................. iii
DANH MỤC THUẬT NGỮ, CHỮ VIẾT TẮT .........................................................v
DANH MỤC BẢNG ................................................................................................. vi
DANH MỤC BIỂU ĐỒ ........................................................................................... vii
DANH MỤC HÌNH VẼ .......................................................................................... viii
MỞ ĐẦU .....................................................................................................................1
1. Lý do chọn đề tài .....................................................................................................1
2. Mục đích nghiên cứu ...............................................................................................1
3. Mục tiêu nghiên cứu................................................................................................2
4. Đối tượng và phạm vi nghiên cứu ...........................................................................2
5. Phương pháp nghiên cứu.........................................................................................2
Chương 1. TỔNG QUAN NHẬN DẠNG CỬ CHỈ ...................................................3
1.1. Giao diện cử chỉ ...................................................................................................3
1.1.1. Định nghĩa cử chỉ ..............................................................................................3
1.1.2. Phân loại cử chỉ .................................................................................................4
1.2. Nhận dạng cử chỉ..................................................................................................6
1.2.1. Kỹ thuật nhận dạng cử chỉ ................................................................................6
1.2.2. Ứng dụng của nhận dạng cử chỉ ........................................................................9
1.3. Tương tác cử chỉ trong thiết bị thông minh .......................................................11
1.4. Các nghiên cứu trước đây ..................................................................................11
1.4.1. Nhận dạng người dùng dựa trên các đặc điểm sinh trắc học ..........................11
1.4.2. Nhận dạng dựa trên chuyển động....................................................................12

1.5. Kết luận chương .................................................................................................16


iv
Chương 2. NHẬN DẠNG CỬ CHỈ NGƯỜI VỚI ĐỒNG HỒ ĐEO TAY THÔNG
MINH ........................................................................................................................17
2.1. Cảm biến với hoạt động nhận dạng....................................................................17
2.2. Cảm biến gia tốc Accelerometers và con quay hồi chuyển Gyroscope .............19
2.2.1. Cảm biến gia tốc Accelerometers ...................................................................20
2.2.2. Cảm biến con quay hồi chuyển .......................................................................22
2.3. Xử lý dữ liệu cảm biến .......................................................................................24
2.4. Trích chọn đặc trưng ..........................................................................................28
2.5. Mô hình Markov ẩn (Hiden Markov Model - HMM) ........................................31
2.5.1. Giới thiệu về mô hình Markov ẩn ...................................................................31
2.5.2. Tham số trong mô hình Markov ẩn .................................................................34
2.6. Mô hình Markov ẩn cho bài toán nhận dạng cử chỉ...........................................36
2.6.1. Filtering (Bộ lọc) .............................................................................................37
2.6.2. Vector quantization (Định lượng véc tơ) ........................................................39
2.6.3. Model ..............................................................................................................41
2.7. Kết luận chương .................................................................................................46
Chương 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ ............................................................47
3.1. Thu thập dữ liệu .................................................................................................47
3.2. Thực nghiệm và đánh giá ...................................................................................52
3.2.1. Đánh giá 1: Đánh giá đối với từng người .......................................................53
3.2.2. Đánh giá 2: Đánh giá độc lập đối với người dùng ..........................................55
3.3. Kết luận chương .................................................................................................56
KẾT LUẬN ...............................................................................................................58
DANH MỤC TÀI LIỆU THAM KHẢO



v

DANH MỤC THUẬT NGỮ, CHỮ VIẾT TẮT
GPS

Hệ thống định vị toàn cầu

HMM

Mô hình Markov ẩn

HCI

Tương tác Người - Máy

MEMS

Hệ vi cơ điện tử

FRR

Tỷ lệ loại bỏ sai

FAR

Tỷ lệ chấp nhận sai

EER

Tỷ lệ cân bằng lỗi


MCR

Tỷ lệ vượt qua trung bình

ZCR

Tỷ lệ vượt qua điểm không


vi

DANH MỤC BẢNG
Bảng 2.1. Sơ lược các cảm biến gắn trên người sử dụng trong nhận dạng...............18
Bảng 2.2. Phương pháp trích chọn đặc trưng cho tín hiệu gia tốc ............................29
Bảng 3.1. Kết quả thực nghiệm với Độ chính xác - Precision ..................................54
Bảng 3.2. Kết quả thực nghiệm với Độ bao phủ - Recall .........................................54
Bảng 3.3. Kết quả thực nghiệm độc lập đối với từng người dùng được tính toán theo
độ chính xác – Precision ...........................................................................................55
Bảng 3.4. Kết quả thực nghiệm độc lập đối với từng người dùng được tính toán theo
độ bao phủ - Recall ...................................................................................................56


vii

DANH MỤC BIỂU ĐỒ
Biểu đồ 1. Minh họa cử chỉ cơ bản 1 ........................................................................48
Biểu đồ 2. Minh họa cử chỉ cơ bản 2 ........................................................................49
Biểu đồ 3. Minh họa cử chỉ cơ bản 3 ........................................................................49
Biểu đồ 4. Minh họa cử chỉ cơ bản 4 ........................................................................50

Biểu đồ 5. Minh họa cử chỉ cơ bản 5 ........................................................................50
Biểu đồ 6. Minh họa cử chỉ cơ bản 6 ........................................................................51
Biểu đồ 7. Minh họa cử chỉ cơ bản 7 ........................................................................51
Biểu đồ 8. Minh họa cử chỉ cơ bản 8 ........................................................................52


viii

DANH MỤC HÌNH VẼ
Hình 1.1. Minh họa cử chỉ tĩnh ...................................................................................4
Hình 1.2. Minh họa cử chỉ động .................................................................................5
Hình 1.3. Minh họa cử chỉ HCI...................................................................................5
Hình 1.4. Sơ đồ các bước nhận dạng cử chỉ................................................................6
Hình 2.1. Chuyển động góc tuyến tính .....................................................................20
Hình 2.2. Cảm biến Accelerometer ...........................................................................21
Hình 2.3. Minh họa Gyroscope giám sát độ nghiêng máy bay .................................23
Hình 2.4. Cảm biến con quay hồi chuyển Gyroscope ...............................................24
Hình 2.5. Hệ thống nhận dạng cử chỉ........................................................................25
Hình 2.6. Các tín hiệu gia tốc trong các cử chỉ khác nhau........................................29
Hình 2.7. Mô hình Markov ẩn ...................................................................................31
Hình 2.8. Đồ thị vô hướng HMM .............................................................................32
Hình 2.9. Mô hình Markov ẩn với sáu trạng thái ......................................................35
Hình 2.10. Thành phần của hệ thống nhận dạng .......................................................36
Hình 2.11. Cử chỉ tham khảo ....................................................................................36
Hình 2.12. Trạng thái sử dụng bộ lọc cho cử chỉ hình vuông ...................................38
Hình 2.13. Mô tả sự giảm bớt số lượng các véc tơ sử dụng hai bộ lọc.....................38
Hình 2.14. Minh họa phân cụm dữ liệu ....................................................................40
Hình 2.15. Sơ đồ huấn luyện dữ liệu.........................................................................42
Hình 2.16. Sơ đồ bài toán nhận dạng cử chỉ .............................................................44
Hình 3.1. Mẫu cử chỉ cơ bản .....................................................................................47



1

MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, các sản phẩm công nghệ đã trở nên khá gần gũi với người sử
dụng. Nó mang lại nhiều tiện ích và ứng dụng hỗ trợ đắc lực giúp cho cuộc sống và
công việc trở nên đơn giản, thuận tiện và tiết kiệm thời gian hơn. Những sản phẩm
công nghệ thông minh đang ngày càng phát triển như điện thoại thông minh, đồng
hồ đeo tay thông minh,… Ưu điểm của các thiết bị này là chúng dễ dàng mang theo,
sử dụng hầu hết ở khắp mọi nơi và bất cứ thời điểm nào.
Khi máy tính ngày càng thu nhỏ kích thước như một chiếc kính hay chiếc
đồng hồ đeo tay thì việc sử dụng bàn phím, chuột hay màn hình cảm ứng trở nên
không thích hợp. Thay vào đó, những tương tác người – máy đang được nghiên cứu
và phát triển mạnh. Bàn tay, bộ phận hoạt động chính xác và hiệu quả nhất khi con
người sử dụng công cụ, được đánh giá nhiều tiềm năng. Và thực tế bài toán nhận
dạng cử chỉ đã nhận được nhiều sự quan tâm nghiên cứu và đã có những ứng dụng
cụ thể như tương tác robot, nhận diện ngôn ngữ cử chỉ, hay điều khiển thiết bị thông
minh. Tuy nhiên, các ứng dụng tương tác qua bàn tay thường đòi hỏi độ chính xác
cao cùng số bậc tự do lớn khiến các phương pháp truyền thống tỏ ra kém hiệu quả.
Thay vào đó, phương pháp nhận dạng cử chỉ người dựa trên đồng hồ đeo tay thông
minh là hướng tiếp cận khả thi hiện nay.
Các công trình nghiên cứu trước đây đã cho thấy rằng các cử chỉ giao tiếp tự
nhiên với con người có tiềm năng trở thành các tương tác về mặt cử chỉ. Trong luận
văn này, chúng ta sẽ nghiên cứu và xây dựng một cơ chế kỹ thuật nhận dạng cử chỉ
người thông qua việc sử dụng công nghệ cảm biến gia tốc 3 chiều và một con quay
hồi quy 3 chiều được tích hợp sẵn trên đồng hồ đeo tay thông minh.

2. Mục đích nghiên cứu

Tương tác giữa người – máy là một lĩnh vực nghiên cứu thu hút được nhiều
sự quan tâm của các nhà khoa học trên thế giới cũng như trong nước thời gian gần
đây. Mục đích của các nghiên cứu này nhằm hướng tới các hệ tương tác giữa người


2
và máy, tiệm cận tương tác giữa con người với con người, nghĩa là có thể dùng các
phương tiện tương tác thông qua cử chỉ,…

3. Mục tiêu nghiên cứu
 Luận văn có hai mục tiêu:
 Đầu tiên, nghiên cứu và phát triển phương pháp nhận dạng cử chỉ người với
đồng hồ đeo tay thông minh
 Đánh giá phương pháp đã đề xuất bằng một thực nghiệm với dữ liệu được
thu thập trên người dùng khác nhau

4. Đối tượng và phạm vi nghiên cứu
 Đối tượng nghiên cứu: Nghiên cứu và phát triển phương pháp nhận dạng cử
chỉ người trên đồng hồ đeo tay thông minh
 Phạm vi nghiên cứu:
 Nghiên cứu và lập trình với bộ cảm biến gia tốc và xử lý dữ liệu cảm biến gia
tốc
 Nghiên cứu thuật toán nhận dạng cử chỉ của người
 Thử nghiệm và đánh giá phương pháp

5. Phương pháp nghiên cứu
- Nghiên cứu bộ cảm biến gia tốc: xử lý tín hiệu và dữ liệu cảm biến đến từ
đồng hồ đeo tay thông minh
- Nghiên cứu phương pháp học máy cho bài toán nhận dạng cử chỉ người sử
dụng đồng hồ đeo tay thông minh

- Thử nghiệm và đánh giá phương pháp


3

Chương 1. TỔNG QUAN NHẬN DẠNG CỬ CHỈ
1.1. Giao diện cử chỉ
Tương tác người-máy bằng cử chỉ là một phương tiện diễn đạt trong giao tiếp
mới chỉ bắt đầu phát triển, nhất là so với những kết quả đã đạt được trong những
phương thức tương tác khác như: tiếng nói, hình ảnh, tiếp xúc. Độ phức tạp trong
nghiên cứu tương tác này tăng dần từ nhận dạng cử chỉ tượng trưng (symbol) tới
nhận dạng ngôn ngữ cử chỉ (sign language). Do mỗi một cử chỉ, ký hiệu mang một
ý nghĩa nhất định nên bộ tổng hợp cử chỉ cần có khả năng phân tích, tổng hợp để
hiểu được ý nghĩa của cuộc đối thoại.

1.1.1. Định nghĩa cử chỉ
Cử chỉ được sử dụng cho sự tương tác, những người giao tiếp không chỉ
tương tác bằng lời nói, mà còn bởi những cử động cơ thể, biểu cảm bao gồm biểu
hiện tay, biểu cảm nét mặt… Điều này bổ sung thêm trường thông tin về chủ đề và
có thể chỉ ra các khía cạnh cảm xúc. Trên thực tế, việc sử dụng những cử chỉ đặc
trưng, độc quyền cũng có thể tạo ra một giao tiếp. Việc diễn giải các cử chỉ phụ
thuộc vào bối cảnh thông tin ngay tại thời điểm giao tiếp.
Giao diện cử chỉ trong tương tác người – máy có thể sử dụng các cử chỉ cá
nhân hoặc rời rạc. Việc sử dụng cử chỉ được đề cập trong hai trường hợp. Trường
hợp đầu tiên, giao diện thông qua cử chỉ của người dùng. Trong trường hợp thứ hai,
các cử chỉ được xác định bởi người dùng và người dùng cần phải thích ứng với
chúng. Điều này cho thấy, để thích nghi một cử chỉ, người dùng huấn luyện cử chỉ
bằng cách lặp đi lặp lại. Trong quá trình huấn luyện, cách di chuyển sẽ được lưu
giữ. Nếu người dùng thích thực hiện cử chỉ đã được huấn luyện, thông tin được lưu
trữ sẽ được sử dụng và người dùng không cần phải nhớ cách di chuyển. Lưu trữ cử

chỉ trên thiết bị máy móc sẽ tránh xu hướng quên và không dễ bị quá tải thông tin
bộ nhớ. Huấn luyện cử chỉ được ràng buộc với người dùng, chỉ có thể thay đổi cử
chỉ bằng cách huấn luyện lại. Vì vậy, người dùng cần phải nhớ hành động nào sẽ


4
được bắt đầu bởi mỗi cử chỉ để tương tác thành công bởi việc sử dụng một giao diện
cử chỉ.

1.1.2. Phân loại cử chỉ
Cử chỉ như là một chuỗi các hành động liên tiếp nhau để biểu thị một nội
dung nào đó nhằm mục đích truyền đạt thông tin mà không cần sử dụng lời nói. Một
cử chỉ mang một thông tin nhất định dùng để diễn đạt từ ngữ trong giao tiếp của con
người. Cử chỉ được chia thành các loại như cử chỉ tĩnh, cử chỉ động hay kết hợp cả
cử chỉ tĩnh và cử chỉ động.
Cử chỉ tĩnh: Cử chỉ chỉ phụ thuộc vào hình dạng, không phụ thuộc vào vị trí,
góc quay hay tỉ lệ lớn nhỏ của đối tượng diễn đạt, có thể được biểu diễn bởi một
hoặc nhiều hình ảnh. Chẳng hạn như cử chỉ tay biểu diễn chữ cái dựa trên hình dáng
bàn tay và các ngón tay được minh họa trong hình 1.1.

Hình 1.1. Minh họa cử chỉ tĩnh

Cử chỉ động: Biểu diễn một dãy các trạng thái, tư thế khác nhau của bàn tay
theo trình tự thời gian trong không gian, thuộc những cử chỉ mô phỏng một chuỗi
các hình ảnh, mỗi hình ảnh là một trạng thái, tư thế tay và bàn tay. Tốc độ chuyển
động trong việc biểu diễn một cử chỉ động mang lại nhiều ý nghĩa trong giao tiếp.
Cử chỉ động được thực hiện bằng việc di chuyển bàn tay bao gồm hướng di chuyển,
quỹ đạo hay tốc độ thực hiện. Hình 1.2 minh họa cử chỉ động của một người.



5

Hình 1.2. Minh họa cử chỉ động

Ngôn ngữ cử chỉ điều khiển đang được chú trọng nghiên cứu và phát triển
như hệ thống tương tác robot, hệ thống điều khiển máy tính,… Ngôn ngữ cử chỉ này
thường không theo một tiêu chuẩn chung mà tùy thuộc vào quy định cho hệ thống
cụ thể nhằm mục đích giảm độ phức tạp của cử chỉ, tạo tương tác gần gũi, dễ dàng,
dễ sử dụng trong điều khiển. Nghiên cứu gần đây là hệ thống điều khiển máy tính
bằng cử chỉ HCI (Human Computer Interface – Tương tác người-máy). Hệ thống
này tạo ra nhằm mục đích sử dụng cử chỉ tay để điều khiển máy tính thay thế cho
thiết bị chuột và bàn phím. Hình 1.3 dưới đây thể hiện cử chỉ động điều khiển tương
tác với máy tính.

Hình 1.3. Minh họa cử chỉ HCI


6

1.2. Nhận dạng cử chỉ
Nhận dạng là lĩnh vực nghiên cứu khoa học máy tính về các phương pháp lập
luận mô tả nhận thức cho máy tính khả năng nhận biết được các cử chỉ của đối
tượng trong thế giới thực.
Nhận dạng cử chỉ là công nghệ ngôn ngữ trong ngành khoa học máy tính với
mục tiêu giải thích các cử chỉ của con người thông qua các thuật toán học máy. Cử
chỉ bắt nguồn từ các chuyển động của cơ thể hay trạng thái chuyển động của các bộ
phận cơ thể như ánh mắt, biểu cảm nét mặt, chuyển động tay chân,… Cử chỉ tay là
bộ phận được sử dụng nhiều nhất, mang lại nhiều ý nghĩa nhất trong giao tiếp của
con người, trong tương tác người – máy, tạo môi trường tương tác ảo với các hệ
thống máy tính.

Nhận dạng cử chỉ người là một quá trình theo dõi các hành động cử chỉ của
con người, chuyển đổi ngôn ngữ cử chỉ thành các lệnh tương tác có ý nghĩa. Nghiên
cứu về nhận dạng cử chỉ nhằm mục đích thiết kế và phát triển một hệ thống nhận
dạng cử chỉ đầu vào và chuyển hóa thành các mã lệnh ở đầu ra để điều khiển hệ
thống thiết bị thực hiện hành động theo chủ ý.
Nhận dạng cử chỉ người là xác định xem người đó thực hiện cử chỉ thuộc lớp
cử chỉ nào trong số tập cử chỉ đã được huấn luyện từ trước đó

1.2.1. Kỹ thuật nhận dạng cử chỉ
Các bước nhận dạng cử chỉ được mô tả như trong hình 1.4 dưới đây:

Hình 1.4. Sơ đồ các bước nhận dạng cử chỉ


7
Để tương tác, giao diện cử chỉ người dùng cần thu thập các cử chỉ người
dùng. Điều này được thực hiện bằng cách thu thập các dữ liệu cảm biến khi người
dùng thực hiện các cử chỉ bằng hình ảnh qua camera hoặc thu thập dữ liệu cử chỉ
thông qua các cảm biến gắn trực tiếp vào người dùng. Cả hai phương pháp trên đều
có ưu, nhược điểm.
Thu thập dữ liệu cử chỉ bằng hình ảnh camera là kỹ thuật theo dõi đường
chuyển động cử chỉ của người dùng qua camera được cài đặt trước trong môi
trường. Kỹ thuật này đòi hỏi phải chuẩn bị trước môi trường tương tác cử chỉ bằng
cách ghi lại video chuyển động cử chỉ. Do đó, mặt hạn chế của kỹ thuật này trong
hầu hết các trường hợp là không thể sử dụng một cách tự phát ở mọi nơi, mọi lúc.
Hơn nữa, việc đánh giá các bản ghi video là một bài toán khá phức tạp.
Việc gắn các thiết bị cảm biến trực tiếp với người dùng đem lại môi trường
tương tác, thu thập dữ liệu cử chỉ một cách khách quan, không phụ thuộc vào môi
trường tương tác. Các thiết bị cảm biến thường được sử dụng để thu thập dữ liệu cử
chỉ đó là cảm biến gia tốc và con quay hồi chuyển. Chúng có thể được gắn trong các

thiết bị như điện thoại di động thông minh, đồng hồ đeo tay thông minh,…để đo
chuyển động của thiết bị và sử dụng các phép đo để suy diễn chuyển động cử chỉ
của người dùng. Các cảm biến này có ưu điểm nhỏ gọn, giá thành rẻ và tiêu tốn ít
năng lượng. Hơn thế nữa, dữ liệu cử chỉ được thu thập thông qua các cảm biến đem
lại độ chính xác khá cao.
Tuy nhiên, đo một cử chỉ là không đủ bởi vì các phép đo cần được giải thích.
Có hai nhiệm vụ cần được giải quyết ở đây, một nhiệm vụ là từ một tập các cử chỉ,
quyết định một trong số đó phù hợp nhất với phép đo, nhiệm vụ khác là trích xuất
các thông tin đặc trưng của một cử chỉ từ các phép đo. Có một số trở ngại đó là các
cảm biến không thể đo lường được sự vận động của cử chỉ một cách hoàn hảo, vì
người dùng không thể lặp lại cùng một cử chỉ một cách chính xác trong dáng điệu
và thời gian hoàn tất cử chỉ. Động thái hiện tại của cử chỉ phụ thuộc vào tinh thần
và thể chất của người dùng tại lúc đó. Người dùng khác nhau thì cử chỉ cũng khác
nhau. Đây là một khó khăn để phân loại cử chỉ. Để giải thích một luồng đo liên tục,
cần xác định điểm bắt đầu cử chỉ và điểm kết thúc cử chỉ được đo.


8

Tiền xử lý dữ liệu
Tiền xử lý dữ liệu đầu vào là quá trình chuẩn hóa lại dữ liệu nhằm mục đích
loại bỏ dữ liệu dư thừa, giữ lại dữ liệu đặc trưng cơ bản cho quá trình huấn luyện dữ
liệu và kết quả của quá trình nhận dạng. Loại bỏ dữ liệu dư thừa làm tăng dung
lượng bộ nhớ, giúp hệ thống xử lý nhanh hơn.
Trích chọn đặc trưng
Trích chọn đặc trưng là quá trình ghi nhận những đặc trưng cơ bản nhất, sao
cho dù đối tượng có thay đổi thì hệ thống nhận dạng dựa vào những đặc trưng cơ
bản đó vẫn nhận ra được cử chỉ một cách tương đối chính xác. Có nhiều phương
pháp để trích chọn đặc trưng tùy theo từng loại đối tượng và tùy thuộc vào hoàn
cảnh ứng dụng của đối tượng đó nên không thể nói phương pháp nào là phương

pháp tốt nhất nếu chưa xác định được một hệ thống nhận dạng cụ thể.
Quá trình học và nhận dạng
Thuật toán học máy được áp dụng trong các phép đo hoạt động của cử chỉ.
Thông thường, nhiệm vụ ở đây là học tự động, làm thế nào để phân biệt các cử chỉ
khác nhau trong một tập hợp các mẫu huấn luyện. Nhiệm vụ là phân loại, trong đó
cho mỗi mẫu lớp được cung cấp và các đặc tính đã học của các mẫu được sử dụng
để gán đúng lớp cho các mẫu không xác định. Tuy nhiên, không phải tất cả các
thuật toán đều thích hợp cho bài toán nhận dạng cử chỉ, bởi vì các mẫu huấn luyện
rất phức tạp để tìm và học các đặc tính của chúng.
Quá trình học: Sau khi trích chọn đặc trưng, mỗi chuyển động sẽ được mô
tả bởi một dãy các tín hiệu, dãy các tín hiệu này sẽ là tham số đầu vào cho thuật
toán Baum-Welch để huấn luyện các tham số cho mô hình HMM. Đối với mỗi lớp
sau khi được huấn luyện sẽ là một mô hình HMM và được lưu trữ để phục vụ cho
quá trình nhận dạng.
Quá trình nhận dạng: Từ chuỗi tín hiệu thu được, sau khi tiền xử lý và trích
chọn đặc trưng. Sử dụng thuật toán Viterbi để nhận dạng dựa trên những dữ liệu
mẫu đã huấn luyện trước đó. Thuật toán Viterbi sẽ tính giá trị xác suất của mỗi
chuỗi trong từng lớp trong mô hình HMM để chọn lớp có giá trị lớn nhất phục vụ
cho quá trình nhận dạng.


9
Mô hình HMM, thuật toán Baum-Welch và thuật toán Viterbi sẽ được sử
dụng làm phương pháp nhận dạng cử chỉ người với đồng hồ đeo tay thông minh,
được trình bày trong chương 2.

1.2.2. Ứng dụng của nhận dạng cử chỉ
Nhận dạng cử chỉ có rất nhiều ứng dụng trong thực tế, là một lĩnh vực quan
trọng trong thị giác máy tính, từ khi ra đời hệ thống nhận dạng cử chỉ đã nhận được
nhiều sự quan tâm và phát triển vượt trội. Sự phát triển của tương tác giữa con

người và máy tính đã thu hẹp khoảng cách, trở nên gần gũi như tương tác giữa
người với người. Ứng dụng của nhận dạng cử chỉ được phân loại theo từng chủ đề
cốt lõi của các ứng dụng như tương tác rô-bốt, ngôn ngữ ký hiệu, thực tế ảo, điều
khiển trò chơi,…
Ứng dụng đối với máy tính, cử chỉ người cung cấp môi trường tương tác
thay thế bàn phím, chuột, có thể sử dụng để thao tác với các đối tượng đồ họa,
nhân vật ảo.
Trong tương tác thực tế ảo, cử chỉ người có thể tương tác với các đối tượng
ảo 3D và 2D. Ứng dụng trong thực tế ảo được chia thành ba loại cơ bản: tương tác
đầy đủ (fully-immersive), tương tác bán nhập vai (semi-immersive) và tương tác
không nhúng (non-immersed).
 Tương tác đầy đủ: Là tương tác có tác động qua lẫn nhau trong thế
giới thực giữa người sử dụng và các đối tượng tương tác. Chẳng hạn
như sử dụng cử chỉ để ra lệnh với rô bốt điều khiển
 Tương tác bán nhập vai: Là tương tác hiện diện trong thế giới ảo
của người dùng. Ví dụ như điều khiển trò chơi bằng cử chỉ trong thế
giới ảo.
 Tương tác không nhúng: Là tương tác mà người dùng không hiện
diện trong thế giới ảo mà chỉ sử dụng cử chỉ để tương tác với các đối
tượng trong thế giới ảo. Ví dụ như điều khiển, di chuyển các đối tượng
3D trên màn hình bằng cử chỉ.


10
Ứng dụng trong điều khiển hệ thống nhà thông minh cũng đang được phát
triển mạnh mẽ thời gian gần đây, cử chỉ người điều khiển các thiết bị điện tử, hệ
thống chiếu sáng, điều hòa nhiệt độ trong ngôi nhà,…
Một số ứng dụng sử dụng cử chỉ người trong thực tế hiện nay như:
 Điều khiển trò chơi: Freeman và cộng sự (1996) đã dùng cử chỉ tay
hay vị trí của cơ thể để điều khiển, di chuyển và chuyển hướng trong trò

chơi tương tác xe; Konrad và cộng sự (2003) sử dụng cử chỉ để kiểm
soát chuyển động của đối tượng đại diện (avarta) trong môi trường
ảo,…
 Buchmanm và cộng sự (2004) sử dụng các dấu hiệu kết hợp với
động tác tay để lựa chọn thao tác cần làm tương tác trên máy tính.
 Ứng dụng cử chỉ tay trong kết hợp máy tính hợp tác làm việc. Wu và
Balakrishnan (2003) ứng dụng cử chỉ cho phép nhiều người dùng cùng
tương tác trên một màn hình máy tính.
 Cử chỉ tay đang được nghiên cứu và phát triển khá nhiều trong
lĩnh vực điều khiển rô bốt. Segen và Kumar (1998) đã mở rộng các
nghiên cứu trước đây để phát triển hệ thống điều khiển xe lăn sử
dụng cử chỉ.
 Ứng dụng cử chỉ trong lĩnh vực quân sự như việc tạo, tích hợp và
kiểm soát chiến trường ảo của Berry (1998). Trong ứng dụng này
cử chỉ không chỉ được ứng dụng để điều hướng mà còn có thể tương
tác để lựa chọn và di chuyển các đối tượng trong chiến trường ảo.
Hiện tại, có rất nhiều nghiên cứu liên quan đến cử chỉ với nhiều mục đích
ứng dụng khác nhau. Cũng như tạo ra nhiều hệ thống, thiết bị ứng dụng cử chỉ
trong điều khiển làm cho những thiết bị trở nên thân thiện, gần gũi, dễ sử dụng
cho người dùng, nhằm hướng tới tương tác người – máy như tương tác giữa
người với người.


11
1.3. Tương tác cử chỉ trong thiết bị thông minh
Giao diện cử chỉ rất phù hợp với các thiết bị thông minh, bởi vì chúng cho
phép tương tác một cách tự nhiên và cho phép khắc phục một số hạn chế của giao
diện người dùng. Giao diện cử chỉ gắn với thiết bị thông minh cho phép người dùng
nhập lệnh một cách linh hoạt.
Người dùng tương tác với các thiết bị thông minh có gắn các cảm biến được

gắn trực tiếp trên tay bằng cử chỉ tay bởi việc xoay tay với cổ tay và cẳng tay. Việc
này có lợi thế rằng các cử chỉ không đòi hỏi một không gian lớn để thực hiện. Các
cử chỉ tay sẽ thông qua cảm biến gửi tới các thiết bị thông minh, từ đây các thiết bị
thông minh sẽ giải mã các cử chỉ và chuyển thành lệnh tới các dịch vụ xung quanh.

1.4. Các nghiên cứu trước đây
1.4.1. Nhận dạng người dùng dựa trên các đặc điểm sinh trắc học
Sinh trắc học (biometrics) là lĩnh vực nghiên cứu các phương pháp toán học
và thống kê áp dụng trên các bài toán phân tích dữ liệu sinh học. Sinh trắc học gồm
các phương pháp nhận diện một người dựa trên các đặc điểm sinh lý học hay các
đặc điểm hành vi của người đó. Các hệ thống sinh trắc đã và đang được phát triển
trong các ứng dụng thực tế như hệ thống bảo mật, quản lý truy xuất, các hệ thống
điều phối. Sinh trắc học đem lại một số ưu điểm so với các phương pháp bảo mật
truyền thống (thẻ, mật khẩu...) như: không thể hoặc rất khó giả mạo, không bị đánh
cắp hay bị mất... Tuy nhiên, kết quả của các công trình nghiên cứu trên lĩnh vực này
vẫn chưa đủ hoàn thiện để có thể thay thế hẳn các phương pháp truyền thống. Hiện
nay, kỹ thuật sinh trắc thường được sử dụng kết hợp với mật khẩu hay thẻ để tăng
cường khả năng bảo mật cũng như tính an toàn của dữ liệu.
Sinh trắc học được sử dụng theo hai hình thức chính là nhận dạng
(identification) và thẩm định (verification):


Nhận dạng: xác định cụ thể mẫu sinh trắc thuộc về ai. Cơ chế định danh

thông qua việc tìm một bộ khớp nhất trong cơ sở dữ liệu so với mẫu thử
nghiệm. Phương pháp này đòi hỏi rất nhiều chi phí tính toán nếu kích thước
cơ sở dữ liệu lớn.


12



Thẩm định: xác định xem mẫu sinh trắc có phải thuộc về một chủ thể cho

trước hay không. Cơ chế xác minh thông qua việc so khớp giữa mẫu thử
nghiệm với các mẫu thuộc chủ thể đó trong cơ sở dữ liệu. Do vậy, phương
pháp này đòi hỏi ít năng lực xử lý và thời gian tính toán hơn phương pháp
định danh.
Các yêu cầu đối với đặc điểm sinh trắc học
Không phải tất cả các đặc trưng về sinh trắc học đều hữu ích. Một đặc trưng
hữu ích cần phải có mức độ dao động biến đổi thấp, trong khi các đặc trưng khác
lại có khoảng cách biến đổi lớn. Điều này có nghĩa là các mẫu thử nghiệm trên
một người chỉ có một chút sự khác nhau, trong khi đó các mẫu thử trên những
người khác nhau sẽ có sự khác nhau rõ rệt. Khi mức độ dao động tăng lên thì xác
suất chấp nhận các mẫu thử không chính xác cũng tăng lên và việc giả mạo trở
nên dễ dàng hơn. Để nhận dạng được thì các đặc trưng phải là duy nhất cho từng
người dùng.
Nhìn chung, một đặc trưng sinh học bao giờ cũng có tính ổn định dù ít hay
nhiều vì nó chỉ bị thay đổi chậm theo thời gian. Trong khi đó, người dùng điện thoại
sẽ được yêu cầu lặp lại quá trình đăng ký mỗi khi các đặc điểm về sinh trắc của anh
ta thay đổi quá nhiều. Một yêu cầu thêm nữa cho các tính năng sinh trắc học là tất
cả người dùng tiềm năng cần tham gia thực hiện từng tính năng. Ngoài ra, một điều
quan trọng đó là một tính năng sinh trắc học cần phải được đo một cách đáng tin
cậy và quá trình đo này phải nhanh và thuận tiện cho người sử dụng.

1.4.2. Nhận dạng dựa trên chuyển động
Trong phần này, các kỹ thuật nhận dạng người dùng dựa trên chuyển động
được giới thiệu. Người sử dụng hợp lệ chứng minh danh tính của mình bằng một
chuyển động có thể đo được với giả định rằng chỉ có người sử dụng hợp lệ mới có
khả năng cung cấp các mẫu của một chuyển động hợp lệ. Sau đó, các cách tiếp cận

dựa trên chuyển động sẽ được trình bày, cách tiếp cận này yêu cầu người sử dụng
ghi nhớ một chuyển động mà họ có thể lặp lại một cách tương tự sau này và người


13
sử dụng có khả năng quyết định khi nào thực hiện chuyển động. Phương pháp này
không bao gồm các cơ chế như nhận dạng dáng đi.

1.4.2.1. Chuyển động của người dùng cho tương tác máy
Tất cả các giao diện người dùng đều sử dụng các chuyển động của người
dùng như là cách thức nhập liệu. Các ví dụ điển hình là các nút bấm, bàn phím, con
trỏ và màn hình cảm ứng. Thông thường chỉ một phần nhỏ thông tin có sẵn được sử
dụng cho tương tác người-máy giống như là nút nào được ấn và nơi nào người dùng
nhấp vào. Trên thực tế, phần thông tin chưa được sử dụng lại rất đáng chú ý cho
việc xác thực như là cách thức người dùng sử dụng các thiết bị nhập liệu.
Wobbrock đề suất một cơ chế xác thực được gọi là TapSong sử dụng một
nút duy nhất. Người sử dụng tiến hành xác thực bằng cách ấn vào nút đó một cách
nhịp nhàng tương tự như nhịp điệu đã chọn trong quá trình đăng ký. Các nhịp điệu
được sử dụng dựa trên các bài hát để giúp người dùng dễ dàng hơn trong việc ghi
nhớ. Cách tiếp cận này rất thích hợp cho các thiết bị di động vì nó chỉ yêu cầu
một nút duy nhất và người dùng có thể tiến hành xác thực mà không cần nhìn vào
điện thoại của mình. Hơn nữa, chuyển động cho việc xác thực có thể là rất nhỏ và
rất khó quan sát bởi người khác. Người dùng cũng có thể tiến hành xác thực trong
khi thiết bị đang nằm trong túi của anh ta và do đó các bằng chứng có thể được
che dấu hoàn toàn.
Các cách tiếp cận khả thi khác là sử dụng tổ hợp phím động. Các cơ chế này
không sử dụng nội dung người dùng nhập vào mà lại nhận dạng bằng cách thức
người dùng tương tác với bàn phím. Ví dụ về các đặc trưng hữu ích như thời gian
bấm phím và thời gian giữ các phím. Các đặc trưng về tổ hợp phím động có thể
được đo bằng cách cho phép người dùng nhập vào một đoạn văn bản cho trước hoặc

một đoạn văn bản do người dùng cung cấp trong quá trình tương tác bình thường.
Trong trường hợp thứ hai, quá trình xác thực có thể được thực hiện một cách liên
tục một cách ngầm định. Các tổ hợp phím động có thể được sử dụng trên tất cả các
thiết bị mà có sử dụng bàn phím như các thiết bị đầu vào.


14
Một cách tiếp cận khác thực chất là sự mở rộng của cơ chế xác thực dựa trên
mã PIN cho các thiết bị di động bằng việc sử dụng một màn hình cảm ứng điện
dung như thiết bị đầu vào được trình bầy bởi Saevanee. Thông thường một nút chỉ
cung cấp thông tin về trạng thái hiện tại của nó mà thôi, nó được ấn hay không. Tuy
nhiên khái niệm về nút có thể được mở rộng, do đó điện dung được đưa vào.

1.4.2.2. Chữ ký tay
Chữ ký tay là một trong những cách phổ biến nhất để chứng minh danh tính
của một người. Chữ viết và các chữ ký trên văn bản được coi là các đặc điểm riêng
của từng người. Trên thực tế, chữ ký bằng văn bản được sử dụng để ký kết hợp
đồng. Khi một người nào đó ký vào văn bản, điều này có nghĩa là anh ta biết, hiểu
và chấp nhận các điểu khoản nội dung. Chữ ký màng tính ràng buộc và pháp luật
cấm việc giả mạo chữ ký.
Một chữ ký có thể được xác nhận bằng việc sử dụng thông tin online hoặc
offline. Cơ chế xác minh offline chỉ sử dụng hình ảnh kết quả của chữ ký. Hình ảnh
này có thể được so sánh với một mẫu hợp lệ nào đó để đánh giá mức độ tương
đồng. Các cơ chế xác minh trực tuyến cũng sử dụng thông tin về cách thức hình ảnh
được tạo ra. Thông tin này có thể bao gồm tốc độ, các thay đổi của chuyện động và
áp lực. Các thông tin này có thể có được bằng cách sử dụng các bảng đồ họa như là
các thiết bị đầu vào chứ không phải là bút chì và giấy.

1.4.2.3. Cử chỉ tay
Một cơ chế sử dụng các cử chỉ rời rạc để ánh xạ đến các con số của mã PIN

trên các thiết bị di động được giới thiệu bởi Chong Chong, 2009. Người dùng nhập
vào từng số của mã PIN bằng cách áp dụng các cử chỉ tương ứng trên thiết bị di
động. Các cử chỉ được sử dụng là các chuyển động trên một tay và trong thời gian
ngắn, bắt đầu và kết thúc tại cùng một vị trí. Người dùng cần thực hiện từng cử chỉ
một cách chính xác đê việc nhận dạng thành công. Trên thực thế, trong quá trình
xác thực người dùng sẽ tiết lộ cử chỉ bí mật được sử dụng như mã PIN và do vậy
một kẻ tấn công có thể biết được tập hợp các cử chỉ rời rạc này. Điều này có thể cho


15
phép kẻ tấn công dò được mã PIN bằng cách quan sát các cử chỉ một cách dễ dàng.
Anh ta cũng có thể sử dụng thông tin này để bắt chước thứ tự của các cử chỉ hợp lệ
vì anh ta không cần phải giả mạo một cách chính xác các chuyển động của người
dùng hợp lệ mà chỉ cần thực hiện các cử chỉ rời rạc.
Trong phần tiếp theo, các cơ chế xác thực sử dụng các cử chỉ cá nhân để
khắc phục các nhược điểm của các cử chỉ rời rạc sẽ được giới thiệu. Một chữ ký văn
bản có thể được coi là một cử chỉ tay mang tính cá nhân, nó được chiếu trên một
không gian hai chiều. Trên thực tế, việc xác thực người dùng dựa trên cử chỉ đôi khi
còn được gọi là cử chỉ chữ ký.
Okumura đã đề xuất một cơ chế xác thực người dùng bằng cách lắc thiết bị
trên một tay. Cơ chế này đòi hỏi thiết bị phải được trang bị bộ cảm biến gia tốc 3
chiều. Trong một nghiên cứu sử dụng với 22 ứng viên thì tỷ lệ cân bằng lỗi đạt
được là 5%. Phương pháp này được cải tiến bằng cách thêm vào một thủ tục cập
nhật các mẫu đăng ký để tăng hiệu suất theo thời gian. Điều này là cần thiết bởi vì
theo thời gian người sử dụng cũng thay đổi các chuyển động của mình. Liu đã tạo
ra một cơ chế xác thực dựa trên cử chỉ bằng việc sử dụng Nintendo Wii
Controller. Cơ chế phân biệt giữa xác thực quan trọng và xác thực không quan
trọng. Xác thực quan trọng là cần thiết, nếu cơ chế xác thực được sử dụng để bảo vệ
các hệ thống quan trọng. Trên thực tế, điều này đặt ra các yêu cầu cao hơn về bảo
mật và do đó độ phức tạp của cử chỉ bị giới hạn bởi các ràng buộc nào đó. Để

nghiên cứu giả mạo đối với cơ chế xác thực quan trọng, các video ghi hình quá trình
xác thực được sử dụng. Các tấn công tiềm năng có thể xem cách tiếp cận này đầy
hứa hẹn, bởi vì các cử chỉ dường như tương đối dễ dàng quan sát. Nhìn chung, một
tỉ lệ loại bỏ sai FRR với một tỉ lệ chấp nhận sai FAR 10% đã đạt được cho cơ chế
xác thực quan trọng. Với xác thực không quan trọng, không có giả mạo kỹ thuật
cao, tỉ lệ loại bỏ sai nằm trong khoảng 1% - 11% tùy thuộc vào từng người dùng.
Guerra Casano đã phát triển một cơ chế bằng việc sử dụng điện thoại iPhone 3GS.
Họ cũng thực hiện các cuộc tấn công giả lập thông qua các file ghi hình và đạt được
kết quả tỷ lệ cân bằng lỗi là 2.5%. Cho đến nay, tất cả các cơ chế đã trình bầy được


16
đánh giá với các nghiên cứu sử dụng khác nhau để những người tham gia được phép
lựa chọn những cử chỉ riêng của họ. Farella trình bầy một cơ chế xác định người
dùng bằng việc sử dụng các kỹ thuật trích rút các đặc điếm. Kỹ thuật này đạt được
độ chính xác 95% bằng việc sử dụng các cử chỉ được định nghĩa trước.
Một cách tiếp cận rất khác trong việc xác thực và nhận dạng người dùng dựa
trên cử chỉ được giới thiệu Ketabdar vào năm 2010. Nó có tên là MagiSign và
không sử dụng các bộ cảm biến gia tốc gắn trên các thiết bị, mà sử dụng la bàn và
nam châm. MagiSign sử dụng một la bàn 3 chiều được tích hợp sẵn trên điện thoại
iPhone 3GS để đo sự thay đổi của từ trường được tao ra bởi một thanh từ nhỏ mà
người dùng cầm nó như một cây bút. Với cây bút này, người dùng xác thực bằng
việc viết bằng chứng của anh ta lên không khí. Cách tiếp cận này tương tự với
phương pháp dùng chữ ký văn bản, nhưng các chuyển động 3 chiều là có thể. Trong
một nghiên cứu sử dụng, một tỉ lệ loại bỏ lỗi FRR 4.8% và tỉ lệ chấp nhận lỗi 0.3%
đã đạt được.

1.5. Kết luận chương
Chương 1 trình bày một cách tổng quát về lý thuyết cử chỉ và nhận dạng cử
chỉ, đã nêu ra một số khái niệm về cử chỉ và nhận dạng cử chỉ, phân loại cử chỉ

cũng như các kỹ thuật nhận dạng cử chỉ và ứng dụng của việc nhận dạng cử chỉ.
Ngoài ra cũng trình bày các đặc trưng, tiện ích của tương tác cử chỉ cũng như các
nghiên cứu trước đây để làm tiền đề cho phát triển nghiên cứu được trình bày trong
luận văn này.


17

Chương 2. NHẬN DẠNG CỬ CHỈ NGƯỜI
VỚI ĐỒNG HỒ ĐEO TAY THÔNG MINH
2.1. Cảm biến với hoạt động nhận dạng
Khái niệm cảm biến cho hoạt động nhận dạng là dùng để chỉ các cảm biến
gắn trực tiếp hay gián tiếp trên cơ thể người. Cảm biến sinh ra tín hiệu khi người
dùng thực hiện các hoạt động cử chỉ. Dựa vào những đặc điểm của tín hiệu đầu ra
của cảm biến, hệ thống có thể phân biệt được các trạng thái hoặc loại hoạt động
đang thực hiện của con người. Cảm biến có thể được gắn trong quần áo, kính mắt,
thắt lưng, giày, đồng hồ, các thiết bị di động hoặc đặt trực tiếp trong cơ thể người.
Những thông tin thu nhận được từ cảm biến có thể là thông tin vị trí, các chuyển
động cơ thể hay trạng thái sinh lý. Nhiều nghiên cứu cho thấy thông tin đầu ra của
các cảm biến khác nhau có hiệu quả khác nhau trong việc phân loại các hoạt động
cử chỉ.
Các cảm biến được phân loại theo cách thức, mục đích sử dụng của chúng
trong phương pháp nhận dạng hoạt động cử chỉ người, bao gồm: các cảm biến
chuyển động (có kết hợp các cảm biến khác), các cảm biến giúp xác định vị trí
người dùng, các cảm biến được gắn vào đối tượng sử dụng và các cảm biến phát
hiện dấu hiệu sống. Nhóm thứ nhất gồm các cảm biến mang trên người hay dùng
nhất trong các nghiên cứu nhận dạng hoạt động, cử chỉ người. Đó là các cảm biến
thu nhận được thông tin chuyển động của cơ thể, bao gồm cảm biến gia tốc, cảm
biến con quay hồi chuyển, cảm biến âm thanh. Trong đó cảm biến gia tốc được
dùng nhiều nhất [4, 13, 14, 18] do khả năng đo được cả tần suất lẫn cường độ của

chuyển động, và cũng có thể kết hợp với một số cảm biến khác như con quay hồi
chuyển hay cảm biến âm thanh để tăng hiệu quả nhận dạng hoạt động trong nhiều
điều kiện môi trường khác nhau. Các cảm biến trong nhóm này có độ chính xác cao,
chi phí thấp và gây ít không gian cho người dùng so với các cảm biến khác như micrô hay máy quay phim. Nhóm thứ hai ít phổ biến hơn là các cảm biến dùng để xác
định vị trí, mà phổ biến nhất là GPS và con quay hồi chuyển [4, 14]. Dữ liệu GPS


×