Tải bản đầy đủ (.pdf) (67 trang)

Nhận dạng cử chỉ tay trong tương tác người máy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.52 MB, 67 trang )

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong Luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ
công trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã
đƣợc cảm ơn và các thông tin trích dẫn trong Luận văn đã đƣợc chỉ rõ nguồn gốc.
Hải Phòng, ngày 15 tháng 8 năm 2015
Học viên thực hiện Luận văn

Nguyễn Thị Giang

i


LỜI CẢM ƠN
Không có thành công nào mà không gắn liền với sự giúp đỡ của ngƣời khác
dù ít hay nhiều dù trực tiếp hay gián tiếp, thực tế đã chứng minh. Trong suốt thời
gian học tập và nghiên cứu tôi đã nhận đƣợc rất nhiều sự giúp đỡ của quý thầy cô,
bạn bè và gia đình.
Với lòng biết ơn sâu sắc nhất, tôi xin gửi lời cảm ơn đến các thầy cô khoa
Công nghệ thông tin – Trƣờng Đại học Hàng Hải đã giảng dạy và hƣớng dẫn tôi
trong quá trình học tập tại trƣờng. Đặc biệt là TS. Hồ Thị Hƣơng Thơm đã tận tâm
hƣớng dẫn và giúp đỡ tôi trong suốt quá trình thực hiện đề tài:
“NHẬN DẠNG CỬ CHỈ TAY TRONG TƢƠNG TÁC NGƢỜI MÁY”.
Tôi xin chân thành cảm ơn các thầy cô trong Viện đào tạo sau Đại học- Đại
học Hàng Hải đã tạo điều kiện tốt nhất cho chúng tôi đƣợc học tập và nghiên cứu
tại trƣờng.
Cuối cùng, tôi muốn gửi lời cảm ơn vô hạn tới gia đình, bạn bè và những
ngƣời thân yêu luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện Luận
văn tốt nghiệp.
Tôi kính chúc các thầy cô khoa Công Nghệ Thông Tin cùng toàn thể thầy cô


Viện đào tạo sau đại học và TS. Hồ Thị Hƣơng Thơm luôn luôn mạnh khỏe để tiếp
tục thực hiện sứ mệnh cao đẹp truyền đạt kiến thức cho thế hệ mai sau.
Xin chân thành cảm ơn!
Học viên

Nguyễn Thị Giang

ii


MỤC LỤC
Lời cam đoan .............................................................................................................. i
Lời cảm ơn................................................................................................................. ii
Mục lục ..................................................................................................................... iii
Dang mục các chữ viết tắt và ký hiệu ...................................................................... iv
Danh mục các hình .................................................................................................... v
Mở đầu ...................................................................................................................... 1
Chƣơng 1. KHÁI NIỆM TỔNG QUAN ................................................................... 3
1.1.Tƣơng tác ngƣời máy là gì? ............................................................................ 3
1.2.Các phƣơng pháp nghiên cứu HCI .................................................................. 4
1.3.Tƣơng tác ngƣời máy bằng cử chỉ tay............................................................. 8
CHƢƠNG 2. LÝ THUYẾT CƠ SỞ ....................................................................... 15
2.1.Nguyên tắc hoạt động của các hệ thống nhận dạng cử chỉ tay ..................... 15
2.2.Phân đoạn ảnh dựa vào màu da ..................................................................... 16
2.3.Các phƣơng pháp trích chọn đặc trƣng ......................................................... 18
2.4.Phƣơng pháp đặc trƣng bất biến cục bộ theo tỉ lệ SIFT................................ 21
2.5.Kĩ thuật đối sánh ........................................................................................... 30
CHƢƠNG 3. MỘT SỐ KỸ THUẬT NHẬN DẠNG CỬ CHỈ TAY VÀ ỨNG DỤNG ....... 34
3.1.Nhận dạng cử chỉ tay dựa trên màu da học ................................................... 34
3.2.Nhận dạng cử chỉ tay dựa trên tập hợp các cử chỉ mẫu ................................ 36

3.3.Ứng dụng cử chỉ tay trong tƣơng tác ngƣời máy .......................................... 41
CHƢƠNG 4. CÀI ĐẶT, THỬ NGHIỆM VÀ ĐỀ MÔ CHƢƠNG TRÌNH .......... 44
4.1. Môi trƣờng cài đặt ........................................................................................ 44
4.2. Giới thiệu và đề mô chƣơng trình ................................................................ 44
4.3. Thử nghiệm và đánh giá ............................................................................... 52
KẾT LUẬN ............................................................................................................. 57
TÀI LIỆU THAM KHẢO ....................................................................................... 59

iii


DANG MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU
Chữ viết tắt
HCI

Giải thích
Human computer Interaction – Tƣơng tác ngƣời máy

CSDL

Cơ sở dữ liệu

SIFT

Viết tắt của thuật ngữ “Scale Invariant Feature Transform”

Keypoint

Những điểm đặc trƣng


Gaussian

Hàm Gauss (Biểu đồ của một hàm Gauss là một đƣờng cong đối
xứng đặc trƣng)

DoG

Viết tắt của thuật ngữ “Difference-of-Gaussian”

COG

Trọng tâm của lực hấp dẫn

MkD

Thuật toán tìm ngƣỡng MK-RoD Algorithm

iv


DANH MỤC CÁC HÌNH
Số hình

Tên hình vẽ

Trang

1.1.

Phim 3D


5

1.2.

Một số sản phẩm nổi bật dùng trong Haptic hiện nay

8

1.3.

Các ký hiệu về cử chỉ tay tƣơng ứng với số ngón tay

9

1.4.

Găng tay cảm biến

9

1.5.

Bàn di cảm ứng (Touchpad)

10

1.6.

NailO-bàn rê nhỏ có thể đeo trên ngón tay-Dùng để điều


10

khiển Smartphone
1.7

Soundwave - Công nghệ cảm biến nhận dạng cử chỉ bằng

10

sóng âm (Droppler)
1.8.

Màn hình cảm ứng chạm

11

1.9.

Hệ thống dịch ngôn ngữ ký hiệu Kinect Translator

11

1.10.

Kính 3D theo rõi mắt ngƣời

12

1.11.


Webcam Senz3D của Creative

12

1.12.

Điều khiển Robotbằng cử chỉ tay

12

1.13.

Mô hình Virtual reality tại Viện Fraunhofer

13

2.1.

Mô hình nguyên tắc hoạt động của hệ thống nhận dạng cử

15

chỉ tay
2.2.

Quá trình tính không gian đo (L) và hàm sai khác D –Trích

23


dẫn trong Lowe, D. “Distinctive image features from scaleinvariant keypoints” International Journal of Computer
Vision, 60, 2 (2004).
2.3.

Cực đại và cực tiểu của các hình ảnh khác biệt-of-Gaussian

24

đƣợc phát hiện bằng cách so sánh một pixel (đánh dấu X)
với 26 điểm láng giềng trong khu vực 3x3 ở tỉ lệ hiện tại và
liền kề (đánh dấu bằng vòng tròn).
2.4.

Mô phỏng sử dụng công thức mở rộng của Taylor cho hàm
DoG

v

26


2.5.

(a) là ảnh gốc. (b) mô tả các điểm hấp dẫn tìm đƣợc, các

27

điểm keypoints đƣợc vẽ ở dạng một vector thể hiện 3 thông
tin: vị trí, hƣớng và độ dài. (c) là ảnh sau khi loại bỏ các
điểm hấp dẫn có độ tƣơng phản thấp. (d) là ảnh sau khi loại

bỏ các điểm hấp dẫn dọc theo cạnh.
2.6.

Biểu diễn các vector đặc trƣng

29

2.7.

Đối sánh hai ảnh quy về đối sánh hai tập hợp điểm đặc trƣng

30

2.8.

Mô hình tìm điểm láng giềng gầnnhất

32

2.9.

SVM tìm siêu phẳng tối ƣu

33

2.10.

SVM tìm siêu phẳng tối ƣu

33


3.1.

Các bàn tay sau khi phân ngƣỡng bị nhiễu

35

3.2.

Các bàn tay sau khi sử dụng Erosion

35

3.3.

Bàn tay xòe khi sử dụng Dilation

35

3.4.

Tính khoảng xa nhất đến COG

35

3.5.

Đƣờng tròn tâm COG.

36


3.6.

Hệ thống nhận dạng cử chỉ với thuật toán SIFT và thuật toán 37
đối sánh mẫu điểm

3.7.

Lƣu đồ thuật toán đối sánh mẫu điểm

38

3.8.

(a) Hình ảnh từ Cơ sở dữ liệu đào tạo

40

(b) Hình ảnh đầu vào kiểm tra với những điểm chính
3.9.

Khởi động ứng dụng office (Cử chỉ hai ngón tay => Khởi

42

động Microsoft Excel)
3.10

Dùng cử chỉ tay để điều khiển Game


43

4.1.

Giao diện chính của chƣơng trình

44

4.2.

Cử chỉ một ngón tay =>Khởi động Microsoft office

45

4.3.

Cử chỉ hai ngón tay=>Khởi động Microsoft Excel

46

4.4.

Cử chỉ ba ngón tay=>Khởi động Microsoft Access

46

4.5.

Cử chỉ bốn ngón tay =>Khởi động Microsoft PowerPoint


47

vi


4.6.

Cử chỉ năm ngón tay =>Khởi động Microsoft Outlook

47

4.7.

Điều khiển Game (Cử chỉ một ngón tay=>Hình cần xếp

48

đang đi xuống)
4.8.

Điều khiển Game (Cử chỉ ba ngón tay => Hình cần xếp đi

49

sang trái)
4.9.

Điều khiển Game (Cử chỉ bốn ngón tay => Hình cần xếp đi

50


sang phải)
4.10.

Điều khiển Game (Cử chỉ năm ngón tay => Tạm dừng

51

chƣơng trình)
4.11.

Form_ tạo tập ảnh cơ sở

52

4.12.

Mẫu ảnh cử chỉ trong tập cơ sở dữ liệu

53

4.13.

Kết quả sau khi thử nghiệm

54

vii



MỞ ĐẦU
Nhận dạng cử chỉ của tay ngƣời là cách tự nhiên khi tƣơng tác ngƣời – máy
(Human computer Interaction-HCI). Nhiều nhà nghiên cứu trong các học viện và
ngành công nghiệp đang quan tâm đến hƣớng nghiên cứu này. Nó cho phép con
ngƣời tƣơng tác với máy tính rất dễ dàng mà không phải sử dụng các phƣơng pháp
tƣơng tác thông thƣờng nhƣ bàn phím hay chuột...
Với sự ra đời của các thiết bị thông minh, nhiều hoạt động đời thƣờng cũng
sử dụng kỹ thuật điều khiển bằng cử chỉ, ví dụ: Ngƣời dùng có thể dùng tay ra lệnh
bật/tắt tivi, thay đổi kênh, tăng/giảm âm lƣợng và làm nhiều thứ khác. Kỹ thuật này
cũng đã đƣợc sử dụng cho các thiết bị chơi game thế hệ mới nhƣ Microsoft XBox,
Sony PS3,…Ngƣời chơi thƣờng điều khiển bằng cách thực hiện các chuyển động
mà họ muốn nhân vật trong trò chơi thể hiện, điều này giúp ngƣời chơi đƣợc hóa
thân vào nhân vật. XBox thế hệ mới sử dụng camera để giám sát các chuyển động
và xử lý sao cho nhân vật thực hiện giống y nhƣ vậy. Điều khiển dựa trên cử chỉ
cũng giúp ích rất nhiều cho những ngƣời khuyết tật trong việc điều khiển xe lăn.
Bên cạnh đó, kỹ thuật điều khiển bằng cử chỉ còn đƣợc sử dụng trong các lĩnh vực
đặc biệt nhƣ điều khiển cần cẩu, huấn luyện trong thể thao, phẫu thuật trong y tế,…
Ngày nay, việc điều khiển bằng cử chỉ chƣa hẳn sẽ thay thế hoàn toàn các
“thiết bị nhập” nhƣ: bàn phím hay màn hình cảm ứng,...và không phải lúc nào cũng
có đủ điều kiện để sử dụng. Nhƣng trong tƣơng tác ngƣời máy việc kết hợp nhiều
“kênh giao tiếp” sẽ tạo ra sự “uyển chuyển” và hiệu quả hơn.
Xuất phát từ tình hình thực tế và xu hƣớng phát triển không ngừng của
ngành công nghệ thông tin nói chung và lĩnh vực tƣơng tác ngƣời máy (Human
computer Interaction-HCI) nói riêng, học viên đã lựa chọn hƣớng nghiên cứu một
số phƣơng pháp nhận dạng cử chỉ tay từ ảnh tĩnh hoặc video dựa trên một số cử chỉ
đặc trƣng nhƣ giơ một ngón tay, hai ngón tay, ..., cả năm ngón tay... Từ đó ứng
dụng để điều khiển các phần mềm Microsoft Office hoặc các chƣơng trình Game.
Luận văn gồm bốn chƣơng các chƣơng có những nội dung sơ bộ nhƣ sau:

1



Chƣơng 1. Khái niệm tổng quan
Trong chƣơng này Luận văn trình bày về khái niệm tƣơng tác ngƣời máy
(HCI), các phƣơng pháp nghiên cứu trong HCI, trong đó có phƣơng pháp nhận
dạng cử chỉ tay ngƣời và một số khó khăn gặp phải khi nghiên cứu theo phƣơng
pháp này.
Chƣơng 2. Lý thuyết cơ sở
Luận văn tìm hiểu về nguyên tắc hoạt động của hệ thống nhận dạng cử chỉ
tay, phân đoạn ảnh dựa vào da và các phƣơng pháp trích chọn điểm đặc trƣng của
ảnh.
Chƣơng 3. Một số kỹ thuật nhận dạng cử chỉ tay và ứng dụng
Luận văn tiếp tục đi sâu tìm hiểu một số kỹ thuật nhận dạng cử chỉ tay nhƣ:
Nhận dạng cử chỉ tay dựa trên màu da học; nhận dạng cử chỉ tay dựa trên tập hợp
các cử chỉ mẫu và các ứng dụng thực tế của các kỹ thuật trên.
Chƣơng 4. Cài đặt thử nghiệm và đề mô chƣơng trình
Dựa trên cơ sở lý thuyết tìm hiểu đƣợc từ các chƣơng trƣớc học viên sử
dụng phần mềm MATLAB R2008B để cài đặt thử nghiệm và đề mô chƣơng trình.
Sau đó đã đƣa ra một số đánh giá nhận xét về kết quả tìm đƣợc.
Cuối cùng là kết luận, Phần này tổng kết các kết quả chính của Luận văn và
phƣơng hƣớng nghiên cứu tiếp theo.
Do đây là một vấn đề rất mới và kiến thức của học viên còn hạn chế nên
trong quá trình thực hiện đề tài không thể tránh khỏi những thiếu sót. Kính mong
thầy cô và các bạn đóng góp ý kiến để đề tài đƣợc hoàn thiện hơn.
Xin chân thành cảm ơn!

2


CHƢƠNG 1. KHÁI NIỆM TỔNG QUAN

Trong chƣơng này Luận văn trình bày về khái niệm tƣơng tác ngƣời máy
(Human computer Interaction-HCI), các phƣơng pháp nghiên cứu trong HCI, trong
đó có phƣơng pháp nhận dạng cử chỉ tay ngƣời và một số khó khăn gặp phải khi
nghiên cứu theo phƣơng pháp này.
1.1.

Tƣơng tác ngƣời máy là gì?
Tƣơng tác ngƣời máy (Human computer Interaction-HCI) nói đơn giản là

việc nghiên cứu các tác động qua lại giữa con ngƣời và công nghệ máy tính. HCI
là một lĩnh vực đƣợc quan tâm từ khi máy tính ra đời.
Tuy nhiên những năm 50-80 của thế kỷ 20: HCI chƣa đƣợc quan tâm. Lý do là vì
ngƣời sử dụng chủ yếu là các kỹ sƣ máy tính và khi tƣơng tác để lấy dữ liệu là các
chuyên viên máy tính. Hầu nhƣ ngƣời dùng không đối thoại trực tiếp với chƣơng
trình. Dữ liệu sau khi đánh giá ngƣời dùng mang về phân tích đánh giá theo cách
riêng của mình.
Từ những năm 80: Khoa học và công nghệ phát triển, máy vi tính ngày càng có
nhiều khả năng mạnh hơn: bộ nhớ dung lƣợng lớn hơn, tốc độ xử lý nhanh hơn và
các thiết bị ngoại vi cũng đa dạng hơn. Xuất hiện mạng Internet toàn cầu và nhiều
phần mềm ứng dụng phong phú đáp ứng nhu cầu ngày càng cao của ngƣời dùng.
Từ những năm 90: Nhu cầu đào tạo và học gia tăng dẫn đến nhu cầu đào tạo
từ xa qua mạng (Elearning), liên quốc gia.
 Thành lập hiệp hội Công nghệ phần mềm về HCI: SIGHCI (Special
Interest Group on Computer Human Interaction)
 SIGHCI năm 1992 tại New York đã đề xuất khung đào tạo HCI.
HCI là một lĩnh vực đa ngành. Ngƣời thiết kế một hệ thống tƣơng tác phải
có kiến thức đa ngành: Hiểu đƣợc sự cảm nhận thông tin, nhận thức, giải quyết vấn
đề, áp dụng khoa học máy tính và công nghệ để có thể xây dựng các công nghệ cần
thiết, kỹ năng đồ họa để thiết kế các giao tiếp.


3


HCI liên quan đến:
 Nghiên cứu việc con ngƣời sử dụng các giao diện.
 Phát triển các ứng dụng mới cho ngƣời dùng.
 Phát triển các thiết bị, công cụ mới cho ngƣời dùng.
1.2.

Các phƣơng pháp nghiên cứu HCI
Tƣơng tác của con ngƣời và thế giới bên ngoài xảy ra khi thông tin đƣợc tiếp

nhận và đƣợc gửi qua: đầu vào và đầu ra.
Tƣơng tác của máy tính và con ngƣời cũng tƣơng tự nhƣ vậy, ngƣời sử dụng
gửi yêu cầu đến đầu vào của máy tính và nhận thông tin từ đầu ra của máy tính.
Nhƣ vậy đầu ra của ngƣời trở thành đầu vào của máy tính. Đầu vào trong con
ngƣời chủ yếu xuất hiện thông qua các giác quan, đầu ra xuất hiện thông qua sự
điều khiển vận động của các cơ quan phản ứng kích thích.
Con ngƣời có năm giác quan chính: thị giác, thính giác, xúc giác, vị giác,
khứu giác. Trong số đó, ba giác quan đầu tiên là những giác quan quan trọng nhất
trong tƣơng tác giữa ngƣời và máy tính.
Hiện tại, vị giác và khứu giác không có vai trò quan trọng trong các hệ thống
máy tính thông thƣờng cũng nhƣ trong tƣơng tác ngƣời máy, mặc dù chúng có thể
có vai trò trong các hệ thống chuyên dụng nhƣ: dùng mùi vị để đƣa ra các cảnh báo
về những hỏng hóc hay các hoạt động bất thƣờng xẩy ra.
Khi tƣơng tác với máy tính, bạn nhận thông tin chủ yếu qua việc nhìn từ
những gì đang xuất hiện trên màn hình. Bên cạnh đó, bạn cũng có thể nhận thông
tin bằng tai: ví dụ, máy tính có thể phát ra tiếng kêu bíp khi mắc lỗi. Xúc giác cũng
tham gia vào quá trình để bạn có đƣợc cảm nhận về những gì bạn đang làm và hiện
nay việc gửi thông tin cho máy tính phổ biến nhất vẫn là việc dùng các ngón tay,

thông qua việc đánh máy hay điều khiển con chuột. Chúng ta sẽ tìm hiểu vai trò và
hạn chế của 3 giác quan chính sau đó sẽ xem xét đến sự điều khiển vận động bằng
cử chỉ tay.

4


1.2.1. Thị giác
Đối với một ngƣời bình thƣờng thị lực là nguồn tiếp nhận thông tin chủ yếu.
Tuy nhiên nó vẫn còn một số hạn chế:
 Thứ nhất khả năng thu nhận màu sắc của con ngƣời có hạn.
 Thứ hai nếu góc nhìn của một đối tƣợng quá nhỏ, chúng ta sẽ không
có khả năng thu nhận nó.
 Cuối cùng là sử dụng độ tƣơng phản trong hiển thị: một độ tƣơng
phản có các đối tƣợng đen trên nền màn hình trắng hay còn gọi là độ
tƣơng phản âm, sẽ tạo ra độ chói cao hơn và do đó làm tăng tính sắc
nét hơn, so với độ tƣơng phản dƣơng (các đối tƣợng có màu sắc gần
giống màu nền). Điều này cũng sẽ làm tăng tính dễ đọc. Tuy nhiên, độ
tƣơng phản âm cũng có thể sẽ xẩy ra sự lập loè, không ổn định.
HCI với thị giác:
Ứng dụng trong màn hình 3D phim 3D
 Thu hai hình ảnh dành cho 2 mắt
(camera có len đôi).
 Hai hình ảnh đƣợc chiếu đồng thời
cho hai mắt.
 Dùng kính xem hai hình ảnh ở hai
mắt khác nhau.

Hình 1.1. Phim 3D


1.2.2. Thính giác
Thính giác của con ngƣời đƣợc xét đến ngay sau thị giác, nhƣng thƣờng thì
chúng ta đánh giá chƣa chính xác về thông tin mà chúng ta nhận đƣợc thông qua
tai của mình.
Tai chúng ta có thể nghe đƣợc các tần số từ khoảng 20 Hz đến 15 kHz. Nó
phân biệt đƣợc các thay đổi tần số trong phạm vi nhỏ hơn 1.5 Hz đối với các tần số

5


thấp. Các tần số khác nhau kích thích các nơ ron thần kinh ở các phần khác nhau
trong hệ thống thính giác và tạo ra các tỷ lệ khác nhau của các nơron thần kinh.
Tuy nhiên, nếu âm thanh quá ồn, hoặc tần số của nó quá nhỏ, chúng ta sẽ
không có khả năng phân biệt đƣợc các âm thanh khác nhau.
HCI với thính giác:
Các âm thanh hiện tại vẫn đƣợc sử dụng chính vào việc thông báo:

 Thông báo khi gõ bàn phím.
 Thông báo khi vào windows.
 Thông báo khi máy sắp hết pin, …
Hiện nay âm thanh đang đƣợc nghiên cứu:

 Tổng hợp tiếng nói để con ngƣời có thể nghe đọc tài liệu thay vì nhìn
tài liệu, ứng dụng này đƣợc dùng để phục vụ ngƣời khiếm thị.

 Dùng âm nhạc để tạo ra các hiệu ứng trong trình diễn nội dung.
1.2.3. Xúc giác
Mặc dù trong cuộc sống của con ngƣời xúc giác ít quan trọng hơn so với thị
giác và thính giác, nhƣng chúng ta lại không thể thiếu nó. Nếu nhƣ thị giác và
thính giác giúp ta nhìn và nghe đƣợc thông tin thì xúc giác cho chúng ta cảm nhận

đƣợc những thông tin đó. Xúc giác đem lại cho mỗi ngƣời cảm giác về môi trƣờng
xung quanh mỗi khi cầm nắm vào một vật nào đó và do đó nó đóng vai trò nhƣ
một cảnh báo.
Ví dụ: Khi ta chạm tay vào cốc nƣớc nóng thì ta có cảm giác nóng rát ở tay.
Hoặc với những ngƣời chơi Game họ muốn hóa thân vào nhân vật, muốn có đƣợc
cảm giác tự nhiên về việc cầm nắm hoặc tiếp xúc trực tiếp với các đối tƣợng một
cách thực sự.

6


Đây cũng chính là những yêu cầu đặt ra cho các nhà thiết kế đồ hoạ, thiết kế
giao diện. Do đó, xúc giác là phƣơng tiện quan trọng để phản hồi và trong máy tính
việc sử dụng các thông tin phản hồi là tƣơng đối nhiều.
Nhƣ chúng ta biết, trong cuộc sống hàng ngày đối với một ngƣời bình
thƣờng thì xúc giác chỉ là nguồn thông tin đứng thứ hai, nhƣng đối với những
ngƣời mà thị giác hoặc thính giác của họ bị hỏng thì xúc giác lại trở nên rất quan
trọng. Với những ngƣời dùng nhƣ vậy, các giao diện nhƣ là: hệ thống chữ nổi,
nhận dạng cử chỉ tay,… sẽ trở thành nguồn thông tin cơ bản cho tƣơng tác.
Bộ máy xúc giác có 3 loại cơ quan thụ cảm:
 Cơ quan thụ cảm nhiệt: phản ứng lại với nóng, lạnh,….
 Cơ quan thụ cảm thần kinh: phản ứng lại với sự nóng giận, buồn,
vui,…
 Cơ quan thụ cảm cơ: phản ứng lại với áp lực, độ nhạy cảm của các
ngón tay,...
Trong đề tài này tƣơng tác giữa ngƣời và máy đƣợc thể hiện thông qua cử chỉ tay
nên chúng ta chỉ quan tâm đến cơ quan thụ cảm cơ.
Chẳng hạn trong quá trình đánh máy: Tốc độ đánh máy phụ thuộc vào việc cảm
nhận vị trí tƣơng đối của các ngón tay và thông tin phản hồi từ bàn phím. Hoặc
nhận dạng cử chỉ tay từ đó đƣa ra các tín hiệu yêu cầu máy tính sẽ thực hiện theo

ý bạn mà không cần dùng chuột hay bàn phím.
HCI trong xúc giác:
Năm 2014 là năm của công nghệ “chạm”. Nhờ các thiết bị cảm ứng thông
minh, ngƣời ta có thể chạm tay để chụp ảnh, chạm tay để ghi âm hoặc để gõ vài
dòng chia sẻ cảm xúc… Tuy nhiên vẫn còn hạn chế với khả năng mô phỏng cảm
giác khi chạm, tức là xúc giác.
Xuất phát từ thực tế đó công nghệ “Haptic” ra đời từ thập niên 90. Haptic
không chỉ là công nghệ “chạm”, haptic là “chạm và cảm nhận”. Máy tính dễ

7


truyền đạt tín hiệu giúp ngƣời dùng xem đƣợc hình ảnh, gõ chữ bằng bàn phím,
nghe âm thanh ở loa, nhƣng không thể cảm nhận những gì đang xảy ra bên trong
bộ máy bằng xúc giác. Sau nhiều nghiên cứu, thách thức đƣợc giải quyết nhờ phân
tích thành phần của cảm giác “chạm”.

Hình 1.2. Một số sản phẩm nổi bật dùng trong Haptic hiện nay

1.3.

Tƣơng tác ngƣời máy bằng cử chỉ tay
Chúng ta đã quen làm việc với máy tính thông qua các công cụ nhƣ: chuột,

bàn phím nhƣng càng ngày khoa học công nghệ càng tiến bộ đã xuất hiện những
phƣơng pháp tƣơng tác giữa ngƣời và máy đáng kinh ngạc nhƣ: màn hình chạm
(iPhone, iPad) rồi đến công nghệ điều khiển bằng giọng nói (nhƣ Siri). Ngày nay
một số thiết bị còn cho phép ngƣời dùng “nhập” văn bản trực tiếp bằng cách đọc
(nhờ phần mềm nhận dạng giọng nói). Để việc tƣơng tác giữa ngƣời và máy tính
ngày càng thận thiện ngƣời ta đã phát hiện công nghệ cho phép sử dụng cử chỉ tay

để điều khiển máy tính và các thiết bị số khác.
1.3.1. Thông điệp cử chỉ
Việc công nhận cử chỉ tay là rất khó khăn vì mỗi cử chỉ tay đƣợc biến đổi
theo mỗi ngƣời. Mỗi ký hiệu đƣợc sử dụng để giao tiếp theo một quy tắc khác nhau
cung cấp “Dữ liệu đầu vào” cho thiết bị.
Ví dụ :
 "một" có thể có nghĩa là "tiến lên phía trƣớc".
 "Năm" có thể có nghĩa là "dừng lại".
 "hai", "ba" và "bốn" có thể đƣợc hiểu là "đảo ngƣợc", "rẽ phải" và " rẽ trái".
8


Hình 1.3. Các ký hiệu về cử chỉ tay tương ứng với số ngón tay

Với máy tính “hiệu lệnh” của cử chỉ đƣợc nhận dạng theo các kiểu sau:
 Định trƣớc: Xác định rõ một cử chỉ để đƣa ra các cách điều khiển. Ví
dụ: Trong điều khiển bật tắt đèn. Khi tay tiến về phía công tắc, đèn sẽ
tự bật lên, nếu phát hiện tay tiến về phía công tắc lần nữa thì đèn sẽ
đƣợc tắt,…
 Liên hệ chức năng: Liên hệ các chức năng điều khiển của các thiết bị
với một số bộ phận trên cơ thể để đƣa ra các tập lệnh tƣơng ứng. Ví
dụ: Xoay cánh tay đề ra lệnh cho Robot quay,…
 Trao đổi tự nhiên: Sử dụng cử chỉ giao tiếp giữa ngƣời với ngƣời để
gửi tín hiệu lệnh điều khiển thiết bị. Ví dụ: Quạt tay trƣớc mặt để ra
hiệu nóng, điều hòa sẽ hạ thấp nhiệt độ,…
1.3.2. Phương pháp nghiên cứu nhận dạng cử chỉ tay
Có rất nhiều hƣớng nghiên cứu việc nhận dạng cử chỉ tay nhƣ:
 Găng tay có cảm biến
Các cảm biến đƣợc sử dụng để cung cấp
thông tin về vị trí, hƣớng của bàn tay và cử động

của các ngón tay. Găng tay điều khiển thƣơng mại
đầu tiên của hãng DataGlove có gắn các sợi cáp Hình 1.4. Găng tay cảm biến [17]

9


quang mỏng chạy phía sau lƣng bàn tay, mỗi sợi có một khe nhỏ. Ánh sáng đƣợc
chiếu trong sợi cáp, khi các ngón tay co lại sẽ làm rò rỉ ánh sáng qua khe và thông
tin này đƣợc ghi nhận để xác định tƣ thế của tay.
 Bàn di cảm ứng (touchpad)
Có chức năng giống nhƣ chuột trên máy tính
xách tay ghi nhận các di chuyển của tay bằng cảm
ứng. Ngày nay công nghệ này đã đƣợc áp dụng rất
nhiều trên các thiết bị điện thoại thông minh.
Hình 1.5. Touchpad

 Bộ phát siêu âm và bộ thu
Là những thiết bị có khả năng theo dõi vị trí của bộ phát, gắn trên thiết bị cần điều
khiển. Bộ phận nghiên cứu của hãng phần mềm Microsoft vừa giới thiệu công
nghệ SoundWave, đó là việc sử dụng loa và micro thông thƣờng (hoặc tích hợp sẵn
trên máy tính xách tay) để nhận dạng cử chỉ dựa trên hiệu ứng Droppler.






Hình 1.6. NailO – bàn rê nhỏ có thể đeo

Hình 1.7.. Soundwave- Công nghệ cảm


trên ngón tay-Dùng để điều khiển

biến nhận dạng cử chỉ bằng sóng

Smartphone

âm(Droppler)

10


 Màn hình cảm ứng chạm
Có thể nhận biết một lúc nhiều tổ hợp phím cử chỉ phức tạp, tạo ra sự đa
dạng và linh hoạt hơn cho ngƣời sử dụng khi tƣơng tác với máy tính. Điều khiển
với màn hình cảm ứng đƣợc sử dụng ngày càng nhiều trên các thiết bị: máy vi tính,
điện thoại, máy tính bảng,…

Hình 1.8. Màn hình cảm ứng chạm

 Kỹ thuật quan sát dùng camera: Kỹ thuật này có 2 cách
 Một là: dựa trên mô hình: lập mô hình tập hợp các cử chỉ mẫu và
nhận dạng khi có cử chỉ trùng.
 Hai là: dựa trên hình ảnh: ghi nhận hình ảnh chuyển động trong
suốt quá trình của cử chỉ để nhận dạng.
Luận văn nghiên cứu theo phƣơng pháp kỹ thuật quan sát dùng camera dựa
trên mô hình tập hợp mẫu: Phân loại hình ảnh dựa trên các tính năng triết xuất
bằng thuật toán SIFT. Phƣơng pháp này đã đƣợc thử nghiệm và đem lại một số ghi
nhận đáng kể cho công nhận cử chỉ tay tĩnh.
1.3.3. Những ứng dụng dựa trên cử chỉ tay người

Ngôn ngữ ký hiệu
Ngôn ngữ ký hiệu bắt đầu trƣớc khi có sự
xuất hiện của con ngƣời. Ngôn ngữ ký hiệu là hình
thức thô nhất và tự nhiên của ngôn ngữ đánh dấu,
Ngày nay ngôn ngữ kí hiệu vẫn đƣợc sử dụng trong
Hình 1.9. Hệ thống dịch ngôn
ngữ ký hiệu Kinect Translator

11


các thiết bị nhận diện cử chỉ, ký hiệu cho ngƣời khiếm thính.
Thiết kế 3D
Việc thao tác đầu vào 3 chiều với chuột của máy tính là rất phƣớc tạp và tốn
nhiều thời gian. Các công nghệ 3DRAW có khả năng theo dõi vị trí và định hƣớng
trong 3D.
Ví dụ:
 Công ty SensoMotoric Instruments (SMI) có trụ sở tại Đức
SMI đã cho ra thị trƣờng chiếc kính 3D
độc đáo. chiếc kính 3D này có khả năng theo
dõi mắt ngƣời đeo. Ngƣời đại diện công ty SMI
nói rằng họ đã sử dụng công nghệ ActiveEye.
Khi ngƣời dùng đeo kính thì hình ảnh xung
quang sẽ tự hiệu chỉnh theo môi trƣờng 3D.
 Intel phát triển camera 3D

Hình 1.10. Kính 3D theo rõi mắt
người

Camera này có thể nhận biết cảm xúc, từ

đó biết đƣợc các chuyển động của ngƣời dùng,
theo dõi cảm xúc và thậm chí là ghi nhớ thói
quen của họ, ví dụ: ghi nhớ thói quen đọc sách
của trẻ em. Hãng cho biết loại camera mới sẽ
đƣợc tích hợp vào các Laptop.

Hình 1.11. Webcam Senz3D của

Điều khiển từ xa

Creative

Điều khiển từ xa là một lĩnh
vực trí tuệ nhân tạo nhằm mục đích
hỗ trợ con ngƣời điều khiển các thiết
bị mà không cần tiếp cận gần máy
móc. Ví dụ: Thông qua các cử chỉ của
cơ thể để điều khiển Robot thực hiện

Hình 1.12. Điều khiển Robot bằng cử chỉ tay

12


nhiệm vụ cần thiết, điều khiển xe lăn cho ngƣời khuyết tật,…
Virtual reality
Virtual reality là một hệ thống mô phỏng trong đó đồ họa máy tính đƣợc sử
dụng để tạo ra một thế giới "ảo". Thế giới này nhƣ thật nhƣng không tĩnh mà thay
đổi liên tục theo ý muốn (tín hiệu vào) của ngƣời sử dụng (nhờ hành động, lời
nói,..). Virtual reality có đặc tính chính là khả năng tƣơng tác thời gian thực time

interactivity). Thực tế ảo đƣợc áp dụng để nâng cao hệ thống xúc giác tiên tiến
hiện nay, ứng dụng trong y tế hoặc chơi Game.

Hình 1.13. Mô hìn Virtual reality tại Viện Fraunhofer (CHLB Đức)

1.3.4. Những khó khăn trong nhận dạng cử chỉ tay
Tuy có một tƣơng lai rất hứa hẹn nhƣng việc xây dựng các hệ thống tƣơng
tác ngƣời máy dựa trên cử chỉ tay vẫn còn gặp phải một số vấn đề khó khăn nhƣ:
 Tốc độ nhận dạng: Để nhận dạng cử chỉ bàn tay trong thực tế ta phải
có thời gian cho thiết bị cảm n h ậ n ( camera hoặc webcam) thu thập các quan sát
cần cho việc phân loại hay miêu tả đó là thời gian thực, tức là tốc độ xử lý phải
nhanh.
 Độ chính xác: Môi trƣờng của ngƣời điều khiển là động và phức tạp,
bị chi phối bởi nhiều yếu tố nhƣ: điều kiện ánh sáng, phông nền,…Vì vậy việc tách
đối tƣợng quan tâm ra khỏi nền hay còn gọi là trừ nền để có thể phân tích chuyển

13


động một cách chính xác hơn hoặc nhận diện vùng da (Skin detection), nhận dạng
hình dáng của bàn tay,… vẫn còn là một thách thức đối với nhiều nhà nghiên cứu.

14


CHƢƠNG 2. LÝ THUYẾT CƠ SỞ
Trong chƣơng này Luận văn tìm hiểu về nguyên tắc hoạt động của hệ thống
nhận dạng cử chỉ tay, phƣơng pháp phân đoạn ảnh dựa vào màu da và các phƣơng
pháp trích chọn điểm đặc trƣng của ảnh.
2.1.


Nguyên tắc hoạt động của các hệ thống nhận dạng cử chỉ tay
Trong thế giới thực, chúng ta có thể cầm, thả, di chuyển… các đối tƣợng

bằng các cử chỉ của bàn tay. Ngày nay, với sự tiến bộ của khoa học và công nghệ
khi c o n n g ƣ ờ i tƣơng tác với các thiết bị nhƣ máy tính, tivi, ôtô… chỉ với vài
cử chỉ của bàn tay là ta có thể điều khiển đƣợc hoạt động của nó. Để làm đƣợc
điều này, bộ điều khiển của các thiết bị phải đƣợc gắn một thiết bị cảm nhận là
camera hoặc webcam, thiết bị này sẽ thu nhận hình ảnh của bàn tay, nhận dạng cử
chỉ tay để từ đó đƣa ra các tập lệnh tƣơng ứng với các ứng dụng cụ thể.
Để nhận dạng cử chỉ tay, trƣớc tiên hệ thống sử dụng các thiết bị thu nhƣ
Camera hoặc Webcam để thu hình ảnh; Sau đó xử lý hình ảnh bằng cách trích
chọn ra các đặc trƣng để tính toán dƣới dạng số hay biểu tƣợng; cuối cùng dựa vào
các đặc tính đẵ đƣợc trích chọn để phân loại và nhận dạng cử chỉ tay.
Dƣới đây là nguyên tắc hoạt động của bài toán nhận dạng cử chỉ tay.

Hình 2.1 . Mô hình nguyên tắc hoạt động của hệ thống nhận dạng cử chỉ tay [17]

15


2.2.

Phân đoạn ảnh dựa vào màu da
Phát hiện màu da là một bƣớc xử lý tìm kiếm trong ảnh các vùng và điểm

ảnh có màu da sau đó đƣa ra kết quả ảnh vùng bàn tay là vùng các điểm ảnh có
màu da, việc tìm các điểm ảnh có màu da bƣớc đầu khá dễ dàng, nhƣng do phƣơng
pháp này chỉ dựa vào thông tin về màu sắc nên các vùng ảnh, các đối tƣợng khác
có màu giống với màu da cũng bị nhận diện trùng với màu da, tạo ra sự nhập

nhằng.
Do đó, việc phát hiện bàn tay dựa trên màu da đạt hiệu quả cao nếu ảnh có
màu nền phân biệt rõ với màu da và ngoài vùng bàn tay thì không chứa thêm các
đối tƣợng khác có màu trùng với màu da. “Skin Detection using Color Pixel
Classification with Application” [6].
Phân loại da dựa vào các lớp vùng da
Thuật toán này dựa trên việc xây dựng mô hình phân bố màu da có tham số.
Ví dụ: Ảnh gốc có màu (RGB) đƣợc chuyển đổi sang không gian màu
YCrCb. Các mẫu màu da đƣợc lấy ra từ các ảnh màu để xác định phân bố màu da
trong không gian màu YCrCb . Sau đó áp dụng phân bố Gaussian. Để loại bỏ nhiễu
của ảnh thì trƣớc đó áp dụng bộ lọc thông thấp cho các mẫu màu da. Từ tập hợp
các mẫu màu da đầu vào thu đƣợc ở trên, các tham số của mô hình đƣợc xây dựng
trên cơ sở tính các tham số thống kê sau:
𝜇𝑠 =

1
𝑛

𝑛
𝑗 =1 𝑐𝑗

;

𝑠

=

1

𝑛

𝑗 =1(𝑐𝑗

𝑛 −1

− 𝜇𝑠 )(𝑐𝑗 − 𝜇𝑠 )𝑇

Trong đó:
𝑐𝑗 = (𝑐𝑟 𝑐𝑏 )𝑇 : là các vectơ mẫu màu da trích chọn.
n : tổng số các mẫu màu da.
: vectơ trung bình của phân bố.
ma trận phân bố.

16

(2.1)


Để xác định một điểm ảnh có là màu da hay không, ta tính toán hàm mật độ
xác suất của điểm ảnh đó trong phân bố Gaussian theo công thức (2.2).
𝑃 𝑐 𝑠𝑘𝑖𝑛 =

1
2𝜋 Σ 𝑠

−1

𝑒2
1/2

𝑐−𝜇 𝑠 𝑇 −1

𝑠 (𝑐−𝜇 𝑠 )

Ta dùng luật phân lớp theo khoảng cách Mahalanobis từ

(2.2)
tới



để

phân biệt điểm ảnh nào thuộc màu da. Theo công thức (2.3).
𝜆𝑠 𝑐 = 𝑐 − 𝜇𝑠

𝑇

−1
𝑠 (𝑐

− 𝜇𝑠 )

(2.3)

Sau quá trình phân lớp ta chia đƣợc tập các điểm ảnh thành 2 lớp: lớp các
điểm ảnh có màu da và lớp các điểm ảnh không phải màu da.
2.2.1. Phân loại da dựa vào ngưỡng trên mỗi kênh màu
Để phát hiện điểm ảnh có màu da, ta cần xác định ngƣỡng cho các thành
phần của không gian màu. Ngƣỡng này không phải là một giá trị mà có thể là
một miền giá trị, các điểm ảnh đƣợc coi là màu da phải có giá trị thuộc phạm vi
ngƣỡng xác định trƣớc của tất cả các thành phần trong không gian màu.

Karin Sobottka và Loannis Pitas [5], sử dụng các ngƣỡng cố định trong
không gian màu HS để xác định màu da.
Trong đó:
H nằm trong khoảng [0, 50]
S nằm trong khoảng [0.23, 0.68].
Các giá trị ngƣỡng thu đƣợc ở trên phù hợp để phân loại các điểm ảnh có
màu da đối với ảnh chụp ngƣời da trắng và da vàng.
Douglas Chai và King N. Ngan [3], đề xuất một thuật toán xác định các
điểm ảnh có màu da có giá trị:
Cb nằm trong khoảng [77, 127].
Cr nằm trong khoảng [133, 173].

17


Yanjiang Wang và Baozong Yuan [7], thì sử dụng các giá trị ngƣỡng trong
không gian màu rgb( R+G+B= 1) và HSV, để xác định màu da.
Trong đó:
R nằm trong khoảng [0.36, 0.465].
G nằm trong khoảng [0.28, 0.363].
H nằm trong khoảng [0, 50].
S nằm trong khoảng [0.20, 0.68].
V nằm trong khoảng [0.35, 1].
R n ằ m trong khoảng [0.36, 0.465].
Một số nhóm tác giả nhƣ Kovac cùng các cộng sự đã phát hiện ra các vùng
giá trị phổ biến sau:
R>95, G>40, B>20
Max{R,G,B}-Min{R,G,B}<15
R>G, R>B
Tuy nhiên, sau một số thực nghiệm, đề tài sử dụng bảng dò màu da (lookup

table) trong không gian màu RGB của tác giả Mathias Kolsh[8] thu đƣợc kết quả
cao hơn.
2.3.

Các phƣơng pháp trích chọn đặc trƣng

2.3.1. Đặt vấn đề
Trong hệ thống nhận dạng ảnh nói chung và nhận dạng cử chỉ bàn tay nói
riêng, chúng ta phải đƣa ra các trích chọn đặc trƣng từ hình ảnh bàn tay trƣớc khi
đƣa vào tìm kiếm ảnh.
Trong tìm kiếm ảnh, việc trích chọn các điểm đặc trƣng thích hợp với từng
loại truy vấn là quan trọng.
Việc lựa chọn các đặc trƣng và độ đo thích hợp sẽ giúp tăng cả tốc độ và
mức độ chính xác của các hệ thống.

18


×