Tải bản đầy đủ (.pdf) (70 trang)

Nhận dạng cử chỉ bàn tay ứng dụng trong điều khiển thiết bị điện gia dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.69 MB, 70 trang )

Đại học Thái Nguyên
Trƣờng Đại học Công nghệ Thông tin và Truyền thông

LÊ MẠNH LINH

NHẬN DẠNG CỬ CHỈ BÀN TAY ỨNG DỤNG TRONG
ĐIỀU KHIỂN THIẾT BỊ ĐIỆN GIA DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên - năm 2015

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

2

Đại học Thái Nguyên
Trƣờng đại học Công nghệ Thông tin và Truyền thông

LÊ MẠNH LINH
[

NHẬN DẠNG CỬ CHỈ BÀN TAY ỨNG DỤNG TRONG
ĐIỀU KHIỂN THIẾT BỊ ĐIỆN GIA DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60 48 01 01


Ngƣời hƣớng dẫn khoa học: TS. PHẠM ĐỨC LONG

Thái Nguyên - năm 2015
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

3

LỜI CẢM ƠN
Em xin chân thành cảm ơn Trƣờng Đại học Công nghệ Thông tin và Truyền
thông – Đại học Thái Nguyên đã tạo điều kiện cho em thực hiện luận văn này.
Em xin gửi lời cảm ơn sâu sắc tới thầy giáo TS Phạm Đức Long, trƣởng
khoa Tự động hóa – Trƣờng Đại học Công nghệ Thông tin và Truyền thông – Đại
học Thái Nguyên đã trực tiếp hƣớng dẫn em trong suốt quá trình thực hiện luận văn.
Em cũng xin gửi lời cảm ơn tới các thầy, cô, đã có những ý kiến đóng góp
bổ ích và đã tạo mọi điều kiện tốt nhất cho em trong suốt thời gian thực tập và thực
hiện luận văn. Xin cảm ơn các bạn học đồng khóa đã thƣờng xuyên động viên, giúp
đỡ tôi trong quá trình học tập.
Cuối cùng, em xin gửi lời cảm ơn đến gia đình và bạn bè vì những tình cảm,
sự ủng hộ và động viên đã dành cho em trong suốt quá trình học tập cũng nhƣ thực
hiện luận văn này.

Thái Nguyên, tháng 09 năm 2015
Học viên

Lê Mạnh Linh

Số hóa bởi Trung tâm Học liệu - ĐHTN


/>

4

LỜI CAM ĐOAN
Em xin cam đoan về nội dung đồ án tốt nghiệp với tên đề tài “Nhận dạng
cử chỉ bàn tay ứng dụng trong điều khiển thiết bị điện gia dụng” không sao
chép nội dung cơ bản từ các luận văn khác, hay các sản phẩm tƣơng tự mà không
phải do em làm ra. Sản phẩm của luận văn là do chính bản thân em nghiên cứu và
xây dựng nên.
Nếu có gì sai em xin chịu mọi hình thức kỷ luật của Trƣờng Đại học Công
nghệ Thông tin và Truyền thông – Đại học Thái Nguyên.

Thái Nguyên, tháng 09 năm 2015
Học viên

Lê Mạnh Linh

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

5

MỤC LỤC
DANH MỤC CÁC HÌNH VẼ..................................................................................... 7
DANH MỤC CÁC BẢNG BIỂU ............................................................................... 8
CHƢƠNG I: TỔNG QUAN VỀ NHẬN DẠNG CỬ CHỈ ........................................ 9
1.1.


Khái niệm về nhận dạng cử chỉ ................................................................... 10

1.2.

Phân loại cử chỉ: .......................................................................................... 10

1.3.

Mô hình bài toán nhận dạng cử chỉ: ............................................................ 11

1.4.

Một số đặc trƣng sử dụng biểu diễn cử chỉ bàn tay: .................................... 13

1.4.1.

Đặc trƣng các thành phần chính PCA:.................................................. 13

1.4.2.

Đặc trƣng HOG ..................................................................................... 15

1.4.3.

Đặc trƣng SIFT ..................................................................................... 15

1.4.4.

Đặc trƣng Haar like ............................................................................... 19


CHƢƠNG II: CÁC KỸ THUẬT NHẬN DẠNG CỬ CHỈ BÀN TAY TRONG
VIDEO ...................................................................................................................... 23
2.1.

Kỹ thuật sử dụng mạng nơron ..................................................................... 23

2.2.

Kỹ thuật SVM (Suport Vector Machine) .................................................... 25

2.3.

Kỹ thuật sử dụng Boosting và mô hình Cascade ......................................... 31

2.3.1.

Tiếp cận Boosting ................................................................................. 31

2.3.2.

AdaBoost .............................................................................................. 32

2.3.3 Thuật toán AdaBoost trong mô hình Cascade sử dụng Boosting cho bộ
nhận dạng cử chỉ:................................................................................................ 35
2.3.4.

Mô hình Cascade .................................................................................. 39

CHƢƠNG III: NHẬN DẠNG CỬ CHỈ BÀN TAY ỨNG DỤNG TRONG ĐIỀU
KHIỂN THIẾT BỊ ĐIỆN GIA DỤNG ..................................................................... 48

3.1. Bài toán nhận dạng cử chỉ bàn tay ứng dụng trong điều khiển thiết bị điện
gia dụng: ................................................................................................................ 48
Một số tập cử chỉ tay đã tồn tại .......................................................................... 54
Tập cử chỉ đề xuất: ............................................................................................. 57
Xây dựng cơ sở dữ liệu và thử nghiệm .............................................................. 59
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

6

Xây dựng tập ảnh positive .................................................................................. 60
Xây dựng tập dữ liệu ảnh negative ..................................................................... 63
Xây dựng tập dữ liệu ảnh thử nghiệm ................................................................ 63
Xây dựng chƣơng trình ứng dụng ...................................................................... 64
3.2. Cài đặt hệ thống điều khiển thiết bị điện gia dụng bằng cử chỉ bàn tay thông
qua camera kỹ thuật số .......................................................................................... 65
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI ......................................... 67
TÀI LIỆU THAM KHẢO ......................................................................................... 69

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

7

DANH MỤC CÁC HÌNH VẼ
Hình 1. 1 - Sơ đồ tổng quát của bài toán nhận dạng cử chỉ ...................................... 11
Hình 1. 2 - 10 vector đặc trƣng có ý nghĩa và 5 vector không mang thông tin ........ 14
Hình 1. 3 - Ảnh sau khi tính gradient chia thành các cell ......................................... 15

Hình 1. 4 - Đặc trƣng SIFT biểu diễn các điểm đặc biệt trong ảnh .......................... 16
Hình 1. 5 - Xác định điểm cực trị trong không gian tỉ lệ .......................................... 17
Hình 1. 6a,b,c - Các đặc trƣng đƣờng ....................................................................... 20
Hình 1. 7 Đặc trƣng Haar cho bàn tay ...................................................................... 21
Hình 1. 8 - Cách tính tổng các điểm ảnh trong một hình chữ nhật bất kì ................. 21
Hình 2. 1 - Mô hình mạng nơron theo Rowley ........................................................ 24
Hình 2. 2 - Ánh xạ dữ liệu từ không gian gốc sang không gian đặc trƣng cho phép
phân chia dữ liệu bởi siêu phẳng ............................................................................... 26
Hình 2. 3 - Siêu phẳng tách với khoảng cách lề cực đại ........................................... 27
Hình 2. 4 - Support Vectors ...................................................................................... 30
Hình 2. 5 - Minh họa Support Vectors ...................................................................... 30
Hình 2. 6 - Minh họa Boosting.................................................................................. 32
Hình 2. 7 - Minh họa thuật toán AdaBoost ............................................................... 33
Hình 2. 8 - Bộ phân loại mạnh H(x) xây dựng bằng AdaBoost ................................ 34
Hình 2. 9 - Bộ phân lớp CBC .................................................................................... 35
Hình 2. 10 - Cách chọn bộ phân loại yếu của AdaBoost .......................................... 37
Hình 2. 11 - Các ngƣỡng θ ........................................................................................ 38
Hình 2. 12 - Mô hình Cascade .................................................................................. 39
Hình 2. 13 - Các vùng không liên quan sẽ bị loại ngay từ những tầng đầu tiên ....... 46
Hình 2. 14 - Khắc phục trƣờng hợp nhiều vùng ảnh kế cận nhau bằng cách lấy vùng
ảnh trung bình ........................................................................................................... 46
Hình 2. 15 - Vùng ảnh lồng nhau .............................................................................. 47
Hình 3. 1 - Sơ đồ khối của hệ thống ......................................................................... 48
Hình 3. 2 - Khối nhận dạng cử chỉ ............................................................................ 49
Hình 3. 3 - Sơ đồ nguyên lý hoạt động của khối điều khiển thiết bị ........................ 50
Hình 3. 4 - Sơ đồ thiết kế phần nhận tín hiệu điều khiển từ cổng COM của máy tính
và phát sóng RF ......................................................................................................... 51
Hình 3. 5 - Sơ đồ thiết kế bộ thu tín hiệu và điều khiển thiết bị ............................... 52
Hình 3. 6 - Quy trình thiết kế cử chỉ ......................................................................... 53
Hình 3. 7 - Ảnh chụp bằng webcam cho các cử chỉ .................................................. 60

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

8

Hình 3. 8 - Ảnh chụp cử chỉ “Sang trái” ................................................................... 61
Hình 3. 9 - Tiêu điểm của cử chỉ “Sang trái” ............................................................ 61
Hình 3. 10 - Vùng ảnh hình chữ nhật chứa cử chỉ “sang trái” .................................. 62
Hình 3. 11 - Các mẫu cử chỉ “sang trái” sau khi cắt ................................................. 62

DANH MỤC CÁC BẢNG BIỂU
Bảng 3. 1 - Một số tập cơ sở dữ liệu cử chỉ đã tồn tại : ............................................ 54
Bảng 3. 2 - Ƣu và nhƣợc điểm của một số tập cử chỉ đã tồn tại : ............................. 55
Bảng 3. 3 - Tập cử chỉ đề xuất: ................................................................................. 58
Bảng 3. 4 - Tập cơ sở dữ liệu ảnh positive: .............................................................. 63
Bảng 3. 5 - Tâp cơ sở dữ liệu ảnh thử nghiệm: ......................................................... 64

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

9

CHƢƠNG I
TỔNG QUAN VỀ NHẬN DẠNG CỬ CHỈ
Nhận dạng là một ngành thuộc lĩnh vực học máy đã có lịch sử khá lâu, trong
thập kỷ 60 của thế kỷ XX, hầu hết vấn đề nhận dạng chỉ dừng lại ở việc nghiên cứu
lí thuyết thống kê. Về sau với sự phát triển mạnh mẽ của máy tính thì phần thực
nghiệm đã trở nên đơn giản hơn. Trong bối cảnh xã hội đang phát triển từ thời kỳ

công nghiệp sang hậu công nghiệp, đối với vấn đề tự động hóa thì việc thông tin
đƣợc nhận và xử lý một cách tự động là rất cần thiết. Khuynh hƣớng này làm cho
vấn đề nhận dạng mẫu trở nên rất quan trọng trong ứng dụng kỹ thuật và trong
nghiên cứu ngày nay. Nhận dạng mẫu tích hợp hầu hết vào các hệ thống máy móc
thông minh, có khả năng tự đƣa ra quyết định để giải quyết vấn đề.
Nhận dạngnhằm mục đích phân loại dữ liệu dựa trên thông tin thống kê đƣợc
trích rút từ các mẫu có sẵn. Các mẫu cần phân loại thƣờng đƣợc biểu diễn thành các
nhóm của các dữ liệu đo đạc hay quan sát đƣợc, mỗi nhóm là một điểm ở trong một
không gian đa chiều phù hợp. Không gian đa chiều này là không gian của các đặc
tính để dựa vào đó ta có thể phân loại.
Một hệ thống nhận dạng hoàn thiện gồm một thiết bị cảm nhận (sensor) để
thu thập các quan sát cần cho việc phân loại hay miêu tả; một cơ chế trích rút đặc
trƣng (feature extraction) để tính toán các thông tin dƣới dạng số hay dạng tƣợng
trƣng (symbolic) từ các dữ liệu quan sát đƣợc; và một bộ phân loại nhằm thực hiện
công việc phân loại dựa vào các đặc tính đã đƣợc trích rút.
Việc phân loại thƣờng dựa vào sự có sẵn của một tập các mẫu mà đã đƣợc
phân loại sẵn. Tập các mẫu này đƣợc gọi là tập huấn luyện và chiến lƣợc học nhằm
phân loại mẫu vào một trong các lớp có sẵn đƣợc gọi là học có giám sát. Việc học
cũng có thể là không có giám sát, theo nghĩa là hệ thống không đƣợc cung cấp các
mẫu đƣợc đánh nhãn (phân loại) trước, mà nó phải tự đƣa ra các lớp để phân loại
dựa vào tính ổn định trong thống kê của các mẫu.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

10

Việc phân loại thƣờng dùng một trong hai hƣớng tiếp cận sau là thống kê
(hay còn gọi là lí thuyết quyết định) và cú pháp. Nhận dạng mẫu dùng thống kê
là dựa vào các đặc tính thống kê của các mẫu, chẳng hạn các mẫu đƣợc tạo bởi

một hệ thống xác suất. Nhận dạng dùng cấu trúc là dựa vào tƣơng quan cấu trúc
giữa các mẫu.
Các ứng dụng phổ biến là nhận dạng tiếng nói tự động, phân loại văn bản
thành nhiều loại khác nhau (ví dụ : những thƣ điện tử nào là thƣ rác và không phải
thƣ rác), nhận dạng tự động các mã bƣu điện viết tay trên các bao thƣ, hay hệ thống
nhận dạng danh tính dựa vào mặt ngƣời v.v... Trong khuôn khổ luận văn này, lý
thuyết nhận dạng sẽ đƣợc áp dụng vào việc nhận dạng cử chỉ trong video ứng dụng
trong điều khiển thiết bị điện gia dụng.
1.1.

Khái niệm về nhận dạng cử chỉ
Cử chỉ là tất cả các cử động của cơ thể nhằm
- Thể hiện, truyền đạt một thông tin nào đó.
- Tƣơng tác với môi trƣờng.

Cử chỉ là một phƣơng thức giao tiếp hữu hiệu giữa con ngƣời - con ngƣời.
Ngay cả đối với các giao tiếp qua giọng nói, ngƣời ta vẫn sử dụng cử chỉ để tăng
khả năng truyền thụ.
Trong tƣơng tác ngƣời - máy, một trong những cách thức hiệu quả mà máy
có thể thực hiện yêu cầu của ngƣời hoặc đƣa ra các đáp ứng với môi trƣờng xung
quanh là nhận ra các cử chỉ của ngƣời.
1.2.

Phân loại cử chỉ:
Cử chỉ đƣợc chia thành hai loai : cử chỉ tĩnh và cử chỉ động. Một cử chỉ tĩnh

đƣợc mô tả bởi một hình trạng duy nhất của cơ thể hoặc một bộ phận của cơ thể.
Một cử chỉ động là một chuỗi các hình trạng liên tiếp theo một quỹ đạo nhất định.
Dựa vào các bộ phận của cơ thể, ngƣời ta phân ra các lớp cử chỉ sau :
Cử chỉ của tay và cánh tay : Trợ giúp nói bằng tay, ứng dụng trong giải

trí (trò chơi tƣơng tác), điều khiển máy móc thông qua các cử chỉ.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

11

Cử chỉ của đầu và gƣơng mặt : Hƣớng nghiêng của đầu, hƣớng nhìn của
mắt, hƣớng của lông mày, độ mở của miệng đƣợc sử dụng trong các bài
toán nhận dạng cảm xúc của con ngƣời (ứng dụng trong các hệ thống giao
tiếp thông minh).
Cử chỉ của cơ thể : Theo dõi toàn bộ chuyển động của ngƣời, phân tích
chuyển động của ngƣời nhảy để sinh ra nhạc và chiếu sáng tƣơng ứng,
nhận dạng phân tích dáng đi trong huấn luyện điền kinh, v.v..
Nhƣ vậy, cử chỉ của một con ngƣời rất phong phú và đa dạng. Có nhiều cách
thức để thể hiện một cử chỉ, và một cử chỉ có thể truyền đạt nhiều thông tin khác
nhau, đƣa ra các đáp ứng khác nhau với môi trƣờng.
1.3.

Mô hình bài toán nhận dạng cử chỉ:

Positive
Negative

Dữ liệu
huấn luyện

Huấn
luyện


Tiền xử lý

Mô hình
huấn luyện

Trích trọn
đặc trưng

Dữ liệu
nhận dạng

Nhận dạng
và phân loại

Kế quả
Phân loại

Hình 1. 1 - Sơ đồ tổng quát của bài toán nhận dạng cử chỉ
Bài toán nhận dạng cử chỉ đƣợc chia làm các giai đoạn chính sau:

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

12

Giai đoạn xây dựng mô hình huấn luyện
Giai đoạn này thực hiện việc xây dựng bộ nhận dạng cho từng cử chỉ. Dữ
liệu đƣợc lấy từ dữ liệu huấn luyện, qua quá trình tiền xử lý sau đó sẽ đƣợc trích
chọn các đặc trƣng. Các đặc trƣng đƣợc trích chọn sẽ làm đầu vào cho thuật toán

phân lớp. Kết quả trả về của giai đoạn này là các tập tin mô hình huấn luyện để
phục vụ cho quá trình nhận dạng.
Thu nhận tín hiệu, tiền xử lý
Nếu là hệ nhận dạng đối tƣợng vật lý, ở đầu vào của hệ thống thƣờng là một
loại thiết bị chuyển đổi nhƣ máy ghi hình hay ghi âm… Thiết bị này thu nhận tín
hiệu về đối tƣợng để nhận dạng. Các tín hiệu này thông thƣờng sẽ đƣợc số hóa, sau
đó sẽ đƣợc tiến hành tiền xử lý nhƣ : lọc nhiễu, tách ngƣỡng…
Trích chọn đặc trƣng
Các đặc điểm của đối tƣợng đƣợc trích chọn tuỳ theo mục đích nhận dạng
trong quá trình xử lý ảnh. Có thể nêu ra một số đặc điểm của ảnh sau đây:
Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm
uốn v.v..
Đặc điểm biến đổi: Các đặc điểm loại này đƣợc trích chọn bằng việc thực
hiện lọc vùng (zonal filtering). Các bộ vùng đƣợc gọi là “mặt nạ đặc 10 điểm”
(feature mask) thƣờng là các khe hẹp với hình dạng khác nhau (chữ nhật, tam giác,
cung tròn v.v..).
Đặc điểm biên và đƣờng biên: Đặc trƣng cho đƣờng biên của đối tƣợng và
do vậy rất hữu ích trong việc trích trọn các thuộc tính bất biến đƣợc dùng khi nhận
dạng đối tƣợng. Các đặc điểm này có thể đƣợc trích chọn nhờ toán tử gradient, toán
tử la bàn, toán tử Laplace, toán tử “chéo không” (zero crossing) v.v..
Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối
tƣợng ảnh chính xác, với tốc độ tính toán cao và dung lƣợng nhớ lƣu trữ giảm
xuống. [1]
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

13

Ranh giới khái niệm giữa việc trích chọn đặc trƣng và phân lớp ở góc độ nào

đó có phần không thực sự rõ ràng; một bộ trích chọn đặc trƣng lý tƣởng phải làm
cho công việc còn lại của bộ phân lớp trở nên dễ dàng hơn. Mục tiêu chung của bộ
trích chọn đặc trƣng là dựa trên tín hiệu thu đƣợc để mô tả các đối tƣợng bằng các
giá trị xấp xỉ bằng nhau đối với các đối tƣợng thuộc cùng loại, và khác xa nhau nếu
khác loại. Hơn nữa để tiện xử lý thì số lƣợng đặc trƣng càng ít càng tốt. Điều này
dẫn đến việc phải tìm ra các đặc trƣng khác nhau và chúng không phụ thuộc vào
hoàn cảnh thu nhận tín hiệu về đối tƣợng. Đầu ra của công đoạn này đƣợc gọi là
vector đặc trƣng của đối tƣợng, thông thƣờng đây là một vector số thực.
Giai đoạn nhận dạng cử chỉ và phân loại cử chỉ
Giai đoạn này thực hiện việc phân tích từ dữ liệu đầu vào để kiểm tra trong
dữ liệu đầu vào có chứa cử chỉ đang xét hay không. Dữ liệu đầu vào cũng qua các
quá trình tiền xử lý, trích chọn đặc trƣng và sau đó đƣa vào bộ nhận dạng. Bộ nhận
dạng sẽ phân loại các đặc trƣng vào các lớp đã đƣợc định nghĩa trong mô hình huấn
luyện trƣớc đó. Việc nhận dạng ở khâu này đƣợc áp dụng thêm một số kỹ thuật
nhằm tăng độ chính xác cho hệ thống. Sau đó cử chỉ đƣợc phân loại nhờ vào việc
kết hợp các bộ nhận dạng cử chỉ. Mỗi bộ nhận dạng cử chỉ có chức năng nhận dạng
một cử chỉ ứng với các đặc trƣng đã đƣợc huấn luyện. Bộ phân loại sẽ nhận vào một
ảnh và cho biết trong ảnh đó có chứa những cử chỉ nào (cho biết vị trí của vùng ảnh
tƣơng ứng với các cử chỉ).
1.4.

Một số đặc trƣng sử dụng biểu diễn cử chỉ bàn tay:

1.4.1. Đặc trưng các thành phần chính PCA:
Phƣơng pháp đơn giản nhất để phát hiện đối tƣợng là sử dụng cƣờng độ xám
hoặc màu của điểm ảnh để biểu diễn đối tƣợng. Phƣơng pháp này không đòi hỏi bất
kỳ một khâu trích chọn đặc trƣng nào cả. Tuy nhiên với phƣơng pháp này, một ảnh
kích thƣớc

sẽ đƣợc biểu diễn bởi một vector


pixel, thì không gian đặc trƣng có

thành phần. Với

,

chiều. So sánh và tìm

kiếm trong không gian có số chiều lớn sẽ rất tốn kém thời gian, nên ta cần giảm số
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

14

chiều không gian đặc trƣng này. Hơn nữa, việc biểu diễn này cũng không cho phép
phân loại hiệu quả các lớp đối tƣợng.
Để giảm số chiều của không gian đặc trƣng, kỹ thuật PCA đƣợc sử dụng.
Mục đích của PCA là đƣa không gian đặc trƣng có số chiều lớn M (ví dụ M = 8191
chiều) về không gian đặc trƣng có số chiều nhỏ hơn N << M, với mục đích giảm
thời gian tính toán và tìm kiếm. Trong hình 1.2 là 10 vector đặc trƣng có ý nghĩa
nhất đƣợc chọn để xây dựng không gian đặc trƣng, 5 vector với giá trị riêng nhỏ
mang các không tin không cho phép phân biệt các lớp đối tƣợng sẽ đƣợc bỏ qua.

Hình 1. 2 - 10 vector đặc trưng có ý nghĩa và 5 vector không mang thông tin
Các vector đặc trƣng của không gian đặc trƣng này đƣợc xác định từ các
vector riêng của ma trận hiệp phƣơng sai xây dựng từ tập ảnh mẫu học. Vector riêng
với giá trị riêng lớn nhất đƣợc coi nhƣ vector đặc trƣng có ý nghĩa nhất sẽ đƣợc sử
dụng nhƣ bộ vector cơ sở của không gian đặc trƣng.

Để phát hiện đối tƣợng trong ảnh, một cửa sổ ảnh kích thƣớc

sẽ đƣợc

quét trên tất cả các pixel trong ảnh. Mỗi ảnh cửa sổ sẽ đƣợc ánh xạ vào không gian
đặc trƣng có số chiều N, và đƣợc biểu diễn bởi một vector N thành phần. Phƣơng
pháp sử dụng lân cận gần nhất thƣờng đƣợc sử dụng để xác định xem vector này có
gần với thực thể của một đối tƣợng thuộc lớp đã đƣợc học hay không. Phƣơng pháp
biểu diễn này đơn giản nhƣng đặc trƣng sử dụng là toàn bộ ảnh đối tƣợng, do đó sẽ
không hiệu quả khi các đối tƣợng bị che khuất hoặc biến đổi về hình dạng. PCA
thích hợp cho việc nhận dạng các đối tƣợng này không bị thay đổi lớn.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

15

1.4.2. Đặc trưng HOG
HOG viết là tắt của Histogram Orientation Gradient, ý tƣởng cơ bản của
HOG là hình dạng đối tƣợng trong ảnh có thể đƣợc đặc trƣng tốt bởi sự phân bố
theo hƣớng của sự thay đổi mức xám (gradient) hay theo hƣớng của biên đối tƣợng
[3]. HOG đƣợc tính bằng cách chia ảnh thành các vùng không gian nhỏ hơn gọi là
cell, mỗi cell này tích lũy histogram 1 chiều cục bộ của hƣớng gradient hoặc định
hƣớng biên trên các điểm ảnh của các cell. Các cell nằm cạnh nhau đƣợc gộp lại
thành một khối gọi là block, các block có thể chồng lên nhau với mục đích tăng
cƣờng mối quan hệ trong không gian giữa các điểm ảnh. Các histogram của khối
đƣợc kết hợp với nhau tạo thành vector đặc trƣng.

Hình 1. 3 - Ảnh sau khi tính gradient chia thành các cell

1.4.3. Đặc trưng SIFT
SIFT là viết tắt của Scale Invariant Feature Transforms - phép biến đổi đặc
tính bất biến tỉ lệ, do David G.Lowe[2] đề xuất. Đối với bất kỳ một đối tƣợng nào trong
ảnh sẽ có rất nhiều trƣng để mô tả, tuy nhiên David G.Lowe chỉ ra rằng các điểm đặc
biệt trên đối tƣợng có thể trích chọn mô tả tốt cho đối tƣợng. Mô tả này có thể đƣợc sử
dụng để xác định đối tƣợng trong một ảnh chứa rất nhiều đối tƣợng khác nhau. Các
thuộc tính SIFT của ảnh cung cấp một tập hợp các thuộc tính của một đối tƣợng mà
không ảnh hƣởng bởi sự phức tạp giống nhƣ các phƣơng pháp khác.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

16

Hình 1. 4 - Đặc trưng SIFT biểu diễn các điểm đặc biệt trong ảnh

Trong khi cho phép một đối tƣợng đƣợc nhận biết trong một ảnh lớn hơn các
thuộc tính, SIFT cũng cho phép các đối tƣợng trong nhiều ảnh ở cùng một vị trí, hay
đƣợc chụp từ nhiều vị trí khác nhau trong cùng một môi trƣờng đƣợc nhận biết. Các
thuộc tính SIFT cũng rất hiệu quả trong trƣờng hợp có nhiễu trong ảnh.
Để tạo các đặc tính của ảnh, một ảnh đƣợc lấy và biến đổi thành một tập hợp
lớn các vectơ thuộc tính cục bộ. Mỗi vectơ thuộc tính đó là bất biến trong bất kỳ
một sự thay đổi tỉ lệ, quay hoặc tịnh tiến nào của ảnh. Cách tiếp cận này rất gần với
cảm nhận nguyên thủy của mắt ngƣời. Để trích chọn những thuộc tính này, thuật
toán SIFT thực hiện 4 giai đoạn nhƣ sau : (1) giai đoạn phát hiện cực trị trong
không gian tỉ lệ, (2) xác định vị trí những điểm quan trọng, (3) chỉ định sự định
hƣớng, (4) mô tả các điểm quan trọng. Các giai đoạn này đƣợc trình bày chi tiết nhƣ
sau :
Phát hiện cực trị trong không gian tỉ lệ :

Trong giai đoạn lọc này chú ý xác định những vị trí và những tỉ lệ tƣơng ứng
mà có thể xác định đƣợc từ những góc nhìn khác nhau từ cùng một đối tƣợng. Điều
này có thể sử dụng một hàm không gian tỉ lệ. Hơn nữa điều này có thể đƣợc thể
hiện dƣới giả thiết hợp lý là nó phải dựa trên hàm Gause.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

17

Hình 1. 5 - Xác định điểm cực trị trong không gian tỉ lệ

Không gian tỷ lệ đƣợc xác định bởi hàm sau :

Trong đó

là toán tử tích chập;

là hàm Gause biến đổi tỉ lệ và

là ảnh đầu ra. Các kỹ thuật đa dạng có thể đƣợc sử dụng để phát hiện ra các
vị trí đặc biệt cố định trong không gian tỷ lệ. Vi phân của hàm Gause là một trong
các kỹ thuật đó, xác định cực trị của không gian tỉ lệ
khác nhau giữa 2 ảnh mà tỉ lệ gấp nhau k lần

Để xác định cực đại và cực tiểu của

bằng cách tính sự
đƣợc đƣa ra bởi công thức :


mỗi điểm đƣợc so sánh với 8

điểm lân cận của nó ở cùng một tỉ lệ. Nếu giá trị này là nhỏ nhất hoặc lớn nhất trong
tất cả các điểm thì điểm này là một cực trị.
Xác định vị trí của những điểm quan trọng (key point) :
Giai đoạn này loại trừ đi một số điểm trong danh sách các điểm có đƣợc
trong giai đoạn 1, đó là những điểm có tƣơng phản thấp hoặc có sự định vị mập mờ
về một cạnh. Điều này đƣợc tính toán bởi toán tử Laplace. Vị trí của các cực trị z
đƣợc đƣa ra bởi công thức :
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

18

Nếu giá trị của hàm tại z nhỏ hơn giá trị ngƣỡng thì điểm đó bị loại trừ. Điều
này sẽ loại bỏ những điểm mà có độ tƣơng phản thấp. Để loại trừ những điểm có
thông tin định vị mập mờ về cạnh, ngƣời ta sử dụng độ cong cơ bản trên những
cạnh nhƣ là độ cong nhỏ trong hƣớng trực giao của hàm vi phân Gausse. Nếu sự
khác biệt này bé hơn tỉ số của vectơ trị riêng lớn nhất và nhỏ nhất từ ma trận
Hessian 2x2 ở vị trí và tỉ lệ của điểm đặc biệt, thì điểm đặc biệt đó bị loại bỏ.
Chỉ định sự định hƣớng :
Trong giai đoạn này hƣớng tới việc chỉ định sự định hƣớng phù hợp tới
những điểm đặc biệt dựa trên các đặc tính cục bộ của ảnh. Một sự mô tả điểm đặc
biệt đƣợc miêu tả trong giai đoạn tiếp theo sẽ liên quan tới sự định hƣớng này, sự
định hƣớng này là bất biến đối với phép quay. Cách tiếp cận để tìm một sự định
hƣớng là:
+ Sử dụng tỉ lệ của những điểm đặc biệt để chọn lựa ảnh đã đƣợc làm
trơn bởi Gausse L, từ hệ thức trong giai đoạn 1.

+ Tính toán độ lớn của gradient :

+ Tính toán sự định hƣớng,

:

+ Xây dựng một histogram định hƣớng từ những hƣớng gradient của
những điểm điểm quan trọng trong giai đoạn 1.
+ Định vị đỉnh lớn nhất trong histogram, sử dụng đỉnh này và bất kỳ
một đỉnh cục bộ nào khác trong 80% độ cao của đỉnh để tạo một điểm
với sự định hƣớng đó.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

19

+ Một số điểm sẽ đƣợc chỉ định bởi nhiều sự định hƣớng.
+ Đặt một parabol đi qua 3 giá trị histogram gần nhất với đỉnh để nội
suy vị trí các đỉnh.
Mô tả các điểm quan trọng (Keypoint Descriptor) :
Dữ liệu về gradient cục bộ đƣợc sử dụng ở trên cũng đƣợc dùng để tạo
nên sự mô tả của các điểm đặc biệt. Thông tin về gradient đƣợc quay để các
đƣờng hƣớng lên với sự định hƣớng của điểm đặc biệt và sau đó đƣợc định
lƣợng bởi toán tử Gause với hệ số biến đổi 1.5 * tỉ lệ điểm đặc biệt. Dữ liệu này
sau đó đƣợc sử dụng để tạo một tập hợp của histogram trên một cửa sổ trung tâm
trên điểm đặc biệt.
Những mô tả điểm đặc biệt sử dụng một tập hợp 16 histogram, xếp hàng
thành lƣới


, với 8 hƣớng. Kết quả là vectơ định hƣớng sẽ có 8*16 = 128

thành phần.
1.4.4. Đặc trưng Haar like
Đặc trƣng Haar like [4] là một loại đặc trƣng thƣờng đƣợc dùng cho bài toán
nhận dạng trên ảnh. Haar like đƣợc xây dựng từ các hình chữ nhật có kích thƣớc
bằng nhau, dùng để tính độ chênh lệch giữa các giá trị điểm ảnh trong các vùng kề
nhau. Trong hình 2.6a và 2.6b, giá trị của feature cho bởi một ảnh bằng hiệu số giữa
tổng các điểm ảnh thuộc hai vùng hình chữ nhật sáng và tối. Trong hình 2.6c thì giá
trị feature bằng tổng các điểm ảnh trong hai vùng hình chữ nhật bên ngoài trừ cho
tổng các điểm ảnh trong hình chữ nhật ở giữa. Trong hình 2.6d, giá trị feature bằng
tổng các điểm ảnh nằm trong vùng hai hình chữ nhật màu tối trừ cho tổng các điểm
ảnh nằm trong hai hình chữ nhật màu sáng.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

20

Hình 1. 6a - Các đặc trưng cạnh

Hình 1. 6b - Các đặc trưng đường

Hình 1. 6c - Các đặc trưng bao quanh tâm

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>


21

Hình 1. 6d - Đặc trưng đường chéo
Ƣu điểm của Haar feature là nó diễn đạt đƣợc tri thức về các đối tƣợng trong
ảnh bởi vì nó biểu diễn mối liên hệ giữa các bộ phận của đối tƣợng, điều mà bản
thân từng điểm ảnh không diễn đạt đƣợc.

Hình 1. 7 Đặc trưng Haar cho bàn tay
Tính toán nhanh các đặc trƣng Haar like :
Trong quá trình huấn luyện, số lƣợng xử lý trên các Haar Feature là rất lớn,
việc tính tổng các điểm ảnh cho bởi từng feature làm cho thời gian xử lý tăng đáng
kể. Để khắc phục điều này, Viola và Jones đã đƣa ra khái niệm Integral Image [4]
để tính toán nhanh cho các feature cơ bản.

Hình 1. 8 - Cách tính tổng các điểm ảnh trong một hình chữ nhật bất kì

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

22

Với định nghĩa integral image tại điểm

là :

Tổng các giá trị pixel trong vùng “D” đƣợc tính nhƣ sau :

Khi đó, tổng các điểm ảnh trong môt hình chữ nhật bất kì có thể tính nhanh

dựa trên integral image tại 4 đỉnh của nó :

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

23

CHƢƠNG II
CÁC KỸ THUẬT NHẬN DẠNG CỬ CHỈ BÀN TAY TRONG VIDEO
2.1. Kỹ thuật sử dụng mạng nơron
Mạng nơron nhân tạo đƣợc thiết kế để mô hình một số tính chất của mạng
nơron sinh học. Tuy nhiên, khác với các mô hình nhận thức, phần lớn các ứng dụng
lại có bản chất kỹ thuật. Mạng nơron nhân tạo (ANN) là máy mô phỏng cách bộ
não hoạt động thực hiện các nhiệm vụ của nó. Một mạng nơron là bộ xử lý song
song phân tán lớn, nó giống bộ não ngƣời về hai mặt :
-

Tri thức đƣợc nắm bắt bởi mạng nơron thông qua quá trình học.

-

Độ lớn của trọng số kết nối nơron đóng vai trò khớp nối cất giữ thông tin.
Kiến trúc của mạng nơron nhân tạo lấy tƣ tƣởng chính của mạng nơron sinh

học đó là sự kết nối của các nơron. Tuy nhiên, mạng nơron nhân tạo có kiến trúc
đơn giản hơn nhiều về cả số lƣợng nơron và cả kiến trúc mạng, trong khi ở mạng
nơron tự nhiên một nơron có thể kết nối với một nơron khác bất kỳ ở trong mạng
thì ở mạng nơron nhân tạo, các nơron đƣợc kết nối sao cho nó có thể dễ dàng đƣợc
biểu diễn bởi một mô hình toán học nào đấy. Ví dụ trong mạng nơron truyền thẳng,

các nơron đƣợc phân thành nhiều lớp, các nơron ở lớp trƣớc chỉ đƣợc kết nối với
các nơron ở lớp sau.
Mạng nơron đƣợc áp dụng khá thành công trong các bài toán nhận dạng mẫu
nhƣ: nhận dạng ký tự, nhận dạng vân tay, nhận dạng khuôn mặt ngƣời v.v. Nhận
dạng cử chỉ tay có thể xem là bài toán nhận dạng hai loại mẫu mẫu có cử chỉ tay và
mẫu không phải đối tƣợng. Một thuận lợi khi dùng mạng nơron để nhận dạng cử
chỉ tay là tính khả thi của hệ thống khi có sự phức tạp trong lớp của các mẫu cử chỉ
tay. Tuy nhiên, một điều trở ngại là các kiến trúc mạng đều tổng quát, khi áp dụng
thì phải xác định rõ ràng số lƣợng tầng, số lƣợng node, tỷ lệ học v.v. cho từng
trƣờng hợp cụ thể.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

24

Bài toán nhận dạng một cử chỉ của bàn tay cũng tƣơng tự nhƣ bài toán nhận
dạng khuôn mặt, bài toán nhằm giải quyết mục tiêu là phân loại ra lớp là cử chỉ và
không phải là cử chỉ. Vì vậy có thể tham khảo một số mô hình nhận dạng khuôn
mặt sử dụng mạng nơron cho mô hình nhận dạng cử chỉ.
Theo đánh giá các phƣơng pháp dùng mạng nơron để xác định khuôn mặt
ngƣời của nhiều tác giả, thì nghiên cứu của Rowley[5]đƣợc xem là tốt nhất đối với
ảnh xám. Rowley sử dụng mạng nơron nhiều tầng để học các mẫu khuôn mặt và
không phải khuôn mặt từ các ảnh có khuôn mặt và không chứa khuôn mặt. Khác với
nhiều phƣơng pháp trƣớc đó, ông dùng nhiều mạng nơron và vài phƣơng pháp phân
tách để tăng cƣờng hiệu quả việc phân loại. Hệ thống của ông có thể xem nhƣ gồm
hai thành phần chính:
Một hệ thống bốn mạng nơron để phát hiện các mẫu khuôn mặt. Đầu vào
của các mạng nơron là các vùng với kích thƣớc


pixel đã qua tiền xử

lí của ảnh vào, và đầu ra là một giá trị trong khoảng (-1, 1).
Một module thực hiện việc đƣa ra quyết định cuối cùng. Kết hợp các phát
hiện từ các mạng nơron từ đó sử dụng thêm phép toán logic và kĩ thuật bầu
cử để tăng hiệu quả.

Hình 2. 1 - Mô hình mạng nơron theo Rowley

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

25

Đƣa vào một mẫu cần kiểm tra, kết quả đầu ra của mạng huấn luyện sẽ
gần -1 nếu không phải mẫu khuôn mặt và kết quả gần 1 nếu là mẫu khuôn mặt.
Và để phát hiện khuôn mặt trong ảnh cần phải áp dụng trên toàn bộ ảnh. Đối với
khuôn mặt kích thƣớc lớn hơn 20x20, lặp lại việc lấy mẫu ở các tỉ lệ khác nhau,
các mẫu này chia thành các phần nhỏ: 4 mẫu10x10, 16 mẫu 5x5, 6 mẫu 6x6 và
áp dụng mạng nơron. Thực tế ông dùng khoảng 1500 mẫu ảnh với các tỉ lệ,
hƣớng, vị trí và mức sáng khác nhau để huấn luyện mạng. Với mỗi ảnh huấn
luyện, gán nhãn cho mắt, đỉnh mũi, góc cạnh và tâm miệng để có thể chuẩn hóa
về cùng tỉ lệ, vị trí và hƣớng.
Một giới hạn trong phƣơng pháp của Rowley là chỉ có thể xác định khuôn
mặt chụp thẳng và tựa thẳng (nghiêng đầu). Sau đó Rowley cải tiến để có thể xác
định khuôn mặt bị xoay bằng mạng định hƣớng (Router Network). Các tác giả sau
này phát triển dựa trên mạng nơron kết hợp các hƣớng tiếp cận khác nhau cũng cho
kết quả tốt hơn. Việc chọn kích thƣớc mẫu học đƣợc cải tiến sao cho phù hợp với
cấu trúc mẫu đƣa vào, các bƣớc tiền xử lí tốt hơn …

2.2.

Kỹ thuật SVM (Suport Vector Machine)
SVM là phƣơng pháp phân loại tự động tƣơng đối mới do Vapnik[6] đƣa ra

vào năm 1995. Nhiều thử nghiệm với các ứng dụng khác nhau cho thấy SVM là
một trong những phƣơng pháp phân loại có độ chính xác cao và là một phƣơng
pháp tƣơng đối tổng quát cho bài toán nhận dạng. SVM đƣợc xây dựng trên cơ sở
hai ý tƣởng chính :
Ý tƣởng thứ nhất : ánh xạ dữ liệu gốc sang một không gian mới gọi là
không gian đặc trƣng với số chiều lớn hơn sao cho trong không gian mới có
thể xây dựng một siêu phẳng cho phép phân chia dữ liệu thành hai phần riêng
biệt, mỗi phần bao gồm các điểm có cùng nhãn phân loại. Ý tƣởng ánh xạ
sang không gian đặc trƣng đƣợc minh hoạ trên hình 3.1.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

×