Tải bản đầy đủ (.docx) (68 trang)

Nhận dạng cử chỉ bàn tay dùng nhân cụm Kmeans và mạng Nerual

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 68 trang )

BỘ GIÁO DỤC & ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM
KHOA ĐIỆN – ĐIỆN TỬ
BỘ MÔN ĐIỆN TỬ VIỄN THÔNG
---------------------

ĐỒ ÁN TỐT NGHIỆP
NGÀNH: ĐIỆN TỬ VIỄN THÔNG

Đề tài:

NHẬN DẠNG CỬ CHỈ BÀN TAY DÙNG PHÂN
CỤM K-MEANS VÀ MẠNG NƠ-RON

GVHD : TS. NGÔ QUỐC CƯỜNG
SVTH : VÕ ĐẮC THỌ- 09652365
TRẦN QUANG TRÁNG- 09786372

TPHCM, 10/2014
TP. HỒ CHÍ MINH – 06/2014


LỜI CẢM ƠN
Trước tiên nhóm thực hiện đề tài xin gửi lời cảm ơn chân thành đến quý
thầy cô trong trường Đại Học Sư Phạm Thành Phố Hồ Chí Minh nói chung và
các thầy cô trong bộ môn Điện Tử - Viễn Thông nói riêng đã tận tình giảng dạy,
truyền đạt cho chúng em những kiến thức, kinh nghiệm quý báu trong suốt thời
gian qua.
Đặc biệt em xin gửi lời cảm ơn đến thầy NGÔ QUỐC CƯỜNG. Thầy đã
tận tình chỉ bảo, hướng dẫn chúng em trong suốt quá trình thực hiện đồ án. Trong
thời gian làm việc với Thầy, chúng em không ngừng tiếp thu thêm nhiều kiến


thức bổ ích mà còn học tập được tinh thần làm việc, thái độ nghiên cứu khoa học
nghiêm túc, hiệu quả, đây là những điều rất cần thiết cho chúng em trong suốt
quá trình học tập và công tác sau này.
Cuối cùng nhóm thực hện đồ án xin gửi lời cảm ơn sâu sắc tới gia đình, bạn
bè đã động viên, đóng góp ý kiến và giúp đỡ trong quá trình học tập, nghiên cứu
và hoàn thành đồ án tốt nghiệp.
Do kiến thức còn hạn hẹp và thời gian thực hiện không được nhiều, nên
mặc dù nhóm đã cố gắng nhưng vẫn còn nhiều sai sót và hạn chế. Nhóm rất
mong nhận được những sữa chữa, góp ý quý báu của quý thầy cô và bạn bè.

TP.HCM, ngày .. tháng .. năm 2015
Nhóm thực hiện

Võ Đắc Thọ
Trần Quang Tráng

2


PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
1. Thông tin sinh viên

Họ và tên: Võ Đắc Thọ

MSSV: 09917423

Tel: 0968233145

Mail:


Họ và tên: Trần Quang Tráng

MSSV: 09917433

Tel: 01272908637
2. Thông tin đề tài

Mail:

Tên của đề tài: NHẬN DẠNG CỬ CHỈ BÀN TAY DÙNG PHÂN CỤM KMEANS VÀ MẠNG NƠ-RON
Mục đích của đề tài: Phát hiện bàn tay và nhận dạng được năm cử chỉ bàn tay cơ
bản: một ngón, hai ngón, ba ngón, bốn ngón và năm ngón tay.
Đồ án tốt nghiệp được thực hiện tại: Bộ môn Điện Tử Viễn Thông, Khoa Điện Điện Tử, Trường Đại học Sư Phạm Kỹ Thập Thành Phố Hồ Chí Minh.
Thời gian thực hiện: Từ ngày 01/10/2014 đến 31/12/2014
3. Các nhiệm vụ cụ thể của đề tài
- Tìm hiểu các phương pháp nhận dạng cử chỉ bàn tay qua các bài báo.
- Định hướng phương pháp và nghiên cứu thuật toán nhận dạng cử chỉ bàn
tay.
- Nghiên cứu thuật toán phân cụm K-means và phát hiện màu da.
- Thực hiện phân cụm K-means và màu da trên matlab.
- Nghiên cứu huấn luyện ảnh dùng mạng Nơ-ron.
- Thu thập 100 mẫu ảnh và tiến hành huấn luyện.
- Nhận dạng năm cử chỉ bàn tay và thiết kế giao diện chương trình.
4. Lời cam đoan của sinh viên
Chúng tôi – Võ Đắc Thọ và Trần Quang Tráng cam đoan ĐATN là công trình
nghiên cứu của chúng tôi dưới sự hướng dẫn của thạc sỹ Ngô Quốc Cường.
Các kết quả công bố trong ĐATN là trung thực và không sao chép từ bất kỳ công
trình nào khác.
Tp.HCM, ngày 05 tháng 01 năm 2015
SV thực hiện đồ án


3


Võ Đắc Thọ - Trần Quang Tráng

Giáo viên hướng dẫn xác nhận về mức độ hoàn thành và cho phép được bảo vệ:
……………………………………………………………………………………
Tp.HCM, ngày tháng năm 2015
Xác nhận của Bộ Môn

Giáo viên hướng dẫn
(Ký ghi rõ họ tên và học hàm học vị)

4


MỤC LỤC

5


LIỆT KÊ HÌNH

Hình 2.8: Di chuyển tay và phát hiện hướng16

Hình 3.5: Không gian màu RGB30

Hình 4.9: Sơ đồ hệ thống huấn luyện46
Hình 4.10: Bộ huấn luyện ảnh47

Hình 4.11: Mô hình huấn luyện mạng Nơ-ron47
Hình 4.12: Kết quả huấn luyện mạng Nơ-ron48
Hình 4.13: Sơ đồ nhận dạng cử chỉ bàn tay49
Hình 4.14: Kết quả nhận dạng từ máy tính50
Hình 4.15: Kết quả nhận dạng từ Webcam50
Hình B1: Giao diện chính nhận dạng55
Hình B2: Giao diện nhận dạng hình 2D từ máy tính55
Hình B3: Giao diện nhận dạng trực tiếp từ Webcam 56

6


7


LIỆT KÊ BẢNG
Bảng 2.1: Thông số quy định cho cử chỉ bàn tay17
Bảng 4.1: Thông số thiết kế mạng Nơ-ron48
Bảng 4.2: Kết quả nhận dạng cử chỉ bàn tay50

8


9


LIỆT KÊ TỪ VIẾT TẮT
CCD – Change Coupled Device
CCIR – Consultative Committee International Radio
CMOS – Complementary Metal Oxide Semiconductor

CGA – Color Graphic Device
CLARA – Clustering LARge Application
HSV – Hue Saturation Value
MLP – MultiLayer Perceptron
MEMS –Microelectromechanical Systems
NTSC – National Television System Committee
PAL– Phase Alternating Line
PAM – Partitioning Around Medoids
ROI – Region Of Interest
RGB – Red Greed Blue
SVM – Support Vector Machine

10


TÓM TẮT
Ngày nay, nhận dạng nói chung và nhận dạng cử chỉ bàn tay nói riêng là một
khái niệm không còn xa lạ bởi ý nghĩa ứng dụng trong thực tế, ví dụ như nhận
dạng cử chỉ bàn tay để thông báo hoặc điều khiển hành vi…
Đề tài thực hiện nhận dạng cử chỉ bàn tay sử dụng phương pháp phân cụm dữ
liệu K-means và huấn luyện mạng Nơ-ron. Hệ thống nhận dạng trên gồm hai
phần: phần huấn luyện và phần nhận dạng. Dữ liệu ảnh mẫu sẽ được chuẩn hóa
thành ảnh nhị phân. Bằng việc so sánh ảnh cần nhận dạng với cơ sở dữ liệu ảnh
mẫu thông qua mạng Nơ-ron để phát hiện và nhận dạng cử chỉ bàn tay tương
ứng.
Nhóm thực hiện huấn luyện 100 ảnh mẫu với 5 cử chỉ bàn tay trong cùng điệu
kiện sáng. Kết quả nhận dạng thành công 90%.

11



CHƯƠNG 1
GIỚI THIỆU

1.1. TỔNG QUAN VỀ NHẬN DẠNG CỬ CHỈ BÀN TAY
Trong thời đại công nghệ thông tin hiện nay, các hệ thống máy móc tự động
đã dần thay thế con người trong nhiều công đoạn của công việc. Máy móc có khả
năng làm việc hiệu quả, độ chính xác cao và hữu dụng trong môi trường nguy hại
đối với con người, tốc độ xử lý của máy tính, thiết bị ngày càng nhanh. Đến nay,
việc giao tiếp giữa con người và máy móc còn khá thủ công như thông qua bàn
phím và các thiết bị nhập dữ liệu.
Con người mong muốn máy móc càng thông minh hơn, tốc độ xử lý
nhanh hơn và có thể tương tác với người dùng bằng giọng nói là yêu cầu của các
thiết bị trong tương lai. Hiện nay trên thế giới các công nghệ nhận dạng cử chỉ đã
phát triển, các hệ thống ứng dụng nhận dạng cử chỉ đã được ứng dụng ở nhiều
nơi và độ chính xác của các hệ thống ngày càng được cải thiện.Một bộ phận của
khoa học xử lý ảnh là lĩnh vực thị giác máy tính hiện đang thu hút rất nhiều sự
quan tâm của các nhà nghiên cứu xử lý ảnh với mục tiêu xây dựng nên một thế
giới trong đó hệ thống thị giác kỳ diệu của con người có thể được mô phỏng bởi
các hệ thống máy tính, đem lại khả năng cảm nhận bằng thị giác cho các hệ
thống về môi trường xung quanh. Mơ ước về một hệ thống máy tính có thể hoà
nhập vào thế giới con người với đầy đủ các giác quan trong đó thị giác đóng vai
trò quan trọng đang dần dần được hiện thực hoá với những đóng góp nghiên cứu
của các nhà khoa học trên phạm vi toàn thế giới.

12


Hệ thống nhận dạng cử chỉ sẽ có những ứng dụng tuyệt vời trong tất cả
các lĩnh vực của đời sống. Nếu được áp dụng thành công thì nó sẽ trở thành một

cuộc cách mạng trong giao tiếp với máy móc, các ứng dụng của nó sẽ bao trùm
lên nhiều lĩnh vực như giúp đở người khuyết tật, công nghiệp, an ninh và giải trí.
1.2.

TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC
a. Thế giới
Nhận dạng cử chỉ bàn tay là phương tiện giao tiếp tự nhiên nhất của con

người. Chính vì vậy, việc nghiên cứu để máy tính có thể hiểu được cử chỉ bàn tay
của con nguời đã và đang rất phát triển. Trong những năm gần đây, nhiều loại hệ
thống nhận dạng cử chỉ bàn tay đã được đề xuất và phát triển theo hướng thực
hành sử dụng vào trong cuộc sống thực cũng như việc nghiên cứu các giải thuật
nhận dạng một cách chính xác hơn.
-

Nghiên cứu của Dharani Mazumdar, Anjan Kumar Talukda và
Kandapar Kumar Sarma nghiên cứu nhận dạng cử chỉ bằng găng tay
cảm biến Data Glove[4]. Bằng việc sữ dụng lối ra số của serson gia tốc
MEMS gắn liền với các ngón tay và sử dụng vi điều khiển. Máy tính

-

phân tích và xử lý thông tin dữ liệu và thực hiện các thuật toán.
Nghiên cứu của Chen Chiung Hsieh và Dung Hua Liou về nhận dạng cử
chỉ bằng lịch sử chuyển động ảnh[2]. Các khung hình được tích lũy
trong các hình ảnh lịch sử chuyển động. Sử dụng các báo động sai lọc ra
nếu số lượng điểm ảnh da phát hiện nhỏ hơn một ngưỡng nhất định. Hệ
thống được xây dựng trên các khối: Digital Zoom, phát hiện màu da,

-


nhận dạng cử chỉ.
Chenglong Zu, Xuan Wang, Hejion Huang và Jianping Shen nghiên cứu
về nhận dạng cử chỉ bằng các tính năng tổ hợp[7]. Dựa trên các tính
năng phân biệt màu da, không gian màu YCbCr. Nhận dạng bàn tay
được nhận dạng với ba tính năng: bất biến Hu, khu vực cử chỉ bàn tay
và Fourier. Và dùng MLP để phân biệt các cử chỉ bàn tay.

Tới thời điểm này, nhận dạng cử chỉ được giả thiết là được thực hiện trong
môi trường bình thường, không bị ràng buộc bởi bất cứ điều kiện nào.

13


b. Trong nước

Tại Việt Nam, có hai nhóm chình nghiên cứu về nhận dạng cử chỉ bàn tay.
Đầu tiên, đề tài khoa học công nghệ thuộc chương trình trọng điểm cấp Nhà nước
tổ chức nghiệm thu đề tài KH&CN tiềm năng “Nghiên cứu phát triễn kỹ thuật
nhận dạng cử động của bàn tay người theo thời gian thực” do TS. Trần Nguyên
Ngọc của Học viện Kỹ thuật quân sự làm chủ nhiệm đề tài. Thứ hai đề tài nghiên
cứu “Nhận dạng cử chỉ bàn tay để điều khiển Robot” của Đoàn Tấn Phát và
Nguyễn Phan Nhật Tân sinh viên trường Đại học Lạc Hồng, khoa công nghệ
thông tin nghiên cứu dựa trên nhận dạn kiểu phân lớp SVM(Support Vector
Machine)[8]. Các nghiên cứu của nhóm tập trung vào nhận dạng cử chỉ, hệ thống
điều khiển giữa người và máy,..
1.3.

Ý NGHĨA CỦA ĐỀ TÀI
Đề tài “ Nhận dạng cử chỉ bàn taydùng phân cụm K-means và mạng Nơ-


ron” của nhóm xây dựng với mong muốn góp một phần thúc đẩy sự phát triển
trong nhận dạng cử chỉ, thông qua việc tìm hiểu các thành tựu của các nước khác.
Sau khi thực hiện đề tài này, nhóm thực hiện đề tài mong muốn đây sẽ là tài
liệu hữu ích cho các ứng dụng trong nhận dạng cử chỉ bàn tay. Vì hiện nay, các
công trình nghiên cứu về nhận dạng cử chỉ bàn tay đã thu được nhiều kết quả tốt
và có ý nghĩa quan trọng trong một số lĩnh vực như:
- Về mặt kỹ thuật, công nghệ nhận dạng cử chỉ đã thay đổi cách con người

tương tác với hệ thống thiết bị, không còn bó buộc trong những cách tương
tác truyền thống (như thông qua bàn phím máy tính hoặc điện thoại…) mà
chuyển sang tương tác trực tiếp bằng cử chỉ. Ngoài ra có thể giúp người
khiếm thính nhận biết ngôn ngữ qua cử chỉ bàn tay.
- Về mặt nghiên cứu khoa học, các hệ thống nhận dạng cử chỉ hiện tại đều

dựa trên phương pháp thống kê và so khớp mẫu. Phương pháp này đòi hỏi
các tri thức về nhận dạng và một lượng lớn dữ liệu huấn luyện, bao gồm các
dạng cử chỉ, để huấn luyện bộ nhận dạng. Lượng dữ liệu huấn luyện càng
lớn, bộ nhận dạng càng có nhiều khả năng đưa ra kết quả chính xác hơn.
1.4. MỤC TIÊU VÀ PHƯƠNG PHÁP NGHIÊN CỨU
14


1.4.1. Mục tiêu
- Thuật toán phân cụm K-means tạo tập mẫu cho huấn luyện và nhận dạng

bàn tay.
- Xây dựng mô hình nhận dạng cử chỉ bằng mạng Nơ-ron trên matlab.
1.4.2. Phương pháp nghiên cứu
- Tìm hiểu các bước thực hiện phương pháp phân cụm trong thuật toán K-


means.
- Thực hiện phân cụm K-means và phân biệt màu da trên matlab.
- Nghiên cứu tổng quan về mạng Nơ-ron nhân tạo.
- Mô phỏng mô hình nhận dạng cử chỉ sử dụng mạng Nơ-ron nhân tạo.
1.4.3. Giới hạn đề tài
- Nhóm thực hiên nhận dạng 5 cử chỉ bàn tay.
- Số mẫu để huấn luyện bằng mạng Nơ-ron trong 100 mẫu.
- Nhận dạng cử chỉ bàn tay thông qua hình ảnh 2D có sẳn và môi trường
không phức tạp(điều kiện sáng, độ chói,..).
- Nhận dạng thông qua Webcam
1.5. NỘI DUNG NGHIÊN CỨU ĐỀ TÀI
Với đề tài “Nhận dạng cử chỉ bàn tay dùng phân cụm K-means và mạng
Nơ-ron” nhóm tập trung nghiên cứu các vấn đề cụ thể sau:
Chương 1:Giới thiệu
Chương 2: Cơ sở lý thuyết
Chương 3: Phân cụm và phát hiện màu da
Chương 4: Hệ thống nhận dạng cử chỉ bàn tay dùng mạng Nơ-ron
Chương 5: Kết luận và hướng phát triển

15


CHƯƠNG 2
CƠ SỞ LÝ THUYẾT

2.1. NHỮNG VẤN ĐỀ TRONG XỬ LÝ ẢNH
2.1.1. Điểm ảnh
Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về không gian và độ sáng. Để
xử lý bằng máy tính (số), ảnh cần phải được số hoá. Số hoá ảnh là sự biến đổi

gần đúng một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí
(không gian) và độ sáng (mức xám). Khoảng cách giữa các điểm ảnh đó được
thiết lập sao cho mắt người không phân biệt được ranh giới giữa chúng. Mỗi một
điểm như vậy gọi là điểm ảnh (PEL: Picture Element) hay gọi tắt là Pixel. Trong
khuôn khổ ảnh hai chiều, mỗi pixel ứng với cặp tọa độ (x, y).
Định nghĩa:Điểm ảnh là một phần tử của ảnh số tại toạ độ (x, y) với độ
xám hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó được
chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức
xám (hoặc màu) của ảnh số gần như ảnh thật. Mỗi phần tử trong ma trận được
gọi là một phần tử ảnh.
2.1.2. Ảnh
Ảnh được xem như là một tập hợp các điểm ảnh.
Bất kỳ hình ảnh từ một máy quét hoặc từ một Camera số hay trong máy
tính là một hình ảnh kỹ thuật số. Hình ảnh máy tính đã được “số hóa”, đây là quá
trình chuyển đổi từ hình ảnh màu sắc thực tế thành các dữ liệu số bao gồm các
hàng và cột của hàng triệu mẫu màu được đo từ hình ảnh ban đầu.

16


Một máy ảnh kỹ thuật số dùng chip CCD (Change Coupled Device) đằng
sau ống kính, CCD bao gồm một mạng lưới các điểm bắt sáng được phủ bằng lớp
bọc màu (đỏ - Red, xanh lục – Green, xanh dương – Blue), mỗi điểm ảnh chỉ bắt
một màu. Do đó khi chụp ảnh ( cửa sập mở), ánh sáng qua ống kính và được lưu
lại trên bề mặt chip cảm biến dưới dạng điểm ảnh. Mỗi điểm ảnh có một mức
điện áp khác nhau sẽ được chuyển đến bộ phận đọc giá trị theo từng hàng. Giá trị
mỗi điểm ảnh sẽ được khuếch đại và được đưa vào bộ chuyển đổi tín hiệu tương
tự sang tín hiệu số, cuối cùng đổ vào bộ xử lý để tái hiện lại hình ảnh đã chụp.
chính quá trình đọc thông tin thực hiện theo từng hàng đã làm cho tốc độ xử lý
ảnh chậm, thiếu hoặc thừa sáng. Đối với máy ảnh kỹ thuật số dùng chip CMOS

tại các điểm bắt sáng có sẵn mạch điện hỗ trợ dễ dàng tích hợp ngay quá trình xử
lý điểm ảnh. Với cấu trúc này, mỗi điểm ảnh sẽ được xử lý ngay tại chỗ và đồng
loạt truyền tín hiệu số về bộ xử lý để tái hiện hình ảnh đã chụp nên tốc độ xử lý
nhanh hơn rất nhiều.
Cảm biến nhìn thấy màu sắc và độ sáng của từng khu vực nhỏ là lấy mẫu.
Đó là giá trị màu sắc của từng khu vực được đo và ghi thành giá trị số đại diện
cho màu sắc. Quá trình này được gọi là số hóa hình ảnh. Dữ liệu được tổ hợp
thành các hàng và cột để giữ lại vị trí của từng khu vực hình ảnh. Mỗi giá trị dữ
liệu đó chính là điểm ảnh. Các dữ liệu hình ảnh là bao gồm các giá trị màu RGB
số trong một mạng lưới các hàngvà cột. Khi tất cả các dữ liệu ảnh được kết hợp
lại và sao chép liên tiếp, chính xác trật tự cột trên giấy in hoặc hoặc màn hình
máy tính, não bộ con người nhận ra hình ảnh ban đầu.
2.1.3. Độ phân giải của ảnh
Độ phân giải của ảnh là mật độ điểm ảnh được ấn định trên một ảnh số
được hiển thị. Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn
sao cho mắt người vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng cách
thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân bố
theo trục x và y trong không gian hai chiều.

17


Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor)
là một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc * 200 điểm ảnh
(320*200). Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình
CGA 17” độ phân giải 320*200. Lý do: cùng một mật độ (độ phân giải) nhưng
diện tích màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn.
2.1.4. Mức xám của ảnh
-


Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá trị số

-

tại điểm đó.
Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256 là
mức phổ dụng. Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn
mức xám: Mức xám dùng 1 byte biểu diễn: 2^8=256 mức, tức là từ 0 đến
255).

2.2.5. Ảnh nhị phân
Là ảnh chỉ có 2 mức đen trắng phân biệt, tức dùng 1 bit mô tả 2 1 mức khác
nhau. Nói cách khác, mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1.
Ý nghĩa ứng dụng của ảnh nhị phân:
-

Xử lý dữ liệu và cấu trúc hình học.
Cơ sở của các phương pháp xử lý: lý thuyết tập hợp, đại số logic, lý
thuyết hình học…

Nhị phân hóa tạo ảnh nhị phân:
(2.1)
2.2.6. Ảnh màu
Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế giới
màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị màu là
28*3 = 224 =16,7 triệu màu.
2.2.7. Khử nhiễu
Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh :
-


Nhiều hệ thống: là nhiễu có quy luật có thể khử bằng các phép biến đổi
18


Nhiễu ngẫu nhiên: vết bẩn không rõ nguyên nhân → khắc phục bằng các

-

phép lọc.
2.2.8. Chỉnh mức xám
Nhằm khắc phục tính không đồng đều của hệ thống gây ra. Thông
thường có 2 hướng tiếp cận:
-

Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần nhau
thành một bó. Trường hợp chỉ có 2 mức xám thì chính là chuyển về ảnh

-

đen trắng. Ứng dụng: In ảnh màu ra máy in đen trắng.
Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng kỹ
thuật nội suy. Kỹ thuật này nhằm tăng cường độ mịn cho ảnh.

2.2.9. Nhận dạng ảnh
Nhận dạng tự động (automatic recognition), mô tả đối tượng, phân loại
và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, được ứng
dụng trong nhiều ngành khoa học khác nhau. Mẫu ở đây có thể là ảnh của vân
tay, ảnh của một vật nào đó được chọn, một chữ viết khuôn mặt người ….
Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn
chủ yếu sau đây:

1. Thu nhận dữ liệu và tiền xử lý.
2. Biểu diễn dữ liệu.
3. Nhận dạng, ra quyết định.
Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:
1. Đối sánh mẫu dựa trên các đặc trưng được trích chọn.
2. Phân loại thống kê.
3. Đối sánh cấu trúc.
4. Phân loại dựa trên mạng Nơ-ron nhân tạo.
Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp cận
đơn lẻ để phân loại “tối ưu” do vậy cần sử dụng cùng một lúc nhiều phương pháp
19


và cách tiếp cận khác nhau. Do vậy, các phương thức phân loại tổ hợp hay được
sử dụng khi nhận dạng và nay đã có những kết quả có triển vọng dựa trên thiết kế
các hệ thống lai (hybrid system) bao gồm nhiều mô hình kết hợp.
Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy sinh
trong cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra
những yêu cầu về tốc độ tính toán. Đặc điểm chung của tất cả những ứng dụng
đó là những đặc điểm đặc trưng cần thiết thường là nhiều, không thể do chuyên
gia đề xuất, mà phải được trích chọn dựa trên các thủ tục phân tích dữ liệu.
2.2. NHẬN DẠNG CỬ CHỈ BÀN TAY BẰNG DATA GLOVE
Nghiên cứu của Dharani Mazumdar, Anjan Kumar Talukda và Kandapar
Kumar Sarma nghiên cứu nhận dạng cử chỉ bằng găng tay cảm biến Data
Glove[4]. Bằng việc sữ dụng lối ra số của serson gia tốc MEMS gắn liền với các
ngón tay và sử dụng vi điều khiển.

Hình 2.1: Sơ đồ kết nối của hệ thống Data Glove
Phương pháp sử dụng găng tay Data Glove. Mặt phẳng màu HSV là mặt
phẳng màu hợp lý nhất cho hình ảnh màu sắc phân khúc. Người nghiên cứu

chuyển đổi không gian màu các khung ảnh vào từ RGB sang mặt phẳng màu
HSV. Thiết lập phạm vi giá trị màu từ ngưỡng thấp hơn ngưỡng trên cho màu sắc
đặt biệt của găng tay, người nghiên cứu có thể dễ dàng loại bỏ các thành phần
khác của khung ảnh. Cuối cùng, kết quả được chuyển đổi sang nhị phân. Sau đó,
trọng tâm của các thay phân đoạn được xác định và trọng tâm được xác định để
làm quỷ đạo cử chỉ.
20


Hình2.2: Giải thuật theo dỏi găng tay Data Glove
Các bược thực hiện nhận dạng cử chỉ bằng Data Glove:
-

Bước 1: Các khung ảnh đầu vào được chuyển thành mặt phẳng màu HSB

-

từ ảnh màu RGB.
Bước 2: Giá trị màu được thiết lập đúng cách với giá trị màu của găng tay
Bước 3: Mặt phẳng HSV được chuyển thành mặt phẳng nhị phân với

-

ngưỡng thích hợp.
Bước 4: Thay đổi sự co giãn trên mặt ảnh nhị phân và phân đoạn ảnh.
Bước 5: Tính trọng tâm của khu vực phân đoạn và sử dụng tính những

-

khoảng khắc.

Bước 6: Quỷ đạo cử chỉ có thể tìm thấy bằng cách kết nối trọng tâm của
các khu vực phân đoạn.

2.3. NHẬN DẠNG CỬ CHỈ BÀN TAY BẰNG LỊCH SỬ CHUYỂN ĐỘNG
Phương pháp nhận dạng cử chỉ bàn tay bằng lịch sử ảnh chuyển động được
Chen Chiung Hsieh và Dung Hua Liou nghiên cứu thích hợp để kiểm soát hầu
hết các thiết bị dân dụng[2]. Một mô hình màu da thích ứng dựa trên khuôn mặt

21


phát hiện được sử dụng để phát hiện các vùng da giống tay, đến phân loại các cử
chỉ bàn tay động, đã phát triển một cách đơn giản và lịch sử chuyển động ảnh
dựa trên phương pháp bốn nhóm Haar-like.
Cử chỉ bàn taytĩnh và động được thể hiện ở hình 2.4. Các hướng di chuyển
bàn tay được sử dụng để phân loại các cử chỉ bàn tay động trong hình 2.4(a) tới
2.4(d) trong khi các phát hiện mặt tĩnh của bàn tay dựa vào sự cố định của khuôn
mặt trong một thời điểm được thể hiện ở hình 2.4(e) và 2.4(f).

Hình 2.3: Định nghĩa sự chuyển động tay (a) đến (d) và mặt tĩnh của bàn
tay (e) và (f)
Biểu đồ của hệ thống được thực hiện là sự xuất hiện của khuôn mặt là một
trong những thành phần quan trọng. Màu nhận dạng khuôn mặt được Viola và
Jones nghiên cứu và được mở rộng bởi Lienhart và Maydt. Các đặc điểm của
phương pháp này là việc sử dụng các màu đen trắng mẫu để tìm đôi mắt trên
khuôn mặt khác biệt màu da người. Do đó, báo động sai sẽ lọc ra nếu số lượng
điểm ảnh da phát hiện trong khu vực khuôn mặt nhỏ hơn mottj ngưỡng nhất định.
Hệ thống này được chia thành ba phần chính: zoom kỹ thuật số, phân biệt màu da
và công nhận cử chỉ bàn tay.


22


Hình 2.4: Lưu đồ nhận dạng cử chỉ qua lịch sử ảnh
-

Khối Zoom kỹ thuật số

Khối zoom kỹ thuật số là cần thiết để phóng to hình ảnh xung quanh người sử
dụng khi cử chỉ bàn tay người sử dụng ở khoảng cách xa so với máy ảnh. Vì
vậy, người sử dụng không cần điều chỉnh vị trí của mình. Bước này để kích
thước hình ảnh ban đầu mặc định là 320x240 pixels cho độ phân giải máy ảnh
bước đầu thiết lập khác nhau. Nếu phát hiện khuôn mặt nhỏ hơn so với kích
thước chuẩn của khuôn mặt, người sử dụng có thể điều chỉnh kích thước bằng
tay bới các trang bị có khả năng zoom quang học của máy ảnh hoặc bằng
cách sữ dụng cung cấp độ zoom tự động bởi suy bi-linear tới vùng quan
tâm(ROI) tập trung vào khuôn mặt phát hiện. Khoảng cách điều hành lý
tưởng là khoảng 60 cm trong hệ thống nhận dạng cử chỉ bàn tay. Nếu người
dùng rất xa, họ sẽ xuất hiện nhỏ hơn.
-

Phân biệt màu da

Do phạm vi màu da bao gồm nhiều màu da giống nhau. Nếu chúng ta xây
dựng một mô hình mau da tương thích, tỷ lệ màu sai sẽ giảm đi đáng kể.
Bằng cách khai thác thông tin màu da từ khuôn mặt cá nhân để tạo ra các mô
hình màu da của mỗi người sẽ cải thiện hệ thống mạnh mẽ vì số lượng giảm
của các biến thể màu sắc trong khuôn mặt và tay của mỗi người.
Da thích nghi trên mô hình màu khuôn mặt dựa trên đề xuất của Liou được áp
dụng. Vùng da mặt được phát hiện có thể thu được bằng cách loại bỏ mắt,

23


mủi, miệng và bằng cách phân tích biểu đồ mức xám. Phân bố màu đỏ, xanh
lá cơ bản, màu đỏ ban đầu được giả định là phân bố Gaussian để các phương
tiện và độ lệch chuẩn được tính toán để xây dựng các mô hình màu da thích
nghi. Sau đó, có thể sử dụng mô hình màu da để phát hiện các vùng da khác
từ người đó. Từ kết quả thí nghiệm, hệ thống có thể phát hiện pixels da đúng
ngay cả khi nó đang ở trong vùng có điều kiện ánh sáng cực kỳ xấu.
-

Nhận dạng cử chỉ bàn tay tĩnh

Mặt tĩnh cử chỉ bàn tay được phát hiện dựa trên da thích nghi của mô hình
màu. Người làm cử chỉ bàn tay nắm tay và vẫy tay trong khu vực nhất định.
Các vị trai kích thước khuôn mặt phát hiện được sử dụng để xác định ROI
như trong công thức 2.2
(2.2)
Trng đó khuôn mặt phát hiện được đại diện bởi một vòng tròn với trung tâm
(face.x, face.y) và bán kính face.r. Các khu vực phát hiện cử chỉ bàn tay tĩnh
là ở phía bên phải của khuôn mặt như được chỉ bởi các hình chữ nhật màu đỏ
trong hình 2.5(a). Đó là bộ ROI được dựa trên thói quen của người sử dụng
tay phải và có thể thay đổi để bên trai của khuôn mặt nếu người đó thuận tay
trái.

Hình 2.5: Bộ ROI xác định khu vực phân tích
1. Nắm tay: Các ROI phát hiện tay nắm và tiếp tục chia thành bốn khu

vực nhỏ như hình 2.5(b) khi nào người sử dụng thực hiện một nắm tay,
kết quả của vùng da được phát hiện sẽ thể hiện giống hình 2.5(c). Do

đó, cử chỉ bàn tay nắm tay có thể xác nhận bằng cách kiểm tra bốn khu
vực nhỏ như trong công thức 2.3
24


(2.3)
Để cải thiện độ chính xác nhận dạng, tính năng Harr-like đơn giản
giống hình 2.5(a). Hình 2.5(b) được sử dụng để kiểm tra tay nắm. ROI
trước tiên được chuyển đổi từ RGB sang màu xám sau đó biểu đồ chia
đều cũng như thể hiện trong hình. Hình 2.5(c) tách bạn tay.
2. Vẫy tay: Nhận dạng cử chỉ vẫy tay là dựa trên chuyển động phát hiện

và trình tự thời gian như trong hình 2.6. Bằng cách quan sát cử chỉ vẫy
tay trong hình 2.6. Thứ nhất, các chuyển động như thể hiện trong hình
2.6 thu được bằng cách trừ liên tục hai khung hình thì kết quả là rõ ràng
nhất. Thứ hai, các chuyển động kéo dài trong các khoảng thời gian. Vì
vậy, hai điều kiện để xác định cử chỉ vẫy tay. Nếu các kích thước của
các khu vực chuyển động trong ROI được cài sẵn là đủ lớn và kéo dài
trong một khoảng thời gian, thì có thể khẳng định là cử chỉ vẫy tay.
Khoảng thời gian được thiết lập khoảng 3s.

Hình 2.6: Cử chỉ vẫy tay
-

Nhận dạng cử chỉ bàn tay động

Cử chỉ bàn tay động được thực hiện bới áp dụng các thông tin chuyển động.
Biến thể trong khung có thể được tích lũy trong các hình ảnh chuyển động
lịch sử. Phương pháp phát hiện theo hướng đơn giản của bàn tay chuyển động
dựa trên chuyển động sau đó hình ảnh lịch sử được đề xuất. Bốn nhóm hướng

mô hình được định nghĩa để đo số lượng của hướng.

25


×