Tải bản đầy đủ (.pdf) (87 trang)

LUẬN văn THẠC sĩ HAY phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng neural

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.91 MB, 87 trang )

i

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN KHÁNH TÙNG

PHƢƠNG PHÁP NHẬN DIỆN MẪU SỬ DỤNG
MƠ HÌNH TÚI TỪ VÀ MẠNG NEURAL

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Ngun, tháng 06 năm 2016

Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


ii

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN KHÁNH TÙNG

PHƢƠNG PHÁP NHẬN DIỆN MẪU SỬ DỤNG
MƠ HÌNH TÚI TỪ VÀ MẠNG NEURAL
Chun ngành: Khoa học máy tính


Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Ngƣời hƣớng dẫn khoa học
TS. Nguyễn Tồn Thắng

Thái Nguyên, tháng 06 năm 2016
Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


iii

LỜI CAM ĐOAN
Tên tôi là Nguyễn Khánh Tùng, học viên cao học lớp 13 C niên khóa
2014- 2016, chuyên nghành Khoa học máy tính. Tơi xin cam đoan luận văn
thạc sĩ: Phƣơng pháp nhận diện mẫu sử dụng mơ hình túi từ và mạng
Neural của tự bản thân tơi tìm hiểu, nghiên cứu dƣới sự hƣớng dẫn của TS.
Nguyễn Toàn Thắng. Các chƣơng trình thực nghiệm do chính bản thân tơi lập
trình, các kết quả là hồn tồn trung thực. Các tài liệu tham khảo đƣợc trích
dẫn và chú thích đầy đủ.
TÁC GIẢ LUẬN VĂN

Nguyễn Khánh Tùng

Số hóa bởi Trung tâm Học liệu – ĐHTN




LUAN VAN CHAT LUONG download : add


iv

LỜI CẢM ƠN
Để hồn thành luận văn này tơi đƣợc rất nhiều sự động viên giúp đỡ
của các cá nhân tập thể.
Trƣớc hết, cho tơi xin đƣợc bày tỏ lịng biết ơn sâu sắc nhất đến TS
Nguyễn Toàn Thắng đã hƣớng dẫn tôi thực hiện đề tài nghiên cứu của mình.
Xin cùng bày tỏ lịng biết ơn chân thành tới các thầy, cô giáo ngƣời đã
đem lại cho tôi những kiến thức vơ cùng q giá, có ích trong những năm học
vừa qua.
Cảm ơn Trung tâm HN&GDTX Thị xã Đông Triều đã hết sức tạo điều
kiện cho tôi trong suốt quá trình học tập.
Cùng xin gửi lời cảm ơn chân thành tới Ban giám hiệu, Phòng Đào tạo,
Khoa sau đại học, Đại học Công nghệ thông tin và Truyền thông Thái Ngun
đã tạo điều kiện cho tơi trong q trình học tập và nghiên cứu.
Cuối cùng tôi xin gửi lời cảm ơn đến gia đình, bạn bè đồng nghiệp, tập thể
lớp Khoa học máy tính K13 C Quảng Ninh, những ngƣời đã ln bên tơi, động
viên và khuyến khích tơi trong quá trình thực hiện đề tài nghiên cứu của mình.
HỌC VIÊN

Nguyễn Khánh Tùng

Số hóa bởi Trung tâm Học liệu – ĐHTN




LUAN VAN CHAT LUONG download : add


v

MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ i
LỜI CẢM ƠN ............................................................................................................ iv
MỤC LỤC ................................................................................................................... v
DANH MỤC CÁC BẢNG........................................................................................vii
DANH MỤC CÁC HÌNH ....................................................................................... viii
MỞ ĐẦU ..................................................................................................................... 1
CHƢƠNG 1. TỔNG QUAN ....................................................................................... 5
1.1. Khảo sát một số cơng trình đã đƣợc cơng bố về nhận diện bàn tay ................ 5
1.2.Trích chọn đặc trƣng ....................................................................................... 10
1.2.1. Đặt vấn đề ............................................................................................... 10
1.2.2. Đặc trƣng màu sắc .................................................................................. 11
1.2.3. Đặc trƣng kết cấu .................................................................................... 12
1.2.4. Đặc trƣng hình dạng ............................................................................... 13
1.2.5. Đặc trƣng cục bộ bất biến ....................................................................... 14
1.3. Phân lớp dữ liệu và mạng neuron .................................................................. 18
1.3.1. Phân lớp dữ liệu ...................................................................................... 18
1.3.2. Các vấn đề liên quan đến phân lớp dữ liệu............................................. 21
1.3.3. Mạng neuron ........................................................................................... 22
CHƢƠNG 2. TRÌNH BÀY SỬ DỤNG MƠ HÌNH TÚI TỪ ĐỂ XÂY DỰNG BỘ 29
MÔ TẢ CHO VẬT THỂ VÀ THUẬT TOÁN NHẬN DIỆN VẬT THỂ VỚI
MẠNG NEURON ..................................................................................................... 29
2.1. Mơ hình túi từ trong phân lớp văn bản .......................................................... 29
2.2. Ý tƣởng và Thuật toán .................................................................................. 31

2.3. Diễn giải chi tiết thuật tốn ........................................................................... 35
2.3.1. Trích chọn và mô tả đặc trƣng với SURF .............................................. 35
2.3.2. Phân cụm đặc trƣng SURF và sinh từ điển ............................................ 37
2.3.3.Tạo loại mô tả vật thể mới dựa trên SURF và từ điển để dùng cho mạng
neuron ........................................................................................................................ 40
Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


vi

2.3.4. Huấn luyện và phân lớp với mạng neuron ............................................. 42
CHƢƠNG 3. XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM ............................. 44
3.1. Các lớp xây dựng chƣơng trình ..................................................................... 44
3.2. Chƣơng trình «Hand Recognitor» ................................................................. 49
CHƢƠNG 4. THỬ NGHIỆM THUẬT TOÁN VÀ PHÂN TÍCH KẾT QUẢ ......... 60
4.1. Thử nghiệm với các bộ dữ liệu tự tạo ............................................................ 60
4.1.1. Giai đoạn sinh từ điển và huấn luyện ..................................................... 60
4.1.2. Test với bộ dữ liệu chứa các ảnh với nền đơn giản ở nhiều góc nghiêng
và khoảng cách khác nhau ................................................................................ 63
4.1.3. Test với bộ dữ liệu chứa các ảnh có nhiễu ............................................. 67
4.1.4. Test với bộ dữ liệu chứa ảnh bị nhiễu nặng ........................................... 69
4.1.5. Kết luận................................................................................................... 70
4.2. Thử nghiệm với một số bộ dữ liệu mở .......................................................... 71
4.2.1. Thử nghiệm với bộ dữ liệu của Sebastien Marcel .................................. 71
4.2.2. Test với bộ dữ liệu của Đại học Cambridge ........................................... 73
KẾT LUẬN ............................................................................................................... 76

TÀI LIỆU THAM KHẢO ......................................................................................... 77

Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


vii

DANH MỤC CÁC BẢNG
Số bảng

Tên bảng

Trang

Bảng 3.1 Mô tả các lớp để xây dựng mạng neuron ........................................ 45
Bảng 3.2 Mô tả các lớp của module SURF..................................................... 46
Bảng 3.3 Mô tả một số lớp thuộc module sinh từ điển ................................... 47
Bảng 4.1. Một số kết quả phân tích số lƣợng đặc trƣng với các giá trị khác
nhau của ngƣỡng Hessian. .............................................................................. 62
Bảng4.2. Kết quả test với các bộ dữ liệu hình có kích thƣớc khác nhau ........ 65
Bảng 4.3. Kết quả test với bộ dữ liệu ảnh có nhiễu nhẹ ................................. 68
Bảng 4.4. Kết quả test với bộ dữ liệu có nhiễu ............................................... 70
Bảng 4.5. Kết quả test với bộ dữ liệu Sebastien Marcel ................................. 72
Bảng 4.6. Kết quả thử nghiệm của mơ hình CGM.......................................... 73
Bảng. 4.7. Kết quả thử nghiệm với bộ dữ liệu của Đại học Cambridge ......... 75


Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


viii

DANH MỤC CÁC HÌNH
Số hình

Tên hình

Trang

Hình 1.1 Găng tay có gắn thiết bị trong HCI .................................................... 6
Hình 1.2. Mơ hình bàn tay với 27 DOF do Tomasi xây dựng và nguyên tắc
hoạt động của các phƣơng pháp dựa trên mô hình 3D ..................................... 7
Hình 1.3. Nhận diện bàn tay dựa trên đƣờng biên ............................................ 8
Hình 1.4. Đặc trƣng Haar và AdaBoost ............................................................ 9
Hình 1.5 Biểu đồ mơ phỏng việc tính toán các DoG ảnh từ các ảnh kê mờ ... 16
Hình 1.6 Quá trình lựa chọn các điểm hấp dẫn ............................................... 17
Hình 1.7 Biểu diễn vector đặc trƣng ............................................................... 18
Hình 1.8.cấu trúc cơ bản của một neuron ....................................................... 23
Hình 1.9 Mơ hình neuron của Mc. Culloch và Pitts ....................................... 24
Hình 1.10. Mạng truyền thẳng ba lớp ............................................................. 25
Hình 2.1. Mơ tả ý tƣởng của thuật toán nhận diện vật thể trình bày dựa trên
mơ hình túi từ .................................................................................................. 32
Hình 2.2. Sơ đồ tổng quát của thuật toán nhận diện vật thể trình bày ............ 33

Hình 2.3. Đặc trƣng đƣợc trích chọn bằng SURF........................................... 37
Hình 2.4.Mơ tả trực quan q trình phân cụm và sinh từ điển ....................... 39
Hình 2.5. Vật thể và mơ tả BOW tƣơng ứng .................................................. 41
Hình 2.6.Mạng neuron nhiều lớp .................................................................... 42
Hình 3.1 Các lớp để xây dựng mạng neuron .................................................. 45
Hình 3.2 Mơ tả các lớp của module SURF ..................................................... 46
Hình 3.3 Các lớp thuộc module sinh từ điển .................................................. 48
Hình 3.4 Giao diện chính của chƣơng trình Hand Recognitor ....................... 49
Hình 3.5. Giao diện module tạo dữ liệu và test thuật tốn.............................. 50
Hình 3.6. Tab «Real-time» để tạo bộ dữ liệu .................................................. 51
Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


ix

Hình 3.7. Ví dụ về các ảnh thu đƣợc thuộc 4 lớp «Fist», «OK», «Palm»,
«Point» ............................................................................................................ 52
Hình 3.8. Giao diện module tạo dữ liệu và test thuật tốn.............................. 53
Hình 3.9. Ứng dụng «BOW params» để lựa chọn tham số ............................ 54
Hình 3.10 Kết quả phân tích bộ ảnh thuộc 4 lớp ............................................ 55
Hình 3.11 Giao diện để tạo và huấn luyện mạng neuron. ............................... 56
Hình 3.12 Tự động test độ chính xác của thuật tốn ...................................... 58
Hình 3.13 Kiểm tra hoạt động của thuật tốn ................................................. 59
Hình 3.14 Thử nghiệm nhận diện trong thời gian thực................................... 59
Hình 4.1. Các lớp vật thể trong các bộ dữ liệu ............................................... 60
Hình 4.2. Một phần bộ dữ liệu dùng để sinh từ điển ...................................... 61

Hình 4.3. Bộ dữ liệu huấn luyện. .................................................................... 63
Hình 4.4. Một số hình trong bộ dữ liệu test .................................................... 64
Hình 4.5. Một phần bộ dữ liệu test với nhiễu nhẹ .......................................... 68
Hình 4.6. Một phần bộ dữ liệu thử nghiệm ..................................................... 69
Hình 4.7 Các lớp trong bộ dữ liê ̣u Sebastien Marcel ...................................... 71
Hình 4.8. Một số hình thuộc lớp A chia làm hai nhóm: nhóm “đơn giản”
(hàng trên), nhóm “phức tạp” (hàng dƣới) ...................................................... 72
Hình 4.9. Một phần dữ liệu của Đại học Cambridge ..................................... 74

Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


1

MỞ ĐẦU
Ngày nay dƣới sự phát triển rộng rãi của các ứng dụng công nghệ thông
tin vào trong cuộc sống, việc tƣơng tác giữa con ngƣời và thiết bị ngày càng
trở nên quan trọng. Trƣớc đây, bàn phím và chuột là các giao diện chính để
giao tiếp giữa ngƣời và máy tính. Trong các lĩnh vực khác cần tới các thơng
tin 3D, chẳng hạn nhƣ trị chơi máy tính, robot và lĩnh vực thiết kế… các thiết
bị cơ khí khác nhƣ bóng lăn, cần điều khiển hay các găng tay dữ liệu đã đƣợc
sử dụng. Tuy nhiên, con ngƣời giao tiếp chủ yếu bởi “nghe” và “nhìn”, do đó
một giao diện ngƣời – máy sẽ trực quan hơn nếu con ngƣời có thể điều khiển
máy tính bằng giọng nói hay cử chỉ giống nhƣ khi tƣơng tác giữa ngƣời với
ngƣời trong thế giới thực mà không cần thông qua các thiết bị điều khiển khác
nhƣ chuột hay bàn phím. Một ƣu điểm khác là ngƣời dùng có thể giao tiếp từ

xa mà khơng cần phải có tiếp xúc vật lý với máy tính. So với các hệ thống
điều khiển bằng lệnh âm thanh, một hệ thống thị giác sẽ thích hợp hơn trong
môi trƣờng ồn ào hoặc trong trƣờng hợp âm thanh bị nhiễu.
Nhận dạng các cử động của tay ngƣời là cách tự nhiên khi tƣơng tác
ngƣời – máy và ngày nay nhiều nhà nghiên cứu trong các học viện và ngành
công nghiệp đang quan tâm đến hƣớng này. Nó cho phép con ngƣời tƣơng tác
với máy rất dễ dàng và thuận tiện mà không cần phải mang thêm bất kỳ thiết
bị ngoại vi nào. Với mục đích nghiên cứu kỹ thuật nhận dạng cử chỉ bàn tay
ngƣời, luận văn sẽ tập trung trình bày một số nội dung chính nhƣ sau:
1. GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI
Tƣơng tác ngƣời - máy (Human - Computer Interaction, HCI) là một
lĩnh vực thu hút nhiều nghiên cứu và đã đạt đƣợc nhiều kết quả ấn tƣợng
trong thời gian gần đây. Một trong những bài toán quan trọng của lĩnh vực
này là cung cấp khả năng điều khiển máy tính (hoặc thiết bị) từ xa thông qua
camera kết nối với máy. Bài toán này thƣờng bao gồm các bƣớc: phát hiện đối
Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


2

tƣợng trong thị trƣờng của camera (ví dụ, tay, mặt, cơ thể ngƣời điều khiển
hoặc một thiết bị đặc biệt nào đó dùng để điều khiển); theo dõi chuyển động
của đối tƣợng; nhận diện hình dạng và cách thức chuyển động của đối tƣợng.
Kết quả nhận diện đƣợc sử dụng để tạo ra các lệnh tƣơng ứng cho máy tính.
Mục đích của đề tài là xây dựng một phƣơng pháp nhận diện mẫu trong
các frame thu trực tiếp từ camera theo thời gian thực để giải quyết bƣớc thứ

ba trong bài tốn điều khiển máy tính từ xa nêu trên. Phƣơng pháp nhận diện
này sử dụng mơ hình túi từ (bag-of-features, bag-of-words) kết hợp với
phƣơng pháp phân lớp bằng mạng neural. Trong đó, mơ hình túi từ đƣợc sử
dụng để tạo ra các vector đặc trƣng làm dữ liệu đầu vào cho mạng neural.
Phƣơng pháp nhận diện này cần đảm bảo đƣợc tốc độ xử lý cao (để có thể
thực hiện trong thời gian thực với dữ liệu thu trực tiếp từ một camera), và có
tính bền vững với một số dạng biến đổi của đối tƣợng (xoay hình, thay đổi
kích thƣớc và vị trí trong frame). Đối tƣợng nhận diện chính của đề tài là cử
chỉ tay ngƣời và một số đồ vật đơn giản.
2. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU
a. Lý thuyết
- Nghiên cứu mơ hình túi từ;
- Nghiên cứu một số phƣơng pháp trích chọn đặc trƣng trong ảnh số;
- Nghiên cứu một số phƣơng pháp phân cụm dữ liệu đơn giản;
- Nghiên cứu mạng neural nhiều lớp.
b. Thực nghiệm
- Xây dựng chƣơng trình thử nghiệm;
- Thực hiện huấn luyện và test trên một số loại lớp đối tƣợng (ví dụ,
các dạng của tay ngƣời, một số loại đồ vật đơn giản);
- Thực hiện huấn luyện và test trên một số kho dữ liệu cử chỉ (ví dụ,
kho dữ liệu của trƣờng Đại học Cambridge);
Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


3


- Phân tích, đánh giá kết quả thu đƣợc; so sánh kết quả thu đƣợc với kết
quả của một số phƣơng pháp nhận diện đã đƣợc công bố.
3. HƢỚNG NGHIÊN CỨU CỦA ĐỀ TÀI
- Nghiên cứu một số phƣơng pháp nhận diện mẫu đã đƣợc cơng bố ở
trong và ngồi nƣớc (từ nguồn học liệu tại trung tâm học liệu Đại học Thái
Nguyên, trƣờng Đại học CNTT&TT, các tạp chí online).
- Nghiên cứu mơ hình túi từ và cách áp dụng phƣơng pháp này trong xử
lý ảnh để tạo ra vector đặc trƣng làm dữ liệu đầu vào cho mạng neural.
- Nghiên cứu và so sánh một số phƣơng pháp trích chọn đặc trƣng
trong ảnh số (SURF, SIFT) để lựa chọn phƣơng pháp phù hợp với mơ hình túi
từ và đáp ứng đƣợc yêu câu đặt ra của đề tài. (tốc độ xử lý, tính bền vững với
một số dạng biến đổi của đối tƣợng trong ảnh).
- Nghiên cứu cách sử dụng mạng neural nhân tạo trong phân lớp dữ
liệu, trong đó, dữ liệu đầu vào cho mạng neural đƣợc tạo ra bằng cách áp
dụng mơ hình túi từ.
- Xây dựng dữ liệu để huấn luyện và test; phân tích và đánh giá kết quả
thu đƣợc; so sánh kết quả test trên các kho dữ liệu cử chỉ khác nhau; so sánh
kết quả thu đƣợc bằng phƣơng pháp trình bày với các phƣơng pháp khác đã
đƣợc công bố.
4. NỘI DUNG NGHIÊN CỨU
Chƣơng 1. Tổng quan
Phần này trình bày các kiến thức cơ bản về nhận diện mẫu, các bài toán
trong nhận diện mẫu, một số phƣơng pháp nhận diện mẫu đã đƣợc cơng bố.
Chƣơng 2. Trình bày sử dụng mơ hình túi từ để xây dựng bộ mơ tả
cho vật thể và thuật toán nhận diện vật thể với mạng Neuron.

Số hóa bởi Trung tâm Học liệu – ĐHTN




LUAN VAN CHAT LUONG download : add


4

Phần này trình bày chi tiết về mơ hình túi từ, cách ứng dụng mơ hình
này trong bài tốn nhận diện mẫu, lựa chọn thuật tốn trích chọn đặc trƣng và
phân cụm dữ liệu phù hợp, cách xây dựng vector đăc trƣng với mơ hình túi từ.
Chƣơng 3. Xây dựng chƣơng trình thử nghiệm
Chƣơng 4. Thử nghiệm và đánh giá kết quả
Phần này trình bày chi tiết về chƣơng trình thử nghiệm, áp dụng
chƣơng trình cho các kho dữ liệu ảnh, phân tích – đánh giá – so sánh kết quả.
5. PHƢƠNG PHÁP NGHIÊN CỨU
- Phương pháp nghiên cứu lý thuyết: Tìm hiểu các tài liệu liên quan tới
các phƣơng pháp nhận diện mẫu trong ảnh số, mơ hình túi từ, các phƣơng
pháp trích chọn và biểu diễn đặc trƣng, một số thuật toán phân cụm dữ liệu
đơn giản, mạng neural nhân tạo.
- Phương pháp nghiên cứu thực nghiệm: Xây dựng một số kho dữ liệu
ảnh; xây dựng chƣơng trình thử nghiệm; huấn luyện và test thuật toán trên các
kho dữ liệu để lấy dữ liệu đánh giá độ chính xác và tốc độ xử lý của thuật toán.
- Phương pháp trao đổi khoa học: Trao đổi hƣớng nghiên cứu với
ngƣời hƣớng dẫn và trình bày Seminar với các đồng nghiệp để trình bày và
giải quyết các nội dung luận văn đề ra.
6. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI
Ý nghĩa khoa học của đề tài là trình bày một thuật tốn xây dựng vector
đặc trƣng cho đối tƣợng trên ảnh số. Thuật toán đảm bảo tốc độ xử lý trong
thời gian thực với dữ liệu thu trực tiếp từ camera. Vector đặc trƣng đảm bảo
đƣợc tính bền vững khi đối tƣợng chịu một số biến đổi.

Số hóa bởi Trung tâm Học liệu – ĐHTN




LUAN VAN CHAT LUONG download : add


5

CHƢƠNG 1. TỔNG QUAN
1.1. Khảo sát một số cơng trình đã đƣợc công bố về nhận diện bàn tay
Cử chỉ tay là phƣơng thức giao tiếp tự nhiên và trực quan trong tƣơng
tác ngƣời – máy (Human – Computer Interaction). Để thực hiện loại tƣơng tác
này ngƣời ta cần phát triển các phƣơng pháp và công cụ gọi là giao diện
người máy (Human – Computer Interface – HCI), cho phép máy tính nhận
diện cử chỉ tay trong thời gian thực. Tuy nhiên, việc theo dõi chuyển động của
tay dựa vào thị giác máy và nhận diện cử chỉ là một vấn đề khó giải quyết do
các cử chỉ tay ngƣời rất phức tạp. Sự phức tạp này là do sự đa dạng của cử chỉ
tạo ra bởi một số lƣợng lớn các bậc tự do (Degree of Freedom – DoF, thu
đƣợc trong q trình mơ hình hóa bàn tay ngƣời).
Để thực hiện tốt vai trị của mình, các HCI dựa trên cử chỉ tay phải đáp
ứng các yêu cầu về hiệu suất trong thời gian thực, độ chính xác cao trong
nhận diện, mức độ ổn định trƣớc các loại biến đổi khác nhau (ví dụ: thay đổi
hƣớng và cƣờng độ chiếu sáng, thay đổi về góc nghiêng của đối tƣợng,
v.v…), và khả năng hoạt động với các phông nền (khung cảnh phía sau ngƣời
thực hiện cử chỉ) đa dạng.
Để đáp ứng các yêu cầu này, nhiều hệ thống nhận dạng cử chỉ đã sử
dụng những thiết bị đánh dấu bằng màu sắc hoặc găng tay (găng tay gắn cảm
biến) để đơn giản hóa việc thu nhận và xử lý thơng tin từ cử chỉ tay [5]. Tuy
nhiên, việc sử dụng các thiết bị đánh dấu hoặc găng tay gây phiền phức cho
ngƣời sử dụng, đồng thời làm giảm tính tự nhiên trong tƣơng tác với máy tính.


Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


6

Hình 1.1. Găng tay có gắn thiết bị trong HCI
Luận văn này chỉ tập trung vào việc nhận diện một phần cử chỉ tay,
trƣớc hết là hình dạng của bàn tay, thu từ camera trong thời gian thực và
khơng có sự hỗ trợ của các thiết bị đánh dấu khác hoặc găng tay.
Có hai nhóm phƣơng pháp chính đối với bài toán nhận dạng cử chỉ tay
dựa trên thị giác: các phƣơng pháp dựa trên mơ hình ba chiều của tay (3D
hand model); các phƣơng pháp dựa vào hình dạng bên ngồi của tay [15].
Các phƣơng pháp dựa trên mơ hình 3D sử dụng mơ hình động học ba
chiều của tay với một số lƣợng tƣơng đối lƣớng các bậc tự do [9], [6]–[11].
Các phƣơng pháp này tính ra các tham số của tay bằng cách so sánh hình ảnh
bàn tay trên các frame với hình chiếu của mơ hình 3D trên mặt phẳng. Các
phƣơng pháp này phù hợp với tƣơng tác trong môi trƣờng ảo, cho phép thu
đƣợc nhiều tham số của cử chỉ tay, đồng thời cho phép nhận diện một số
lƣợng lớn các lớp cử chỉ tay. Tuy nhiên, do các mơ hình 3-D của bàn tay là
những vật thể biến dạng có khớp nối với nhiều bậc tự do (mơ hình 3D tiêu
chuẩn có 27 DOF), để mơ tả hình dạng của tay dƣới các góc nhìn khác nhau
cần một cơ sở dữ liệu rất lớn. Nhƣợc điểm khác của các phƣơng pháp này là
sự khó khăn trong trích trọn đặc trƣng và khơng có khả năng xử lý những tình
huống đặc biệt (phát sinh từ các góc nhìn khơng rõ ràng).


Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


7

Thu nhận hình
qua camera

Xử lý ảnh

Bàn tay

Phát hiện / Nhận
diện

Điều chỉnh tham số

Chiếu hình
Mơ hình
bàn tay

Hình 1.2. Mơ hình bàn tay với 27 DOF do Tomasi xây dựng và nguyên tắc
hoạt động của các phương pháp dựa trên mơ hình 3D
Các phƣơng pháp dựa trên hình dạng (appearance-based) thực hiện
trích trọn đặc trƣng để mơ hình hóa hình dạng bên ngồi của bàn tay. Khi
nhận diện, các đặc trƣng trích ra sẽ đƣợc so sánh với các đặc trƣng của các

lớp đã biết. Các phƣơng pháp dựa trên hình dạng thƣờng có tốc độ xử lý cao
(hoạt động trong thời gian thực) do việc xử lý hình 2D thƣờng đơn giản hơn.
Các phƣơng pháp thuộc nhóm này thƣờng xử dụng các đặc trƣng nhƣ màu
sắc, đƣờng biên, các điểm hoặc các vùng đặc biệt.
Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


8

Trong [10] sử dụng một phƣơng pháp nhận diện đơn giản bằng cách
tìm kiếm những vùng màu da trong hình ảnh. Tuy nhiên, phƣơng pháp này có
một số yếu điểm: rất nhạy cảm với điều kiện ánh sáng; không cho phép có các
đối tƣợng giống màu da trong hình ảnh. Trong [3] sử dụng các đặc trƣng màu
sắc theo thang đo (scale-space color features) để nhận diện cử chỉ tay. Tuy
nhiên, hệ thống này chỉ hoạt động đƣợc trong thời gian thực khi trong hình
khơng có đối tƣợng khác trùng màu da.
Các tác giả trong [1] sử dụng đƣờng biên của tay để nhận diện bằng
cách tính tốn độ cong tại mỗi điểm trên đƣờng biên. Phƣơng pháp tách biên
này thƣờng khó sử dụng nếu có yếu tố gây nhiễu, khi điều kiện chiếu sáng
thay đổi, hoặc khi sử dụng trên phơng nền phức tạp.

Hình 1.3. Nhận diện bàn tay dựa trên đường biên
Gần đây có một số nghiên cứu về các đặc trƣng bất biến cục bộ (local
invariant features) [13]–[4]. Trong [13], thuật toán Adaboost và đặc trƣng
SIFT đƣợc sử dụng để phát hiện bàn tay. Phƣơng pháp này cho phép pháp
hiện bàn tay kể cả trong trƣờng hợp bàn tay xoay trên một mặt phẳng. Phƣơng

pháp này cũng đƣa ra khái niệm sharing feature để tăng tốc độ hoạt động và
độ chính xác (lên tới 97,8%). Để đạt đƣợc tốc độ nhận diện trong thời gian
thực, phƣơng pháp này sử dụng thêm một số loại đặc trƣng khác (vd, contrast
context histogram). Trong [2], [4], đặc trƣng Haar đƣợc sử dụng dụng để phát
hiện bàn tay. Đặc trƣng Haar tập trung vào các thông tin trong một vùng nhất
định của hình ảnh thay vì từng pixel riêng rẽ. Để nâng cao độ chính xác khi
phân loại và có đƣợc hiệu suất thời gian thực, phƣơng pháp này sử dụng
Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


9

Adaboost (ghép các classifier đơn giản theo mơ hình thác nƣớc để tạo thành
một classifier mạnh).
Nghiên cứu mà Viola và Jones đề xuất [12] cho bài toán phát hiện vật
thể trong thời gian thực cho phép phát hiện bàn tay trên bất kỳ phơng nền nào
với độ chính xác rất cao [14]. Phƣơng pháp này phát hiện vật thể nhanh và
chính xác nhƣng cần thời gian huấn luyện rất dài và một số lƣợng hình mẫu
rất lớn. Ngồi ra, phƣơng pháp phát hiện vật thể của Viola-Jones chỉ có thể
đƣợc thực hiện với bàn tay nghiêng từ 15 tới 30 độ [7].

Xử lý bổ sung
Cửa sổ con
Cấu trúc thác nƣớc
Classifier
№1


Classifier
№2

Classifier
№3

Classifier
№n

Cửa sổ con bị loại bỏ

Hình 1.4. Đặc trưng Haar và AdaBoost

Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


10

1.2.Trích chọn đặc trƣng
1.2.1. Đặt vấn đề
Trong tìm kiếm ảnh theo nội dung, việc lựa chọn các đặc trƣng thích
hợp với từng loại truy vấn và miền ứng dụng cùng với các độ đo tƣơng đồng
tƣong ứng là thành phần quan trọng và then chốt nhất. Việc lựa chọn các đặc
trƣng và độ đo thích hợp sẽ giúp tăng cả tốc độ và mức độ chính xác lựa chọn
đặc trƣng cho ảnh:

- Thành phần lựa chọn đặc trƣng phải lựa chọn đƣợc một tập các đặc
trƣng cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh. Nếu số lƣợng các
đặc trƣng quá nhiều sẽ làm "che khuất" các "tín hiệu" (giảm các "tín hiệu" đối
với tỉ lệ nhiễu), mặt khác, nếu số lƣợng các đặc trƣng quá ít sẽ khó phân biệt
đƣợc ảnh trong tìm kiếm.
- Nó phải giảm bớt đƣợc độ phức tạp trong lúc tính tốn tổng thể bằng
giảm đa chiều của bài toán phân lớp.
- Khi ngƣời dùng muốn sử dụng các đặc trƣng đó cho mọi truy vấn,
thì việc sử dụng các đặc trƣng này phải hiệu quả. Vì số lƣợng các đặc trƣng
có thể là hàng ngàn, dó đó thời gian xử lý của module phải tuyến tính với số
lƣợng đặc trƣng.
- Vì thời gian xử lý của thành phần lựa chọn đặc trƣng tuyến tính với số
lƣợng đặc trƣng, do đó việc lựa chọn các đặc trƣng cũng nên tuyến tính dựa
trên phân lớp.
Trong phần này, chúng tơi sẽ trình bày sơ bộ về các vấn đề về đặc
trƣng của ảnh (màu sắc, kết cấu, hình dạng, đặc trƣng cục bộ SIFT), một số
độ đo tƣơng đồng tƣơng ứng với các đặc trƣng và phƣơng pháp lựa chọn đặc
trƣng ảnh để tăng chất lƣợng tập đặc trƣng.

Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


11

1.2.2. Đặc trưng màu sắc
a. Đặc trƣng màu sắc

Tìm kiếm ảnh theo lƣợc đồ màu là phƣơng pháp phổ biến và đƣợc sử
dụng nhiều nhất trong các hệ thống tìm kiếm ảnh theo nội dung. Đây là phƣơng
pháp đơn giản, tốc độ tìm kiếm tƣơng đối nhanh tuy nhiên kết quả tìm kiếm có
độ chính xác khơng cao. Đây có thể xem là bƣớc lọc đầu tiên cho những bƣớc
tìm kiếm sau. Một số lƣợc đồ màu đƣợc sử dụng nhƣ: lƣợc đồ màu RGB, lƣợc
đồ màu HSI, lƣợc đồ HSI cải tiến.
Trong đó, lƣợc đồ màu RGB đƣợc sử dụng phổ biến nhất.
* Lƣợc đồ màu RGB:
Đối với ảnh 256 màu, lƣợc đồ màu của ảnh tƣơng đƣơng với lƣợc đồ màu
của ảnh xám. Đối với ảnh 24 bit màu, lƣợc đồ miêu tả khả năng kết nối về
cƣờng độ của ba kênh màu R, G, B. Luợc đồ màu này đƣợc định nghĩa nhƣ sau:
h R,G, r, g, b  robR  x, G  g,   b

(1.1)

Trong đó N là số lƣợng điểm có trong ảnh.
Lƣợc đồ màu này đƣợc tính bằng cách rời rạc hóa từng màu trong ảnh,
sau đó đếm số điểm ảnh của mỗi màu. Khi mà số lƣợng màu là có hạng, để
thuận tiện hơn, ngƣời ta thƣờng chuyển đổi ba kênh màu thành một biến giá
trị duy nhất. Một cách khác để tính lƣợc đồ màu của ảnh RGB là ta phân ra
làm 3 lƣợt đồ riêng biệt hR[] , hG[] , hB[]. Khi đó, mỗi lƣợc đồ đƣợc tính bằng
cách đếm kênh màu tƣơng ứng trong mỗi điểm ảnh.
b. Độ đo tƣơng đồng về màu sắc
Một số độ đo tƣơng đồng đƣợc sử dụng nhƣ: Độ đo khoảng cách
Euclide, độ đo Jensen-Shannon divergence (JSD).
Gọi h(I) và h(M) tƣơng ứng là 2 lƣợt đồ màu của hai ảnh I và ảnh M.
Khi đó các loại độ đo màu đƣợc định nghĩa là một số nguyên (hoặc số thực)
theo các loại độ đo tƣơng ứng nhƣ sau:
Số hóa bởi Trung tâm Học liệu – ĐHTN




LUAN VAN CHAT LUONG download : add


12

* Khoảng cách Euclide:
Đây là khoảng cách Euclide thông thƣờng giữa các K bin:
k

Inter sec tion  h    , h       h     h     
 j 1


(1.2)

Hoặc:
k

Inter sec tion  h    , h       h     h   

(1.3)

j 1

* Độ đo Jensen-Shannon divergence (JSD) :
Độ đo Jensen-Shannon divergence sử dụng lƣợc độ màu RGB để tính
tốn độ tƣơng đồng về màu sắc giữa 2 ảnh :



d JSD  ,      m log
m 1

2 m
2m
 m log
 m  m
m   m

(1.4)

Trong đó : H và H' là 2 biểu đồ màu đƣợc so sánh, Hm là bin thứ m của
biểu đồ H.
1.2.3. Đặc trưng kết cấu
a. Đặc trƣng kết cấu
Hiện tại, vẫn chƣa có một định nghĩa chính thức cụ thể về kết cấu. Kết
cấu là một đối tƣợng dùng để phân hoạch ảnh ra thành những vùng quan tâm
để phân lớp những vùng đó.
Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của màu sắc
và cƣờng độ một ảnh. Kết cấu đƣợc đặc trƣng bởi sự phân bổ không gian của
những mức cƣờng độ trong một khu vực láng giềng với nhau. Kết cấu gồm các
kết cấu gốc hay nhiều kết cấu gộp lại đôi khi gọi là texel.
Một số phƣơng pháp dùng để trích xuất các đặc trƣng kết cấu nhƣ[18]:
* Kim tự tháp "có thể lái đƣợc" (the steerable pyramid)
* Biến đổi đƣờng viền (the cotourlet transform)
* Biến đổi Gabor (The Gabor Wavelet transform)
Số hóa bởi Trung tâm Học liệu – ĐHTN




LUAN VAN CHAT LUONG download : add


13

* Biểu diễn ma trận đồng hiện (co-occurrence matrix)
* Hệ thống bộ lọc định hƣớng phức tạp (The complex directional
fillter bank)
b. Độ đo tƣơng đồng cho kết cấu ảnh
Để đo độ tƣơng đồng theo kết cấu giữa các ảnh, ngƣời ta thƣờng sử
dụng độ đo Euclide. Kết cấu đƣợc trích xuất từ các bức ảnh sẽ đƣợc biểu diễn
thành các vector nhiều chiều và khoảng cách Euclide đƣợc dùng để đo độ
tƣơng đồng giữa các đặc trƣng của ảnh truy vấn với đặc trƣng của ảnh trong
cơ sở dữ liệu.
1.2.4. Đặc trưng hình dạng
a. Đặc trƣng hình dạng
Màu sắc và kết cấu là những thuộc tính có khái niệm tồn cục trong
một ảnh. Trong khi đó, hình dạng khơng phải là một thuộc tính của ảnh. Nói
tới hình dạng khơng phải là nhắc đến hình dạng của một ảnh. Thay vì vậy,
hình dạng có khuynh hƣớng chỉ đến một khu vực đặc biệt trong ảnh, hay hình
dạng chỉ là biên của một đối tƣợng nào đó trong ảnh.
Trong tìm kiếm ảnh theo nội dung, hình dạng là một cấp cao hơn so với
màu sắc và kết cấu. Nó địi hỏi sự phân biệt giữa các vùng để tiến hành xử lý
về độ đo của hình dạng. Các hệ thống tìm kiếm ảnh theo nội dung thƣờng khai
thác hai nhóm biểu diễn hình dạng sau :
* Biểu diễn hình dạng theo đƣờng biên (cotour-based descriptor) : Biểu
diễn các đƣờng biên bao bên ngoài
* Biểu diễn theo vùng (region-based descriptor): Biểu diễn một vùng
tồn vẹn

b. Độ đo tƣơng đồng cho hình dạng
Độ đo về hình dạng rất nhiều trong phạm vi lý thuyết của bộ môn xử lý
ảnh. Chúng trải rộng từ những độ đo tồn cục dạng thơ với sự trợ giúp của
Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


14

việc nhận dạng đối tƣợng, cho tới những độ đo chi tiết tự động tìm kiếm
những hình dạng đặc biệt. Lƣợc đồ hình dạng là một ví dụ của độ đo đơn giản.
Kỹ thuật dùng đƣờng biên hiệu quả hơn phƣơng pháp trƣớc, chúng tìm kiếm
những hình dạng đối tƣợng gần giống với đƣờng biên nhất. Phƣơng pháp vẽ
phác họa là phƣơng pháp có nhiều đặc trƣng rõ ràng hơn, khơng chỉ tìm kiếm
những đƣờng biên đối tƣợng đơn, mà còn đối với tập những đối tƣợng đã đƣợc
phân đoạn trong một ảnh mà ngƣời dùng vẽ hay cung cấp.
1.2.5. Đặc trưng cục bộ bất biến
Ngƣời ta thƣờng chia đặc trƣng cụ bộ thành 2 loại là những điểm trích
xuất đƣợc từ điểm "nhô ra" (salient points) của ảnh và đặc trƣng SIFT đƣợc
trích chọn từ các điểm hấp dẫn Haris (interest points). Trong phần này, chúng
tơi sẽ trình bày chi tiết về việc trích chọn các đặc trƣng cục bộ bất biến (Scale
Invariant Feature Transform SIFT) của ảnh.
a. Đặc trƣng cục bộ bất biến
Phần này trình bày phƣơng pháp trích rút các đặc trƣng cục bộ bất biến
SIFT của ảnh. Các đặc trƣng này bất biến với việc thay đổi tỉ lệ ảnh, quay
ảnh, đôi khi là thay đổi điểm nhìn và thêm nhiễu ảnh hay thay đổi cƣờng độ
chiếu sáng của ảnh. Phƣơng pháp đƣợc lựa chọn có tên là Scale-Invariant

Feature Transform (SIFT) và đặc trƣng trích rút đựợc gọi là đặc trƣng SIFT
(SIFT Feature). Các đặc trƣng SIFT này đƣợc trích rút ra từ các điểm hấp dẫn
cục bộ (Local Interest Point) .
Điểm hấp dẫn (Interest Point (Keypoint)): Là vị trí (điểm ảnh) "hấp
dẫn" trên ảnh. "Hấp dẫn" ở đây có nghĩa là điểm đó có thể có các đặc trƣng
bất biến với việc quay ảnh, co giãn ảnh hay thay đổi cƣờng độ chiếu sáng
của ảnh.
Phƣơng pháp trích rút các đặc trƣng bất biến SIFT đƣợc tiếp cận theo
phƣơng pháp thác lọc, theo đó phƣơng pháp đƣợc thực hiện lần lƣợt theo các
Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


15

bƣớc sau:
* Phát hiện các điểm cực trị Scale-Space (Scale-Space extrema
detection):
Bƣớc đầu tiên này tiến hành tìm kiếm các điểm hấp dẫn trên tất cả các
tỉ lệ và vị trí của ảnh. Nó sử dụng hàm different-of-Gaussian để xác định tất
cả các điểm hấp dẫn tiềm năng mà bất biến với quy mô và hƣớng của ảnh.
* Định vị các điểm hấp dẫn (keypoint localization): Một hàm kiểm tra
sẽ đƣợc đƣa ra để quyết định xem các điểm hấp dẫn tiềm năng có đƣợc lựa
chọn hay khơng?
* Xác định hƣớng cho các điểm hấp dẫn (Orientation assignment):
Xác định hƣớng cho các điểm hấp dẫn đƣợc chọn
* Mô tả các điểm hấp dẫn (Keypoint descriptor): Các điểm hấp dẫn

sau khi đƣợc xác định hƣớng sẽ đƣợc mô tả dƣới dạng các vector đặc trƣng
nhiều chiều.
b. Phát hiện điểm cực trị Scale-space
Các điểm hấp dẫn với đặc trƣng SIFT tƣơng thích với các cực trị địa
phƣơng của bộ lọc difference -of-Gaussian (DoG) ở các tỉ lệ khác nhau.
Định nghĩa không gian tỉ lệ của một hình ảnh là hàm L(x,y,kσ ) đƣợc mô tả
nhƣ sau:
L  x, y,   G  x, y,k     x, y 

(1.5)

Với G(x, y, kσ ) : biến tỉ lệ Gaussian (variable scale Gaussian)
I (x, y) : Ảnh đầu vào
* là phép nhân chập giữa x và y

G  x, y ,   

1
2 2



 x2  y 2

e



2 2


Số hóa bởi Trung tâm Học liệu – ĐHTN

(1.6)


LUAN VAN CHAT LUONG download : add


16

Để phát hiện đƣợc các điểm hấp dẫn, ta đi tìm các cực trị của hàm DoG
đƣợc định nghĩa:
D  x, y,     G  x, y, k    G  x, y,      x, y 

(1.7)

D  x, y,   L  x, y, k    L  x, y, 

(1.8)

Giá trị hàm DoG đƣợc tính xấp xỉ dựa vào giá trị scale-normalized
Laplacian of Gaussian (σ 2 2G) thơng qua các phƣơng trình
G
  2G

G G  x, y , k   G  x, y ,  
 2G 


k  

G  x, y , k   G  x, y ,     k  1  2 2G

(1.9)

Nhƣ vậy, bƣớc đầu tiên của giải thuật SIFT phát hiện các điểm hấp dẫn
với bộ lọc Gaussian ở các tỉ lệ khác nhau và các ảnh GoG từ sự khác nhau của
các ảnh kề mờ.

Hình 1.5. Biểu đồ mơ phỏng việc tính tốn các DoG ảnh từ các ảnh kê mờ
Các ảnh cuộn đƣợc nhóm thành các octave (mỗi octave tƣơng ứng với
giá trị gấp đôi của σ). Giá trị của k đƣợc chọn sao cho số lƣợng ảnh mờ
(blured images) cho
Số hóa bởi Trung tâm Học liệu – ĐHTN



LUAN VAN CHAT LUONG download : add


×